Активность в соцсетях и анонимность несовместимы. Всё, что попадает в сеть — фото и видео, посты и перепосты, лайки и тексты — создаёт неповторимый образ пользователя. По оставленным цифровым следам заинтересованные лица определяют, кто их оставляет, чтобы сортировать юзеров по полу, возрасту, интересам (и показывать им таргетированную рекламу). А можно ли, опираясь на данные из опубликованных в Вконтакте и твиттере текстов, разделить людей на «двоечников» и «отличников»? Ведь успеваемость — сложная, многосоставная характеристика. Справятся ли с задачей существующие сейчас модели искусственного интеллекта?
Исследование, материалы которого опубликованы в EPJ Data Science, отвечает на этот вопрос.
Автор работы — заведующий Лабораторией вычислительных социальных наук Института образования НИУ ВШЭ Иван Смирнов. Он создал компьютерную модель, которая отличает отличников от двоечников по постам в социальных сетях. Следует заметить и запомнить, что слова прогноз и предсказание не совсем точны. В контексте исследования их следует понимать как идентификацию паттернов в данных (то есть корреляций между академической успеваемостью и текстом сообщений), а не прогнозирование будущего.
Анализируется только текстовая информация. Важна лексика (размеры словаря и семантические поля, из которых взяты понятия), используемые знаки и символы, длина слов и постов. Слова (вернее сказать, лексемы) получили рейтинг. Связанные с чтением, знанием иностранного языка, наукой лексемы — высокорейтинговые; с вредными привычками, развлечениями и суеверием — низкорейтинговые.
Слова «плохие» и «хорошие». Иллюстрация к англоязычной публикации в журнале.
Для анализа не нужны большие тексты. Да их и почти нет — в среднем пост Вконтакте, формально не ограниченный по объёму, не длиннее поста в твиттере. Важно количество постов — хоть какие-то прогнозы можно делать на основании двадцати сообщений. Чем больше — тем результат точнее.
Для того, чтобы модель научилась соотносить содержания постов и оценки успеваемости, были задействованы данные национального репрезентативного панельного лонгитюда «Траектории в образовании и профессии» (ТРОП) НИУ ВШЭ. Это 4400 учеников школ, участвовавших в мониторинге PISA (Programme for International Student Assessment) в 42 российских регионах. Оттуда же и данные об аккаунтах школьников во «ВКонтакте» (их согласились предоставить 3 483 участника ТРОП. Анализ данных, полученных из открытых постов ВК, также законен — это прописано в лицензионном соглашении платформы).
Коэффициент корреляции Пирсона между общими чертами текстов и успеваемостью их авторов. Источник: статья И.Б. Смирнова
При тренировке модели из теста PISA в качестве индикатора успеваемости взяты результаты по чтению (всего тестов три: по читательской, математической и естественнонаучной грамотности). PISA определяет читательскую грамотность как умение понимать, анализировать и использовать прочитанную информацию. Это базовый навык, который помогает успешно осваивать другие предметы. Учащиеся, не достигшие 2-го уровня, считаются слабыми. Те, у кого уровни 5 и 6, — сильные ученики.
Итоговая модель должна была уметь надежно распознать, кем написаны посты: отличниками или двоечниками (другими словами, дифференцировать испытуемых по успеваемости). И в результате обучения она смогла различать посты, оставленные учениками с хорошей и плохой успеваемостью (уровни 5-6 в тестах PISA и уровни 0-1), с точностью 93,7%.
«Модель обучалась на PISA, и мы смотрели корреляцию предсказанной и реальной PISA (эти баллы есть в ТРОП), — говорит Иван Смирнов. — С ЕГЭ это сложнее: так как модель ничего не знает про единые экзамены, то она предсказывала по-прежнему PISA. Но если мы предполагаем, что ЕГЭ и PISA измеряют одно и то же, то есть академическую успеваемость, то чем выше предсказанные результаты PISA, тем выше должны быть и результаты ЕГЭ».
Зачем может потребоваться предложенная модель? Например, для отслеживания реальной успеваемости на уровне образовательных учреждений, методом, исключающим влияние субъективных факторов (школьные оценки могут быть завышены).
«Исследователям хорошо бы посмотреть на школы, которые дают наибольший прирост результатов, — поясняет Иван Смирнов. — И теоретически наш метод может использоваться для того, чтобы оценить этот прирост и потом посмотреть на уровне школ на связанные с ним факторы».
Иван Смирнов — первопроходец (по крайней мере, для России) в деле поиска связи академических данных об учениках с их активностью в соцсетях. Ранее он уже показал, что подписки школьников на те или иные паблики ВК соотносятся не только с их интересами, но и с успеваемостью.