Наука 23 октября 2020

Как школьник сдаст ЕГЭ можно предсказать по его постам «ВКонтакте»

ИИ предсказывает результаты обучения студентов на основе постов «ВКонтакте». Иван Смирнов, ведущий научный сотрудник лаборатории вычислительных социальных наук Института образования НИУ ВШЭ, создал компьютерную модель, с помощью которой можно отличить отличников от других учеников на основе их публикаций в социальных сетях. Модель прогнозирования использует математический текстовый анализ, который регистрирует словарный запас пользователей (его диапазон и семантические поля, из которых берутся концепции), символы, длину сообщения и слов в постах. О результатах исследования сообщает EPJ Data Science.

Каждое слово в анализе имеет свой рейтинг. Обсуждение научных и культурных тем, использование английских слов, а также более длинные слова и сообщения имеют большое значение и служат показателями хорошей успеваемости. Обилие смайликов, слов или целых фраз, написанных заглавными буквами, а также обсуждение тем гороскопов, вождения и военной службы, указывает на более низкие оценки в школе.

Исследование было поддержано грантом Российского научного фонда.

В исследовании Смирнова использовалась репрезентативная выборка данных лонгитюдного когортного панельного исследования НИУ ВШЭ «Образовательные и карьерные траектории» (TrEC). В исследовании прослеживается карьерный рост 4400 студентов из 42 регионов России из вузов, участвующих в программе PISA (Программа оценки иностранных студентов). Данные исследования также включают данные об учетных записях студентов в ВК (3483 студента-участника согласились предоставить эту информацию).

«Поскольку такие данные в сочетании с цифровыми трассировками трудно получить, они почти никогда не используются», — объясняет Смирнов. Между тем, такой набор данных позволяет разработать надежную модель, которую можно применить к другим параметрам. И результаты могут быть экстраполированы на всех остальных учеников — старшеклассников и учеников средней школы.

В качестве обучающей выборки использовались сообщения с общедоступных страниц «ВКонтакте» — в общей сложности 130 575 сообщений от 2468 людей, прошедших тест PISA в 2012 году. Тест позволил исследователю оценить академические способности студента, а также его способность показывать свои знания на практике. В исследование были включены только общедоступные сообщения «ВКонтакте» от согласившихся участников.

В ходе исследования неконтролируемое машинное обучение с векторным представлением слов было выполнено в пост-корпусе «ВКонтакте» (всего 1,9 миллиарда слов, с 2,5 миллионами уникальных слов).

«Мы представили каждый пост в виде 300-мерного вектора путем усреднения векторных представлений всех составляющих его слов», — объясняет Смирнов. «Эти представления сообщений использовались для обучения модели линейной регрессии для прогнозирования оценок авторов сообщений PISA».

Под «прогнозированием» исследователь подразумевает не прогнозирование будущего, а корреляцию между рассчитанными результатами и реальными баллами, полученными учащимися на экзамене PISA, а также их результатами ЕГЭ (которые общедоступны в Интернете в агрегированной форме — т.е. это средние баллы по школе). На предварительном этапе модель научилась предсказывать данные PISA. В итоговой модели расчеты сверялись с результатами ЕГЭ выпускников средних школ и абитуриентов.

Предполагалось, что окончательная модель сможет достоверно распознать, написал ли сильный или слабый ученик конкретный пост в социальной сети, или, другими словами, дифференцировать предметы в соответствии с их успеваемостью. После периода обучения модель смогла различать сообщения, написанные студентами, получившими высокие или низкие баллы по PISA (уровни 5-6 и уровни 0-1) с точностью 93,7%. Что касается сопоставимости PISA и ЕГЭ, хотя эти два теста различаются, исследования показали, что результаты учащихся по этим двум тестам сильно коррелируют друг с другом.

Оказалось, что «прогнозируемая успеваемость тесно связана с результатами ЕГЭ», — говорит Смирнов. «Коэффициент корреляции составляет от 0,49 до 0,6. А в случае с университетами, когда сравнивались прогнозируемая академическая успеваемость и баллы абитуриентов ЕГЭ (информация доступна в текущем исследовании «Мониторинг качества приема в вузы»), результаты также продемонстрировали сильную связь. Коэффициент корреляции составляет 0,83, что значительно выше, чем для средней школы, т.к. данных больше».

Полученные результаты

Смирнов выделил общие текстовые особенности постов по отношению к успеваемости их авторов. Было обнаружено, что использование заглавных слов (-0,08), смайликов (-0,06) и восклицаний (-0,04) отрицательно коррелирует с успеваемостью. С другой стороны, использование латинских символов, средняя длина сообщения и слова, размер словарного запаса и энтропия пользовательских текстов положительно коррелируют с академической успеваемостью (от 0,07 до 0,16 соответственно).

Также было подтверждено, что учащиеся с разным уровнем успеваемости имеют разный словарный запас.

Ученики с высоким уровнем успеваемости использовали:

Английские слова;
Слова, относящиеся к литературе (Брэдбери, Фаренгейт, Оруэлл, Хаксли, Фолкнер, Набоков, Бродский, Камю, Манн);
Понятия, связанные с чтением (прочитать, опубликовать, книгу, том);
Термины и названия, относящиеся к физике (Вселенная, квантовая, теория, Эйнштейн, Ньютон, Хокинг);
Слова, относящиеся к мыслительным процессам (мышление, запоминание).

Ученики с низкими баллами использовали слова с ошибками, названия популярных компьютерных игр, понятия, относящиеся к военной службе (армия, присяга и т. д.), термины гороскопа (Овен, Стрелец) и слова, связанные с вождением и автомобильными авариями (столкновение , ГАИ, диски, тюнинг).

Тематические кластеры: представление слов с наивысшим и наименьшим баллом из набора обучающих данных

Смирнов рассчитал коэффициенты для всех 2,5 млн слов векторной модели и предоставил их для дальнейшего изучения. Интересно, что даже слова, которые редко встречаются в наборе обучающих данных, могут предсказать академическую успеваемость. Например, даже если имя «Ньют» (как у персонажа из вселенной «Гарри Поттера», Ньют Скамандер) никогда не появляется в наборе обучающих данных, модель может присвоить более высокий рейтинг сообщениям, которые его содержат. Это произойдет, если модель узнает, что слова из серии романов используются учениками с высокими достижениями, и посредством обучения без учителя модель «интуитивно» поймет, что имя «Ньют» относится к этой категории.

Читать также

Годовая миссия в Арктике закончилась, и данные неутешительны. Что ждет человечество?

Посмотрите, как новый Hummer преодолевает препятствия на дороге, двигаясь как краб

На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком

«ВКонтакте»

big data

ЕГЭ