Каждое слово в анализе имеет свой рейтинг. Обсуждение научных и культурных тем, использование английских слов, а также более длинные слова и сообщения имеют большое значение и служат показателями хорошей успеваемости. Обилие смайликов, слов или целых фраз, написанных заглавными буквами, а также обсуждение тем гороскопов, вождения и военной службы, указывает на более низкие оценки в школе.
Исследование было поддержано грантом Российского научного фонда.
В исследовании Смирнова использовалась репрезентативная выборка данных лонгитюдного когортного панельного исследования НИУ ВШЭ «Образовательные и карьерные траектории» (TrEC). В исследовании прослеживается карьерный рост 4400 студентов из 42 регионов России из вузов, участвующих в программе PISA (Программа оценки иностранных студентов). Данные исследования также включают данные об учетных записях студентов в ВК (3483 студента-участника согласились предоставить эту информацию).
«Поскольку такие данные в сочетании с цифровыми трассировками трудно получить, они почти никогда не используются», — объясняет Смирнов. Между тем, такой набор данных позволяет разработать надежную модель, которую можно применить к другим параметрам. И результаты могут быть экстраполированы на всех остальных учеников — старшеклассников и учеников средней школы.
В качестве обучающей выборки использовались сообщения с общедоступных страниц «ВКонтакте» — в общей сложности 130 575 сообщений от 2468 людей, прошедших тест PISA в 2012 году. Тест позволил исследователю оценить академические способности студента, а также его способность показывать свои знания на практике. В исследование были включены только общедоступные сообщения «ВКонтакте» от согласившихся участников.
В ходе исследования неконтролируемое машинное обучение с векторным представлением слов было выполнено в пост-корпусе «ВКонтакте» (всего 1,9 миллиарда слов, с 2,5 миллионами уникальных слов).
«Мы представили каждый пост в виде 300-мерного вектора путем усреднения векторных представлений всех составляющих его слов», — объясняет Смирнов. «Эти представления сообщений использовались для обучения модели линейной регрессии для прогнозирования оценок авторов сообщений PISA».
Под «прогнозированием» исследователь подразумевает не прогнозирование будущего, а корреляцию между рассчитанными результатами и реальными баллами, полученными учащимися на экзамене PISA, а также их результатами ЕГЭ (которые общедоступны в Интернете в агрегированной форме — т.е. это средние баллы по школе). На предварительном этапе модель научилась предсказывать данные PISA. В итоговой модели расчеты сверялись с результатами ЕГЭ выпускников средних школ и абитуриентов.
Предполагалось, что окончательная модель сможет достоверно распознать, написал ли сильный или слабый ученик конкретный пост в социальной сети, или, другими словами, дифференцировать предметы в соответствии с их успеваемостью. После периода обучения модель смогла различать сообщения, написанные студентами, получившими высокие или низкие баллы по PISA (уровни 5-6 и уровни 0-1) с точностью 93,7%. Что касается сопоставимости PISA и ЕГЭ, хотя эти два теста различаются, исследования показали, что результаты учащихся по этим двум тестам сильно коррелируют друг с другом.
Оказалось, что «прогнозируемая успеваемость тесно связана с результатами ЕГЭ», — говорит Смирнов. «Коэффициент корреляции составляет от 0,49 до 0,6. А в случае с университетами, когда сравнивались прогнозируемая академическая успеваемость и баллы абитуриентов ЕГЭ (информация доступна в текущем исследовании «Мониторинг качества приема в вузы»), результаты также продемонстрировали сильную связь. Коэффициент корреляции составляет 0,83, что значительно выше, чем для средней школы, т.к. данных больше».
Полученные результаты
Смирнов выделил общие текстовые особенности постов по отношению к успеваемости их авторов. Было обнаружено, что использование заглавных слов (-0,08), смайликов (-0,06) и восклицаний (-0,04) отрицательно коррелирует с успеваемостью. С другой стороны, использование латинских символов, средняя длина сообщения и слова, размер словарного запаса и энтропия пользовательских текстов положительно коррелируют с академической успеваемостью (от 0,07 до 0,16 соответственно).
Также было подтверждено, что учащиеся с разным уровнем успеваемости имеют разный словарный запас.
Ученики с высоким уровнем успеваемости использовали:
- Английские слова;
- Слова, относящиеся к литературе (Брэдбери, Фаренгейт, Оруэлл, Хаксли, Фолкнер, Набоков, Бродский, Камю, Манн);
- Понятия, связанные с чтением (прочитать, опубликовать, книгу, том);
- Термины и названия, относящиеся к физике (Вселенная, квантовая, теория, Эйнштейн, Ньютон, Хокинг);
- Слова, относящиеся к мыслительным процессам (мышление, запоминание).
Ученики с низкими баллами использовали слова с ошибками, названия популярных компьютерных игр, понятия, относящиеся к военной службе (армия, присяга и т. д.), термины гороскопа (Овен, Стрелец) и слова, связанные с вождением и автомобильными авариями (столкновение , ГАИ, диски, тюнинг).
Смирнов рассчитал коэффициенты для всех 2,5 млн слов векторной модели и предоставил их для дальнейшего изучения. Интересно, что даже слова, которые редко встречаются в наборе обучающих данных, могут предсказать академическую успеваемость. Например, даже если имя «Ньют» (как у персонажа из вселенной «Гарри Поттера», Ньют Скамандер) никогда не появляется в наборе обучающих данных, модель может присвоить более высокий рейтинг сообщениям, которые его содержат. Это произойдет, если модель узнает, что слова из серии романов используются учениками с высокими достижениями, и посредством обучения без учителя модель «интуитивно» поймет, что имя «Ньют» относится к этой категории.
Читать также
Годовая миссия в Арктике закончилась, и данные неутешительны. Что ждет человечество?
Посмотрите, как новый Hummer преодолевает препятствия на дороге, двигаясь как краб
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком