Исследователь из Университета Висконсин-Стаут сравнили способность самых известных моделей для генеративного искусственного интеллекта отличать реальные новости от фейков. Анализ показал, что лучше всего с задачей справляется Chat GPT-4.0, но даже она уступает людям.
Для исследования ученые взяли четыре наиболее популярные языковые модели две версии Chat GPT (3.5 и 4.0), разработанной Open AI, LaMDA, которую использует Google в Bard AI, и Bing AI от Microsoft. Каждой модели предлагали одни и те же новости, которые ранее были проверены экспертами и просили определить, были ли они правдой, ложью или частичной правдой.
Эффективность моделей измерялась на основе того, насколько точно они классифицировали эти сообщения. По сравнению с проверенными фактами, предоставленными независимыми агентствами.
Кевин Матте Карамансьон, автор исследования
Анализ показал, что Chat GPT-4.0 — последняя доступная версия языковой модели от Open AI показала наилучшие результаты на заданной выборке новостей. Она смогла корректно классифицировать 71% предложенных текстов. Остальные три модели дали правильные ответы в 62-64% случаев.
Этот результат может свидетельствовать о постепенном прогрессе в эффективности подобных систем. Но требует дополнительной проверки на более широкой выборке фейковых новостей. Кроме того, пока все модели уступают профессиональным экспертам, которые проводят проверку фактов. В дальнейшем можно использовать симбиотический подход, при котором сильные стороны моделей будут сочетаться с экспертными навыками, считают авторы исследования.
Читать далее:
Ученые развеяли популярный миф о домашних животных
Камень, выброшенный в космос, вернулся на Землю через тысячи лет
Ученые придумали, как обратить старение вспять без генной инженерии