Инженеры DeepMind создали приложение, которое проверяет утверждения или факты в ответе языковых моделей. Они использовали Google Search для поиска сайтов, которые могут помочь с результатами. Затем два ответа сравнивают. Новую систему назвали Search-Augmented Factuality Evaluator (SAFE), подробности о работе системы опубликованы на сервере препринтов arXiv.
Чтобы проверить ее, исследовательская группа использовала примерно 16 000 фактов из ответов нескольких LLM. Эксперимент показал, что SAFE не ошибался примерно в 72-76% случаев.
Команда DeepMind сделала код для SAFE доступным для любого пользователя. Открытый исходный код опубликован на GitHub.
LLM или large language model — это языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.
Документ, описывающий новую систему искусственного интеллекта, инженеры разместили на сервере препринтов arXiv.
Читать далее:
ДНК Бетховена удивила ученых: что они выяснили
Ученые создали первый в мире алмазный транзистор: он работает при самых высоких температурах
Яркая вспышка в 800 млн световых лет от Земли показала скрытые «танцы черных дыр»
Обложка: CC0 Public Domain