В России появилась первая независимая русскоязычная платформа для оценки генеративных нейросетей — LLM Arena.
С новым сервисом пользователи могут в реальном времени взаимодействовать с различными генеративными нейросетями и оценивать их работу в зависимости от своих потребностей и задач.
LLM Arena отличается от аналогичных зарубежных сервисов, таких как LMSYS Chatbot Arena, своим акцентом на русскоязычные модели. На платформе представлены такие модели, как YandexGPT, GigaChat, Сайга и Вихрь. Пользователи могут оставлять свои оценки, которые затем используются для формирования объективного рейтинга языковых моделей.
Тест происходит в режиме реального времени и оценивать качество их ответов в соответствии с запросами пользователей. Для сравнения пользователю предлагаются две случайные модели, при этом информация о разработчиках нейросетей скрыта. Пользователи могут вводить любые запросы, сравнивать ответы моделей и выбирать лучший по их мнению ответ, основываясь на таких критериях, как количество фактов, развернутость, наличие примеров и т.д. Если ответы нерелевантные или схожие, это также можно отметить. На основе полученных оценок формируется рейтинг русскоязычных генеративных нейросетей.
Рынок искусственного интеллекта, стремительно развивающийся, начинает сталкиваться с проблемами, характерными для зрелых отраслей, такими как выбор подходящей методики оценки эффективности. Российские разработчики больших языковых моделей, применяемых, например, для создания голосовых ассистентов, используют различные инструменты для публичного сравнения своих разработок. Экспериментальная версия YandexGPT, например, оценивается с помощью парного сравнения на «чатбот-арене», тогда как модели MTS AI оцениваются на основе решения заранее определенных задач. Участники рынка отмечают необходимость использования различных бенчмарков для оценки эффективности в зависимости от конкретных вопросов.