Платформа для оценки генеративных нейросетей появилась в России

В России появилась первая независимая русскоязычная платформа для оценки генеративных нейросетей — LLM Arena.

С новым сервисом пользователи могут в реальном времени взаимодействовать с различными генеративными нейросетями и оценивать их работу в зависимости от своих потребностей и задач.

LLM Arena отличается от аналогичных зарубежных сервисов, таких как LMSYS Chatbot Arena, своим акцентом на русскоязычные модели. На платформе представлены такие модели, как YandexGPT, GigaChat, Сайга и Вихрь. Пользователи могут оставлять свои оценки, которые затем используются для формирования объективного рейтинга языковых моделей.

Тест происходит в режиме реального времени и оценивать качество их ответов в соответствии с запросами пользователей. Для сравнения пользователю предлагаются две случайные модели, при этом информация о разработчиках нейросетей скрыта. Пользователи могут вводить любые запросы, сравнивать ответы моделей и выбирать лучший по их мнению ответ, основываясь на таких критериях, как количество фактов, развернутость, наличие примеров и т.д. Если ответы нерелевантные или схожие, это также можно отметить. На основе полученных оценок формируется рейтинг русскоязычных генеративных нейросетей.

Рынок искусственного интеллекта, стремительно развивающийся, начинает сталкиваться с проблемами, характерными для зрелых отраслей, такими как выбор подходящей методики оценки эффективности. Российские разработчики больших языковых моделей, применяемых, например, для создания голосовых ассистентов, используют различные инструменты для публичного сравнения своих разработок. Экспериментальная версия YandexGPT, например, оценивается с помощью парного сравнения на «чатбот-арене», тогда как модели MTS AI оцениваются на основе решения заранее определенных задач. Участники рынка отмечают необходимость использования различных бенчмарков для оценки эффективности в зависимости от конкретных вопросов.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
ИИ использует единый центр обработки разных типов данных, как мозг человека
Новости
Японский лунный модуль подлетел к Луне и сфотографировал спутник вблизи
Космос
Дикие рыбы способны запоминать и узнавать дайверов, показал эксперимент
Наука
НАСА на 40% повысило риск падения на Землю астероида, способного уничтожить город
Космос
Биоинженеры создали из мидий и слизи антибактериальный клей
Наука
Телескоп с «глазом лобстера» обнаружил редкую двойную звездную систему
Космос
Solar Orbiter приблизится к Венере, чтобы подняться к полюсу Солнца
Космос
В Китае объединили солнечную энергетику с выращиванием морских огурцов
Новости
Какие навыки нужны системному аналитику
Технологии
Появление речи связали с эволюцией одного белка
Наука
Для запрещенной соцсети проложат крупнейший в мире подводный кабель
Новости
Илон Маск представил Grok 3 — ИИ нового поколения с мощным дата-центром
Новости
Эксперты проверили «чудо» со статуей Девы Марии: что показал ДНК-тест
Наука
Время может двигаться вперед и назад одновременно: что выяснили физики
Наука
Космологический принцип Вселенной поставили под сомнение
Космос
Ядерные часы могут появиться в России уже в 2030 году  
Наука
Эмоции животных теперь можно определить с помощью ИИ
Новости
Создан переключатель генов для клеточной терапии на основе пластыря
Наука
Ученые предположили, что разумная жизнь на Земле — закономерность, а не случайность
Наука
Ледяные шапки на Земле — редкая аномалия, заявляют учение
Наука