Платформа для оценки генеративных нейросетей появилась в России

В России появилась первая независимая русскоязычная платформа для оценки генеративных нейросетей — LLM Arena.

С новым сервисом пользователи могут в реальном времени взаимодействовать с различными генеративными нейросетями и оценивать их работу в зависимости от своих потребностей и задач.

LLM Arena отличается от аналогичных зарубежных сервисов, таких как LMSYS Chatbot Arena, своим акцентом на русскоязычные модели. На платформе представлены такие модели, как YandexGPT, GigaChat, Сайга и Вихрь. Пользователи могут оставлять свои оценки, которые затем используются для формирования объективного рейтинга языковых моделей.

Тест происходит в режиме реального времени и оценивать качество их ответов в соответствии с запросами пользователей. Для сравнения пользователю предлагаются две случайные модели, при этом информация о разработчиках нейросетей скрыта. Пользователи могут вводить любые запросы, сравнивать ответы моделей и выбирать лучший по их мнению ответ, основываясь на таких критериях, как количество фактов, развернутость, наличие примеров и т.д. Если ответы нерелевантные или схожие, это также можно отметить. На основе полученных оценок формируется рейтинг русскоязычных генеративных нейросетей.

Рынок искусственного интеллекта, стремительно развивающийся, начинает сталкиваться с проблемами, характерными для зрелых отраслей, такими как выбор подходящей методики оценки эффективности. Российские разработчики больших языковых моделей, применяемых, например, для создания голосовых ассистентов, используют различные инструменты для публичного сравнения своих разработок. Экспериментальная версия YandexGPT, например, оценивается с помощью парного сравнения на «чатбот-арене», тогда как модели MTS AI оцениваются на основе решения заранее определенных задач. Участники рынка отмечают необходимость использования различных бенчмарков для оценки эффективности в зависимости от конкретных вопросов.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Посмотрите на рассвет над Андами: эти фото сделали из космоса
Космос
«Осколок инопланетного корабля» проверили в США: что выяснили ученые
Космос
В России разработали первый детектор для синхротрона СКИФ
Новости
Суперкомпьютер на основе NVIDIA и AMD запустили в работу: его мощность достигнет 500 Пфлопс
Новости
Китай научился засекать стелс-дроны с помощью спутников Starlink
Наука
Поведение ChatGPT вызвало тревогу у пользователей: что происходит
Новости
Темную материю предложили искать, наблюдая за колебаниями Марса
Космос
Суд ЕС отменил антимонопольный штраф в 1,5 млрд евро, наложенный на Google
Новости
Автоматическая установка произвела кислород из лунного грунта
Космос
Разработали «умный чокер», который помогает говорить людям без голоса
Новости
Анализ скелетов показал, когда подростки неолита достигали полового созревания
Наука
«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи
Новости
Самый емкий в мире аккумулятор на 8 МВт·ч поместился в контейнер
Новости
Крупнейший в мире маховичный накопитель энергии заработал в Китае
Новости
Аналог Starlink создают в России: сколько будет стоить проект
Космос
Скоро в России начнут маркировать видеоигры: как и зачем это нужно
Новости
VK запускает платформу для создания ИИ без навыков программирования
Новости
Клетки рака перепрограммировали для борьбы с опухолями
Наука
Инженер-любитель собрал машину с двумя двигателями от самолета
Новости
Пациент с нейрочипом управляет голосовым помощником силой мысли
Наука