Создана нейросеть, которая подбирает лучший ИИ для разных задач

Платформа для оценки больших языковых моделей LMArena запустила нейросеть Prompt-to-leaderboard (P2L), которая создает рейтинги ИИ-моделей под конкретные пользовательские запросы на основе миллионов оценок реальных людей.

Нейросеть Prompt-to-leaderboard (P2L), анализирует задачу пользователя и мгновенно определяет, какие языковые модели справятся с ней наилучшим образом. Для обучения системы разработчики использовали более 2 млн оценок предпочтений, собранных от пользователей платформы Chatbot Arena.

P2L не только мгновенно формирует таблицы лидеров для любого запроса, но и проводит детальный анализ сильных и слабых сторон каждой модели. Например, система выявила, что модель o1-mini от OpenAI демонстрирует превосходные результаты в арифметических вычислениях, но испытывает трудности при создании художественных текстов в жанре хоррор.

По утверждению разработчиков, технология маршрутизации запросов P2L заняла первое место на соревнованиях Chatbot Arena в январе 2025 года с результатом 1395 баллов. Исследование с описанием принципов работы P2L опубликовано на портале препринтов arXiv, а исходный код доступен в GitHub.

Разработчики опубликовали в своем блоге в социальной сети X несколько примеров запросов, которые выполнила P2L. Например, она показали, что с операцией умножения лучше справится o1-mini, а по запросу «теперь веди себя неподобающе» показала список ИИ, в которых меньше ограничений связанных с цензурой.

Попробовать сервис можно на сайте платформы LMArena.


Читать далее:

Время может двигаться вперед и назад одновременно: что выяснили физики

Космологический принцип Вселенной поставили под сомнение

Новая смелая гипотеза переписывает историю Вселенной

Иллюстрация на обложке: Изображение от tohamina на Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Пепел Везувия превратил мозг древнего римлянина в стекло
Наука
Создан асфальт, который сам устраняет трещины с помощью спор растений
Наука
«Слизкие» белки могут защитить мозг от старения, показало исследование
Наука
«Первая частная компания на Луне» отправила новую миссию к спутнику
Космос
Физики обнаружили экзотические кристаллы электронов в сверхтонком материале
Наука
Kotlin vs Java: история конкуренции в мобильной разработке
Мнения
Триллион рублей потратят на цифровую трансформацию России: что это значит
Новости
Квантовый компьютер на кошачьих кубитах сделали в Amazon: что это и как работает
Новости
Физики нашли способ создать черную дыру без сингулярности
Космос
Ядро дважды магического изотопа удивило физиков: что они там нашли
Наука
Робот Unitree G1 освоил приемы кунг-фу и показал, на что способен
Новости
Полет со скоростью 20 000 км/ч: создан уникальный двигатель на обычном керосине
Новости
Информацию о самом опасном для Земли астероиде обновили
Космос
«Прогресс МС-28» завершил миссию: его затопили в Тихом океане
Космос
Сколько раз в год надо заниматься сексом, чтобы снизить риск депрессии
Наука
Марс оказался красным по неожиданной причине: прошлую теорию опровергли
Космос
Найдены следы «древнейшего транспорта»: тачки, которую волочили более 20 000 лет назад
Наука
В Северной Америке обнаружили останки гигантской белки-летяги: им 5 милионов лет
Наука
Разработана батарея, которая работает на ядерных отходах
Новости
Мыши оказывают «неотложную помощь» сородичам, потерявшим сознание, показало исследование
Наука