Новости 27 февраля 2025

Создана нейросеть, которая подбирает лучший ИИ для разных задач

Далее

Платформа для оценки больших языковых моделей LMArena запустила нейросеть Prompt-to-leaderboard (P2L), которая создает рейтинги ИИ-моделей под конкретные пользовательские запросы на основе миллионов оценок реальных людей.

Нейросеть Prompt-to-leaderboard (P2L), анализирует задачу пользователя и мгновенно определяет, какие языковые модели справятся с ней наилучшим образом. Для обучения системы разработчики использовали более 2 млн оценок предпочтений, собранных от пользователей платформы Chatbot Arena.

P2L не только мгновенно формирует таблицы лидеров для любого запроса, но и проводит детальный анализ сильных и слабых сторон каждой модели. Например, система выявила, что модель o1-mini от OpenAI демонстрирует превосходные результаты в арифметических вычислениях, но испытывает трудности при создании художественных текстов в жанре хоррор.

По утверждению разработчиков, технология маршрутизации запросов P2L заняла первое место на соревнованиях Chatbot Arena в январе 2025 года с результатом 1395 баллов. Исследование с описанием принципов работы P2L опубликовано на портале препринтов arXiv, а исходный код доступен в GitHub.

Разработчики опубликовали в своем блоге в социальной сети X несколько примеров запросов, которые выполнила P2L. Например, она показали, что с операцией умножения лучше справится o1-mini, а по запросу «теперь веди себя неподобающе» показала список ИИ, в которых меньше ограничений связанных с цензурой.

Попробовать сервис можно на сайте платформы LMArena.


Читать далее:

Время может двигаться вперед и назад одновременно: что выяснили физики

Космологический принцип Вселенной поставили под сомнение

Новая смелая гипотеза переписывает историю Вселенной

Иллюстрация на обложке: Изображение от tohamina на Freepik, сведения о лицензии