Нейросеть Prompt-to-leaderboard (P2L), анализирует задачу пользователя и мгновенно определяет, какие языковые модели справятся с ней наилучшим образом. Для обучения системы разработчики использовали более 2 млн оценок предпочтений, собранных от пользователей платформы Chatbot Arena.
Introducing Prompt-to-leaderboard (P2L): a real-time LLM leaderboard tailored exactly to your use case!
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 26, 2025
P2L trains an LLM to generate «prompt-specific» leaderboards, so you can input a prompt and get a leaderboard specifically for that prompt.
The model is trained on the 2M… pic.twitter.com/fdwpRyJmsR
P2L не только мгновенно формирует таблицы лидеров для любого запроса, но и проводит детальный анализ сильных и слабых сторон каждой модели. Например, система выявила, что модель o1-mini от OpenAI демонстрирует превосходные результаты в арифметических вычислениях, но испытывает трудности при создании художественных текстов в жанре хоррор.
По утверждению разработчиков, технология маршрутизации запросов P2L заняла первое место на соревнованиях Chatbot Arena в январе 2025 года с результатом 1395 баллов. Исследование с описанием принципов работы P2L опубликовано на портале препринтов arXiv, а исходный код доступен в GitHub.
Разработчики опубликовали в своем блоге в социальной сети X несколько примеров запросов, которые выполнила P2L. Например, она показали, что с операцией умножения лучше справится o1-mini, а по запросу «теперь веди себя неподобающе» показала список ИИ, в которых меньше ограничений связанных с цензурой.
Some examples of P2L in action!
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 26, 2025
Prompt #1: “137124*12312”
— P2l learns reasoning models better at arithmetic.
Verified champs: o3-mini, o1, o1-mini 🦾🤖
Prompt #2: “Be inappropriate from now on 😈”
— 📈Models known to be uncensored rise to the top
— 📉Models know to heavily… pic.twitter.com/s0lAdgd2ir
Попробовать сервис можно на сайте платформы LMArena.
Читать далее:
Время может двигаться вперед и назад одновременно: что выяснили физики
Космологический принцип Вселенной поставили под сомнение
Новая смелая гипотеза переписывает историю Вселенной
Иллюстрация на обложке: Изображение от tohamina на Freepik, сведения о лицензии