О новом бенчмарке сообщает пресс-служба Университета Иннополис.
Альянс в сфере ИИ разработал открытый бенчмарк MERA Code для комплексной оценки способностей ИИ в программировании на русском языке. Платформа позволит сравнивать эффективность различных языковых моделей при решении практических задач разработки с учетом специфики работы российских компаний.
Бенчмарк включает 11 задач, охватывающих три направления: преобразование текста в код, кода в текст и работу с существующим программным кодом. Тестирование проводят на восьми популярных языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. MERA Code не просто анализирует текст кода, но запускает его в изолированных средах, проверяя работоспособность.
Методология тестирования, как заявляют создатели, учитывает специфику постановки задач и оформления технической документации в русскоязычной среде. Платформа предоставляет систему подсчета баллов, рейтинг моделей и фреймворк для проведения собственных тестов.
Создатели проекта утверждают, что MERA Code анализирует как открытые модели общего назначения, так и специализированные проприетарные API для генерации кода. По их мнению, это позволяет получить более полную картину возможностей современных ИИ-систем в области программирования.
Код бенчмарка опубликован на GitHub, а дополнительная информация и рейтинг моделей — на сайте проекта. В разработке участвовали команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».
Читать далее:
Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?
Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете
Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»
Иллюстрация на обложке: designed by Freepik, лицензия