Институт искусственного интеллекта AIRI представил открытую версию модели OmniFusion – OmniFusion 1.1. Мультимодальная языковая модель способна поддерживать визуальный диалог, отвечать на вопросы пользователей по картинкам и поддерживает русский язык. Исходный код, включая веса модели и скрипты для обучения, опубликованы в репозитории GitHub.

OmniFusion распознает и описывает изображения. Например, с ее помощью можно объяснить, что изображено на снимке, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей.

Модель также умеет распознавать текст и решать задачи. Например, с её помощью можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.

Примеры диалогов с OmniFusion. Изображение: Научно-исследовательский Институт искусственного интеллекта AIRI

Спектр возможностей широкий, заявляют разработчики: модель уже может проанализировать медицинское изображение и указать на нем какую-то проблему. Правда, чтобы ставить диагнозы, OmniFusion необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины.

OmniFusion — это первая в России мультимодальная модель. Среди зарубежных аналогов на рынке представлены, например, LLaVA, Gemini, GPT4-Vision, а также китайские модели Qwen, DeepSeek и LVIS. Часть из них относится к числу проприетарного ПО, то есть находится в закрытом доступе.

Публикуя открытый исходный код OmniFusion, включая веса модели и скрипты для обучения, мы стремимся внести вклад в сообщество исследователей искусственного интеллекта и поспособствовать дальнейшему развитию мультимодальных архитектур, созданию новых приложений на их основе.
Иван Оселедец, доктор физико-математических наук, Профессор РАН, генеральный директор Института AIRI

Читать далее:

Посмотрите, каким было солнечное затмение из космоса

Посмотрите, что подводный робот нашел на дне Байкала

Ученые поняли, почему «Вояджер-1» отправлял ерунду почти пять месяцев

_{На обложке: Изображение от fullvector на Freepik, сведения о лицензии}

Российская модель ИИ восстановит рецепт блюда по фотографии и решит пример на доске