Экспериментальный проект GFusion создал стажёр из команды фундаментальных моделей. Модель генерирует текст не последовательно, а параллельно, и работает до 45 процентов быстрее GigaChat 3, на основе которого её обучали. Код и метод обучения опубликованы в открытом доступе.
Классические большие языковые модели пишут текст слово за словом. Чтобы исправить одну ошибку, им приходится переписывать весь ответ заново. GFusion действует иначе. Сначала она создаёт черновой набросок ответа, а затем пошагово его дорабатывает. Так же работают нейросети, которые генерируют изображения и видео.
Автор проекта — Даниил Тихонов. Он пришёл в Сбер стажёром, учась на четвёртом курсе Факультета компьютерных наук НИУ ВШЭ, и построил модель в качестве проектной работы. Сейчас он защитил диплом и работает в штате банка.
Диффузионные модели генерируют токены не по одному, а сразу пачками. Текст не обязательно пишется строго слева направо. Модель сама выбирает, какую часть ответа дополнить на каждом шаге. Кроме того, такие модели извлекают больше информации из ограниченного объёма данных, обучаясь на одном датасете несколько раз.
Вместе с моделью Сбер опубликовал инструменты для ускорения обучения диффузионных моделей. Это первый подобный опенсорс-проект в России. Разработчики также внесли изменения в SGLang, один из самых популярных в мире опенсорс-инструментов для запуска языковых моделей. Они добавили в него поддержку GFusion и нового алгоритма генерации, который улучшает качество работы любых диффузионных моделей.
Технический директор фундаментальных моделей GigaChat Фёдор Минькин назвал проект показателем уровня задач, которые в Сбере доверяют молодым исследователям. По его словам, это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Мировое сообщество видит в диффузионных языковых моделях огромный потенциал. Направление активно развивается с конца 2025 года. Такие модели уже обеспечивают автодополнение кода в реальном времени, агентные сценарии и поддерживают приложения, критичные к задержкам. Приоритетная задача — довести качество ответов и способность к рассуждению до уровня классических LLM.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: magnific