Компания представила семейство моделей Gemini Omni. Первая версия — Gemini Omni Flash — создаёт видеоролики длиной до 10 секунд из любых типов данных и понимает физику реального мира.
Новая модель Google Omni объединяет мультимодальные возможности экосистемы Gemini с глубоким знанием устройства мира. Она воспроизводит гравитацию, динамику жидкостей и учитывает исторический и научный контекст при генерации сцен.
Главное отличие от предыдущей модели Veo — функция преобразования одного видео в другое. Пользователь может редактировать исходные кадры через диалог на естественном языке, и алгоритм сохраняет логику сцены и последовательность действий персонажей при каждом новом запросе. Также доступна генерация цифрового аватара с озвучкой собственным голосом. По словам руководителя команды Николь Брихтовой, похожая функция интеграции внешности в прошлогодней модели Nano Banana пользовалась огромным спросом. С её помощью создали больше 50 млрд изображений.
Пока ролики ограничены 10 секундами со звуком, но компания уже работает над увеличением лимита. Все сгенерированные видео автоматически получают невидимую цифровую метку SynthID для проверки подлинности. Алгоритм пока не может изменять чужую речь на видео.
Gemini Omni Flash уже доступна платным подписчикам тарифов AI Plus, Pro и Ultra через приложение Gemini и сервис Google Flow. Бесплатный доступ к генератору открывается на этой неделе пользователям YouTube Shorts и YouTube Create App.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: Google Omni