Добавить улыбку и изменить ракурс: как редактировать изображения, созданные ИИ

Сервисы для автоматической генерации изображений с помощью ИИ широко распространились в последнее время. Недостаток таких «фотографий» в сложности управления сюжетом и изменения деталей. Исследователи разработали технологию DragGan, которая с помощью аналога фоторедактора и нескольких кликов мыши позволяет быстро внести правки. Рассказываем, как устроен этот сервис и что с его помощью можно сделать.

Результат генерации изображения с помощью искусственного интеллекта, во многом вопрос удачи. Можно попросить модели, подобные популярной Midjourney, нарисовать, например, «Всадника, скачущего на белом коне по полю с ромашками», и она справится с задачей. Только поза всадника, направление его движения и множество других мелких деталей может не подойти для решения конкретной задачи пользователя.

Группа исследователей из Института компьютерных наук Общества Макса Планка, Пенсильванского университета и Google AR/VR разработала новую технологию DragGan, которая использует визуальный редактор для точечного редактирования сгенерированных фотографий. С помощью нескольких кликов мыши она позволяет, например, изменить направление взгляда или позу животного на фотографии, развернуть изображение и показать области, скрытые на исходном снимке, добавить улыбку или изменить детали одежды модели.

Как работает DragGan?

DragGan — основан на работе генеративно-состязательной сети (GAN). Это один из алгоритмов машинного обучения, предложенный в 2014 году разработчиками из Google, который использует две независимые нейросети для придания искусственно созданным образам максимального правдоподобия. 

Работа технологии основана на конкурирующей игре с нулевой суммой между двумя обученными нейросетями: первая из них генерирует различные образцы, а вторая — пытается отличить «правильные» (достоверные) от «неправильных». В результате такой конкуренции готовый образ получается максимально фотореалистичным.

DragGan представляет собой инструмент, который позволяет «перетаскивать» любые точки на изображении для достижения нужных изменений. Внешне интерфейс напоминает некоторые функции изменения изображений в фоторедакторах, но вместо того, чтобы просто перемешать пиксели, система каждый раз генерирует новое изображение с заданными параметрами. При этом механизм генеративно-состязательной сети выбирает те снимки, которые отличаются максимальной фотореалистичностью.

GAN хорошо зарекомендовали себя в предсказании «следующего кадра»: они могут определять, что изменится на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, добавляя недостающие пиксели. Именно эти свойства таких сетей используются в новой технологии, объясняют разработчики.

Редактирование изображений достигается за счет двух основных компонентов. Первый — это контроль движения на основе признаков, который заставляет заданные пиксели перемещаться к целевому положению. Второй — обеспечивает генерацию изображений для каждого смещенного положения.

https://hightech.fm/wp-content/uploads/2023/06/draggan.mp4
Редактирование изображений с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Тестовая исследовательская модель

Предложенное решение — это только прототип, который в будущем сможет изменить работу дизайнеров или модельеров, полагают авторы. Как и при использовании любой системы ИИ, многое в качестве работы зависит от обучающих данных.

Тестирование системы показало, что лучше всего редактированию поддаются востребованные популярные сюжеты. Например, DragGan хорошо справляется с изменениями для изображений животных, автомобилей, пейзажей и людей. Все эти объекты запечатлены в огромном количестве ракурсов и деталей на общедоступных изображениях. По мере обучения модели на большем объеме данных исследователи надеются значительно улучшить результат.

https://hightech.fm/wp-content/uploads/2023/06/lion.mp4
Редактирование сгенерированного изображения льва с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Хотя основной акцент в исследовании делается на генерации и обработке сгенерированных изображений, но с помощью того же метода можно обрабатывать и реальные фотоснимки. В этом случае ИИ сначала строит модель для готового снимка, как если бы он создавал его сам, а после этого использует алгоритмы для обработки с помощью перемещения пикселей. Правда, в этом случае качество обработки несколько хуже, особенно если на снимке изображен нетривиальный сюжет.

https://hightech.fm/wp-content/uploads/2023/06/real_image.mp4
Редактирование настоящей фотографии с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Зачем нужны сервисы обработки сгенерированных изображений?

Исследователи уверены: хотя текущая модель представляет собой просто демонстрацию возможностей обработки изображений. В перспективе у нее может быть практическое применение. Например, подобные сервисы смогут использовать дизайнеры для экономии времени в процессе создания и редактирования изображений, управления анимационными персонажами в фильмах и компьютерных играх.

На основе DragGan мы разрабатываем инструмент, который благодаря понятному пользовательскому интерфейсу позволит непрофессионалам выполнять сложную обработку изображений.

Кристиан Теобальт, управляющий директор Института компьютерных наук Общества Макса Планка
https://hightech.fm/wp-content/uploads/2023/06/human.mp4
Редактирование одежды и позы модели с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Существует также альтернативное назначение технологии: определение поддельных фотографий. Работая над созданием DragGan, исследователи изучают методы, которые позволяют манипулировать изображениями и создавать «фейки». Чтобы понять, какие методы используют мошенники, нужно самим научиться подделывать фото, объясняют ученые.


Читать далее:

ИИ определил три химических соединения, замедляющих старение

Выкачивание грунтовых вод переместило полюс вращения Земли на 80 см за 18 лет

Искусственный интеллект нашел четыре геоглифа Наски — гигантских рисунка в пустыне

Изображение на обложке: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Телескоп запечатлел столкновение галактик на скорости 3,2 млн км/ч
Космос
Укус вместо укола: создана вакцина от малярии, распространяемая комарами
Наука
Физики определили форму отдельного фотона
Наука
Создатели ChatGPT планируют выпустить собственный браузер
Новости
Плотность промышленных роботов в мире удвоилась за семь лет
Новости
В Гибралтаре нашли «фабрику», на которой неандертальцы варили клей
Наука
Nvidia раскрыла, какие товары компании будут в дефиците и когда
Новости
Посмотрите на первое в истории фото звезды из другой галактики
Космос
Чрезвычайно молодую планету нашли у звезды с «кривым» диском
Космос
Предложен способ навигации дронов без GPS: по «отпечаткам рельефа»
Новости
Ученые раскрыли тайну гигантских черных дыр ранней Вселенной
Космос
Microsoft и Atom Computing выпустят коммерческий квантовый компьютер в 2025 году
Новости
Создан робот-голубь, который летает как настоящая птица
Наука
На страницах тысячелетнего Голубого Корана нашли скрытый текст
Наука
Уязвимость ИИ: типы атак LLM-injection и способы защиты от них
Технологии
Intel случайно упомянула о планах по разработке ИИ-ускорителя
Новости
S.T.A.L.K.E.R. 2: Heart of Chornobyl вышел спустя 15 лет: цены, патчи, бесплатный контент и концовка
Новости
Посмотрите, как прототип космоплана Aurora разогнали до 1,1 Маха 
Новости
Российских айтишников обяжут преподавать в вузах: кого это коснется
Новости
Киберспорт в России сегодня: плюсы и минусы разных бизнес-моделей
Мнения