Добавить улыбку и изменить ракурс: как редактировать изображения, созданные ИИ

Сервисы для автоматической генерации изображений с помощью ИИ широко распространились в последнее время. Недостаток таких «фотографий» в сложности управления сюжетом и изменения деталей. Исследователи разработали технологию DragGan, которая с помощью аналога фоторедактора и нескольких кликов мыши позволяет быстро внести правки. Рассказываем, как устроен этот сервис и что с его помощью можно сделать.

Результат генерации изображения с помощью искусственного интеллекта, во многом вопрос удачи. Можно попросить модели, подобные популярной Midjourney, нарисовать, например, «Всадника, скачущего на белом коне по полю с ромашками», и она справится с задачей. Только поза всадника, направление его движения и множество других мелких деталей может не подойти для решения конкретной задачи пользователя.

Группа исследователей из Института компьютерных наук Общества Макса Планка, Пенсильванского университета и Google AR/VR разработала новую технологию DragGan, которая использует визуальный редактор для точечного редактирования сгенерированных фотографий. С помощью нескольких кликов мыши она позволяет, например, изменить направление взгляда или позу животного на фотографии, развернуть изображение и показать области, скрытые на исходном снимке, добавить улыбку или изменить детали одежды модели.

Как работает DragGan?

DragGan — основан на работе генеративно-состязательной сети (GAN). Это один из алгоритмов машинного обучения, предложенный в 2014 году разработчиками из Google, который использует две независимые нейросети для придания искусственно созданным образам максимального правдоподобия. 

Работа технологии основана на конкурирующей игре с нулевой суммой между двумя обученными нейросетями: первая из них генерирует различные образцы, а вторая — пытается отличить «правильные» (достоверные) от «неправильных». В результате такой конкуренции готовый образ получается максимально фотореалистичным.

DragGan представляет собой инструмент, который позволяет «перетаскивать» любые точки на изображении для достижения нужных изменений. Внешне интерфейс напоминает некоторые функции изменения изображений в фоторедакторах, но вместо того, чтобы просто перемешать пиксели, система каждый раз генерирует новое изображение с заданными параметрами. При этом механизм генеративно-состязательной сети выбирает те снимки, которые отличаются максимальной фотореалистичностью.

GAN хорошо зарекомендовали себя в предсказании «следующего кадра»: они могут определять, что изменится на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, добавляя недостающие пиксели. Именно эти свойства таких сетей используются в новой технологии, объясняют разработчики.

Редактирование изображений достигается за счет двух основных компонентов. Первый — это контроль движения на основе признаков, который заставляет заданные пиксели перемещаться к целевому положению. Второй — обеспечивает генерацию изображений для каждого смещенного положения.

https://hightech.fm/wp-content/uploads/2023/06/draggan.mp4
Редактирование изображений с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Тестовая исследовательская модель

Предложенное решение — это только прототип, который в будущем сможет изменить работу дизайнеров или модельеров, полагают авторы. Как и при использовании любой системы ИИ, многое в качестве работы зависит от обучающих данных.

Тестирование системы показало, что лучше всего редактированию поддаются востребованные популярные сюжеты. Например, DragGan хорошо справляется с изменениями для изображений животных, автомобилей, пейзажей и людей. Все эти объекты запечатлены в огромном количестве ракурсов и деталей на общедоступных изображениях. По мере обучения модели на большем объеме данных исследователи надеются значительно улучшить результат.

https://hightech.fm/wp-content/uploads/2023/06/lion.mp4
Редактирование сгенерированного изображения льва с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Хотя основной акцент в исследовании делается на генерации и обработке сгенерированных изображений, но с помощью того же метода можно обрабатывать и реальные фотоснимки. В этом случае ИИ сначала строит модель для готового снимка, как если бы он создавал его сам, а после этого использует алгоритмы для обработки с помощью перемещения пикселей. Правда, в этом случае качество обработки несколько хуже, особенно если на снимке изображен нетривиальный сюжет.

https://hightech.fm/wp-content/uploads/2023/06/real_image.mp4
Редактирование настоящей фотографии с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Зачем нужны сервисы обработки сгенерированных изображений?

Исследователи уверены: хотя текущая модель представляет собой просто демонстрацию возможностей обработки изображений. В перспективе у нее может быть практическое применение. Например, подобные сервисы смогут использовать дизайнеры для экономии времени в процессе создания и редактирования изображений, управления анимационными персонажами в фильмах и компьютерных играх.

На основе DragGan мы разрабатываем инструмент, который благодаря понятному пользовательскому интерфейсу позволит непрофессионалам выполнять сложную обработку изображений.

Кристиан Теобальт, управляющий директор Института компьютерных наук Общества Макса Планка
https://hightech.fm/wp-content/uploads/2023/06/human.mp4
Редактирование одежды и позы модели с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Существует также альтернативное назначение технологии: определение поддельных фотографий. Работая над созданием DragGan, исследователи изучают методы, которые позволяют манипулировать изображениями и создавать «фейки». Чтобы понять, какие методы используют мошенники, нужно самим научиться подделывать фото, объясняют ученые.


Читать далее:

ИИ определил три химических соединения, замедляющих старение

Выкачивание грунтовых вод переместило полюс вращения Земли на 80 см за 18 лет

Искусственный интеллект нашел четыре геоглифа Наски — гигантских рисунка в пустыне

Изображение на обложке: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Тайны древней звезды по соседству изучили, «подслушав ее песню»
Космос
Baidu делает ИИ для перевода звуков животных в человеческую речь
Наука
Оказалось, ИИ врет чаще при одном условии: как этого избежать
Новости
Суперкомпьютер Маска сжирает электричество как 300 000 домов: люди протестуют
Новости
Посмотрите, как робот стремительно отбивает подачи в настольном теннисе
Новости
Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото
Наука
Создано музыкальное приложение для реабилитации после инсульта
Наука
«Эффект аккордеона» превращает жесткий графен в эластичный материал
Наука
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости
Ученые решили проблему, которая мешала запуску термоядерных реакторов почти 70 лет
Наука
Китайское «супероружие» для подводных диверсий оказалось не таким, как считалось
Новости
Отключение мобильного интернета в Москве: какие последствия для бизнеса
Новости
Киберполиция назвала новые схемы мошенников: как они воруют аккаунты на «Госуслугах»
Новости
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости