Добавить улыбку и изменить ракурс: как редактировать изображения, созданные ИИ

Сервисы для автоматической генерации изображений с помощью ИИ широко распространились в последнее время. Недостаток таких «фотографий» в сложности управления сюжетом и изменения деталей. Исследователи разработали технологию DragGan, которая с помощью аналога фоторедактора и нескольких кликов мыши позволяет быстро внести правки. Рассказываем, как устроен этот сервис и что с его помощью можно сделать.

Результат генерации изображения с помощью искусственного интеллекта, во многом вопрос удачи. Можно попросить модели, подобные популярной Midjourney, нарисовать, например, «Всадника, скачущего на белом коне по полю с ромашками», и она справится с задачей. Только поза всадника, направление его движения и множество других мелких деталей может не подойти для решения конкретной задачи пользователя.

Группа исследователей из Института компьютерных наук Общества Макса Планка, Пенсильванского университета и Google AR/VR разработала новую технологию DragGan, которая использует визуальный редактор для точечного редактирования сгенерированных фотографий. С помощью нескольких кликов мыши она позволяет, например, изменить направление взгляда или позу животного на фотографии, развернуть изображение и показать области, скрытые на исходном снимке, добавить улыбку или изменить детали одежды модели.

Как работает DragGan?

DragGan — основан на работе генеративно-состязательной сети (GAN). Это один из алгоритмов машинного обучения, предложенный в 2014 году разработчиками из Google, который использует две независимые нейросети для придания искусственно созданным образам максимального правдоподобия. 

Работа технологии основана на конкурирующей игре с нулевой суммой между двумя обученными нейросетями: первая из них генерирует различные образцы, а вторая — пытается отличить «правильные» (достоверные) от «неправильных». В результате такой конкуренции готовый образ получается максимально фотореалистичным.

DragGan представляет собой инструмент, который позволяет «перетаскивать» любые точки на изображении для достижения нужных изменений. Внешне интерфейс напоминает некоторые функции изменения изображений в фоторедакторах, но вместо того, чтобы просто перемешать пиксели, система каждый раз генерирует новое изображение с заданными параметрами. При этом механизм генеративно-состязательной сети выбирает те снимки, которые отличаются максимальной фотореалистичностью.

GAN хорошо зарекомендовали себя в предсказании «следующего кадра»: они могут определять, что изменится на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, добавляя недостающие пиксели. Именно эти свойства таких сетей используются в новой технологии, объясняют разработчики.

Редактирование изображений достигается за счет двух основных компонентов. Первый — это контроль движения на основе признаков, который заставляет заданные пиксели перемещаться к целевому положению. Второй — обеспечивает генерацию изображений для каждого смещенного положения.

https://hightech.fm/wp-content/uploads/2023/06/draggan.mp4
Редактирование изображений с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Тестовая исследовательская модель

Предложенное решение — это только прототип, который в будущем сможет изменить работу дизайнеров или модельеров, полагают авторы. Как и при использовании любой системы ИИ, многое в качестве работы зависит от обучающих данных.

Тестирование системы показало, что лучше всего редактированию поддаются востребованные популярные сюжеты. Например, DragGan хорошо справляется с изменениями для изображений животных, автомобилей, пейзажей и людей. Все эти объекты запечатлены в огромном количестве ракурсов и деталей на общедоступных изображениях. По мере обучения модели на большем объеме данных исследователи надеются значительно улучшить результат.

https://hightech.fm/wp-content/uploads/2023/06/lion.mp4
Редактирование сгенерированного изображения льва с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Хотя основной акцент в исследовании делается на генерации и обработке сгенерированных изображений, но с помощью того же метода можно обрабатывать и реальные фотоснимки. В этом случае ИИ сначала строит модель для готового снимка, как если бы он создавал его сам, а после этого использует алгоритмы для обработки с помощью перемещения пикселей. Правда, в этом случае качество обработки несколько хуже, особенно если на снимке изображен нетривиальный сюжет.

https://hightech.fm/wp-content/uploads/2023/06/real_image.mp4
Редактирование настоящей фотографии с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Зачем нужны сервисы обработки сгенерированных изображений?

Исследователи уверены: хотя текущая модель представляет собой просто демонстрацию возможностей обработки изображений. В перспективе у нее может быть практическое применение. Например, подобные сервисы смогут использовать дизайнеры для экономии времени в процессе создания и редактирования изображений, управления анимационными персонажами в фильмах и компьютерных играх.

На основе DragGan мы разрабатываем инструмент, который благодаря понятному пользовательскому интерфейсу позволит непрофессионалам выполнять сложную обработку изображений.

Кристиан Теобальт, управляющий директор Института компьютерных наук Общества Макса Планка
https://hightech.fm/wp-content/uploads/2023/06/human.mp4
Редактирование одежды и позы модели с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Существует также альтернативное назначение технологии: определение поддельных фотографий. Работая над созданием DragGan, исследователи изучают методы, которые позволяют манипулировать изображениями и создавать «фейки». Чтобы понять, какие методы используют мошенники, нужно самим научиться подделывать фото, объясняют ученые.


Читать далее:

ИИ определил три химических соединения, замедляющих старение

Выкачивание грунтовых вод переместило полюс вращения Земли на 80 см за 18 лет

Искусственный интеллект нашел четыре геоглифа Наски — гигантских рисунка в пустыне

Изображение на обложке: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые создают датчики, похожие на усики комаров, для обнаружения землетрясений
Наука
ИИ диагностирует диабет, ВИЧ и COVID по одному образцу крови
Наука
Китайские генетики создали «рис для укрепления здоровья сердечной системы»
Наука
Тяжелое генетическое заболевание вылечили до рождения в утробе матери
Наука
Высокоскоростная съемка показала, что происходит с каплей при падении в бассейн
Наука
В России создали ИИ-платформу для ускоренной разработки лекарств
Иннополис
Физики побили рекорд Китая по удержанию плазмы в искусственном Солнце
Наука
Мертвая галактика посылает мощные радиовсплески: ученые не могут это объяснить  
Космос
«Невозможная» пара звезд-вампиров странно ведет себя в космосе
Космос
В iPhone 16e стоят чипы, которые оказались недостаточно хороши для iPhone 16
Новости
Выяснилось, как темная тема на сайтах влияет на гаджеты
Новости
Ученые впервые создали «пластичный» инопланетный лед
Наука
В каких странах больше боятся замены людей на ИИ, показало исследование
Наука
Мини-землетрясения под ледяным щитом Гренландии могут изменить уровень моря
Наука
Посмотрите, как Blue Ghost летит над обратной стороной Луны
Космос
Польский стартап представил робота с искусственными мышцами и костями
Новости
Ископаемые находки меняют представление об эволюции неандертальцев
Наука
Microsoft представила квантовый чип Majorana 1 «из новой формы материи»
Новости
Посмотрите на огненный дождь в небе: фрагменты ракеты SpaceX упали в Европе
Космос
Жители России смогут наблюдать редкое астрономическое явление в феврале
Космос