Добавить улыбку и изменить ракурс: как редактировать изображения, созданные ИИ

Сервисы для автоматической генерации изображений с помощью ИИ широко распространились в последнее время. Недостаток таких «фотографий» в сложности управления сюжетом и изменения деталей. Исследователи разработали технологию DragGan, которая с помощью аналога фоторедактора и нескольких кликов мыши позволяет быстро внести правки. Рассказываем, как устроен этот сервис и что с его помощью можно сделать.

Результат генерации изображения с помощью искусственного интеллекта, во многом вопрос удачи. Можно попросить модели, подобные популярной Midjourney, нарисовать, например, «Всадника, скачущего на белом коне по полю с ромашками», и она справится с задачей. Только поза всадника, направление его движения и множество других мелких деталей может не подойти для решения конкретной задачи пользователя.

Группа исследователей из Института компьютерных наук Общества Макса Планка, Пенсильванского университета и Google AR/VR разработала новую технологию DragGan, которая использует визуальный редактор для точечного редактирования сгенерированных фотографий. С помощью нескольких кликов мыши она позволяет, например, изменить направление взгляда или позу животного на фотографии, развернуть изображение и показать области, скрытые на исходном снимке, добавить улыбку или изменить детали одежды модели.

Как работает DragGan?

DragGan — основан на работе генеративно-состязательной сети (GAN). Это один из алгоритмов машинного обучения, предложенный в 2014 году разработчиками из Google, который использует две независимые нейросети для придания искусственно созданным образам максимального правдоподобия. 

Работа технологии основана на конкурирующей игре с нулевой суммой между двумя обученными нейросетями: первая из них генерирует различные образцы, а вторая — пытается отличить «правильные» (достоверные) от «неправильных». В результате такой конкуренции готовый образ получается максимально фотореалистичным.

DragGan представляет собой инструмент, который позволяет «перетаскивать» любые точки на изображении для достижения нужных изменений. Внешне интерфейс напоминает некоторые функции изменения изображений в фоторедакторах, но вместо того, чтобы просто перемешать пиксели, система каждый раз генерирует новое изображение с заданными параметрами. При этом механизм генеративно-состязательной сети выбирает те снимки, которые отличаются максимальной фотореалистичностью.

GAN хорошо зарекомендовали себя в предсказании «следующего кадра»: они могут определять, что изменится на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, добавляя недостающие пиксели. Именно эти свойства таких сетей используются в новой технологии, объясняют разработчики.

Редактирование изображений достигается за счет двух основных компонентов. Первый — это контроль движения на основе признаков, который заставляет заданные пиксели перемещаться к целевому положению. Второй — обеспечивает генерацию изображений для каждого смещенного положения.

https://hightech.fm/wp-content/uploads/2023/06/draggan.mp4
Редактирование изображений с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Тестовая исследовательская модель

Предложенное решение — это только прототип, который в будущем сможет изменить работу дизайнеров или модельеров, полагают авторы. Как и при использовании любой системы ИИ, многое в качестве работы зависит от обучающих данных.

Тестирование системы показало, что лучше всего редактированию поддаются востребованные популярные сюжеты. Например, DragGan хорошо справляется с изменениями для изображений животных, автомобилей, пейзажей и людей. Все эти объекты запечатлены в огромном количестве ракурсов и деталей на общедоступных изображениях. По мере обучения модели на большем объеме данных исследователи надеются значительно улучшить результат.

https://hightech.fm/wp-content/uploads/2023/06/lion.mp4
Редактирование сгенерированного изображения льва с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Хотя основной акцент в исследовании делается на генерации и обработке сгенерированных изображений, но с помощью того же метода можно обрабатывать и реальные фотоснимки. В этом случае ИИ сначала строит модель для готового снимка, как если бы он создавал его сам, а после этого использует алгоритмы для обработки с помощью перемещения пикселей. Правда, в этом случае качество обработки несколько хуже, особенно если на снимке изображен нетривиальный сюжет.

https://hightech.fm/wp-content/uploads/2023/06/real_image.mp4
Редактирование настоящей фотографии с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Зачем нужны сервисы обработки сгенерированных изображений?

Исследователи уверены: хотя текущая модель представляет собой просто демонстрацию возможностей обработки изображений. В перспективе у нее может быть практическое применение. Например, подобные сервисы смогут использовать дизайнеры для экономии времени в процессе создания и редактирования изображений, управления анимационными персонажами в фильмах и компьютерных играх.

На основе DragGan мы разрабатываем инструмент, который благодаря понятному пользовательскому интерфейсу позволит непрофессионалам выполнять сложную обработку изображений.

Кристиан Теобальт, управляющий директор Института компьютерных наук Общества Макса Планка
https://hightech.fm/wp-content/uploads/2023/06/human.mp4
Редактирование одежды и позы модели с помощью DragGan. Видео: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Существует также альтернативное назначение технологии: определение поддельных фотографий. Работая над созданием DragGan, исследователи изучают методы, которые позволяют манипулировать изображениями и создавать «фейки». Чтобы понять, какие методы используют мошенники, нужно самим научиться подделывать фото, объясняют ученые.


Читать далее:

ИИ определил три химических соединения, замедляющих старение

Выкачивание грунтовых вод переместило полюс вращения Земли на 80 см за 18 лет

Искусственный интеллект нашел четыре геоглифа Наски — гигантских рисунка в пустыне

Изображение на обложке: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Российский планшет Yadro поступил в продажу: известна его цена и планы на будущее
Новости
Стала известна цена первого российского электромобиля «Атом»
Новости
Опубликованы самые детальные фото поверхности Европы
Космос
Первую в мире водородную яхту спустили на воду: ее длина больше 100 м
Новости
Открытие ученых впервые подтвердило правоту Эйнштейна
Космос
У зонда летящего к Меркурию произошел сбой двигателя
Космос
Замороженная ткань мозга восстановилась после 18 месяцев криоконсервации
Наука
Редкий глубоководный кальмар попал на видео, напав на подводную камеру
Наука
Экспресс-тест обнаруживает инсульт менее чем за шесть часов после первых симптомов
Наука
Канадский фермер, возможно, нашел на поле обломок ракеты SpaceX
Космос
Квантовую связь создали с помощью обычного городского оптоволоконного кабеля
Новости
Частный спутник сфотографировал МКС с расстояния 70 км
Космос
Ученые сварили пиво с помощью пчел-убийц
Наука
В НАСА рассказали, что вызвало самую мощную геомагнитную бурю десятилетия
Космос
Суперноги от MIT помогут людям быстро вставать после падений на Луне
Космос
Первому в мире ребенку вылечили глухоту с помощью генной терапии
Наука
Ученые нашли семь звезд в Млечном Пути, рядом с которыми могут жить инопланетяне
Космос
Забота об экологии и цифровой мир: какой софт помогает заботиться об окружающей среде?
Мнения
«Уэбб» поймал самое старое слияние черных дыр: через 740 млн лет после Большого взрыва
Космос
Искусственный интеллект научили распознавать сарказм
Новости