Результат генерации изображения с помощью искусственного интеллекта, во многом вопрос удачи. Можно попросить модели, подобные популярной Midjourney, нарисовать, например, «Всадника, скачущего на белом коне по полю с ромашками», и она справится с задачей. Только поза всадника, направление его движения и множество других мелких деталей может не подойти для решения конкретной задачи пользователя.
Группа исследователей из Института компьютерных наук Общества Макса Планка, Пенсильванского университета и Google AR/VR разработала новую технологию DragGan, которая использует визуальный редактор для точечного редактирования сгенерированных фотографий. С помощью нескольких кликов мыши она позволяет, например, изменить направление взгляда или позу животного на фотографии, развернуть изображение и показать области, скрытые на исходном снимке, добавить улыбку или изменить детали одежды модели.
Как работает DragGan?
DragGan — основан на работе генеративно-состязательной сети (GAN). Это один из алгоритмов машинного обучения, предложенный в 2014 году разработчиками из Google, который использует две независимые нейросети для придания искусственно созданным образам максимального правдоподобия.
Работа технологии основана на конкурирующей игре с нулевой суммой между двумя обученными нейросетями: первая из них генерирует различные образцы, а вторая — пытается отличить «правильные» (достоверные) от «неправильных». В результате такой конкуренции готовый образ получается максимально фотореалистичным.
DragGan представляет собой инструмент, который позволяет «перетаскивать» любые точки на изображении для достижения нужных изменений. Внешне интерфейс напоминает некоторые функции изменения изображений в фоторедакторах, но вместо того, чтобы просто перемешать пиксели, система каждый раз генерирует новое изображение с заданными параметрами. При этом механизм генеративно-состязательной сети выбирает те снимки, которые отличаются максимальной фотореалистичностью.
GAN хорошо зарекомендовали себя в предсказании «следующего кадра»: они могут определять, что изменится на следующем изображении в видео. Кроме того, они используются для улучшения качества изображений, добавляя недостающие пиксели. Именно эти свойства таких сетей используются в новой технологии, объясняют разработчики.
Редактирование изображений достигается за счет двух основных компонентов. Первый — это контроль движения на основе признаков, который заставляет заданные пиксели перемещаться к целевому положению. Второй — обеспечивает генерацию изображений для каждого смещенного положения.
Тестовая исследовательская модель
Предложенное решение — это только прототип, который в будущем сможет изменить работу дизайнеров или модельеров, полагают авторы. Как и при использовании любой системы ИИ, многое в качестве работы зависит от обучающих данных.
Тестирование системы показало, что лучше всего редактированию поддаются востребованные популярные сюжеты. Например, DragGan хорошо справляется с изменениями для изображений животных, автомобилей, пейзажей и людей. Все эти объекты запечатлены в огромном количестве ракурсов и деталей на общедоступных изображениях. По мере обучения модели на большем объеме данных исследователи надеются значительно улучшить результат.
Хотя основной акцент в исследовании делается на генерации и обработке сгенерированных изображений, но с помощью того же метода можно обрабатывать и реальные фотоснимки. В этом случае ИИ сначала строит модель для готового снимка, как если бы он создавал его сам, а после этого использует алгоритмы для обработки с помощью перемещения пикселей. Правда, в этом случае качество обработки несколько хуже, особенно если на снимке изображен нетривиальный сюжет.
Зачем нужны сервисы обработки сгенерированных изображений?
Исследователи уверены: хотя текущая модель представляет собой просто демонстрацию возможностей обработки изображений. В перспективе у нее может быть практическое применение. Например, подобные сервисы смогут использовать дизайнеры для экономии времени в процессе создания и редактирования изображений, управления анимационными персонажами в фильмах и компьютерных играх.
На основе DragGan мы разрабатываем инструмент, который благодаря понятному пользовательскому интерфейсу позволит непрофессионалам выполнять сложную обработку изображений.
Кристиан Теобальт, управляющий директор Института компьютерных наук Общества Макса Планка
Существует также альтернативное назначение технологии: определение поддельных фотографий. Работая над созданием DragGan, исследователи изучают методы, которые позволяют манипулировать изображениями и создавать «фейки». Чтобы понять, какие методы используют мошенники, нужно самим научиться подделывать фото, объясняют ученые.
Читать далее:
ИИ определил три химических соединения, замедляющих старение
Выкачивание грунтовых вод переместило полюс вращения Земли на 80 см за 18 лет
Искусственный интеллект нашел четыре геоглифа Наски — гигантских рисунка в пустыне
Изображение на обложке: Xingang Pan et al., Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold