Подход ученых из Германии основывался на работе сверточных нейросетей — они успешнее всего справляются с обработкой и анализом изображений. Именно на основе подобного алгоритма работает приложение Prisma.
Сверхточные нейросети обучали признакам исходного и целевого изображения, а также последующей генерации новой картинки при помощи белого шума. Главный недостаток метода — для него нужны огромные ресурсы. Для обработки изображения с разрешением 512×512 пикселей компьютеру с мощным графическим процессором придется потратить целую минуту.
Нейросеть научилась искать объекты на изображении по голосовому описанию
Идеи
Поэтому авторы исследования анализировали только алгоритмы, которые тратят на обработку не более двух секунд. Первый способ адаптивной раздельной нормализации (AdaIn, adaptive instance normalization) во многом основан именно на нем, но включает в себя также функцию потерь, за счет чего время работы удалось существенно сократить. Однако качество этого переноса оказалось сильно ограничено.
Улучшили метод китайские разработчики, которые за счет увеличения количества слоев научились отбеливать и раскрашивать изображения в целевой стилистике. Они назвали такой подход «универсальным переносом стиля» (UST-WCT, universal style transfer). В работе подхода участвуют четыре слоя и адаптивно раздельная нормализация.
Теория: Млечный путь давно умер, а мы живем уже после его «клинической смерти»
Новости
Все рассмотренные подходы использовали на нескольких изображениях с разрешением 600×450 пикселей. В итоге несколько сотен изображений с комиксами дали посмотреть 100 людям. Почти треть из них назвали картинки, сделанные с применением адаптивно-раздельной нормализации, больше всего похожими на комиксы.