Сегодня многие компании совместно с научным сообществом трудятся над созданием фотореалистичных аватаров. Некоторые уже используют их в деле, например, виртуальная ведущая, полностью сгенерированная нейросетями, читает прогноз погоды на телеканале «Своё ТВ», а группа ABBA вернулась на сцену в виде цифровых копий спустя 40 лет перерыва. Для создания таких «двойников» используют большой стек технологий, одна из ключевых — трехмерное компьютерное зрение. О том, что это такое и где применяется, рассказал Руслан Рахимов, аспирант Сколтеха и лауреат премии Yandex ML Prize 2022 года. Лауреатов 2023 года объявят на награждении, которое состоится в декабре.
Что такое трехмерное компьютерное зрение?
Компьютерное зрение (СV) позволяет идентифицировать и классифицировать объекты, распознавать образы, отслеживать движения и выполнять другие задачи, связанные с изображениями. Сегодня CV невозможно представить без использования нейросетей. С их помощью можно, например, фиксировать нарушения правил дорожного движения, ставить точные диагнозы и планировать лечение пациентов.
Когда нужно получить комплексное представление об объекте и составить его 3D-копию, используют трехмерное компьютерное зрение — технологию, которая позволяет анализировать и обрабатывать не одно изображение, а сразу несколько снимков одних и тех же объектов (или сцен) с разных ракурсов, и создавать точную 3D-модель из 2D-изображений. Так можно переместить из реального в виртуальный мир что угодно: от цветочного горшка до фигуры человека.
С помощью трехмерного компьютерного зрения можно как восстанавливать существующие объекты, так и создавать новые:
3D-реконструкция позволяет восстановить геометрию формы объекта по фотографиям и получить трехмерную графическую модель. Ее можно печатать на 3D-принтере или использовать для строительства. Например, с помощью виртуальной копии на основе 12 450 снимков в Париже восстанавливают собор Нотр-Дам после пожара.
Генерация новых видов позволяет получать изображения с ракурсов, отличных от тех, с которых уже были сделаны снимки. В будущем станет возможным снять, к примеру, несколько фотографий машины и воссоздать по ним ее цифровую копию. Такую 3D-модель можно рассматривать с любых ракурсов прямо в браузере.
Раньше для создания трехмерных моделей дизайнерам приходилось сутками вручную строить полигональные или CAD-модели. В последние годы технологии компьютерного зрения значительно облегчили 3D-моделирование: они позволяют «откалибровать» фотографии (определить, с каких позиций были сделаны кадры) и получить облако точек, которое можно превратить в полигональную сетку — традиционный 3D-формат, с которым работают компьютерные графики.
Алгоритмы нейросетей могут точно восстановить текстуру и материал объекта для 3D-модели. Представьте металлическую кухонную плиту. Если посмотреть на нее с разных ракурсов, то под одним углом она покажется белой, а под другим — серой, то есть цвет объектов может меняться в зависимости от точки обзора. Чтобы создать фотореалистичный объект, раньше художникам приходилось указывать дополнительные свойства поверхности, например, насколько сильно она блестит, с какого ракурса на нее будет падать тень и так далее. Нейросети упрощают эту работу — можно предварительно указать угол обзора, расположение источника света, а текстура и материал закодируются с помощью нейронных дескрипторов, после чего декодируются в нужные значения.
Где можно применять 3D-компьютерное зрение?
Использовать трехмерное компьютерное зрение можно и в индустрии развлечений, и в медицине, и в промышленности. Так, его уже применяют в роботизированной хирургии. Технология основана на стереоскопии: зона вмешательства фотографируется с двух слегка отличающихся ракурсов, после чего изображение транслируется на 3D-экран врачу в стереоочках. В отличие от простого 2D-представления, 3D-изображение заранее содержит правильную информацию о глубине объекта, что облегчает работу в момент операции.
Кроме этого, с помощью 3D CV можно создавать трехмерные копии внутренних органов пациентов, их делают на основе компьютерной томографии и МРТ. С помощью VR-очков врач может увидеть орган как снаружи, так и внутри, а датчики, закрепленные на инструментах, полностью дублируют действия хирурга. Таким образом, можно практиковать проведение операций и моделировать сложные случаи, чтобы исключить риски для жизни пациента.
Внедрить трехмерное компьютерное зрение можно и в космонавтике. Если на орбитальной станции произойдет повреждение, космонавт сможет сфотографировать его и отправить 3D-модель в центр управления полетами, а операторы — оценить полную картину случившегося, посмотрев на повреждение «в разрезе», и подсказать, что именно необходимо исправить и как.
Технологии облегчат создание реалистичных AR- и VR-игр: достаточно будет сделать несколько фотографий и прогнать их через алгоритм, чтобы получить готовый игровой 3D-объект и одним кликом поместить его в виртуальную или дополненную реальность.
Более того, с помощью трехмерного компьютерного зрения можно поместить в игру кого угодно — себя, знакомого, известного человека, — и скорректировать его внешний вид так, как пожелает игрок.
Хотя некоторых артистов уже отправляли в игру Fortnite, а известные бренды выпускают цифровые коллекции одежды для реалистичных аватаров, таких как Алиона Пол из России, чаще всего эти примеры оказываются работой графических дизайнеров, которые вручную рисуют и оптимизируют 3D-модели. Недавно российские разработчики запустили сервис Avaturn.me, который позволяет создать свой 3D-аватар с помощью трех селфи. Правда пока сгенерировать можно только голову, а затем выбрать тело, одежду и прическу.
Распространенность удаленной работы подталкивает разработчиков к поиску технологий, которые помогут наладить коммуникацию между распределенными команлами и объединить разрозненный коллектив. Трехмерное компьютерное зрение позволит создать такое решение в VR-среде. Например, Microsoft в 2021 году анонсировали создание платформы для общения в виртуальной реальности с помощью 3D-аватаров и голограмм. Дизайнеры, инженеры и другие специалисты смогут встречаться в виртуальном пространстве и совместно работать над 3D-моделями — хоть двигателей самолетов, хоть велосипедов.
Кроме того, трехмерное компьютерное зрение используют для сохранения культурного наследия. Виртуальные двойники делают исторические памятники доступнее для тех, кто не может посетить их вживую, а также позволяют сохранить достопримечательности в случае утраты. Так, команда лаборатории Сколтеха, Института искусственного интеллекта AIRI и Государственного исторического музея приступила к созданию 3D-цифровой копии интерьеров храма Василия Блаженного. С помощью лидаров (лазерных сканеров), фотокамер и дронов, они фиксируют труднодоступные элементы декора и получают облака точек, которые преобразуют в точную 3D-модель с реалистичной текстурой.
Поиск баланса
Хотя алгоритмы, которые позволяют воспроизводить цифровые 3D-модели статических объектов, уже существуют, массовых решений пока не создали. Ключевой вопрос в том, как одновременно сохранить качество и увеличить скорость работы алгоритма, чтобы применять технологию повсеместно. Нейросети, которые выдают точные и реалистичные 3D-модели, требуют больших облачных вычислений и длительного обучения: входные данные обрабатываются часами, а иногда и сутками. А минутные алгоритмы значительно теряют в качестве на выходе.
Мы с командой Сколково предложили одно из возможных решений этой проблемы — предсказывать параметры объекта, заранее обучив модель на большом объеме похожих задач, и в результате получили премию Yandex ML Prize в 2022 году. Дело в том, что за счет свойства обобщаемости нейросеть не нужно каждый раз обучать с нуля для работы с новыми объектами. Это позволило снизить время обработки 3D-представлений с нескольких часов до нескольких минут.
Чтобы обучить модель, мы подавали на вход алгоритму разные фотографии (людей, животных, предметов), он предсказывал облако точек и кодировал в это облако информацию. После этого каждая точка в облаке, помимо трехмерной координаты, стала хранить также нейронный дескриптор. Чтобы получить изображение с нужного ракурса, облако точек проецировалось на этот ракурс и нейросеть выдавала финальную картинку, дорисовывая пустоты с помощью информации из дескрипторов.
Почему эти технологии до сих пор не стали частью повседневной жизни?
Есть две ключевые проблемы. Масштабируемость (то есть, как быстро ученые и разработчики решат вопросы со скоростью и качеством кодирования, хранением и передачей 3D-данных) и вычислительные ресурсы (достаточно ли будет для новых алгоритмов мощности смартфона или, как и сейчас, будут необходимы дорогостоящие графические ускорители, спрос на которые неуклонно растет в последнее время). Чем скорее удастся разобраться с этими проблемами, тем больше новых интересных продуктов мы увидим в ближайшем будущем.
Еще один нерешенный вопрос — как бесшовно интегрировать нейросетевой подход в традиционный пайплайн работы 3D-художников. Нечто похожее уже можно увидеть в 2D-фоторедакторах. Но большинство алгоритмов компьютерной графики оптимизированы под работу с полигональными сетками и облаками точек и не подразумевают нейросетевых представлений или гибридных решений. Так, летом 2022 года NVIDIA презентовала новую модель искусственного интеллекта EG3D, которая способна генерировать реалистичные 3D-объекты из 2D-изображений. Однако редактировать напрямую нейронные представления 3D-моделей, например поменять цвет волос у аватара, пока невозможно без предварительной конвертации в традиционный формат (полигональные сетки). При этом шанс устранить эту проблему есть у каждого, кто разбирается в программировании и чей компьютер оснащен подходящими видеокартами — компания открыла доступ к исходному коду EG3D.
Кроме того, ученым только предстоит придумать, как сканировать габаритные объекты. В основном сейчас в 3D-модели переводят небольшие предметы или людей. Но что, если перед специалистами возникнет задача сделать цифровую копию города? Пока трехмерные реконструкции масштабных объектов сканируют и воссоздают по частям, используя беспилотники с лазерными сканерами. Но всё еще непонятно, как эффективно и качественно «склеить» множество локальных частей в единую 3D-реконструкцию. Кстати, карты улиц, которые мы видим в приложениях, это не совсем 3D-представление, нам только так кажется. На самом деле, это просто «стянутые» панорамные снимки.
Анимация тоже пока дается непросто: не всегда получается передавать движения тела и мимику, чтобы синхронизировать 3D-аватаров с действиями реальных людей. Над решением этой и других технологических задач сейчас и работают ученые и ИТ-корпорации: Яндекс, Samsung, NVIDIA и многие другие. Возможно, скоро каждый из нас сможет создавать 3D-модели в высоком разрешении за секунды, появятся трехмерные маркетплейсы и даже точные виртуальные копии городов в метавселенных.
Читать далее:
Исследователи обнаружили, что сперматозоиды при движении «обходят» закон Ньютона
Наша память работает совсем не так, как считали ученые
Астрономы построили крупнейшую модель, которая воспроизводит эволюцию Вселенной
Фото на обложке: изображение от kjpargeter на Freepik