Как 3D-аватары будут помогать в разных отраслях

Сегодня многие компании совместно с научным сообществом трудятся над созданием фотореалистичных аватаров. Некоторые уже используют их в деле, например, виртуальная ведущая, полностью сгенерированная нейросетями, читает прогноз погоды на телеканале «Своё ТВ», а группа ABBA вернулась на сцену в виде цифровых копий спустя 40 лет перерыва. Для создания таких «двойников» используют большой стек технологий, одна из ключевых — трехмерное компьютерное зрение. О том, что это такое и где применяется, рассказал Руслан Рахимов, аспирант Сколтеха и лауреат премии Yandex ML Prize 2022 года. Лауреатов 2023 года объявят на награждении, которое состоится в декабре.

Что такое трехмерное компьютерное зрение?

Компьютерное зрение (СV) позволяет идентифицировать и классифицировать объекты, распознавать образы, отслеживать движения и выполнять другие задачи, связанные с изображениями. Сегодня CV невозможно представить без использования нейросетей. С их помощью можно, например, фиксировать нарушения правил дорожного движения, ставить точные диагнозы и планировать лечение пациентов.

Когда нужно получить комплексное представление об объекте и составить его 3D-копию, используют трехмерное компьютерное зрение — технологию, которая позволяет анализировать и обрабатывать не одно изображение, а сразу несколько снимков одних и тех же объектов (или сцен) с разных ракурсов, и создавать точную 3D-модель из 2D-изображений. Так можно переместить из реального в виртуальный мир что угодно: от цветочного горшка до фигуры человека.

С помощью трехмерного компьютерного зрения можно как восстанавливать существующие объекты, так и создавать новые:

3D-реконструкция позволяет восстановить геометрию формы объекта по фотографиям и получить трехмерную графическую модель. Ее можно печатать на 3D-принтере или использовать для строительства. Например, с помощью виртуальной копии на основе 12 450 снимков в Париже восстанавливают собор Нотр-Дам после пожара.

Генерация новых видов позволяет получать изображения с ракурсов, отличных от тех, с которых уже были сделаны снимки. В будущем станет возможным снять, к примеру, несколько фотографий машины и воссоздать по ним ее цифровую копию. Такую 3D-модель можно рассматривать с любых ракурсов прямо в браузере.

Раньше для создания трехмерных моделей дизайнерам приходилось сутками вручную строить полигональные или CAD-модели. В последние годы технологии компьютерного зрения значительно облегчили 3D-моделирование: они позволяют «откалибровать» фотографии (определить, с каких позиций были сделаны кадры) и получить облако точек, которое можно превратить в полигональную сетку — традиционный 3D-формат, с которым работают компьютерные графики.

Алгоритмы нейросетей могут точно восстановить текстуру и материал объекта для 3D-модели. Представьте металлическую кухонную плиту. Если посмотреть на нее с разных ракурсов, то под одним углом она покажется белой, а под другим — серой, то есть цвет объектов может меняться в зависимости от точки обзора. Чтобы создать фотореалистичный объект, раньше художникам приходилось указывать дополнительные свойства поверхности, например, насколько сильно она блестит, с какого ракурса на нее будет падать тень и так далее. Нейросети упрощают эту работу — можно предварительно указать угол обзора, расположение источника света, а текстура и материал закодируются с помощью нейронных дескрипторов, после чего декодируются в нужные значения.

Где можно применять 3D-компьютерное зрение? 

Использовать трехмерное компьютерное зрение можно и в индустрии развлечений, и в медицине, и в промышленности. Так, его уже применяют в роботизированной хирургии. Технология основана на стереоскопии: зона вмешательства фотографируется с двух слегка отличающихся ракурсов, после чего изображение транслируется на 3D-экран врачу в стереоочках. В отличие от простого 2D-представления, 3D-изображение заранее содержит правильную информацию о глубине объекта, что облегчает работу в момент операции.

Источник: vistanews.ru

Кроме этого, с помощью 3D CV можно создавать трехмерные копии внутренних органов пациентов, их делают на основе компьютерной томографии и МРТ. С помощью VR-очков врач может увидеть орган как снаружи, так и внутри, а датчики, закрепленные на инструментах, полностью дублируют действия хирурга. Таким образом, можно практиковать проведение операций и моделировать сложные случаи, чтобы исключить риски для жизни пациента.

Источник: кадр из сериала «Хороший доктор»

Внедрить трехмерное компьютерное зрение можно и в космонавтике. Если на орбитальной станции произойдет повреждение, космонавт сможет сфотографировать его и отправить 3D-модель в центр управления полетами, а операторы — оценить полную картину случившегося, посмотрев на повреждение «в разрезе», и подсказать, что именно необходимо исправить и как.

Технологии облегчат создание реалистичных AR- и VR-игр: достаточно будет сделать несколько фотографий и прогнать их через алгоритм, чтобы получить готовый игровой 3D-объект и одним кликом поместить его в виртуальную или дополненную реальность. 

Более того, с помощью трехмерного компьютерного зрения можно поместить в игру кого угодно — себя, знакомого, известного человека, — и скорректировать его внешний вид так, как пожелает игрок. 

Хотя некоторых артистов уже отправляли в игру Fortnite, а известные бренды выпускают цифровые коллекции одежды для реалистичных аватаров, таких как Алиона Пол из России, чаще всего эти примеры оказываются работой графических дизайнеров, которые вручную рисуют и оптимизируют 3D-модели. Недавно российские разработчики запустили сервис Avaturn.me, который позволяет создать свой 3D-аватар с помощью трех селфи. Правда пока сгенерировать можно только голову, а затем выбрать тело, одежду и прическу.

ЗD-аватар Алиона Пол в одежде из виртуальной коллекции Алены Ахмадуллиной. Источник: posta-magazine.ru 

Распространенность удаленной работы подталкивает разработчиков к поиску технологий, которые помогут наладить коммуникацию между распределенными команлами и объединить разрозненный коллектив. Трехмерное компьютерное зрение позволит создать такое решение в VR-среде. Например, Microsoft в 2021 году анонсировали создание платформы для общения в виртуальной реальности с помощью 3D-аватаров и голограмм. Дизайнеры, инженеры и другие специалисты смогут встречаться в виртуальном пространстве и совместно работать над 3D-моделями — хоть двигателей самолетов, хоть велосипедов.

Кроме того, трехмерное компьютерное зрение используют для сохранения культурного наследия. Виртуальные двойники делают исторические памятники доступнее для тех, кто не может посетить их вживую, а также позволяют сохранить достопримечательности в случае утраты. Так, команда лаборатории Сколтеха, Института искусственного интеллекта AIRI и Государственного исторического музея приступила к созданию 3D-цифровой копии интерьеров храма Василия Блаженного. С помощью лидаров (лазерных сканеров), фотокамер и дронов, они фиксируют труднодоступные элементы декора и получают облака точек, которые преобразуют в точную 3D-модель с реалистичной текстурой.

Источник: пресс-служба Сколтеха

Поиск баланса

Хотя алгоритмы, которые позволяют воспроизводить цифровые 3D-модели статических объектов, уже существуют, массовых решений пока не создали. Ключевой вопрос в том, как одновременно сохранить качество и увеличить скорость работы алгоритма, чтобы применять технологию повсеместно. Нейросети, которые выдают точные и реалистичные 3D-модели, требуют больших облачных вычислений и длительного обучения: входные данные обрабатываются часами, а иногда и сутками. А минутные алгоритмы значительно теряют в качестве на выходе.

Мы с командой Сколково предложили одно из возможных решений этой проблемы  — предсказывать параметры объекта, заранее обучив модель на большом объеме похожих задач, и в результате получили премию Yandex ML Prize в 2022 году. Дело в том, что за счет свойства обобщаемости нейросеть не нужно каждый раз обучать с нуля для работы с новыми объектами. Это позволило снизить время обработки 3D-представлений с нескольких часов до нескольких минут.

Чтобы обучить модель, мы подавали на вход алгоритму разные фотографии (людей, животных, предметов), он предсказывал облако точек и кодировал в это облако информацию. После этого каждая точка в облаке, помимо трехмерной координаты, стала хранить также нейронный дескриптор. Чтобы получить изображение с нужного ракурса, облако точек проецировалось на этот ракурс и нейросеть выдавала финальную картинку, дорисовывая пустоты с помощью информации из дескрипторов.

Почему эти технологии до сих пор не стали частью повседневной жизни?

Есть две ключевые проблемы. Масштабируемость (то есть, как быстро ученые и разработчики решат вопросы со скоростью и качеством кодирования, хранением и передачей 3D-данных) и вычислительные ресурсы (достаточно ли будет для новых алгоритмов мощности смартфона или, как и сейчас, будут необходимы дорогостоящие графические ускорители, спрос на которые неуклонно растет в последнее время). Чем скорее удастся разобраться с этими проблемами, тем больше новых интересных продуктов мы увидим в ближайшем будущем.

Еще один нерешенный вопрос — как бесшовно интегрировать нейросетевой подход в традиционный пайплайн работы 3D-художников. Нечто похожее уже можно увидеть в 2D-фоторедакторах. Но большинство алгоритмов компьютерной графики оптимизированы под работу с полигональными сетками и облаками точек и не подразумевают нейросетевых представлений или гибридных решений. Так, летом 2022 года NVIDIA презентовала новую модель искусственного интеллекта EG3D, которая способна генерировать реалистичные 3D-объекты из 2D-изображений. Однако редактировать напрямую нейронные представления 3D-моделей, например поменять цвет волос у аватара, пока невозможно без предварительной конвертации в традиционный формат (полигональные сетки). При этом шанс устранить эту проблему есть у каждого, кто разбирается в программировании и чей компьютер оснащен подходящими видеокартами — компания открыла доступ к исходному коду EG3D.

Кроме того, ученым только предстоит придумать, как сканировать габаритные объекты. В основном сейчас в 3D-модели переводят небольшие предметы или людей. Но что, если перед специалистами возникнет задача сделать цифровую копию города? Пока трехмерные реконструкции масштабных объектов сканируют и воссоздают по частям, используя беспилотники с лазерными сканерами. Но всё еще непонятно, как эффективно и качественно «склеить» множество локальных частей в единую 3D-реконструкцию. Кстати, карты улиц, которые мы видим в приложениях, это не совсем 3D-представление, нам только так кажется. На самом деле, это просто «стянутые» панорамные снимки.

Анимация тоже пока дается непросто: не всегда получается передавать движения тела и мимику, чтобы синхронизировать 3D-аватаров с действиями реальных людей. Над решением этой и других технологических задач сейчас и работают ученые и ИТ-корпорации: Яндекс, Samsung, NVIDIA и многие другие. Возможно, скоро каждый из нас сможет создавать 3D-модели в высоком разрешении за секунды, появятся трехмерные маркетплейсы и даже точные виртуальные копии городов в метавселенных.


Читать далее:

Исследователи обнаружили, что сперматозоиды при движении «обходят» закон Ньютона

Наша память работает совсем не так, как считали ученые

Астрономы построили крупнейшую модель, которая воспроизводит эволюцию Вселенной

Фото на обложке: изображение от kjpargeter на Freepik

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Томатам вернули сладость, отключив два гена
Наука
«Красные монстры» ранней Вселенной противоречат моделям развития галактик
Наука
Google использовал 40 000 000 телефонов, чтобы составить карту ионосферы
Наука
Физики обнаружили, что сам свет может отбрасывать тень
Наука
Продолжительность детства у древних людей изучили по ископаемым зубам
Наука
Оказалось, мы живем не в лучшей для разумной жизни Вселенной
Космос
В России пройдет международный хакатон по обнаружению голосовых дипфейков
Новости
Этот гаджет превратит смартфон во флейту или другой музыкальный инструмент
Новости
Госдума обяжет установку RuStore на всех гаджетах в России: проект приняли в I чтении
Новости
Эйнштейн ошибался: его главная теория не подходит нашей Вселенной
Космос
Сотни стартапов и тысячи идей: в Москве подвели итоги форума «ТехПред 2024»
Новости
Контур.Толк запускает бесплатную версию для онлайн-встреч без ограничений по времени
Технологии
Starship довезет пассажиров из Европы в США за полчаса на скорости 27 000 км/ч
Новости
Новое приложение для видеокарт GeForce от Nvidia уже доступно для скачивания
Новости
Rutube упростил подачу сведений о блогерах в Роскомнадзор
Новости
Бюджетный термоядерный реактор смог удержать плазму при 300 000 °С 
Новости
Посмотрите на картину робота-художника: ее продали 1 000 000 долларов
Новости
Илона Маска назначили в Белый дом: какие планы у миллиардера в правительстве Трампа
Новости
Ученая вылечила собственный рак с помощью вирусов из лаборатории
Наука
Платформу китайского гуманоидного робота открыли для всех разработчиков
Новости