Егор, расскажите, какая технология позволяет превращать фотографии с мобильного устройства в кадр фотографического качества?
В привычных нам девайсах работает целый конвейер формирования изображений. На входе в камеру попадает сцена освещенных объектов, а на выходе мы получаем готовое изображение.
До 2000-х годов инженеры, разработчики и ученые пытались максимально продублировать в девайсах работу нашей зрительной системы. К примеру, по чувствительности к свету с различными длинами волн в глазу различают три вида колбочек: колбочки S-типа чувствительны в фиолетово-синем спектре, M-типа — в зелено-желтом, и L-типа — в желто-красном. Такого же рода алгоритмы есть и в девайсах, поскольку основная задача — сформировать изображение для человека. Сделать его правдоподобным и эстетически приятным.
Мы неплохо понимаем, как устроено восприятие окружающего мира человеком при ярком свете, поэтому у нас достаточно хорошо получаются фото со всех камер днем. Но если речь идет о сумерках и темноте, пока не хватает данных о работе зрительных анализаторов в подобных условиях. Это вызов и для ученых, и для тех, кто производит технику. Тем более, сейчас в науку и производство приходит новое поколение алгоритмов искусственного интеллекта, то есть все трансформации изображения могут объединяться в рамках одной нейросети.
Наша цель — найти ИИ-решение, «улучшающее» необработанные ночные изображения с камеры и создающее на выходе изображения фотографического качества в стандартном формате RGB (sRGB). Для оценки качества использовались массовые опросы: фотографии показывали пользователям сервиса «Яндекс Задачи». Любопытно, что точка зрения профессиональных фотографов почти полностью совпала с оценкой людей, далеких от мира фотографии, согласно результатам наших прошлых соревнований.
Какие манипуляции проделываются с фотографией, чтобы повысить ее качество в условиях плохого освещения?
Канонического пайплайна в построении изображений не существует. У многих компаний это ноу-хау, сопряженное с коммерческой тайной. Поэтому я расскажу самый общий вариант.
Итак, о технологии: вначале устройство делает 8–16 фотографий с большой скоростью и небольшим отставанием по времени. Затем эти кадры используются для вычисления одного, более хорошего (это называется вычислительная фотография). Если брать изображение с мобильного телефона, то задача усложняется тем, что изображение более шумное.
Как только мы нажимаем на кнопку «Снять изображение», матрица полупроводниковых светочувствительных элементов считает число фотонов, упавших на каждый пиксель. При этом каждый пиксель отличается от своих соседей, представляя собой, по сути, одномерный массив чисел. Вначале у нас нет цветной картинки, только серое изображение. Однако каждый пиксель покрыт одним из трех цветовых фильтров, что позволяет оценивать цвет. Следующий шаг пайплайна — демозаикинг. Из мозаики, где у нас есть, например, значение только зеленого фильтра, нужно восстановить по соседним пикселям значение красного и синего. Тут стоит математическая задача интерполяции. Можно делать вычисления классическим способом, но также сейчас за этим стоит много нейросетевых решений. Следом за этим, как правило, идет первичное шумоподавление. Затем выполняется оценка освещения. Задача заключается в том, чтобы по косвенным признакам в сцене (цвет травы, стен, бликов) оценить цвет освещения (или, точнее, цвет белой бумаги под этим освещением). Обычно предполагается, что источник освещения в сцене один. Так проще с точки зрения математики. В жизни освещение более сложное, но в пайплайнах этим пренебрегают.
Дальше нужно выполнить коррекцию изображения, чтобы сымитировать механизм цветовой константности. Человек понимает, что трава зеленая, а бумага белая, при достаточно разных условиях освещения. Хотя это не является математическим свойством, скорее, это область психофизиологии.
Цвета получившегося изображения далее переводят в интерфейсное цветовое пространство, чтобы его можно было воспроизводить на всех девайсах. Как только это случилось, остаются шаги, связанные с украшательством. Нужно сделать тонмейпинг и гамма-коррекцию. Напоследок получившаяся картинка кодируется в расширение jpg.
Какое у вашей разработки может быть практическое применение?
Правдоподобная цветопередача важна во многих областях. Например, в медицине. Когда врач проводит операцию с помощью видеоэндоскопа, чтобы принять правильное решение, нужно стабильное распознавание цвета. Еще одна область применения — вычисление цифровых характеристик. В будущем есть идея превратить мобильное устройство в прибор, измеряющий красители. Точный цвет обоев, платья, автомобиля, продуктов лакокрасочной отрасли.
Также распознавания цвета помогает различным системам мониторинга. В частности, мониторингу пожароопасной ситуации на местности. Но тут стоит подчеркнуть, что любые приборы, связанные с мониторингом и безопасностью, требуют строгой стандартизации и точной цветопередачи. Их разработка занимает больше времени за счет контроля со стороны государства.
Есть еще один момент, возможно, менее очевидный. В любой стране мира есть люди, страдающие врожденными аномалиями цветового зрения (дальтонизмом). Создание адекватного визуального контента для них — очень важная задача, ведь порой человек, даже глядя на карту пробок, не может сориентироваться, какого они цвета, не говоря уж о каких-то более сложных ситуациях.
Расскажите, пожалуйста, о вашей научной деятельности. Что значит «репродукция и синтез цвета»?
У меня две научные группы — в Институте проблем передачи информации РАН и в Институте AIRI. Они сотрудничают между собой. Фактически деятельность нашего коллектива строится вокруг цветовосприятия и его математического моделирования, то есть цветовая вычислительная фотография. Используя методы, основанные на анализе цифровых характеристик, мы пытаемся анализировать свойства сцены, чтобы добиться хорошего распознавания цвета вне зависимости от световых характеристик.
Что касается репродукции — то это, по сути, работа с дополненной реальностью. Сейчас это востребованное направление, например, для видеоигр. Объект, помещенный в дополненную реальность, должен взаимодействовать с другими объектами реального мира: отбрасывать тень, быть где-то чуть ярче, где-то чуть темнее. На данный момент эта задача в основном не решена.
Сфера применения ваших исследований — в том числе оптический анализ качества фруктов и овощей на агропроизводстве, а также оптическое распознавание отходов при сортировке мусора на предприятиях. Как работает это распознавание?
Да, мы занимаемся этим в рамках компании EKSLi. Давайте рассмотрим пример сортировки отходов. Допустим, нам нужно выбрать из потока все бутылки. Когда объект движется по ленте конвейера, на него смотрит камера, но в принципе все то же самое может увидеть и автоматическая система. Первичная классификация происходит по форме — тут задействованы нейросетевые решения. Затем нужно проанализировать цвет. Это делают те же алгоритмы, которые мы закладываем для анализа свойств сцены. Происходит оценка освещения, переход в правильное цветовое пространство, затем определение цветовых координат и сравнение с эталонными значениями. Так мы, к примеру, понимаем, имеет бутылка темно-зеленый или кислотно-зеленый цвет. Эта технология очень востребована в рамках нацпроекта «Экология» и идеи утилизации отходов.
Что касается оптического анализа качества овощей и фруктов, мы тоже анализируем объекты, идущие по конвейеру. Мы работаем с крупным бизнесом, завязанным на импорт и экспорт, а также с ритейлом. Вот пришла партия картофеля, как понять, хорошая она или плохая? Пока это определяется в основном субъективной оценкой, однако процесс можно автоматизировать и объективизировать.
Какова на данный момент точность распознавания отходов и есть ли прогресс за последние 10 лет?
На данный момент точность порядка 95% и выше. Динамика очень позитивная, это связано с повышением качества детектирования за счет нейросетевых решений. Но в то же время есть куда двигаться. Нельзя сказать, что ИИ и искусственный сортировщик — это панацея, это лишь часть комплексной системы. Но спрос на технологию большой и в дальнейшем, скорее всего, она пойдет по пути дальнейшей автоматизации процессов и на новых заводах, и в рамках переоснащения существующих.
На каком «железе» работают эти вычислительные технологии?
Технические характеристики оборудования напрямую зависят от того количества производственных задач, которые предстоит решать. Наша идеология заключается в том, чтобы продукт был ресурсоэффективным. Имеющаяся у нас платформа сейчас по мощности заметно уступает современному мобильному телефону. Никаких мощных видеокарт. Ничего особо сложного — одноплатный компьютер с несколькими ядрами и небольшим количеством памяти. Крутая технология — не равно крутой компьютер, в индустрии больше котируются безотказность, надежность и неприхотливость.
Напоследок — о мечтах. Какие технологии из вашей сферы теоретически возможны, но пока далеки от реализации?
У меня есть две профессиональных мечты. Одна — построить заметно более полную модель того, как человек воспринимает цвета. Хочется, чтобы новые знания в этой сфере стали частью алгоритмов ИИ и стандартов, вошло в нашу жизнь и несло пользу. К примеру, если знать, как организовано цветовосприятие, можно сжимать изображение без потери качества.
Также есть идея построить завод, который будет создавать другие заводы для управления потоками в промышленности.
Обложка — downloaded from Freepik.