Определение текста, VR и беспилотники: как компьютерное зрение избавляет от рутины, но угрожает данным

Желание научить компьютер «видеть» появилось вместе с самими устройствами. Первые попытки предпринимались еще в 70-х годах, а прорыв случился в 90-е — появилась программа, которая научилась «читать». Но текстом все не ограничилось — сейчас технологии Computer Vision помогают решать рутинные задачи, но одновременно с этим создают опасения о безопасности данных. Об этом рассказывает Роман Касовский, техлид по направлению машинного обучения и искусственного интеллекта ИТ-компании ZeBrains.

С чего все начиналось

Чтобы научить компьютер «видеть», сначала нужен сенсор, который считывает информацию из окружающего пространства и превращает ее в изображение. Второй компонент — программа обработки этого изображения.

Печатный текст оказался идеальным испытательным стендом для первого поколения алгоритмов — достаточно было увеличить контраст изображения и найти переходы из белого в черное и обратно. Это позволяло выявить границы букв и их форму, после чего можно было определить каждую букву, сравнивая ее с заранее подготовленными образцами.

Создание библиотек с открытым кодом, таких как OpenCV, открыло дверь для экспериментов с произвольными изображениями. По форме выявленных граней объекта компьютер мог понять, где изображены человек, глаз человека, птица, автомобиль — системы компьютерного зрения вышли за границы распознавания текста.

Появились камеры слежения, подававшие сигнал, если в кадре появлялся человек. Приложения с компьютерным зрением поселились в мобильных телефонах: идентификация по лицу, отпечатку пальца, сетчатке глаза или сканер QR-кодов давно стали привычными функциями. Причем сейчас за понимание того, что изображено, отвечает не примитивный алгоритм сравнения с образцом, а нейросеть, обученная по технологии машинного обучения.

Чем зрение компьютера лучше человеческого

Первое и очевидное преимущество CV — гораздо более широкий диапазон восприятия. Компьютерное зрение, в отличие от нашего взгляда, не ограничено видимым спектром. Главное, чтобы сенсор умел создавать изображение для дальнейшей обработки, а что является источником этого изображения — тепловизор, лидар, видеокамера, рентгеновская установка, аппарат УЗИ или МРТ — неважно.

Второе преимущество систем компьютерного зрения — отсутствие человеческого фактора. Они не устают, не отвлекаются, не хотят спать, имеют обзор в 360 градусов. Нужную информацию можно затребовать из архива для повторного просмотра.

Кроме того, в процессе обучения нейронная сеть может выявить связи, не очевидные для человеческого восприятия. Например, система анализирует изображения внутренних органов человека и формирует представление о том, как они должны выглядеть. Так можно определить не только тип органа, но и степень отклонения от нормы — в частности обнаружить опухоль, которая не диагностируется другими методами.

Как компьютерное зрение меняет наш взгляд на мир

Технологии компьютерного зрения уже сейчас применяются в медицине для обнаружения раковых опухолей, в промышленности для контроля сборки на стадии производства и в автомобилях как дополнительные системы безопасности. Мы не задумываясь пользуемся компьютерным зрением, чтобы разблокировать устройство, и привычно ругаемся на камеры на дорогах, которые выписывают штрафы.

Компьютерное зрение меняет даже восприятие спорта — системы автоматического слежения управляют камерами трансляций, помогают разбирать спорные моменты — остался ли мяч в пределах теннисного корта или пересек ли линию ворот, было ли нарушение или положение «вне игры».

С помощью компьютерного зрения ведется учет загруженности автотранспорта. Система контролирует, сколько задних колес у фуры соприкасаются с дорожным покрытием, насколько деформированы при этом шины, и рассчитывает массу полезного груза автомобиля. Остается только распознать номерной знак и внести запись в базу данных.

Компьютерное зрение незаменимо и в складском учете. Это работает так: сканер считывает штрихкод на коробке с товаром и вносит информацию в базу данных. Причем необязательно сканировать каждую коробку — гораздо удобнее считать QR-коды сразу со всех коробок на паллете.

Продолжают развиваться и системы обработки текстов — в современных системах документооборота скан договора или накладной загружается в виде PDF-документа, но благодаря компьютерному зрению по нему можно выполнить поиск, классифицировать или скопировать текст.

Отдельное направление — интеграция компьютерного зрения и космических технологий. В сельском хозяйстве с помощью спутников контролируют состояние урожая, МЧС отслеживает возникновение пожаров и наводнений. Корпорация Google с помощью компьютерного зрения на спутниковых снимках идентифицировала и нанесла на карту все строения в Африке — от землянок, вырытых в холме на берегу реки, до многоэтажек.

Технологии компьютерного зрения нужны для создания дополненной реальности — именно благодаря распознаванию опорных точек удается корректно встраивать синтезированное изображение в кадр и совмещать реальное и виртуальное пространства. Например, в приложении для удаленной примерки ювелирных украшений камера смартфона считывает положение руки пользователя, строит модель и добавляет на нее выбранное кольцо. Ставшие уже привычными 3D-маски в Instagram — тоже одно из проявлений компьютерного зрения в сочетании с VR/AR.

Набирают популярность и узкоспециализированные приложения, которые по фотографии листа выдают информацию о дереве, помогают грибникам выяснить, съедобный ли им достался трофей, а коллекционерам — оперативно получить информацию о монете, просто наведя на нее камеру смартфона.

Какие недостатки есть у систем компьютерного зрения

Системы компьютерного зрения крайне чувствительны к аппаратным ресурсам. Чем выше разрешение внешних сенсоров и больше вычислительных мощностей — тем надежнее и точнее процесс распознавания. Это прослеживается на примере технологий распознавания лиц для разблокировки мобильных телефонов. Десять лет назад для этого требовалась хорошая освещенность и размещение камеры на строго определенном расстоянии от лица. Сегодня телефон узнает хозяина даже ночью.

Другой недостаток CV, который можно отнести к «болезням роста», — ошибки в классификации схожих объектов. Например, человек легко отличит обезьяну от кенгуру, а ящерицу от крокодила, а для компьютера это не так просто при похожих позах и определенных ракурсах съемки.

Еще одно ограничение компьютерного зрения — процесс принятия решений. Современный автомобиль премиум-класса может видеть дальше, чем человек: у него нет слепых зон, не мешает темнота ночью или туман, он может обнаружить приближение объекта по его тепловому излучению. Но в реальной ситуации на дороге человек все еще лучше принимает решения с учетом сложившейся обстановки. И для того, чтобы повысить безопасность, автопилоту приходится следить не только за дорожной обстановкой, но и за собственным водителем.

В мире машинного зрения идентификация — один из базовых процессов, что сразу вызывает множество вопросов, связанных с приватностью и персональными данными. Поэтому нужно учитывать требования законодательства и этические ограничения, связанные с самим фактом оценки компьютером действий человека и возможными последствиями решений, принятых алгоритмами. Тема ошибочно выписанных штрафов — наглядное тому подтверждение.

Что ждет нас в будущем

Одна из самых распространенных страшилок, связанных с компьютерного зрения, — образ «цифрового концлагеря», тотального контроля, от которого невозможно скрыться. Системы компьютерного зрения будущего смогут контролировать не только перемещения, но и намерения: хмуришься — значит грустный, оглядываешься — значит что-то замышляешь. Фантастические блокбастеры-антиутопии тоже добавляют фобий и негатива в ожидании таких вариантов будущего.

Сценаристы любят пощекотать нервы, пугая новыми технологиями. На практике же мир и сегодня «прозрачен» для технологий контроля. А вот плюсы от внедрения компьютерного зрения позволят в будущем не заботиться о многих рутинных вещах. Например, мы, скорее всего, забудем про кассы в супермаркетах — система сама идентифицирует вас на входе, проконтролирует, что именно вы кладете в корзину, посчитает стоимость на выходе и сама спишет средства со счета. Благодаря компьютерному зрению можно будет оперативно перенаправлять транспортные потоки, чтобы избежать пробок на дорогах, а движение в целом станет безопаснее.

Компьютерное зрение — технология будущего, которая уже сейчас влияет на нашу жизнь. Она глубоко интегрирована в современный мир и мы пользуемся ее возможностями ежедневно. Но мы еще в самом начале пути, где предстоит не только решить технические вопросы повышения вычислительных мощностей, но и научится жить в новой реальности. Для этого придется победить фобии и придумать законодательство, которое не даст технологии выйти из-под контроля.


Читать далее:

Посмотрите на фотографии двух сливающихся галактик, сделанные с разницей в 9 лет

Илон Маск: корабль Starship может поднять в 1 000 раз больше груза, чем другие ракеты

Темная материя обращает обычные частицы и заполняет Вселенную

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Китайские ученые превратили мох в губку, которая впитывает нефть
Наука
Университет Иннополис запускает бесплатные экскурсии в Центр робототехники
Иннополис
Интерактивная карта клетки человека раскрывает тайны детского рака костей
Наука
«Уэбб» раскрыл детали космической катастрофы: как звезда поглотила планету
Космос
Российский госсектор потратил 2,4 млрд рублей за год на оборудование для ИИ
Новости
Китайская компания анонсировала первый матч по боксу между роботами
Новости
Эта черная дыра «проснулась» настолько голодной, что нарушила все модели ученых
Космос
Мошенники начали использовать схему с домофоном, чтобы красть деньги с банковских карт
Новости
Галактика-соседка Млечного Пути начинает разрушаться: что происходит
Космос
Россиян поздравили с Днем космонавтики прямо с МКС
Космос
Разработаны «бактерии-шпионы»: они посылают сигнал, заметный с высоты
Наука
Ученые разработали «плащ-невидимку» для нейронов для лечения Паркинсона
Наука
В России разработали проект строительства атомной электростанции на Луне
Космос
Пробуждение гиганта: яркие вспышки наблюдали у проснувшейся черной дыры
Космос
В ИТМО придумали, как «продлить жизнь» ракового белка для тестирования лекарств
Наука
Создана карта полумиллиарда нейронных связей, которые позволяют мышам видеть
Наука
Ученые из Яндекса и MIT придумали, как запускать LLM на ноутбуках и смартфонах
Новости
Облачную платформу для квантовых вычислений создали в Университете Иннополис
Новости
Эйнштейн ошибся: возможно, пространства-времени вообще не существует
Космос
Тестовый снимок «Гершель» показал скрытые галактики во Вселенной
Космос