Кейсы 10 ноября 2021

Определение текста, VR и беспилотники: как компьютерное зрение избавляет от рутины, но угрожает данным

Далее

Желание научить компьютер «видеть» появилось вместе с самими устройствами. Первые попытки предпринимались еще в 70-х годах, а прорыв случился в 90-е — появилась программа, которая научилась «читать». Но текстом все не ограничилось — сейчас технологии Computer Vision помогают решать рутинные задачи, но одновременно с этим создают опасения о безопасности данных. Об этом рассказывает Роман Касовский, техлид по направлению машинного обучения и искусственного интеллекта ИТ-компании ZeBrains.

С чего все начиналось

Чтобы научить компьютер «видеть», сначала нужен сенсор, который считывает информацию из окружающего пространства и превращает ее в изображение. Второй компонент — программа обработки этого изображения.

Печатный текст оказался идеальным испытательным стендом для первого поколения алгоритмов — достаточно было увеличить контраст изображения и найти переходы из белого в черное и обратно. Это позволяло выявить границы букв и их форму, после чего можно было определить каждую букву, сравнивая ее с заранее подготовленными образцами.

Создание библиотек с открытым кодом, таких как OpenCV, открыло дверь для экспериментов с произвольными изображениями. По форме выявленных граней объекта компьютер мог понять, где изображены человек, глаз человека, птица, автомобиль — системы компьютерного зрения вышли за границы распознавания текста.

Появились камеры слежения, подававшие сигнал, если в кадре появлялся человек. Приложения с компьютерным зрением поселились в мобильных телефонах: идентификация по лицу, отпечатку пальца, сетчатке глаза или сканер QR-кодов давно стали привычными функциями. Причем сейчас за понимание того, что изображено, отвечает не примитивный алгоритм сравнения с образцом, а нейросеть, обученная по технологии машинного обучения.

Чем зрение компьютера лучше человеческого

Первое и очевидное преимущество CV — гораздо более широкий диапазон восприятия. Компьютерное зрение, в отличие от нашего взгляда, не ограничено видимым спектром. Главное, чтобы сенсор умел создавать изображение для дальнейшей обработки, а что является источником этого изображения — тепловизор, лидар, видеокамера, рентгеновская установка, аппарат УЗИ или МРТ — неважно.

Второе преимущество систем компьютерного зрения — отсутствие человеческого фактора. Они не устают, не отвлекаются, не хотят спать, имеют обзор в 360 градусов. Нужную информацию можно затребовать из архива для повторного просмотра.

Кроме того, в процессе обучения нейронная сеть может выявить связи, не очевидные для человеческого восприятия. Например, система анализирует изображения внутренних органов человека и формирует представление о том, как они должны выглядеть. Так можно определить не только тип органа, но и степень отклонения от нормы — в частности обнаружить опухоль, которая не диагностируется другими методами.

Как компьютерное зрение меняет наш взгляд на мир

Технологии компьютерного зрения уже сейчас применяются в медицине для обнаружения раковых опухолей, в промышленности для контроля сборки на стадии производства и в автомобилях как дополнительные системы безопасности. Мы не задумываясь пользуемся компьютерным зрением, чтобы разблокировать устройство, и привычно ругаемся на камеры на дорогах, которые выписывают штрафы.

Компьютерное зрение меняет даже восприятие спорта — системы автоматического слежения управляют камерами трансляций, помогают разбирать спорные моменты — остался ли мяч в пределах теннисного корта или пересек ли линию ворот, было ли нарушение или положение «вне игры».

С помощью компьютерного зрения ведется учет загруженности автотранспорта. Система контролирует, сколько задних колес у фуры соприкасаются с дорожным покрытием, насколько деформированы при этом шины, и рассчитывает массу полезного груза автомобиля. Остается только распознать номерной знак и внести запись в базу данных.

Компьютерное зрение незаменимо и в складском учете. Это работает так: сканер считывает штрихкод на коробке с товаром и вносит информацию в базу данных. Причем необязательно сканировать каждую коробку — гораздо удобнее считать QR-коды сразу со всех коробок на паллете.

Продолжают развиваться и системы обработки текстов — в современных системах документооборота скан договора или накладной загружается в виде PDF-документа, но благодаря компьютерному зрению по нему можно выполнить поиск, классифицировать или скопировать текст.

Отдельное направление — интеграция компьютерного зрения и космических технологий. В сельском хозяйстве с помощью спутников контролируют состояние урожая, МЧС отслеживает возникновение пожаров и наводнений. Корпорация Google с помощью компьютерного зрения на спутниковых снимках идентифицировала и нанесла на карту все строения в Африке — от землянок, вырытых в холме на берегу реки, до многоэтажек.

Технологии компьютерного зрения нужны для создания дополненной реальности — именно благодаря распознаванию опорных точек удается корректно встраивать синтезированное изображение в кадр и совмещать реальное и виртуальное пространства. Например, в приложении для удаленной примерки ювелирных украшений камера смартфона считывает положение руки пользователя, строит модель и добавляет на нее выбранное кольцо. Ставшие уже привычными 3D-маски в Instagram — тоже одно из проявлений компьютерного зрения в сочетании с VR/AR.

Набирают популярность и узкоспециализированные приложения, которые по фотографии листа выдают информацию о дереве, помогают грибникам выяснить, съедобный ли им достался трофей, а коллекционерам — оперативно получить информацию о монете, просто наведя на нее камеру смартфона.

Какие недостатки есть у систем компьютерного зрения

Системы компьютерного зрения крайне чувствительны к аппаратным ресурсам. Чем выше разрешение внешних сенсоров и больше вычислительных мощностей — тем надежнее и точнее процесс распознавания. Это прослеживается на примере технологий распознавания лиц для разблокировки мобильных телефонов. Десять лет назад для этого требовалась хорошая освещенность и размещение камеры на строго определенном расстоянии от лица. Сегодня телефон узнает хозяина даже ночью.

Другой недостаток CV, который можно отнести к «болезням роста», — ошибки в классификации схожих объектов. Например, человек легко отличит обезьяну от кенгуру, а ящерицу от крокодила, а для компьютера это не так просто при похожих позах и определенных ракурсах съемки.

Еще одно ограничение компьютерного зрения — процесс принятия решений. Современный автомобиль премиум-класса может видеть дальше, чем человек: у него нет слепых зон, не мешает темнота ночью или туман, он может обнаружить приближение объекта по его тепловому излучению. Но в реальной ситуации на дороге человек все еще лучше принимает решения с учетом сложившейся обстановки. И для того, чтобы повысить безопасность, автопилоту приходится следить не только за дорожной обстановкой, но и за собственным водителем.

В мире машинного зрения идентификация — один из базовых процессов, что сразу вызывает множество вопросов, связанных с приватностью и персональными данными. Поэтому нужно учитывать требования законодательства и этические ограничения, связанные с самим фактом оценки компьютером действий человека и возможными последствиями решений, принятых алгоритмами. Тема ошибочно выписанных штрафов — наглядное тому подтверждение.

Что ждет нас в будущем

Одна из самых распространенных страшилок, связанных с компьютерного зрения, — образ «цифрового концлагеря», тотального контроля, от которого невозможно скрыться. Системы компьютерного зрения будущего смогут контролировать не только перемещения, но и намерения: хмуришься — значит грустный, оглядываешься — значит что-то замышляешь. Фантастические блокбастеры-антиутопии тоже добавляют фобий и негатива в ожидании таких вариантов будущего.

Сценаристы любят пощекотать нервы, пугая новыми технологиями. На практике же мир и сегодня «прозрачен» для технологий контроля. А вот плюсы от внедрения компьютерного зрения позволят в будущем не заботиться о многих рутинных вещах. Например, мы, скорее всего, забудем про кассы в супермаркетах — система сама идентифицирует вас на входе, проконтролирует, что именно вы кладете в корзину, посчитает стоимость на выходе и сама спишет средства со счета. Благодаря компьютерному зрению можно будет оперативно перенаправлять транспортные потоки, чтобы избежать пробок на дорогах, а движение в целом станет безопаснее.

Компьютерное зрение — технология будущего, которая уже сейчас влияет на нашу жизнь. Она глубоко интегрирована в современный мир и мы пользуемся ее возможностями ежедневно. Но мы еще в самом начале пути, где предстоит не только решить технические вопросы повышения вычислительных мощностей, но и научится жить в новой реальности. Для этого придется победить фобии и придумать законодательство, которое не даст технологии выйти из-под контроля.


Читать далее:

Посмотрите на фотографии двух сливающихся галактик, сделанные с разницей в 9 лет

Илон Маск: корабль Starship может поднять в 1 000 раз больше груза, чем другие ракеты

Темная материя обращает обычные частицы и заполняет Вселенную