Желание научить компьютер «видеть» появилось вместе с самими устройствами. Первые попытки предпринимались еще в 70-х годах, а прорыв случился в 90-е — появилась программа, которая научилась «читать». Но текстом все не ограничилось — сейчас технологии Computer Vision помогают решать рутинные задачи, но одновременно с этим создают опасения о безопасности данных. Об этом рассказывает Роман Касовский, техлид по направлению машинного обучения и искусственного интеллекта ИТ-компании ZeBrains.
С чего все начиналось
Чтобы научить компьютер «видеть», сначала нужен сенсор, который считывает информацию из окружающего пространства и превращает ее в изображение. Второй компонент — программа обработки этого изображения.
Печатный текст оказался идеальным испытательным стендом для первого поколения алгоритмов — достаточно было увеличить контраст изображения и найти переходы из белого в черное и обратно. Это позволяло выявить границы букв и их форму, после чего можно было определить каждую букву, сравнивая ее с заранее подготовленными образцами.
Создание библиотек с открытым кодом, таких как OpenCV, открыло дверь для экспериментов с произвольными изображениями. По форме выявленных граней объекта компьютер мог понять, где изображены человек, глаз человека, птица, автомобиль — системы компьютерного зрения вышли за границы распознавания текста.
Появились камеры слежения, подававшие сигнал, если в кадре появлялся человек. Приложения с компьютерным зрением поселились в мобильных телефонах: идентификация по лицу, отпечатку пальца, сетчатке глаза или сканер QR-кодов давно стали привычными функциями. Причем сейчас за понимание того, что изображено, отвечает не примитивный алгоритм сравнения с образцом, а нейросеть, обученная по технологии машинного обучения.
Чем зрение компьютера лучше человеческого
Первое и очевидное преимущество CV — гораздо более широкий диапазон восприятия. Компьютерное зрение, в отличие от нашего взгляда, не ограничено видимым спектром. Главное, чтобы сенсор умел создавать изображение для дальнейшей обработки, а что является источником этого изображения — тепловизор, лидар, видеокамера, рентгеновская установка, аппарат УЗИ или МРТ — неважно.
Второе преимущество систем компьютерного зрения — отсутствие человеческого фактора. Они не устают, не отвлекаются, не хотят спать, имеют обзор в 360 градусов. Нужную информацию можно затребовать из архива для повторного просмотра.
Кроме того, в процессе обучения нейронная сеть может выявить связи, не очевидные для человеческого восприятия. Например, система анализирует изображения внутренних органов человека и формирует представление о том, как они должны выглядеть. Так можно определить не только тип органа, но и степень отклонения от нормы — в частности обнаружить опухоль, которая не диагностируется другими методами.
Как компьютерное зрение меняет наш взгляд на мир
Технологии компьютерного зрения уже сейчас применяются в медицине для обнаружения раковых опухолей, в промышленности для контроля сборки на стадии производства и в автомобилях как дополнительные системы безопасности. Мы не задумываясь пользуемся компьютерным зрением, чтобы разблокировать устройство, и привычно ругаемся на камеры на дорогах, которые выписывают штрафы.
Компьютерное зрение меняет даже восприятие спорта — системы автоматического слежения управляют камерами трансляций, помогают разбирать спорные моменты — остался ли мяч в пределах теннисного корта или пересек ли линию ворот, было ли нарушение или положение «вне игры».
С помощью компьютерного зрения ведется учет загруженности автотранспорта. Система контролирует, сколько задних колес у фуры соприкасаются с дорожным покрытием, насколько деформированы при этом шины, и рассчитывает массу полезного груза автомобиля. Остается только распознать номерной знак и внести запись в базу данных.
Компьютерное зрение незаменимо и в складском учете. Это работает так: сканер считывает штрихкод на коробке с товаром и вносит информацию в базу данных. Причем необязательно сканировать каждую коробку — гораздо удобнее считать QR-коды сразу со всех коробок на паллете.
Продолжают развиваться и системы обработки текстов — в современных системах документооборота скан договора или накладной загружается в виде PDF-документа, но благодаря компьютерному зрению по нему можно выполнить поиск, классифицировать или скопировать текст.
Отдельное направление — интеграция компьютерного зрения и космических технологий. В сельском хозяйстве с помощью спутников контролируют состояние урожая, МЧС отслеживает возникновение пожаров и наводнений. Корпорация Google с помощью компьютерного зрения на спутниковых снимках идентифицировала и нанесла на карту все строения в Африке — от землянок, вырытых в холме на берегу реки, до многоэтажек.
Технологии компьютерного зрения нужны для создания дополненной реальности — именно благодаря распознаванию опорных точек удается корректно встраивать синтезированное изображение в кадр и совмещать реальное и виртуальное пространства. Например, в приложении для удаленной примерки ювелирных украшений камера смартфона считывает положение руки пользователя, строит модель и добавляет на нее выбранное кольцо. Ставшие уже привычными 3D-маски в Instagram — тоже одно из проявлений компьютерного зрения в сочетании с VR/AR.
Набирают популярность и узкоспециализированные приложения, которые по фотографии листа выдают информацию о дереве, помогают грибникам выяснить, съедобный ли им достался трофей, а коллекционерам — оперативно получить информацию о монете, просто наведя на нее камеру смартфона.
Какие недостатки есть у систем компьютерного зрения
Системы компьютерного зрения крайне чувствительны к аппаратным ресурсам. Чем выше разрешение внешних сенсоров и больше вычислительных мощностей — тем надежнее и точнее процесс распознавания. Это прослеживается на примере технологий распознавания лиц для разблокировки мобильных телефонов. Десять лет назад для этого требовалась хорошая освещенность и размещение камеры на строго определенном расстоянии от лица. Сегодня телефон узнает хозяина даже ночью.
Другой недостаток CV, который можно отнести к «болезням роста», — ошибки в классификации схожих объектов. Например, человек легко отличит обезьяну от кенгуру, а ящерицу от крокодила, а для компьютера это не так просто при похожих позах и определенных ракурсах съемки.
Еще одно ограничение компьютерного зрения — процесс принятия решений. Современный автомобиль премиум-класса может видеть дальше, чем человек: у него нет слепых зон, не мешает темнота ночью или туман, он может обнаружить приближение объекта по его тепловому излучению. Но в реальной ситуации на дороге человек все еще лучше принимает решения с учетом сложившейся обстановки. И для того, чтобы повысить безопасность, автопилоту приходится следить не только за дорожной обстановкой, но и за собственным водителем.
В мире машинного зрения идентификация — один из базовых процессов, что сразу вызывает множество вопросов, связанных с приватностью и персональными данными. Поэтому нужно учитывать требования законодательства и этические ограничения, связанные с самим фактом оценки компьютером действий человека и возможными последствиями решений, принятых алгоритмами. Тема ошибочно выписанных штрафов — наглядное тому подтверждение.
Что ждет нас в будущем
Одна из самых распространенных страшилок, связанных с компьютерного зрения, — образ «цифрового концлагеря», тотального контроля, от которого невозможно скрыться. Системы компьютерного зрения будущего смогут контролировать не только перемещения, но и намерения: хмуришься — значит грустный, оглядываешься — значит что-то замышляешь. Фантастические блокбастеры-антиутопии тоже добавляют фобий и негатива в ожидании таких вариантов будущего.
Сценаристы любят пощекотать нервы, пугая новыми технологиями. На практике же мир и сегодня «прозрачен» для технологий контроля. А вот плюсы от внедрения компьютерного зрения позволят в будущем не заботиться о многих рутинных вещах. Например, мы, скорее всего, забудем про кассы в супермаркетах — система сама идентифицирует вас на входе, проконтролирует, что именно вы кладете в корзину, посчитает стоимость на выходе и сама спишет средства со счета. Благодаря компьютерному зрению можно будет оперативно перенаправлять транспортные потоки, чтобы избежать пробок на дорогах, а движение в целом станет безопаснее.
Компьютерное зрение — технология будущего, которая уже сейчас влияет на нашу жизнь. Она глубоко интегрирована в современный мир и мы пользуемся ее возможностями ежедневно. Но мы еще в самом начале пути, где предстоит не только решить технические вопросы повышения вычислительных мощностей, но и научится жить в новой реальности. Для этого придется победить фобии и придумать законодательство, которое не даст технологии выйти из-под контроля.
Читать далее:
Посмотрите на фотографии двух сливающихся галактик, сделанные с разницей в 9 лет
Илон Маск: корабль Starship может поднять в 1 000 раз больше груза, чем другие ракеты
Темная материя обращает обычные частицы и заполняет Вселенную