Группа исследователей Калифорнийского технологического института под руководством Пьетро Перона создала проект Visipedia — аналог «Википедии» для изображений. Цель ученых — с помощью технологий компьютерного зрения описать все объекты в мире и научиться идентифицировать их. Пилотным кейсом стало распознавание птиц, а итогом — приложение Merlin Bird ID, которое умеет опознавать птицу по фотографии. Вторым проектом — приложение iNaturalist, определяющее вид животного или растения. В рамках саммита Machines Can See, организованного компанией VisionLabs, «Хайтек» поговорил с профессором электротехники в Калифорнийском технологическом институте Пьетро Пероной о проекте и его дальнейших планах.
Пьетро Перона — профессор электротехники в Калифорнийском технологическом институте в Пасадене. Получил докторскую степень в Калифорнийском университете в Беркли, был постдокторантом в Массачусетском технологическом институте. Интересуется визуальной категоризацией и анализом поведения. Работал над уравнениями в частных производных для обработки изображений, моделирования визуального восприятия, визуального поиска и внимания, а также над ролью визуальных механизмов в производстве и восприятии искусства.
«Распознавать что угодно в каком угодно изображении»
— Вы давно занимаетесь машинным зрением, но проект Visipedia звучит крайне амбициозно. Как он появился?
— Когда ты работаешь в компьютерном зрении в академической среде, то всегда пытаешься понять, какие фундаментальные вопросы ставить и насколько они хороши. Если я буду успешен в том, что собираюсь делать, это как-то повлияет на остальной мир? Потому что иногда тебе кажется, будто поставленная проблема интересная, но если ты ее решишь, это никому будет не надо. В таких случаях, возможно, не стоит этим заниматься. Работать над хорошей и над плохой проблемой одинаково сложно, так что почему бы не работать над хорошей проблемой? И иногда стоит ставить большие вопросы.
Мне была интересна визуальная категоризация и мы собирали датасеты — Caltech 101, потом Caltech 256 и COCO. Как это происходило? Обозначались масштабы будущего датасета: например, минимум тысяча объектов и минимум 10 тыс. изображений каждого объекта. Но при этом ты не очень понимаешь, что изменится от этих датасетов, кому они нужны. Поэтому в какой-то момент мы спросили себя: что в конце концов должна уметь машина? Ответ — распознавать что угодно в каком угодно изображении.
И знания о том, что в этих изображениях, надо искать не среди ученых в сфере компьютерного зрения. Если бы вы спросили меня, из какого дерева сделан стол, за которым мы сидим, я бы не смог ответить. Мы поняли, что нам нужны эксперты за пределами нашей сферы и необходимо строить системы, которые захотят использовать сообщества экспертов. Так мы определили проект Visipedia.
Мы начали работу с птиц, потому что нужно было что-то конкретное. Всем нравятся изображения птиц — они очень красивые. У сообщества орнитологов есть профессиональные камеры для съемки, и эксперты в этой области вообще технически подкованы. Потому что им приходится загружать фотографии на специальные платформы, атрибутировать их. Мы почувствовали, что есть сообщество, которое может оценить нашу работу и которое уже было онлайн. И это была хорошая ставка. В течение года мы стали хорошими друзьями с орнитологами.
— У орнитологов существует сообщество — такое можно сказать не обо всех живых организмах. Как работает второе приложение iNaturalist, где распознаются растения и животные?
— Да, с птицами — есть научно-ориентированное сообщество. И орнитологи обычно очень системны. Например, в Caltech группа орнитологов выходит на прогулку каждую среду, в одно и то же время, по одному и тому же маршруту. Они отмечают всех птиц, которых видят, и всех, которых не видят. И орнитологи очень аккуратно ставят теги к изображениям, которые они загружают: они на 95% правильны. Мы можем доверять данным, это очень хорошие данные.
В случае iNaturalist — система разработана для людей, которые не являются экспертами. Например, человек выходит гулять и делает снимки того, что ему интересно. Это намного менее систематичный подход, многие люди не знают, что они находят и к чему добавляют теги. Поэтому машина намного более полезна в этом случае. Сообщество намного больше, но и намного тоньше. В iNaturalist всем управляет машина, с птицами это не так. Там есть эксперты, которые кормят машину хорошими данными. Тут машина сама должна решать, кому доверять, а кому нет. Так что существуют гигантские матрицы для каждого человека, который взаимодействует с системой. Мы знаем, много ли он понимает в ящерицах, бабочках или мухах, а потом могут быть несколько разных мнений и разногласия. Это все динамичное развитие.
«На старте вероятность того, что кто-то говорит правду, около 70%»
— В лекции вы показывали, когда система распознает картинку как изображение моли, когда мы точно понимаем, что перед нами не моль. Думаете, для таких случаев надо предусматривать опцию вмешательства и исправления решения системы?
— Но кто будет исправлять машину? Машина не должна доверять никому. И она должна вырабатывать доверие только через взаимодействие с людьми. Машина не должна верить в то, что кто-то умный только потому, что называет себя профессором. Это как в журналистике: чтобы добраться до правды, нужно постоянно сопоставлять факты, точки зрения. Просто так нельзя верить никому.
— Тогда ваша цель — заставить машину сомневаться во всем?
— Она должна начинать с сомнения — на старте вероятность того, что кто-то говорит правду, около 70%. А потом она перерабатывает свое решение о правдивости заявления вверх и вниз — и очень осторожна насчет этого. Вы же делаете работу таким же образом, да?
— Да, но, когда я общаюсь с людьми, не думаю о том, что они будут говорить правду в 70% случаев. Откуда взялось это число?
— Это основано на байесовской теории. Вы начинаете с априорной вероятности. У вас должно быть какое-то представление о мире. Например, вы просыпаетесь утром и думаете, пойдет ли дождь? Вы знаете, что в Москве дождь идет, к примеру, в 1/3 от всего времени, так что это ваша априорная вероятность. Потом вы выглядываете в окно — там немного туч, так что вероятность уже не 33, а 45%. Потом вы смотрите прогноз погоды, и там сказано, что будет дождь, ваша вероятность повышается до 80%. Так вероятность все время обновляется. Наша априорная вероятность происходит из среднего числа правильных определений, которые люди вносят в систему. И это лучший выход.
— Проект трудно не сравнить с «Википедией», но сейчас даже в ее английской версии немногим меньше 6 млн статей. Количество живых организмов на земле превышает эту цифру, а еще есть и все другие объекты. Как много времени пройдет, прежде чем наш телефон будет способен точно определить любое изображение перед ним?
— Наши друзья в Калифорнийской академии наук говорят: если мы дойдем до 500 тыс. видов, это будут более-менее все виды, которые люди видят в повседневной жизни. Есть огромное количество видов, которые еще не были описаны. Если поговорить с людьми, которые исследуют жуков, можно узнать, что сотни тысяч жуков еще не были описаны. Если взять квадратный метр леса в Коста-Рике или даже в российском лесу, можно найти много жуков, которые еще никто не описал.
Идея в том, чтобы дать людям инструмент для добавления в коллективное сознание любой новой информации. Пока хотя бы несколько людей будут в чем-то заинтересованы и будут готовы вносить эту информацию в систему, она будет сохраняться для всех остальных. А то, в чем никто не заинтересован, — об этом не стоит беспокоиться. Так что это, можно сказать, самоисполняющееся пророчество — если системой будут пользоваться многие, она станет полезной.
Пьетро Перона
В помощь странам третьего мира
— Сначала птицы, потом животные и растения. Что будет дальше?
— Есть ряд коллекций, например, iMaterialist, которая содержит повседневные предметы и фокусируется на моде. Я ничего не знаю о моде, так что я рад, если этим занимаются другие. Мы думаем, что проект может быть полезен в медицине. Я говорил с рядом врачей, например, с радиологами. Каждый из них разбирается в какой-то части тела очень хорошо, но может меньше знать о другой части тела. И если они видят что-то, в чем разбираются не так хорошо, то спрашивают совета у коллег, например, отправляют сообщение в Китай или Францию. Visipedia могла бы сделать этот обмен информацией между врачами гораздо более продуктивным и эффективным. В iNaturalist вы видите что-то, чего не знаете, загружаете это, а система должна найти эксперта, который знает. Так может быть и в медицине. В странах третьего мира много больниц без врачей, где есть только медсестры. Система могла бы подсказывать им диагноз по изображениям, а затем врач — давать второе мнение. В некоторых формах торговли система могла бы быть полезной. Например, вы разбили одну тарелку из сервиза вашей бабушки, и по фотографии тарелки система могла бы найти человека с таким же сервизом. Есть много потенциальных применений.
— Вам нужны внешние источники финансирования, чтобы продолжать проект?
— В течение шести лет, до недавнего времени, большую часть нашего финансирования мы получали от Google. Для академических исследований нам всегда нужно финансирование. Надеюсь, мы сможем найти партнеров, которые захотят финансировать нас или снабдить нас данными. У нас нет цели стать единым сервисом по распознаванию объектов, вполне возможно, скоро какие-то компании решат, что это хорошее решение для них, и начнут развивать свои системы, более масштабируемые, чем наша.