Лаборатории машинного обучения и представления знаний ещё только четыре месяца, а от планов уже захватывает дух. Их проект — распознавание активности людей по произвольным видеоданным — обещает масштабно расширить возможности поиска по видео, и стать частью систем безопасности.
В лаборатории ребята разрабатывают такие технологии, которые вне зависимости от источника видео (камера, веб-камера, мобильный телефон, камера видеонаблюдения на улице) смогут понять, что именно происходит на экране и в какой среде. И определить, на какую камеру была сделана съёмка. В конечном итоге это поможет из произвольного видеопотока получать семантический набор — текстовую, алгоритмическую или как-то иначе структурированную аннотацию того, что происходит на видео.
Самое главное слово здесь — «произвольный». Технологии определения людей, опознавания лиц и типов сцен уже существуют, но они, как правило, имеют большие ограничения по области применимости. К примеру, есть замечательный алгоритм, который с очень высокой точностью (порядка 97%) умеет выделять людей на видео и отслеживать их перемещения, но только если их снимают сбоку и на пешеходном переходе. Или технологии компания Systemax — бывший TigerDirect — которая занимается наблюдением и детектированием объектов.
Проект, который реализует лаборатория Университета Иннополис, следует стратегии агрегирования: собрать ключевые технологии распознавания видео вместе и научить их сосуществовать с максимальной эффективностью. При этом в результате этой работы участники проекта рассчитывают получить новую уникальную технологию.
Станислав Протасов работает в лаборатории машинного обучения и представления знаний. После восьми лет ИТ-индустрии, 3,5 из которых прошли в компании Parallels, он понял, что его манит научная деятельность и преподавание. Так из Москвы он перебрался в строящийся город-спутник.
Как рассказал нам Стас, очевидное применение их проекта — автоматическая аннотация видео в поисковиках. Если прогнать видеоархив через такие алгоритмы, мы получим аннотированные видео. То есть все видеозаписи, которые лежат, например, на YouTube, будут проанализированы, и мы получим описание, что и в каком видео происходит. Это позволит нам искать видео по самому его содержанию, а не по заголовкам, аннотациям и субтитрам, как работает технология сейчас.
Второй вариант применения — алгоритмы-детекторы. Это когда у нас есть произвольный видеопоток, и мы можем в реальном времени определять происходящее и сразу принимать какие-то решения. Так можно проводить видеонаблюдения в городской среде, в рамках системы безопасности, мониторинг публичных акций — что может быть интересно для национальной безопасности страны.
Или, к примеру, технология позволит на основе анализа изображения понять, что рабочий идёт по стройке без каски и выписать ему штраф.
Ещё одно практическое применение, родительский контроль: алгоритмы помогут понять, является видео-контент допустимым для детей или нет.
Ещё с помощью таких алгоритмов можно будет искать по видео-архивам на своём собственном компьютере. Хочешь найти и пересмотреть момент, как ты на свой пятый день рождения задуваешь свечки на торте? Пожалуйста, дело пары секунд.
Или поиск по упоминаниям в видео. Можно будет запросто узнать, кто, когда и в каком именно видеоролике засветился.
Лидер лаборатории, профессор Адил Хан, получил степень кандидата наук по компьютерной инженерии в университете Кьюнг Хи. Там же, в Южной Корее, с 2011 года А.Хан является профессором и ведущим исследователем в университете Аджу. 10 лет он посвятил изучению методов машинного обучения. До появления в Университете Иннополис, профессор Хан являлся исполнителем и руководителем проектов, к примеру, для правительства Кореи и компании Samsung, посвященных приложению машинного обучения к сфере мониторинга состояния здоровья и поведения человека.
В разработках очень деятельное участие принимают и студенты университета Иннополис. Недавно один из них выиграл грант «Умник».
Стас считает, что существование лабораторий это наиболее важный элемент в обучении: «Одно дело — учить интересные теоретические вещи, но студенту иногда трудно понять, как они соотносятся с практикой. А другое — видеть, как те знания, которые ты получаешь на лекциях, превращаются в прикладные продукты и технологии, за которыми стоит наше будущее и настоящее».
Сейчас у проекта есть прототип. Он умеет определять типы сцен на видео — горы это, море или город. И почти закончен кусочек по распознаванию лиц.
Как рассказал нам Стас, первый год выделен на изучение контекста: «Мы будем пытаться извлечь максимальное количество полезной информации из видео и компенсировать те проблемы, которые есть — дрожание камеры, смазанное изображение, плохая освещённость».
Сейчас проект проходит кипучую начальную стадию. Ребята активно подаются на гранты и ищут инвесторов. С появлением дополнительного финансирования, они смогут конвертировать свои решения в промышленный продукт. Сейчас бизнес-план проекта находится на анализе в фонде «Иннопрактика», в Российском научном фонде. К августу 2016 года команда проекта планирует выпустить альфа-версию продукта.
Стас рассказал, что наука и бизнес порой говорят на разных языках. Бизнес мыслит категориями успешности, прибыльности, монетизируемости, выхода на окупаемость. А учёные не могут понять, зачем они должны думать о каких-то странных цифрах, если они собираются сделать науку, которая изменит мир. И на этом стыке существует большая проблема: учёные хотят делать то, что будет менять мир в будущем, а бизнес — продукт, который сможет сделать локальное изменение, но здесь и сейчас.
Но у проекта лаборатории машинного обучения и представления знаний есть все ресурсы для того, чтобы решить и эту проблему. Проект по распознаванию активности людей по произвольным видеоданным и его возможности практического применения кажутся настолько масштабными, что невольно удивляешься, как это смогут сделать вот эти несколько замечательных улыбчивых человек, сидящие где-то в стенах Университета Иннополис. Но они уверены, что смогут.