Кейсы 30 июня 2016

Google представил три новых технологии распознавания изображений

Далее

На конференции по компьютерному зрению и распознаванию изображений в Лас-Вегасе Google представила несколько достижений. Инженеры компании научили компьютер выделять на картинке самое важное действующее лицо, отслеживать движения всех составных частей объекта и подробно описывать его особенности.

С помощью цепной нейронной сети на примере баскетбольного матча система создала «маску внимания» для каждого кадра, которая отслеживает релевантность каждого объекта в отрезок времени. Постепенно система учится находить не только самого важного игрока, но и потенциально самых важных действующих лиц на площадке. То есть, она может предугадать, что кто-то собирается сделать бросок из под кольца, но самый важный тот, кто мешает ему.

Другое исследование в этой области: ученые создали систему, распознающую лапы у тигра. Дело в том, что раньше компьютер причислял их к классу объектов с движущимися частями. Теперь их можно отделить друг от друга и рассматривать их положение по отношению к телу животного кадр за кадром, даже если животное начинает двигаться другим способом.

Нейросеть восстановила изображения лиц по воспоминаниям

Такая технология даст нам возможность искать в видео кадры велосипедов с корзинками, или людей, у которых в руках телефоны.

И последнее достижение — способность подробного описания объектов. Компьютер сочетает базовую логику с мощной системой захвата изображений. Он разбирает данное изображение и выделяет в нем отличительные признаки предмета. К примеру, картинку, на которой много ноутбуков, он может описать так: «серый ноутбук со включенным экраном», или, если таких несколько, «серый ноутбук, на экране которого изображена женщина в синих джинсах».

Все три этих работы используют глубокое обучение и нейронные сети, что, впрочем, в наше время стало почти обычным делом, пишет TechCrunch.