Разработчики из Facebook AI и еще из 13 университетов создали самый объемный датасет видеороликов, которые сняты от первого лица. Эти данные помогут исследователям во время обучения алгоритмов компьютерного зрения, которые анализируют окружающую остановку с человеческого ракурса.
В сборе данных участвовали 855 добровольцев из 74 городов и 9 стран. Они снимали ролики с помощью камеры и умных очков. Во время съемки участники занимались повседневными делами: готовили еду, выбирали продукты в магазине, общались с другими людьми. Общая длина записей составила 3 025 часов.
Для каждого отдельного ролика есть описание того, что в нем происходит. Также для части видео есть и другие подробные данные о звуке, трехмерной модели помещения, направлении взгляда, а также стереоскопические кадры, снятые носимой стереокамерой с одного человека и набор синхронизированных роликов, сделанных разными людьми в одном месте и в одно время, например, во время настольной игры.
Также на собранных данных можно обучиться конкретным навыкам, для этого были созданы специальные тематические модули:
- Для обучения эпизодической памяти, когда алгоритм должен ответить на вопрос о произошедших событиях, например, во сколько у меня был вчера прием у врача.
- Предсказание будущих действий, например, не забыть посолить блюдо или убрать вещи из стиральной машинки.
- Понимание того, что делает человек и как двигаются объекты в кадре.
- Отслеживание разговора и понимание того, кто что сказал в беседе.
- Анализ взаимодействия между людьми, в частности понимание, что на носителя камеры смотрят или к нему обращаются.
Авторы планируют до конца ноября 2021 года опубликовать датасет, его можно будет получить после того, как пользователь подпишет лицензионное соглашение.
Читать далее
Хокинг был прав, но иногда ошибался: самые смелые идеи ученого
Астрономы выяснили, что Земля и Солнечная система находятся в гигантском магнитном туннеле
Замерзший мамонт и человек в «асфальте»: как природа останавливает время