Распознавание образов и речи для большинства продвинутых устройств уже стало чем-то само собой разумеющимся. Главной сложностью для искусственного интеллекта по-прежнему остается цельное понимание историй и сюжетов. Скоро эта ситуация может измениться.
Ученые из Технологического института Карлсруэ в Германии создали базу данных о фильмах. Она станет тестовой площадкой для глубокого машинного обучения и поможет искусственным программам рассуждать о кино.
Команда исследователей составила опросники для оценки понимания фильма. На каждый вопрос дается несколько вариантов ответа, а машина должна выбрать один верный. Для создания опросников ученые собрали краткие описания сюжетов с 300 различных страниц фильмов на Wikipedia. Некоторые описания короткие, около абзаца, другие состоят из 20 абзацев и представляют собой полноценный текст. В базу данных также попала и другая информация о фильмах. «Средняя кинокартина длится два часа, в ней примерно 198 тысяч кадров и около 2000 планов», — отметили разработчики базы.
В кино легко понять, что и с кем происходит, а вот чтобы проследить логическую связь, недостаточно просто рассматривать изображения. Для этого нужны общие знания о мире и какой-либо опыт. Чтобы добавить в базу данных более подробную информацию, ученые использовали оригинальные сценарии к фильмам и специальные описания, которые составляются для слабовидящих зрителей.
Волонтеры исследования составили небольшие аннотации к сюжетам и несколько вопросов к каждому абзацу. В результате было создано 7000 вопросов к 300 кинокартинам.
Вот несколько примеров вопросов:
-Почему Брюс боится летучих мышей?
-Какое прозвище получил Джефф Лебовски?
-В какой момент Арагорн возглавил Братство кольца?
Первые испытания показали, что пока машины достаточно плохо справляются с такими заданиями. База данных скоро будет доступна онлайн, а пока ученые займутся направленным машинным обучением, и, возможно, скоро искусственный интеллект сможет рассуждать о кино не хуже кинокритиков.