Команда разработчиков из Лаборатории компьютерных наук и искусственного интеллекта МТИ обучала глубокие нейронные сети на двух миллионах видеороликов. После такого тренинга алгоритм научился предсказывать будущее по отдельным кадрам: если ему на вход подать фотографию, то он смоделирует видеоролик, в котором покажет, что должно произойти в следующие мгновения после начала съемки.
Технология имеет свои ограничения. Продолжительность видеопрогноза достигает не более полутора секунд, при этом видео не обладает какой-то поражающей реалистичностью. Объекты могут менять свои размеры, но в целом предсказание делается корректно. На фотографиях моря, например, оживают волны, или на другом фото люди продолжают свою прогулку по парку.
Если разработчикам удастся расширить возможности системы, то она сможет найти применение в беспилотных автомобилях. Автопилоты смогут предсказывать положение других автомобилей на дороге и пешеходов в следующие секунды, увеличивая безопасность и эффективность вождения. Много и других вариантов использования технологии: анимирование фотографий, улучшение работы компьютерного зрения, более логичные реакции ИИ на происходящее.
Илон Маск показал, как «видят» дорогу автомобили Tesla
Кейсы
Алгоритмы становятся все более совершенными. Пока рано говорить о том, что роботы смогут предсказывать то, что вы скажете в следующее мгновение, но при этом они научились читать по губам с точностью в 93%. «Уши» роботов также совершенствуются — алгоритм распознавания речи от Microsoft сравнялся по точности с человеком.