Пять лет назад наука совершила рывок в точности интерпретации изображений. Лежащая в ее основе технология — искусственные нейронные сети — стала фундаментом нынешнего бума ИИ. С ее помощью Google и Facebook научились делать поиск по фотографиям и распознавать лица.
Сейчас машины могут распознать заданный объект на фотографии — к примеру, породу собак или марку автомобиля. При условии, что собрано достаточное количество объектов в каждой категории — не менее тысячи. Можно распознать и более абстрактные категории — пейзажи, закаты, свадьбы или дни рождения. Пять лет назад ученые не знали, как решать такие задачи.
Однако, здравым смыслом такие системы пока не обладают, и если подсунуть им изображение необычного предмета и ситуации, которую они никогда не встречали, они не смогут сказать ничего осмысленного.
Цифровая революция в строительстве сэкономит миллиарды долларов
Технологии
«Один из подходов, которые мы очень хотим попробовать, — дать машинам собрать большое количество фактов об устройстве реального мира из простого видеонаблюдения или других каналов, — говорит Лекун. — Это позволит им в конце концов приобрести здравый смысл. Это то, чему животные и дети учатся в первые месяцы жизни — невероятно большой объем знаний мы получаем из простого наблюдения за миром. Сейчас машины легко ввести в заблуждение, поскольку они знают о мире очень мало».
Facebook проявляет большой интерес к разработкам системы, умеющей предсказывать будущее: вы показываете ей несколько кадров видео, и она пытается угадать, что будет дальше. Если это получится, появится основа для создания обучения без учителя. Лекун считает эту область особенно многообещающей, и не только для распознавания изображений, но и для развития всего ИИ, пишет MIT Technology Review.
Цифровые фермы повышают урожай в сотню раз
Технологии
По мнению Лекуна, крайне важно понять, как программа могла бы делать то, что с такой легкостью дается детям, если мы стремимся к амбициозной цели создания искусственного интеллекта. В поисках решения этой задачи ученые создают искусственные нейронные сети, которые поглощают видео и изображения, а затем генерируют новые изображения, используя полученное знание. Это доказывает, что они смогли сформировать какое-то внутреннее понимание происходящего.