Для этого программе DeepMind придется выйти за рамки черно-белой доски го и прикоснуться к реальному миру. Или, хотя бы, начать с его модели. Демис Хассабис, британский нейробиолог, исследователь, основатель компании DeepMind, купленной в 2014 Google за $625 млн, предлагает для тренировки искусственного интеллекта использовать обучение с подкреплением.
Симулятор DeepMind называется Labyrinth, и компания использует его для постановки задач с нарастающей сложностью, к примеру — поиск выхода из лабиринта. Это должно научить разработчиков писать все более сложные программы, а ИИ — решать все более сложные проблемы.
Для этого используется технология, которая применялась и в AlphaGo, и в более ранних программах DeepMind, которые учились обыгрывать человека в видеоигры 80-х, к примеру, в «Space Invaders». Но для победы Хассабису придется придумать новый способ, как обойти уже известные препятствия на пути к ИИ.
Ключом к созданию универсального ИИ Хассабис считает обучение с подкреплением. «Нам кажется, что простого наблюдения недостаточно для интеллекта, надо еще и действовать, — говорит он. — В конечном счете, это единственный способ по-настоящему познать мир».
Трехмерная среда Labyrinth, построенная на клоне шутера от первого лица Quake, должна доказать верность этой мысли. Компания уже испытывала возможности программы, когда ставила задачу найти выход за 60 секунд и набирать очки, собирая яблоки. Следующие задачи будут сложнее — понять, что ключи нужны, чтобы открывать двери, например.
DeepMind рассматривает вариант тестирования своей программы и другими способами — с помощью стратегической видеоигры Starcraft или даже покера. Но увеличение сложности задач в Labyrinth останется основным направлением исследований, говорит Хассабис. «Этого должно хватить на ближайшие пару лет», — считает он.
Впереди еще много нерешенных проблем, и DeepMind это понимает. Одной из них является так называемый «чанкинг» — способ решения задач, которым пользуются люди и животные. Например, если человек хочет поехать в аэропорт, ему достаточно знать, где он находится, но не нужно знать, куда точно ставить каждую ногу и как поворачивать каждую дверную ручку. Можно сначала выработать общий план, без нюансов и деталей, а потом адаптироваться к ситуации. Машинам это пока недоступно. «Вероятно, это одна из самых главных проблем в ИИ», — говорит Хассабис.