Новая концепция глубокого обучения с подкреплением (deep-reinforcement learning) возникла из метода глубокого обучения, при котором множественные уровни нейронных сетей производят и организуют огромный объем поступающих данных. Оно используется сейчас во многих ведущих системах распознавания изображений, видео, текстов и устной речи Google. Microsoft, IBM Watson.
Глубокое обучение с подкреплением добавляет к этому методу возможность точно классифицировать входящие данные. Такие системы могут самостоятельно обучать себя, снова и снова повторяя одно и то же задание, пока не добьются желаемого. «Сила глубокого обучения с подкреплением в том, что ты можешь поведенческую модель, которую человек не замечал или не собирался вносить в код», — говорит президент Osaro Дерик Придмор.
Однако, обучение робота — долгий процесс. Компьютер DeepMind учился на миллионе видеокадров, но что хорошо для цифровых задач, которые можно выполнить на суперкомпьютере за минуты, то неприемлемо для роботов в реальном времени.
«Робот имеет физическую оболочку, которой требуется время, чтобы переместиться в пространстве, — говорит Придмор. — Если хотите использовать глубокое обучение с подкреплением, чтобы научить робота с нуля поднимать чашку, это займет буквально год или больше».
Для того чтобы ускорить обучение, Osaro взяла пример с людей, обучающихся новым действиям и создала игровую программу, в которой можно наблюдать за человеком, играющим в игры. Затем она использует эти усилия в качестве отправной точки.
Первым применением алгоритма Osaro станет, по всей видимости, сфера массового производства, где роботы смогут в будущем заменить на конвейере высококвалифицированных (и высокооплачиваемых) специалистов.
Сейчас Osaro получает инвестиции в размере 3 млн долларов от таких заинтересованных лиц, как Питер Тиль и Джерри Янг.