В Google Brain учат робота оценивать последствия своих действий

Новое исследование специалистов Google Brain, Университета Кэмбриджа, Института Макса Планка и Калифорнийского университета в Беркли описывает метод, при помощи которого робот может понять, приведут ли его действия к необратимым последствиям.

Обучение с подкреплением во многом напоминает процесс обучения ребенка — регулярное повторение оттачивает технику. Однако, для того чтобы преимуществами этого метода мог воспользоваться робот, ему требуется вернуть в исходное состояние среду, в которой проходит обучение, а это трудоемкая задача, на выполнение которой у людей может уходить по несколько часов.

По словам авторов исследования, озаглавленного «Leave no Trace» («Не оставляя следов») и опубликованного в онлайн-архиве Корнеллского университета, они пытались развить у машин «интуицию», чтобы они могли классифицировать все, что подлежит восстановлению, как безопасные действия. Путем проб и ошибок робот открывает все больше и больше действий, которые можно обратить, отделяя их от необратимых, а значит — непригодных для обучения.

«Наши убеждения и чувства — плод бессознательных систем мозга»

Обучение с подкреплением часто выполняется в реальных условиях испытательного полигона, например, когда беспилотный автомобиль движется по горному серпантину, и такие условия не прощают серьезных ошибок. Поэтому многие исследователи предпочитают виртуальные симуляции, но даже им рано или поздно приходится проводить реальные испытания, а с помощью нового алгоритма этот процесс станет быстрее и безопаснее, пишет MIT Technology Review.

Эта работа перекликается с другим исследованием, вышедшем в прошлом месяце и принадлежащем специалистам Facebook AI Research. В нем у одной машины есть два различных режима, Элис и Боб, один из которых пытается вернуть в исходное состояние то, что сделал другой. Такая система позволяет ИИ планировать заранее свои действия, уберегая себя (и нас) от разрушительных последствий.

25 главных изобретений 2017 года

Когда обучение с подкреплением не дает желаемых результатов, в ход идет любознательность. Такую модель разработали для ИИ специалисты Университета Беркли, научив его действовать не ради вознаграждения, а для удоволетворения любопытства.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
НАСА установило причины «первой авиакатастрофы на Марсе»
Космос
Университетский стартап из Грозного разработал VR-тренажер для хоккеистов
Новости
Микророботы из гидрогеля уменьшили раковые опухоли у мышей
Наука
Форум по робототехнике для школьников и студентов пройдет в Иннополисе
Иннополис
В пещере «первых Homo sapience Евразии» обнаружили ритуальную комнату
Наука
Эксперты обсудили путь от замещения импорта к технологическому лидерству
Наука
В ранней Вселенной нашли галактику, напоминающую юный Млечный Путь
Космос
Материал с МКС лучше земных аналогов активирует восстановление костей
Космос
Болото вместо степи: выяснили, каким был мост между Евразией и Америкой
Наука
Горбатый кит в поисках партнера пересек три океана и проплыл 13 000 км
Наука
Химики создали суперустойчивые кишечные палочки для промышленности
Наука
В IBM придумали как в пять раз быстрее обучать ИИ и экономить энергию
Новости
«Т-Технологии» бесплатно предоставит разработчикам российские модели ИИ
Новости
Ростелеком переходит на российский репозиторий исходного кода, разработанный в Университете Иннополис
Иннополис
На коллайдере в ЦЕРНе обнаружили самое тяжелое гиперядро антиматерии
Наука
Европейский зонд показал скрытые детали Меркурия
Космос
Генная терапия с ультразвуковым управлением вылечила рак у мышей
Наука
323 флакона со смертельными вирусами пропали из лаборатории в Австралии
Наука
Инженеры автоматизировали превращение тараканов в киборгов
Новости
Наблюдения «Уэбба» указывают на пробел в Стандартной космологической модели
Космос