Сам себе учитель: как алгоритмы учатся без помощи человека и делают беспилотники лучше

Есть много способов тренировки искусственного интеллекта. Один из них — обучение с подкреплением, когда машина самостоятельно находит правильное решение через пробы и ошибки. Об успехах и перспективах метода «Хайтек» поговорил с учеными, которые стали лауреатами премии в области компьютерных наук имени Ильи Сегаловича от Яндекса.

Беспилотный транспорт, цифровые двойники и автоматическое управление телекоммуникациями — это не предсказания писателей-фантастов, а уже обозримое будущее. Его приближают ученые, которые занимаются прикладным искусственным интеллектом и исследованиями в области обучения с подкреплением. «Хайтек» поговорил о будущем технологии с Олегом Свидченко, Александром Гришиным и Алексеем Шпильманом — лауреатами ежегодной премии имени Сегаловича.

Как ИИ учится без наставника

Обучение с подкреплением (Reinforcement learning, RL) предполагает, что ИИ сам взаимодействует с определенной средой — например, доской для игры Go или внешним миром, если робот по нему передвигается. Устройству нужно выявлять общие паттерны и ориентироваться на них при выполнении задач. А при обучении с «учителем» нужен человек, который должен указывать правильное действие, на которых ИИ будет тренироваться.

«Суть RL в том, что машина или, как мы говорим, агент, учится в режиме постоянной практики, — отмечает Олег Свидченко, лауреат научной премии Яндекса. — ИИ помещают в определенные условия и “говорят” — действуй. Это похоже на ситуацию, когда мышь отправляется на поиски сыра в лабиринте. Сделав поворот не в ту сторону, животное сталкивается со стеной, возвращается назад, пробует снова и так далее. В случае обучения с подкреплением правильные шаги поощряются. Чем правильнее совершаемое действие, тем больше баллов получит ИИ. Если выбор оказался неверным, то агент теряет очки. Во время обучения машина запоминает, какая комбинация действий была более выгодной, и в следующий раз воспользуется именно ей».

Самостоятельный поиск решения позволяет агенту рано или поздно превзойти человека. Это показал, например, алгоритм MuZero от DeepMind, который научился играть в десятки старых видеоигр Atari, шахматы и ​​настольные игры типа Go. Для его создания задействовали предыдущие разработки компании: например, AlphaGo, благодаря которому удалось обыграть чемпиона Go Ли-Седола, и AlphaZero, который применяется в шахматах. Усовершенствованный алгоритм извлекает больше информации из меньшего количества данных — теперь ему нужно в два раза меньше тренировочных шагов.

Алгоритмы обучения с подкреплением могут пригодиться в самых разных отраслях. Например, в медицине — для организации персонализированного динамического лечения, в индустрии развлечений — для автоматического тестирования компьютерных игр или в авиации — для автономного управления стратостатом.

В каких отраслях ИИ придет на помощь людям

Цифровизация ритейла: полностью автоматизированные магазины

Первыми машинное обучение внедряют в отраслях, где отлажен процесс сбора и оцифровки больших массивов данных. Например, в ритейле вся информация проходит через кассовые аппараты, а значит, ИИ есть с чем работать. По словам Алексея Шпильмана, использование алгоритмов ИИ позволит повсеместно создать автоматизированные магазины, где все процессы будут происходить без участия человека.

Такой формат еще в 2016 году начала тестировать компания Amazon. Покупатель берет тележку, набирает в нее товары и просто уходит — деньги за покупку списываются с карты автоматически. В России похожий проект разработала «Азбука Вкуса».

«Покупатель берет тележку, набирает в нее товары и просто уходит — деньги за покупку списываются с карты автоматически»

Управление электросвязью: выявление неисправностей в сетях 

Благодаря обучению с подкреплением технологические прорывы могут произойти в управлении разнообразными сетями — телекоммуникациях, теплосетях, электроэнергетике. Многие процессы здесь довольно просто роботизировать, поскольку нет большого взаимодействия с людьми.

Автоматизация приведет к созданию систем, которые будут принимать более взвешенные решения и оптимизировать расход энергии. Например, на основе алгоритмов RL разрабатывается контроллер ОВиК (акроним от англ. Heating, Ventilation, & Air Conditioning — Отопление, вентиляция и кондиционирование воздуха) — это система управления температурой и вентиляцией помещения. Использование этой технологии на предприятиях поможет как экономить энергопотребление, так и сокращать выбросы углерода.

Беспилотный транспорт: тестирование технологии и законодательства

Еще одна сфера, которую ждет прорыв благодаря обучению с подкреплением — транспорт. Уже сегодня на улицах можно встретить беспилотные автомобили и роботов-доставщиков. Несмотря на технологические успехи в этой отрасли, аналитики McKinsey предсказывают, что беспилотники станут привычными не раньше 2030 года. Внедрение осложняется необходимостью разработки нормативных актов. В Сингапуре и США автоматизированный транспорт уже вовсю ездит по трассам, недавно появилось разрешение на тестирование беспилотного такси и в России.

«Автоматизация почти всегда повышает уровень безопасности, но внедрение таких технологий люди встречают с опасением, — уверен Олег Свидченко. — Если заменить весь транспорт на беспилотные Tesla, то количество аварий на дорогах упадет в несколько раз. Но каждая авария будет вызывать много вопросов. Мы не можем однозначно сказать, как в случае с человеком, что стало причиной ДТП. И людей страшит эта неизвестность».

«Еще одна сфера, которую ждет прорыв благодаря обучению с подкреплением — транспорт»

Чем цифровые двойники будут полезны человечеству

Алгоритмы обучения с подкреплением позволили создавать цифровых двойников — виртуальные прототипы объектов, процессов и даже людей, которые содержат в себе те же свойства и характеристики, что и оригиналы. Такую технологию используют промышленные предприятия — например, чтобы перед запуском нового конвейера проверить, правильно ли отлажены все процессы. Конечно, можно сразу вставить вилку в розетку, но если произойдет сбой, на его устранение уйдут время и ресурсы. Поэтому конвейер предварительно запускают на компьютере. 

С цифровыми двойниками человека все намного сложнее, поскольку живой организм — более комплексная система. И все же ученые продолжают осваивать технологию, создавая виртуальные копии как отдельных органов, так и всего организма. Например, бостонская больница использует цифровой двойник сердца для планирования операций. В перспективе это позволит тестировать на виртуальном пациенте методы лечения, прогнозировать заболевания и вполне может претендовать на революцию в медицине.

«Развитие ИИ, в том числе RL, может привести к тому, что люди начнут лучше понимать самих себя, — предполагает Алексей Шпильман. — Человек — закрытая система, потому что для самопознания мы используем собственный мозг. Но достаточно ли нам этого инструмента? Даже в психологии для рефлексии нужны двое, а мы замкнуты внутри себя. Глобально, в контексте Вселенной, человечество пока находится в одиночестве, а значит, нам не с кем пообщаться, чтобы узнать о себе что-то новое и взглянуть со стороны. Возможно, благодаря обучению с подкреплением мы создадим некую сущность вне себя. Она не будет ограничена нашим мозгом и сознанием и сможет дать человеку новые ответы и смыслы».

Почему повсеместное внедрение RL пока ограничено

Несмотря на успехи, которых добились ученые, практическое применение RL пока ограничено. Система долго учится, много ошибается, поэтому повсеместно внедрять алгоритм — сложно и нерентабельно.

«Агенту нужно больше повторений, поэтому процесс обучения занимает довольно много времени, — объясняет Александр Гришин — Более того, ИИ недостаточно совершить лучшее действие. Ему нужно исследовать среду, так как большая награда может быть спрятана за непривлекательными на данный момент шагами. Вся логика обучения с подкреплением сводится к тому, чтобы ИИ научился жертвовать сиюминутной выгодой ради долгосрочного успеха. Для этого нужно мыслить наперед и просчитывать возможные варианты развития событий. Например, когда агент отдаст коня, чтобы захватить ферзя, ученые очень сильно обрадуются».

Задача ученых — добиться того, чтобы у ИИ вырос темп обучения и улучшилась способность к анализу. Но быстро продвинуться вперед мешает одна приземленная проблема: в R&D лабораториях и ИТ-компаниях есть кадровый голод. Университеты создают лаборатории и научные центры, технологические гиганты открывают специализированные курсы.

«Исследования в области машинного обучения сейчас очень востребованы. Отрасль стремительно развивается, а дефицит кадров с каждым днем усиливается, — говорит Алексей Шпильман. — У специалистов есть отличный шанс включиться в процессы, которые позволят изменить мир до неузнаваемости. Интересной работы много. Сейчас мы стоим в самом начале пути, но уже добились неплохих результатов. Представляете, какие перспективы откроются перед человечеством благодаря использованию RL?».


Читать далее:

Космический зонд пролетел в 200 км от Меркурия. Посмотрите, что он увидел

Ученые раскрыли, как витамины влияют на заболеваемость раком

Китайский шлем для «чтения мыслей» бьет тревогу, когда человек видит порноконтент

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Трагедию с Xiaomi на автопилоте начали расследовать в Китае
Новости
Посмотрите, как выглядит самый быстрый пассажирский самолет в мире
Новости
Странная форма материи меняет планеты: как она повлияет на Землю
Космос
Новые фотодиоды в 10 раз чувствительнее аналогов: они пригодятся в медицине
Наука
В России создадут региональный совет по дронам: зачем он нужен
Новости
Государство компенсирует бизнесу 20% затрат на роботов: как работает система
Новости
Разработан маршрутизатор для фотонов: он объединит квантовые компьютеры в единую сеть
Наука
ИИ обнаружил два новых гена, которые влияют на риск ишемического инсульта
Наука
Создание изображений в стиле Ghibli привело к рекордной нагрузке на ChatGPT
Новости
Физики МГУ оценили потенциал фотонных процессоров для нейросетей
Новости
Телескоп НАСА для изучения ранней Вселенной сделал первые снимки
Космос
Путин подписал закон против кибермошенничества: что изменится для россиян
Новости
Генератор изображений OpenAI теперь доступен бесплатно, но с ограничениями  
Новости
Apple готовит iOS 19: какие iPhone не получится обновить  
Новости
ЦЕРН представил проект нового коллайдера: что известно прямо сейчас
Наука
На «Госуслугах» запустили сервис для проверки сим-карт: как он работает  
Новости
В России введут маркировку электроники: это изменится для покупателей
Новости
Разработан мозговой имплант, который переводит мысли в речь почти мгновенно
Новости
«Хаббл» зафиксировал драматические сезонные изменения в атмосфере Урана
Космос
Физики МГУ придумали, как ускорить память компьютера терагерцовым излучением
Новости