;
Кейсы 27 июня 2022

Сам себе учитель: как алгоритмы учатся без помощи человека и делают беспилотники лучше

Далее

Есть много способов тренировки искусственного интеллекта. Один из них — обучение с подкреплением, когда машина самостоятельно находит правильное решение через пробы и ошибки. Об успехах и перспективах метода «Хайтек» поговорил с учеными, которые стали лауреатами премии в области компьютерных наук имени Ильи Сегаловича от Яндекса.

Беспилотный транспорт, цифровые двойники и автоматическое управление телекоммуникациями — это не предсказания писателей-фантастов, а уже обозримое будущее. Его приближают ученые, которые занимаются прикладным искусственным интеллектом и исследованиями в области обучения с подкреплением. «Хайтек» поговорил о будущем технологии с Олегом Свидченко, Александром Гришиным и Алексеем Шпильманом — лауреатами ежегодной премии имени Сегаловича.

Как ИИ учится без наставника

Обучение с подкреплением (Reinforcement learning, RL) предполагает, что ИИ сам взаимодействует с определенной средой — например, доской для игры Go или внешним миром, если робот по нему передвигается. Устройству нужно выявлять общие паттерны и ориентироваться на них при выполнении задач. А при обучении с «учителем» нужен человек, который должен указывать правильное действие, на которых ИИ будет тренироваться.

«Суть RL в том, что машина или, как мы говорим, агент, учится в режиме постоянной практики, — отмечает Олег Свидченко, лауреат научной премии Яндекса. — ИИ помещают в определенные условия и “говорят” — действуй. Это похоже на ситуацию, когда мышь отправляется на поиски сыра в лабиринте. Сделав поворот не в ту сторону, животное сталкивается со стеной, возвращается назад, пробует снова и так далее. В случае обучения с подкреплением правильные шаги поощряются. Чем правильнее совершаемое действие, тем больше баллов получит ИИ. Если выбор оказался неверным, то агент теряет очки. Во время обучения машина запоминает, какая комбинация действий была более выгодной, и в следующий раз воспользуется именно ей».

Самостоятельный поиск решения позволяет агенту рано или поздно превзойти человека. Это показал, например, алгоритм MuZero от DeepMind, который научился играть в десятки старых видеоигр Atari, шахматы и ​​настольные игры типа Go. Для его создания задействовали предыдущие разработки компании: например, AlphaGo, благодаря которому удалось обыграть чемпиона Go Ли-Седола, и AlphaZero, который применяется в шахматах. Усовершенствованный алгоритм извлекает больше информации из меньшего количества данных — теперь ему нужно в два раза меньше тренировочных шагов.

Алгоритмы обучения с подкреплением могут пригодиться в самых разных отраслях. Например, в медицине — для организации персонализированного динамического лечения, в индустрии развлечений — для автоматического тестирования компьютерных игр или в авиации — для автономного управления стратостатом.

В каких отраслях ИИ придет на помощь людям

Цифровизация ритейла: полностью автоматизированные магазины

Первыми машинное обучение внедряют в отраслях, где отлажен процесс сбора и оцифровки больших массивов данных. Например, в ритейле вся информация проходит через кассовые аппараты, а значит, ИИ есть с чем работать. По словам Алексея Шпильмана, использование алгоритмов ИИ позволит повсеместно создать автоматизированные магазины, где все процессы будут происходить без участия человека.

Такой формат еще в 2016 году начала тестировать компания Amazon. Покупатель берет тележку, набирает в нее товары и просто уходит — деньги за покупку списываются с карты автоматически. В России похожий проект разработала «Азбука Вкуса».

«Покупатель берет тележку, набирает в нее товары и просто уходит — деньги за покупку списываются с карты автоматически»

Управление электросвязью: выявление неисправностей в сетях 

Благодаря обучению с подкреплением технологические прорывы могут произойти в управлении разнообразными сетями — телекоммуникациях, теплосетях, электроэнергетике. Многие процессы здесь довольно просто роботизировать, поскольку нет большого взаимодействия с людьми.

Автоматизация приведет к созданию систем, которые будут принимать более взвешенные решения и оптимизировать расход энергии. Например, на основе алгоритмов RL разрабатывается контроллер ОВиК (акроним от англ. Heating, Ventilation, & Air Conditioning — Отопление, вентиляция и кондиционирование воздуха) — это система управления температурой и вентиляцией помещения. Использование этой технологии на предприятиях поможет как экономить энергопотребление, так и сокращать выбросы углерода.

Беспилотный транспорт: тестирование технологии и законодательства

Еще одна сфера, которую ждет прорыв благодаря обучению с подкреплением — транспорт. Уже сегодня на улицах можно встретить беспилотные автомобили и роботов-доставщиков. Несмотря на технологические успехи в этой отрасли, аналитики McKinsey предсказывают, что беспилотники станут привычными не раньше 2030 года. Внедрение осложняется необходимостью разработки нормативных актов. В Сингапуре и США автоматизированный транспорт уже вовсю ездит по трассам, недавно появилось разрешение на тестирование беспилотного такси и в России.

«Автоматизация почти всегда повышает уровень безопасности, но внедрение таких технологий люди встречают с опасением, — уверен Олег Свидченко. — Если заменить весь транспорт на беспилотные Tesla, то количество аварий на дорогах упадет в несколько раз. Но каждая авария будет вызывать много вопросов. Мы не можем однозначно сказать, как в случае с человеком, что стало причиной ДТП. И людей страшит эта неизвестность».

«Еще одна сфера, которую ждет прорыв благодаря обучению с подкреплением — транспорт»

Чем цифровые двойники будут полезны человечеству

Алгоритмы обучения с подкреплением позволили создавать цифровых двойников — виртуальные прототипы объектов, процессов и даже людей, которые содержат в себе те же свойства и характеристики, что и оригиналы. Такую технологию используют промышленные предприятия — например, чтобы перед запуском нового конвейера проверить, правильно ли отлажены все процессы. Конечно, можно сразу вставить вилку в розетку, но если произойдет сбой, на его устранение уйдут время и ресурсы. Поэтому конвейер предварительно запускают на компьютере. 

С цифровыми двойниками человека все намного сложнее, поскольку живой организм — более комплексная система. И все же ученые продолжают осваивать технологию, создавая виртуальные копии как отдельных органов, так и всего организма. Например, бостонская больница использует цифровой двойник сердца для планирования операций. В перспективе это позволит тестировать на виртуальном пациенте методы лечения, прогнозировать заболевания и вполне может претендовать на революцию в медицине.

«Развитие ИИ, в том числе RL, может привести к тому, что люди начнут лучше понимать самих себя, — предполагает Алексей Шпильман. — Человек — закрытая система, потому что для самопознания мы используем собственный мозг. Но достаточно ли нам этого инструмента? Даже в психологии для рефлексии нужны двое, а мы замкнуты внутри себя. Глобально, в контексте Вселенной, человечество пока находится в одиночестве, а значит, нам не с кем пообщаться, чтобы узнать о себе что-то новое и взглянуть со стороны. Возможно, благодаря обучению с подкреплением мы создадим некую сущность вне себя. Она не будет ограничена нашим мозгом и сознанием и сможет дать человеку новые ответы и смыслы».

Почему повсеместное внедрение RL пока ограничено

Несмотря на успехи, которых добились ученые, практическое применение RL пока ограничено. Система долго учится, много ошибается, поэтому повсеместно внедрять алгоритм — сложно и нерентабельно.

«Агенту нужно больше повторений, поэтому процесс обучения занимает довольно много времени, — объясняет Александр Гришин — Более того, ИИ недостаточно совершить лучшее действие. Ему нужно исследовать среду, так как большая награда может быть спрятана за непривлекательными на данный момент шагами. Вся логика обучения с подкреплением сводится к тому, чтобы ИИ научился жертвовать сиюминутной выгодой ради долгосрочного успеха. Для этого нужно мыслить наперед и просчитывать возможные варианты развития событий. Например, когда агент отдаст коня, чтобы захватить ферзя, ученые очень сильно обрадуются».

Задача ученых — добиться того, чтобы у ИИ вырос темп обучения и улучшилась способность к анализу. Но быстро продвинуться вперед мешает одна приземленная проблема: в R&D лабораториях и ИТ-компаниях есть кадровый голод. Университеты создают лаборатории и научные центры, технологические гиганты открывают специализированные курсы.

«Исследования в области машинного обучения сейчас очень востребованы. Отрасль стремительно развивается, а дефицит кадров с каждым днем усиливается, — говорит Алексей Шпильман. — У специалистов есть отличный шанс включиться в процессы, которые позволят изменить мир до неузнаваемости. Интересной работы много. Сейчас мы стоим в самом начале пути, но уже добились неплохих результатов. Представляете, какие перспективы откроются перед человечеством благодаря использованию RL?».


Читать далее:

Космический зонд пролетел в 200 км от Меркурия. Посмотрите, что он увидел

Ученые раскрыли, как витамины влияют на заболеваемость раком

Китайский шлем для «чтения мыслей» бьет тревогу, когда человек видит порноконтент