В статье, опубликованной в журнале Science, компания Google подробно описала AlphaZero, систему на основе ИИ, которая может научить себя игры в шахматы и настольную игру Go. В каждом случае она побеждала чемпиона мира, демонстрируя умение обучаться играм на основе предыдущих матчей.
Но преимущество AlphaZero заключалось в том, что она знала правила игры заранее и могла обучаться до начала матчей. Однако теперь исследователи обновили систему, теперь она способна учиться правилам игры по ходу первой же партии. Модель MuZero предсказывает наиболее релевантные ходы на основе имеющихся на конкретный момент данных. Она с каждым ходом улучшает свои решения.
Модель работает вместе с поиском AlphaZero. Вместо того, чтобы пытаться смоделировать всю среду с помощью алгоритма, MuZero моделирует только те аспекты, которые важны для принятия решения.
Подобных успехов ученые добились благодаря тому, что их программы основываются сразу на двух нейронных сетях — компьютерных алгоритмах, которые имитируют работу цепочек нейронов в мозге человека. Одна из этих нейросетей оценивает текущую позицию игрока на доске, а вторая использует результаты первой сети. Именно она выбирает что делать дальше и ускоряет расчеты.
В течение следующих нескольких месяцев DeepMind планирует сосредоточиться на выявлении потенциальных коммерческих применений MuZero и подобных им систем обучения. Одним из них может стать интернет-трафик. Модель может сжимать видеоклипы и ускорить работу самых крупных видеоплатформ.
Читать далее:
Опасное потепление климата начнется через 7 лет
Аборты и наука: что будет с детьми, которых родят
Посмотрите на самые красивые снимки «Хаббла». Что увидел телескоп за 30 лет?