В отличие от логических игр, таких как го, где каждый игрок в любой момент знает текущее положение дел на доске, покер основан на работе со скрытой информацией. Для победы в нем ИИ использовал метод, применимый к множеству игр с недостатком информации, а также к таким сферам реальной жизни, как деловые переговоры, кибербезопасность, финансы и военное дело.
Работа ИИ была разделена на три основных модуля. В первом Libratus создавал упрощенную модель игры, работать с которой было намного легче, чем анализировать 10 в 161-й степени возможных вариантов решения. Затем он прорабатывал подробную стратегию игры для ранних раундов и приблизительную — для последующих.
В процессе игры ИИ учитывал свои ошибки и вносил коррективы в план действий, создавая более точную модель. Также он с помощью машинного обучения анализировал ошибки соперников-людей и учитывал в своей игре против них.
При этом Libratus не был приспособлен к игре за одним столом с несколькими игроками — в процессе обучения он разыгрывал партии в покер с копией самого себя. Тем не менее, ему удалось обыграть четырех чемпионов мира по этой карточной игре прошлых лет, а также действующего чемпиона — Даррена Элиаса.
Игра сразу с шестью партнерами, а не с одним соперником потребовала фундаментальных изменений в том, как ИИ вырабатывал свою стратегию. Мы рады тому, что Pluribus удалось справиться с этой задачей и выработать несколько инновационных приемов, которые, скорее всего, поменяют то, как играют профессионалы.
Ной Браун, Университет Карнеги — Мелона
Ранее другой алгоритм, Lengpudashi, одержал победу над командой китайских чемпионов по покеру Team Dragons.