Кейсы 31 марта 2016

Следующей жертвой алгоритма DeepMind может стать покер

Далее

О сокрушительной победе алгоритма AlphaGo со счетом 4:1 в игре с чемпионом го говорят по-прежнему. Но новое исследование из Университетского колледжа Лондона указывает на следующий этап в развитии DeepMind - освоение тактики игры в покер. Об этом пишет The Guardian.

Одним из авторов исследования стал Дэвид Сильвер, преподаватель Университетского колледжа Лондона и один из разработчиков DeepMind. Именно Сильвер был главным программистом алгоритма AlphaGo. В работе под названием «Глубокое подкрепляющее обучение в ходе самостоятельной игры в играх с неполной информацией» описаны методы обучения алгоритма игре в два вида покера: Leduc (максимально упрощенная версия игры с колодой из шести карт) и Texas Hold’em (самый популярный в мире вид).

Используя те же методы, что и при подготовке к играм в го, алгоритм самостоятельно изучил стратегию Texas Hold’em и достиг того же уровня, что и эксперты в этой сфере.

В случае с упрощенным Leduc алгоритм достиг равновесия Нэша — математически оптимальной стратегии игры.

В основе обучения алгоритма лежала методика глубокого обучения с подкреплением, которая базируется на нейросетях. Система училась на своих ошибках и иногда даже играла сама с собой, чтобы лучше изучить игру.

В некоторых аспектах покер — еще более сложная для компьютера игра, чем го, так как машина не знает, что происходит на игровом столе и какие карты на руках у противника. Алгоритм может предсказывать развитие игры, но не может никак разгадать поведение соперника.

Открытие кажется вдвойне значимым, если учесть, что в работе над алгоритмом не принимали участие эксперты и он не обладал никакими программируемыми знаниями о покере.