Кейсы

Уровень здравого смысла у чатботов — не более 58%

Далее

Несколько лет назад чатбот, представившись подростком по имени Юджин Гусман, прошел тест Тьюринга. Поэтому эксперты по ИИ придумали новое испытание по измерению интеллекта компьютерных программ. Winograd Schema Challenge определяет уровень здравого смысла в машинах на основании правильного и точного употребления слов.

Недавно состоялся первый такой конкурс на конференции по искусственному интеллекту в Нью-Йорке. В конкурсе участвовало 6 команд, одна из них предложила три разных подхода. Нужно было ответить на 60 вопросов. При этом просто случайный выбор ответов, наугад, дал бы в результате 44% успешности. А наивысший результат — 58% — означает, что одна из систем справилась лучше, хотя, конечно, этого мало, говорит Чарли Ортиц, один из организаторов мероприятия.

Наилучший результат показал алгоритм Никоса Айзека из Открытого университета Кипра. Они использовали гибридный подход, сочетающий подключение к интернету с использованием вероятностного сопоставления.

Winograd Schema Challenge задает компьютерным программам взятые из детских книжек простые вопросы, которые называются проблемы устранения противоречий в местоимениях (PDP):

Искусственный интеллект поможет варить пиво

«Бабар не знал, где ему достать новую одежду. К счастью, богатый старик, который всегда был добр к слонятам, сразу понял, что ему нужен красивый костюм. Поскольку ему нравилось делать добро, он отдал ему свой кошелек».

В этой фразе пять выделенных полужирным местоимений, каждое из которых относится либо к Бабару, либо к богатому старику. Машине нужно разобраться во всей этой путанице, которая для людей со здравым смыслом не составляет труда, пишет Spectrum IEEE.

По мнению Ортица, Winograd Schema Challenge превосходит тест Тьюринга потому, что здесь есть вопросы, на которые можно ответить различным образом. «И если ответить неправильно, то значит — система не понимает смысла фразы. И мы узнаем, где именно у нее ошибка», — говорит он.

Загрузка...