Уровень здравого смысла у чатботов — не более 58%

Несколько лет назад чатбот, представившись подростком по имени Юджин Гусман, прошел тест Тьюринга. Поэтому эксперты по ИИ придумали новое испытание по измерению интеллекта компьютерных программ. Winograd Schema Challenge определяет уровень здравого смысла в машинах на основании правильного и точного употребления слов.

Недавно состоялся первый такой конкурс на конференции по искусственному интеллекту в Нью-Йорке. В конкурсе участвовало 6 команд, одна из них предложила три разных подхода. Нужно было ответить на 60 вопросов. При этом просто случайный выбор ответов, наугад, дал бы в результате 44% успешности. А наивысший результат — 58% — означает, что одна из систем справилась лучше, хотя, конечно, этого мало, говорит Чарли Ортиц, один из организаторов мероприятия.

Наилучший результат показал алгоритм Никоса Айзека из Открытого университета Кипра. Они использовали гибридный подход, сочетающий подключение к интернету с использованием вероятностного сопоставления.

Winograd Schema Challenge задает компьютерным программам взятые из детских книжек простые вопросы, которые называются проблемы устранения противоречий в местоимениях (PDP):

Искусственный интеллект поможет варить пиво

«Бабар не знал, где ему достать новую одежду. К счастью, богатый старик, который всегда был добр к слонятам, сразу понял, что ему нужен красивый костюм. Поскольку ему нравилось делать добро, он отдал ему свой кошелек».

В этой фразе пять выделенных полужирным местоимений, каждое из которых относится либо к Бабару, либо к богатому старику. Машине нужно разобраться во всей этой путанице, которая для людей со здравым смыслом не составляет труда, пишет Spectrum IEEE.

По мнению Ортица, Winograd Schema Challenge превосходит тест Тьюринга потому, что здесь есть вопросы, на которые можно ответить различным образом. «И если ответить неправильно, то значит — система не понимает смысла фразы. И мы узнаем, где именно у нее ошибка», — говорит он.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Живые клетки обрабатывают информацию в миллиарды раз быстрее, чем считалось ранее
Наука
Яндекс опубликовал нейросеть YandexGPT 5 Lite в открытом доступе
Новости
Эксперты обсудили управление персоналом в эпоху цифровых технологий
Новости
Роспотребнадзор опроверг информацию о новом опасном вирусе в России
Новости
Последствия невесомости для скелета изучили на мышах-космонавтах
Космос
Томские химики создали экономичные катализаторы для зеленой промышленности
Наука
Ученые создали перчатку, с которой можно «ощущать» объекты в виртуальной реальности
Наука
Ученые в тупике: «Уэбб» засек невозможный свет в галактике
Космос
Новый сплав для имплантатов имитирует кость человека
Наука
РКН пообещал обезличить данные россиян, но эксперты сомневаются эффективности метода
Новости
Rutube недоступен в Турции: что происходит, блокировка или нет
Новости
Квантовый компьютер сгенерировал по-настоящему случайные числа
Новости
Загадка древних гигантов: ученые нашли организм, не похожий ни на что живое
Наука
Вскрытие мамонтенка Яны: в Якутии изучили древнюю тушу
Наука
Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения
Новости
Дрон доставил обед: в Иннополисе испытали курьера с Telegram-управлением
Иннополис
Зонд Parker сблизился с Солнцем, собрав важнейшие данные
Космос
Спутниковую связь для обычных смартфонов протестируют в РФ
Новости
Российские ученые нашли безазотную замену тротилу и ракетному топливу
Наука
Российский рынок промышленной автоматизации удвоится к 2030 году, но есть сложности  
Новости