Нет победителей в первом конкурсе схем Winograd


Результаты первого в истории Winograd Schema Challenge были обнародованы недавно на Международной совместной конференции по искусственному интеллекту (IJCAI-2016). Низкие оценки отражают, насколько далеко машины должны понимать человеческий язык и здравый смысл.

Как мы сообщали, когда об этом было объявлено в 2014 году, см. «Лучший тест Тьюринга — схемы Винограда», этот новый конкурс был разработан, чтобы оценить, действительно ли компьютерная программа смоделировала интеллект человеческого уровня. Он рассматривается как альтернатива тесту Тьюринга, который, как правило, дискредитируется из-за уловок, используемых чат-ботами, чтобы избежать ответов на вопросы, последним из которых может быть молчание, ссылаясь на 5-ю поправку, см. Ошибка в тесте Тьюринга?
Транспортное средство, предложенное для конкурса профессором компьютерных наук Гектором Левеском (Winograd Schema questions), требует от участников ответов на вопросы, которые становятся неоднозначными, когда вы просто анализируете конструкцию предложения и на которые можно ответить, только обладая такими знаниями. люди принимают во внимание здравый смысл, как показано на следующем примере:
Трофей не поместился бы в коричневый чемодан, потому что он был слишком большим. Что было слишком большим? Ответ 0: трофей / Ответ 1: чемодан
В заявлении «это» может относиться либо к трофею, либо к чемодану. «Правильный» ответ сразу очевиден для человека, который будет опираться на знания о размерах чемоданов и трофеев родственников, и, вероятно, он недостаточно тонкий, чтобы обмануть компьютер, который мог бы быть проинформирован о размещении объектов в контейнерах.
Но другие схемы Винограда более тонкие и заставляют людей задуматься:
Члены городского совета отказались дать разрешение разгневанным демонстрантам, опасаясь насилия. Кто боялся насилия?
Фактически, при тестировании схем Винограда, созданных в рамках подготовки к конкурсу, все испытуемые постоянно давали «неправильный» ответ, хотя в целом 21 участник соглашался с предполагаемыми ответами для материалов в 91% случаев.
Для конкурса были подготовлены два типа материалов, причем схемы Винограда были зарезервированы для второго раунда, чтобы использоваться в случае, если участники достигли порога не менее 90% в первом раунде.
Первый раунд опирается на несколько менее сложные вопросы, проблемы устранения неоднозначности местоимений (PDP), которые требуют здравого смысла для понимания отношений между объектом и событиями. PDP изобилуют повседневным языком, и для конкурса были собраны материалы из детской литературы, например:
Бабар задается вопросом, как ему достать новую одежду. К счастью, очень богатый старик, всегда любивший маленьких слоников, сразу понимает, что ему нужен прекрасный костюм. Поскольку ему нравится делать людей счастливыми, он дает ему свой кошелек.
Qesstion: Кто такой «он» в слове «он жаждет хорошего костюма»: (а) Бабар (б) старик Ответ: (а) Бабар
Как пояснил Чарльз Ортис, директор по искусственному интеллекту компании Nuance Communications, спонсирующей конкурс:
«Несмотря на то, что компьютерные системы ИИ просты для людей, сегодня им не хватает здравого смысла и аргументов для решения этих вопросов. Каждая схема и PDP включает в себя множество различных типов отношений, таких как причинно-следственные, пространственные, временные и социальные отношения».
В подготовительных тестах 108 задач PDP, которые проводились с 19 людьми, 12 из которых не являлись носителями английского языка, общий средний балл составил 91%.
Итак, каковы были результаты шести программ, представленных четырьмя независимыми студентами / исследователями и студентами со всего мира?

Как видно из таблицы, оценки варьировались от нижнего 30-го процентиля i до высокого 50-го (* после корректировки пунктуационной ошибки во вводе XML), поэтому второго раунда этого первого конкурса не было. Как прокомментировал Ортис:
Хотя с некоторыми вопросами схемы Винограда можно было бы справиться, необходимо провести гораздо больше исследований, чтобы разработать системы, способные справиться с такого рода тестами.
Он завершил свой отчет:
Итак, теперь мы смотрим на 2018 год, когда следующий Winograd Schema Challenge будет оцениваться на мероприятии AAAI 2018 года — и с учетом уровня инноваций и интеллекта — потенциально может дать результаты, которые еще больше продвинут уровень взаимодействия человека с машиной.
Для получения дополнительной информации о текущем конкурсе посетите его страницу на сайте Commonsense Reasoning.


Добавить комментарий