Лучший тест Тьюринга — схемы Винограда


Winograd Schema Challenge — это новое ежегодное соревнование, призванное оценить, действительно ли компьютерная программа смоделировала интеллект человеческого уровня. Первый крайний срок подачи заявок — 1 октября 2015 года, и главный приз в размере 25 000 долларов будет присужден победившей программе, которая успешно пройдет тест.

Конкурс спонсируется Nuance Communications, поставщиком голосовых и языковых решений в сотрудничестве с Commonsense Reasoning, целью которого является продвижение и продвижение исследований в области формального здравого смысла. Он предлагается в качестве альтернативы тесту Тьюринга для определения того, способна ли машина производить поведение, требующее от людей мышления.
Это было еще в 1950 году в статье под названием «Могут ли машины думать?» что Алан Тьюринг предложил для этого тест, который он назвал имитационной игрой и который позже стал известен как тест Тьюринга.
В тесте участвовал человек, который разговаривал со скрытой сущностью (машиной или человеком). Сам Тьюринг предположил, что компьютерная программа, которая могла бы убедить судей-людей в том, что они разговаривают с другим человеком 30% времени, «выиграет» его тест.
Результатом мероприятия, проведенного в Королевском обществе в Лондоне по случаю 60-летия смерти Тьюринга, стало то, что компьютерная программа «Тест Тьюринга» убедила судей в 33% случаев в наборе из 150 испытаний. Но, как мы сообщали в то время, программа, известная как Юджин Густман, не только не продемонстрировала способность мыслить, но и принесла дурную славу тесту Тьюринга, проводимому Кевином Уорвиком и командой из Университета Рединга.

Создатели Евгения Густмана, Владимир Веселов, родившийся в России, а ныне проживающий в Соединенных Штатах, и Евгений Демченко, родившийся в Украине, придумали умную идею — чтобы учесть недостаток знаний и неловкость личности, они дали программе личность 13-летнего украинского мальчика.
Это усугубило проблемы, уже присущие формату теста. Например, люди, притворяющиеся машинами, и судьи, ищущие подсказки, такие как плохое владение клавиатурой — чат-бот, скорее всего, доставляет свои ответы быстро и без опечаток, тогда как человек, вероятно, будет медленнее и менее точен. В наш век, когда есть возможность находить ответы на фактические вопросы почти сразу, и общие знания больше не являются хорошим отличительным признаком между людьми и компьютерами.
В общем, когда тест Тьюринга был сведен к соревнованию с чат-ботами, он больше не отвечал на исходный вопрос Тьюринга: «Могут ли компьютеры продемонстрировать человеческую способность мыслить?» и, очевидно, требовалось новое испытание.
Альтернатива, на которой основан новый конкурс, принадлежит Эктору Левеску, профессору компьютерных наук в Университете Торонто, победителю премии IJCAI за выдающиеся достижения в области исследований в 2013 году за его работу по различным темам представления знаний и рассуждений. Он назвал это Winograd Schema Challenge, поскольку в нем развиваются идеи Терри Винограда, известного разработчиком фреймворка на основе искусственного интеллекта для понимания естественного языка.
В своей статье 2011 года Левеск утверждает:
Как и в оригинальном [тесте Тьюринга], он включает в себя ответы на напечатанные английские предложения, и англоговорящие взрослые не столкнутся с этим. В отличие от оригинала, субъект не обязан вступать в разговор и заставлять следователя поверить в то, что она имеет дело с человеком. Более того, тест построен таким образом, что полный доступ к большому корпусу английского текста может не сильно помочь. Наконец, дознаватель или третье лицо сможет однозначно решить через несколько минут, прошел ли испытуемый тест.
В качестве примера вопроса о схеме Винограда рассмотрим следующее:
Трофей не поместился бы в коричневый чемодан, потому что он был слишком большим. Что было слишком большим? Ответ 0: трофей / Ответ 1: чемодан
Это неоднозначный вопрос, потому что «он» может относиться либо к трофею, либо к чемодану. «Правильный» ответ сразу же очевиден для человека, который будет опираться на информацию о размерах чемоданов и трофеев родственников, и он, вероятно, недостаточно тонкий, чтобы обмануть компьютер.
Но другие более тонкие.
Рассмотрим пример, взятый из Winograd:
Члены городского совета отказались дать разрешение разгневанным демонстрантам, опасаясь насилия. Кто боялся насилия?
У Левеск есть четыре правила составления подходящих предложений и их вопросов:

Две стороны упоминаются в предложении именными фразами. Это могут быть два мужчины, две женщины, два неодушевленных предмета или две группы людей или предметов.
Местоимение или притяжательное прилагательное используется в предложении по отношению к одной из сторон, но также подходит для второй стороны. В случае мужчин это «он / он / его»; для женщин это «она / она / она», для неодушевленного объекта — «оно / оно / его», а для групп — «они / они / их».
Вопрос включает определение референта местоимения или притяжательного прилагательного. Ответ 0 всегда является первой стороной, упомянутой в предложении (но повторяется из предложения для ясности), а ответ 1 — второй стороной.
Есть слово (называемое специальным словом), которое появляется в предложении и, возможно, в вопросе. Когда его заменяют другим словом (называемым альтернативным словом), все по-прежнему имеет смысл, но ответ меняется.

Чтобы увидеть, как последнее правило вносит сложность, когда слова не являются противоположностями, например «большой» и «маленький», подумайте:
Пол пытался позвонить Джорджу по телефону, но его не было __Кто не __? Ответ 0: Пол / Ответ 1: Джорджспециальный: успешно / альтернативный: доступен
Для ежегодного конкурса, открытого для отдельных лиц или команд, тест будет состоять не менее чем из 40 схем Винограда с неповторяющимся набором тестовых вопросов, которые будут подаваться каждый год.

Симпозиум по здравому смыслу 2015 года, который состоится на весеннем симпозиуме AAAI в Стэнфорде с 23 по 25 марта 2015 года, будет включать специальную сессию для презентаций и обсуждений прогресса и проблем, связанных с вызовом схемы Винограда.
Новый тест звучит так, как будто он может быть более сложным, чем нынешний цирк, ориентированный на чат-ботов, но, как он сформулирован, он более конкретен. Имея всего 40 схем Винограда, весьма вероятно, что можно будет изобрести поисковый подход, который приведет к созданию еще одной коллекции «чат-ботов», нацеленных на определенные типы языкового анализа. Иногда язык действительно воплощает в себе весь спектр человеческого интеллекта, но когда он ограничен, становится возможным воспроизвести его без овладения искусственным интеллектом.


Добавить комментарий