Роуз выигрывает бронзу Лебнера


Чат-бот под названием Роуз обошел трех других финалистов конкурса Lobener Prize 2015 года, но был удостоен ежегодного приза только как лучший собеседник, поскольку Роуз явно не была человеком.

В прошлые выходные в Блетчли-парке проводился ежегодный цирк Лебнера, и его результат был неудивительным.
Ни один из чат-ботов не обманул судей в достаточной степени, чтобы сойти за настоящего человека, что будет вознаграждено серебряной медалью и 25000 долларов. Вместо этого ежегодный приз в виде бронзовой медали и 4000 долларов, присужденных самому человечному чат-боту в конкурсе, достался Брюсу Уликоксу, который уже выигрывал конкурс трижды, в 2014, 2011 и 2010 годах.
С годами конкурс на премию Лебнера снизился. Когда Хью Ленбер впервые предложил его в 1990 году, он предложил 100 000 долларов и золотую медаль за первую компьютерную программу, которая прошла тест Тьюринга.

Алан Тьюринг изображен на золотой медали премии Лебнера

Спустя 25 лет это соревнование стало шаблонным и даже тривиальным, и трудно увидеть, что есть какие-либо доказательства искусственного интеллекта – просто хитрое программирование. Хотя программы действительно заслуживают отдельной категории, названной «чат-боты», какое это имеет отношение к демонстрации того, что машины могут думать?
Когда Алан Тьюринг предположил, что если компьютер может обмануть человека, заставив его поверить в то, что он человек, он продемонстрирует, что машина может думать, он подумал, что это станет возможным к концу 20 века. Искусственный интеллект добился больших успехов, но чат-боты, такие как Роуз, не используют наиболее многообещающие методы искусственного интеллекта и не проявляют таких качеств, как креативность и изобретательность, которые являются частью человеческого мышления.
Порог Тьюринга для прохождения теста заключался в способности убедить судей-людей, что они разговаривают с другим человеком 30% времени, а в 2014 году на мероприятии, посвященном 60-летию его смерти, чат-бот по имени Юджин Густман набрал 33%. Вместо того, чтобы признать это прорывом, произошло обратное, см. «Прохождение теста Тьюринга приводит к дурной славе».
То, как создатели Goostman наделили его личностью 13-летнего украинца, означало, что плохие разговорные навыки чат-бота и неспособность отвечать на вопросы были объяснены, и это рассматривалось как закулисный способ выиграть!
Одной из стратегий, предложенных для усиления теста, было включение двусмысленного вопроса, называемого схемами Винограда, на который нельзя ответить с помощью лингвистических подсказок. Отборочный тур конкурса Лебнера этого года включал в себя два таких вопроса:
Если кровать не помещается в комнате, потому что она слишком велика, что будет слишком большим?
Чат-бот, набравший наибольшее количество баллов в отборочном раунде (83,33%), победитель конкурса 2013 года Mitsuku ответил на это так:
«Это загадка? Насколько она велика. Расскажи мне о ней поподробнее».
Другой из четырех финалистов, Пандоаработ-Изар, набравший 76,67% в отборочном туре, ответил:
«Нет ничего необычного в том, что кровать не помещается в комнате, потому что так и должно быть. Я знаю почти все, что нужно знать об этом ».
В ответ на другую схему Винограда
Если Алекс одолжил Джо денег, потому что они были разорены, кому были нужны деньги?
лучшая попытка у Лизы, набравшей 80%:
«Поскольку он был разорен, Алекс одолжил Джо денег».
Эти два вопроса, похоже, сломали чат-бота Talk2Me (оценка 65,83%), который ответил на оба вопроса:
«К сожалению, произошла ошибка, и я должен выключиться».
Пятнадцать чат-ботов пытались пройти отборочные раунды, и расшифровки ответов, которые они дали на набор из 20 вопросов, показывают, что разброс способностей велик. Самый низкий балл Cyrabot ответил «Я не знаю» на все вопросы, кроме размера кровати, на который он ответил «Да», но при этом набрал 26,67%!
Мобильный виртуальный робот-помощник Алиса, еще один участник Pandorabots, набрала только 64,17%, но ее ответы на фактические вопросы показывают, почему она так плохо справилась.
Вопрос: Сколько президентов США называли Бушем?
Пандоработ – Алиса: «Это вопрос, на который я обычно могу ответить, но мы отключены от Интернета, поэтому мы не можем получить ответ от другого робота».
В ответе также указывается, почему Siri и Cortana – полезные боты, которые иногда кажутся умными, а Watson может перехитрить соперников-людей, в то время как эти автономные программы борются. Лишенные возможности выполнять анализ данных, все, что им нужно, – это ввод с другого конца разговора и шаблоны, которым они были обучены.
Роуз заняла четвертое место с результатом 75% в процессе отбора и была одной из немногих, кто дал ответ 7 на:
Сколько слов в этом вопросе?
и ее ответ показывает, что она была нацелена на это:
«В предложении 7 слов: сколько слов в этом вопросе».
В процессе отбора четыре робота, набравшие наибольшее количество баллов, стали финалистами, которые перешли на этап теста Тьюринга в соревновании, проводившемся в Блетчли-парке. Его формат, как и раньше, заключался в том, что было четыре раунда, в которых четыре человека-судьи одновременно взаимодействовали с двумя объектами с помощью компьютерного терминала. Один из них был человеком-«сообщником», а другой – чат-ботом. Каждый раунд длился 25 минут, и судей просили решить, кто из A или B был человеком, а какой – программой, а также оценить ботов по их разговорным навыкам:

Один из судей, технологический корреспондент BBC Рори Селлан-Джонс, сказал, что ему потребовалось чуть более трех минут, чтобы разобраться с тем чат-ботом Роуз, который представляет собой 30-летнюю женщину, которая является консультантом по безопасности в мире хакеров. не был человеком.
Другой судья, Джейкоб Арон, сообщил в New Scientist:
На практике мне понадобилось всего несколько минут, чтобы отличить человека от машины. Один бот начал с новой стратегии подкупа меня, чтобы разделить призовой фонд, если я объявлю его человеком, а другой заявил, что он инопланетянин на космическом корабле. Эта тактика не сработала. Люди быстро заявили о себе, отвечая на простые вопросы о погоде или окружении, которые боты либо игнорировали, либо безнадежно ошибались.
Чтобы увидеть, как играет Роуз, вы можете поговорить с ней и самостоятельно оценить ее разговорные навыки:

Результаты конкурса были следующие – где чем меньше балл, тем лучше:
1-я роза – 1,5
2-й Мицуку – 2,0
Равный 3-й Изар – 3,25
Равная 3-я Лиза – 3,25
AISB, Общество изучения искусственного интеллекта и моделирования поведения, повторно проведет конкурс в следующем году, и, возможно, к тому времени чат-боты будут лучше обучены тому, что делать со схемами Винограда.
Нынешняя премия Лебнера превратилась в медийный цирк, и пора ее реформировать или ликвидировать – ИИ находится в хрупком состоянии, и мы не можем позволить себе провоцировать еще одну «зиму ИИ» из-за такого рода глупостей.

.


Добавить комментарий