Тест Лавлейс 2.0 - альтернативный тест Тьюринга

Чтобы пройти тест Тьюринга, искусственный агент должен убедить человеческих судей в том, что они разговаривают с человеком, а не с компьютером. Чтобы устранить недостатки этого теста как демонстрации интеллекта, был предложен новый тест, основанный на творчестве.

Идея теста, который первоначально назывался «Игра в имитацию», а теперь известен как тест Тьюринга, была предложена Аланом Тьюрингом в его работе 1950 года «Могут ли машины думать?».

Тест предполагает разговор человека со скрытым субъектом (либо машиной, либо человеком), и Тьюринг предположил, что компьютерная программа, которая сможет убедить людей в том, что они разговаривают с другим человеком 30% времени, «выиграет» его тест, и предположил, что этот подвиг будет достигнут к концу двадцатого века.

Несмотря на различные заявления о том, что тест Тьюринга был пройден, причины этого успеха подозрительны, что наиболее убедительно показала компьютерная программа Владимира Веселова и Евгения Демченко, которая обманула 33% судей на мероприятии в июне 2014 года, посвященном 60-летию со дня смерти Тьюринга. В дополнение к обычным уловкам — взять слова вопроса для формирования ответа и уклончивости, используемым чат-ботами в целом, у них была умная идея придать Евгению Густману личность 13-летнего украинского мальчика, чтобы учесть его недостаток знаний и неуклюжесть.

Еще в августе мы сообщали о новом ежегодном конкурсе Winograd Schema Challenge, призванном определить, обладает ли компьютерная программа интеллектом на уровне человека. Предложенный Гектором Левеском, он представляет собой тест на способность понимать более глубокий и тонкий смысл неоднозначных предложений.

Теперь у нас есть другой подход, который полагается на креативность как косвенный показатель интеллекта и ставит своей целью проверить, могут ли компьютеры создавать концепции — фундаментальный вопрос, который волновал Тьюринга. Он явно отвечает на предполагаемый недостаток теста Тьюринга — а именно его «зависимость от обмана».

Альтернативный тест Тьюринга

Тест Лавлейс 2.0 разработан Марком Ридлом, доцентом Школы интерактивных вычислений Технологического института Джорджии, и основан на более ранней работе, проделанной в 2001 году Селмером Брингсйордом, Полом Белло и Дэвидом Ферруччи, которые придумали тест для определения того, обладает ли искусственный агент интеллектом, по тому, может ли он «застать нас врасплох». Авторы назвали его в честь Ады Лавлейс, которая заявила:

Аналитический двигатель не претендует на то, чтобы что-то создавать. Он может сделать все, что мы знаем, как приказать ему выполнить.

Другими словами, она придерживалась мнения, что:

только когда компьютеры создают вещи, следует считать, что они обладают разумом.

Оригинальный тест Лавлейс, как его описал Ридл, имеет проблему непобедимости. Чтобы пройти его, искусственный агент (a), запрограммированный человеком (h), должен был бы получить некоторый результат (o), который его программист не смог бы объяснить. Критика заключается в том, что:

любой субъект h, имеющий ресурсы для создания a и достаточное время, также имеет возможность объяснить o.

Обновленный тест по-прежнему ищет элементы оригинальности и способности удивлять и ищет то, что Ридл определяет как «вычислительную креативность», а именно:

искусство, наука, философия и проектирование вычислительных систем, которые, принимая на себя определенные обязанности, демонстрируют поведение, которое непредвзятые наблюдатели сочли бы творческим.

Пример, используемый в работе Ридла, использует автоматическое создание историй, определяемое как «создание вымышленных историй искусственным агентом», которое:

требует ряда когнитивных способностей на уровне человека, включая знания, планирование, теорию разума, аффективные рассуждения, планирование дискурса и обработку естественного языка.

Чтобы пройти тест Лавлейс 2.0, искусственный агент должен создать артефакт o типа t, где:

o соответствует набору ограничений C, где ci ∈ C — любой критерий, выражаемый на естественном языке.
человек-оценщик h, выбрав t и C, удовлетворен тем, что o является допустимым экземпляром t и удовлетворяет C, и
человеческий судья r определяет, что комбинация t и C не является невозможной.

Как и тест Тьюринга, прохождение теста предполагает оценку человека, который принимает активное участие в решении задачи — в тесте Тьюринга человек инициирует и отвечает на разговорный поток, а в тесте Лавлейс 2.0 человек определяет ограничения, которые сделают артефакт новым и удивительным. В статье приводится следующий пример:

создайте историю, в которой мальчик влюбляется в девочку, мальчика похищают инопланетяне, а девочка спасает мир с помощью говорящего кота.

Хотя Ридл считает, что добавление дополнительных ограничений усложняет тест, для меня они кажутся слабым местом в тесте на оригинальность.

Как в тесте Тьюринга чатбот может использовать вопрос или любой фрагмент разговора, созданный человеком, в качестве исходного материала для своих высказываний, так и в тесте Лавлейс 2.0 агент может использовать ограничения для создания истории — чем больше ограничений, тем больше материала предоставляется. И снова есть возможность для создателя искусственного агента (программиста) использовать хитроумные приемы, которые, по сути, обманывают судей, заставляя их думать, что агент проявляет творческий подход, в то время как на самом деле он действует оппортунистически.

Хотя некоторые из тех, кто организует тесты Тьюринга, хотели бы заставить нас поверить, что они являются мерой автономного интеллекта, это, несомненно, заходит слишком далеко. Как отметил Ридл:

Важно отметить, что Тьюринг никогда не хотел, чтобы его тест стал официальным критерием того, может ли машина или компьютерная программа думать как человек.

Хотя он предлагает тест Лавлейс 2.0 в качестве лучшего показателя того, может ли машина воспроизвести человеческое мышление, он, вероятно, более реалистичен как демонстрация того, что компьютерные программы могут создавать результаты, которые убедительно отличаются новизной. Это не означает принижение усилий программиста, но подтверждает убеждение Ады Лавлейс в том, что именно программист, а не компьютер обладает интеллектом, креативностью и другими человеческими качествами, которые машина может имитировать.

Max Home Industry

разработка программного обеспечения

Тест Лавлейс 2.0 — альтернативный тест Тьюринга

Альтернативный тест Тьюринга

Похожее

Добавить комментарийОтменить ответ

Альтернативный тест Тьюринга

Поделиться ссылкой:

Похожее

Добавить комментарийОтменить ответ