Революция в эволюционной теории игр: дилемма заключенного решена?


Теория игр достаточно хорошо известна, чтобы нас не удивили глубокие потрясения, но одна из наиболее изученных игр, «Дилемма заключенного», вернулась в центр внимания. Сюрприз в том, что есть выигрышная стратегия.

Дилемма заключенного хорошо известна; два человека были арестованы, и полиция предлагает каждому отдельную сделку. Если они оба будут молчать, то оба получат один месяц тюрьмы. Если один признается, то этот человек выходит на свободу, а другой получает шесть месяцев, но если оба признаются, они оба получают три месяца тюрьмы.

Вы можете видеть сложность — если они оба могут хранить молчание, то им обоим будет сокращен срок, но если один признается, оставив другому отсидеть шесть месяцев, он сможет уйти бесплатно. Если в игре всего один раунд, то лучшая стратегия — признаться, потому что это защищает от максимального наказания.

Это хорошо известно и не оспаривается. Однако, если в игру играют неоднократно и разрешены статистические стратегии, тогда все становится интереснее. В этом случае стратегия может варьироваться в зависимости от того, что другой игрок сделал в последнем раунде, и долгое время считалось, что лучшая стратегия — это имитировать то, что другой игрок сделал в последнем раунде, то есть играть «око за око». Это приводит к тому, что оба игрока проводят в тюрьме одинаковое количество времени, то есть выплаты распределяются 50:50. Это имеет место независимо от того, какую стратегию использует оппонент, если только это не стратегия «око за око», когда результат не определен.

Успех стратегии «око за око» был воспринят как подтверждение этических ценностей — если вы откажетесь, я сделаю то же самое с вами, и поэтому сотрудничество будет лучше.

Недавно (июль 2012 г.) это изящное решение было опровергнуто публикацией Уильяма Х. Пресса и Фримена Дж. Дайсона: «Повторяющаяся дилемма заключенного содержит стратегии, которые доминируют над любым эволюционным противником».

Фримен Дайсон хорошо известен своим фундаментальным вкладом в квантовую теорию поля, а также многими идеями о космосе — см. «Сфера Дайсона».

Новая стратегия называется стратегией нулевого детерминанта (ZD), потому что ее игрок выбирает вероятности, которые обнуляют детерминант в выражении ожидаемого выигрыша. Это упрощает выражение и делает выигрыш оппонента зависимым только от полной стратегии, выбранной игроком ZD, если это не другая стратегия ZD.

Самый важный вариант стратегии ZD — это когда игрок ZD устанавливает свой выигрыш как пропорцию плей-офф соперника — так называемая стратегия вымогательства, потому что игра ZD получает долю успеха другого игрока. Выплата игроку ZD зависит от стратегии противника, но устанавливается как фиксированная пропорция от выигрыша оппонента. Учитывая, что это правда, оппонент все еще может попытаться изменить свою стратегию, чтобы увеличить свой выигрыш с побочным эффектом увеличения выигрыша для игрока ZD. Другими словами, игрок ZD может использовать стратегию, которая «вымогает» более высокий процент выигрыша, чем достигает оппонент.

Стратегия «око за око» является примером стратегии ZD в том смысле, что независимо от того, что он делает в среднем, противник проводит в тюрьме столько же времени, что и игрок ZD.

Это означает, что стратегия ZD всегда будет доминировать над любым противником, даже если противник будет развиваться, чтобы улучшить свои характеристики.

Это глубокий шок для сообщества теории игр, и это также поднимает вопрос, почему стратегии ZD не встречаются в естественном слове?

Первое наблюдение состоит в том, что существование стратегии ZD делает четкое различие между игроками, у которых есть «теория разума».

Эволюционные стратегии просто корректируют поведение, чтобы получить максимальную отдачу. Они не учитывают выигрыш соперника. В этом случае вы будете играть, чтобы максимизировать свой выигрыш, несмотря на то, что это приносит больше пользы вашему оппоненту, чем вам. Если, с другой стороны, у вас есть теория разума и вы считаете, что ваш оппонент использует ZD, то вы можете решить, что можете изменить его стратегию, отказавшись играть на максимальную отдачу, что причинит вред вам обоим. Тогда игрок ZD может отреагировать снижением коэффициента вымогательства.

В оригинальной статье комментарии:

«Стоит задуматься над тем, что, хотя эволюционного игрокаY так легко победить в рамках игры IPD, именно эволюция на гораздо более обширном полотне жизни, основанной на ДНК, в конечном итоге произвела X, игрока с разумом. . »

Предполагается, что концепция интеллектуального противника может возникнуть из-за необходимости победить «неэтичную» стратегию ZD.

Более поздние результаты показывают, что это может быть преувеличением, потому что стратегия ZD не является эволюционно стабильной. То есть, когда вы впервые вводите ZD в популяцию, он работает очень хорошо, но по мере увеличения числа игроков ZD его ценность уменьшается. Причина в том, что, когда встречаются два игрока ZD, результат ниже, чем когда ZD встречает другую стратегию. Это позволяет другой стратегии вторгнуться в популяцию, и ZD медленно вымирает.

Единственное исключение из этого — если два игрока ZD могут узнавать друг друга и избегать соревнований друг с другом. Что нужно, так это своего рода бирка или секретное рукопожатие, которое показывает, что вы — умный игрок ZD, ищущий тупого игрока без какой-либо теории разума. Конечно, как только такой тег появляется, игра переходит к обману, например, имитацией тега и так далее. Здесь все становится действительно сложным, и нам придется подождать, пока теоретики игры проработают последствия.


Добавить комментарий