думал настольную игру на поле с шестиугольными клетками, позднее получившую название «Геке». По-видимому, Нэш не знал, что несколькими годами ранее такую же игру придумал Пит Хейн. Нэш доказал, что в этой игре должна существовать выигрышная стратегия для первого игрока.
Начиная с 1950-х годов он работал в Массачусетском технологическом институте (MIT) и в корпорации RAND — знаменитой организации ВВС США, занимавшейся стратегическими исследованиями. Спустя некоторое время после свадьбы, в 1959 году, ему пришлось пройти курс лечения от шизофрении. Впоследствии болезнь усилилась и преследовала ученого в разные годы жизни. Несмотря на болезнь, он продолжал работать и в 1994 году получил Нобелевскую премию по экономике.
В 2001 году режиссер Рон Ховард снял фильм «Игры разума», удостоенный четырех «Оскаров», в котором рассказывается о жизни Джона Нэша и в особенности о его борьбе с шизофренией, от которой он страдал на протяжении многих лет.
Дилемма заключенного и другие классические задачи теории игр
Примеры из предыдущего раздела показывают, что в играх с нулевой суммой иногда можно использовать стратегии сотрудничества, которые позволяют улучшить результат. Проблемы возникают, когда новый результат не распределяется между игроками поровну. Иными словами, стоит вопрос о том, как распределить «излишки» и довольны ли игроки рациональным распределением этих «излишков».
Меррил Флад, в свое время работавший в RAND, проанализировал различные ситуации из повседневной жизни, особенно те, в которых игрокам требовалось распределить между собой дополнительный выигрыш. Одна из таких ситуаций — продажа подержанного автомобиля. Допустим, покупатель готов купить машину у друга, который, в свою очередь, готов ее продать. Чтобы узнать стоимость машины, друзья отправляются в автомагазин, который согласен приобрести автомобиль за 1000 долларов и продать за 1300 долларов, получив минимум 300 долларов за свои услуги. Если продажа будет совершена без участия магазина, очевидно, что друзья сэкономят 300 долларов и смогут разделить эту сумму между собой. В этом случае наиболее рационально разделить эту сумму пополам, то есть продать машину за 1150 долларов. Таким образом, каждый из друзей получит по 150 долларов.
Это решение рационально, но не единственно. Один из игроков, например покупатель, может решить, что не готов платить больше 1100 долларов, то есть продавец получит 100 долларов в дополнение к установленной цене. И наоборот, продавец может установить минимальную цену в 1250 долларов, аргументируя это тем, что покупатель все равно сэкономит 50 долларов. Заметим, что если покупатель не примет предложение продавца, рационально рассудив, что выгода разделена «несправедливо», то повредит сам себе, потому что установленная цена все равно будет ниже цены магазина.
Однако мысль о «справедливом» распределении выгоды не всегда столь очевидна. Иногда может существовать несколько решений, которые будут казаться полностью обоснованными. Допустим, Михаил хочет отправиться из Барселоны в Мадрид (600 км) на машине, чтобы посетить важное совещание и вернуться на следующий день. Он узнает, что Петр, его друг, который живет в Сарагосе, тоже должен поехать в Мадрид в этот же день. Друзья решают вместе поехать на машине и туда, и обратно. Как нужно распределить расходы на поездку, учитывая, что Сарагоса расположена на полпути между Барселоной и Мадридом?
Вариант 1. Так как Михаил проедет в два раза больше, чем Петр, расходы нужно разделить на 3, Петр заплатит одну треть, Михаил — две трети.
Вариант 2. Так как Михаил проедет в одиночку половину пути, а другую половину друзья проедут вместе, то Михаил оплатит расходы за половину дороги плюс еще одну четверть, а оставшаяся четверть расходов (половина половины) придется на долю Петра. Получается, что расходы нужно разделить на 4, Петр оплатит одну четверть, Михаил — три четверти.
Чтобы подсчитать расходы на поездку, предположим, что поездка из Барселоны в Мадрид обойдется Михаилу в 600 евро (если он поедет один), а поездка из Сарагосы в Мадрид обойдется Петру в 300 евро. Если они поедут вместе, то сэкономят 300 евро. В первом варианте Михаил платит 400 евро (экономит 200), Петр платит 200 евро (экономит 100). Во втором варианте Михаил платит 450 евро (экономит 150), Петр платит 150 евро (также экономит 150). Получается, что во втором варианте выгода распределяется одинаково, а в первом распределение происходит пропорционально понесенным расходам. Таким образом, в конкретной ситуации может существовать несколько разумных и обоснованных решений.
Дилемма заключенного
Игра под названием дилемма заключенного (этот термин был предложен Альбертом Такером в 1950 году) принадлежит к числу наиболее известных задач теории игр. Это простой пример того, как две противоборствующие стороны могут соперничать или сотрудничать. Подобное встречается очень часто: в ценовых войнах, рекламных кампаниях или в гонке вооружений.
В традиционной формулировке речь идет о противостоянии двух преступников, каждый из которых может хранить молчание или свидетельствовать против другого. Однако мы рассмотрим эту дилемму на интересном практическом примере военного конфликта, которые, к сожалению, до сих пор слишком часто происходят в разных уголках планеты. Дилемма будет формулироваться так:
Две противоборствующие стороны Р1 и Р2 должны определить политику в области вооружений. Каждая из сторон может независимо от другой выбрать одну из двух стратегий:
А: отказаться сотрудничать, то есть вооружиться перед возможным военным конфликтом.
Б: сотрудничать, то есть разоружаться или наложить ограничение на некоторые виды оружия.
Такер внес важный вклад в топологию, нелинейное программирование и теорию игр. Он окончил Торонтский университет с дипломом по математике, затем защитил докторскую в Принстонском университете в 1932 году. Некоторое время он работал в Гарварде, Кембридже и Чикаго, затем вернулся в Принстон, где преподавал до 1970 года, свыше 20 лет возглавляя кафедру математики. В 1950 году он дал название самому известному и интересному парадоксу в теории игр — дилемме заключенного, а также впервые привел интерпретацию зтой задачи. Тем самым он внес фундаментальный вклад в модель соперничества и сотрудничества, над которой позднее работали Меррил Флад и Мелвин Дрешер в Принстонском университете.
Он был не только выдающимся исследователем, но и видным преподавателем, принимал участие в образовательных проектах для средней школы, за что был избран президентом Математической ассоциации Америки. Среди его учеников — нобелевский лауреат Джон Нэш.
Существует четыре возможных решения: (А, А), (А, Б), (Б, А) и (Б, Б). Первая координата в каждой паре — стратегия Р1, вторая — стратегия Р2. Возможные исходы можно представить таблицей:
Пересечениям возможных стратегий можно присвоить значения (в терминах теории игр — платежи), учитывая, что для каждого игрока они будут отличаться и в каждой ячейке будет два числа: одно означает выгоду Р1, второе — выгоду Р2. Получим следующую платежную матрицу:
Если понимать эти числа как выигрыши, то дилемма очевидна. Что нужно делать Р1? Для любого из вариантов, доступных Р2, для Р1 будет выгоднее вооружаться. Если Р2 выберет вариант А, Р1 выиграет 2 в случае вооружения и 0 в противном случае. Если Р2 выберет вариант Б, Р1 выиграет 5, если будет вооружаться, и 4 в противном случае. Так как матрица симметричная, для Р2 можно привести аналогичные рассуждения. Для любой из двух стратегий Р1 наибольший выигрыш Р2 принесет выбор в пользу вооружения. Говорят, что решение (А, А), означающее, что обе стороны вооружаются и получают выгоду в 2, является равновесным некооперативным решением, к которому стремятся обе стороны.
Однако для каждого из участников будет лучше, если противник будет разоружаться (выигрыш возрастет). Кроме того, наибольший совокупный выигрыш достигается тогда, когда разоружаются обе стороны. Следовательно, если оппоненты не будут сотрудничать, наилучший совокупный результат (4, 4) невозможен. Но если одна из сторон сделает выбор в пользу сотрудничества, при этом не зная о действиях другой стороны, то подвергнется большому риску: если оппонент не будет сотрудничать, выигрыш окажется наименьшим. Поэтому уверенность становится важнейшим элементом игры: без нее каждая сторона будет пытаться защитить себя от возможного отказа сотрудничать со стороны противника.
В реальных условиях, не столь острых, как в нашем примере, можно достичь ситуации, когда сотрудничество станет возможным. Обычно игра повторяется несколько раз, и на первый план выходят такие понятия, как репутация и уверенность, которые могут существенно повлиять на ход игры, и игроки смогут узнать о взаимной выгоде. В нашем примере разоружение очевидно имеет многие преимущества по сравнению с гонкой вооружений, которая может привести к полному разорению. Несмотря на это, сотрудничество сложно и достижимо лишь в долгосрочной перспективе.
Хотя дилемма заключенного является частью теории игр, проблема, лежащая в основе этой задачи, рассматривалась задолго до появления этой теории. Английский философ Томас Гоббс (1588—1679), автор «Левиафана», рассуждая об абсолютизме, анализирует развитие общества и рассматривает проблему, схожую с дилеммой заключенного. Гоббс писал, что изначально общество пребывает в анархии, где есть место только конкуренции. Чтобы сотрудничество стало возможным, нужно наложить ограничения и обеспечить их выполнение. Гоббс рассматривал общественный договор как результат сотрудничества и полагал, что общество должно подчиниться правительству, так как независимые решения, предполагающие сотрудничество или соперничество, не должны приниматься отдельными людьми.
Ситуации, напоминающие дилемму заключенного, также можно встретить в деловом мире. На конкурентном рынке часто случается, что конкуренты отвергают практический подход, будучи убежденными, что со временем подобное поведение окажется выгодным для всех, в том числе и для них самих. Так, соглашение книжных магазинов не предоставлять скидок выше определенного процента (например, 10%) или решение профсоюза закрывать магазины в определенный час (например, в 20:00) направлены на рост продаж. Все участники знают, что, если хотя бы один из них не выполнит соглашение, его нарушат и остальные и никто не получит выгоды; напротив, расходы лишь возрастут.
Роберт Аксельрод, преподаватель политологии в университете Мичигана, математик и доктор политических наук, является экспертом в кооперативных задачах и специалистом по играм, подобным дилемме заключенного. Среди его трудов выделяется «Эволюция сотрудничества» (The Evolution of Cooperation), где изучается развитие сотрудничества как явления. Основная мысль книги такова: стратегии, используемые людьми, эволюционируют в сторону более эффективных, где обязательным элементом является сотрудничество. Говоря о дилемме заключенного, Аксельрод замечает, что если игра проводится один раз, то нельзя узнать поведение соперника, наградить его за сотрудничество или наказать за соперничество, поэтому нужно думать о краткосрочных результатах. Напротив, если игра повторяется несколько раз, то стратегии могут основываться на предыдущих взаимодействиях и их основным принципом будет взаимность: если противник часто сотрудничал с нами, будет лучше, если мы тоже продолжим сотрудничество, но если попыток сотрудничества не было, то нам не стоит и пытаться этого делать. Так как никому не удавалось определить оптимальную стратегию, Аксельрод организовал турнир между экспертами по теории игр, чтобы изучить, как они будут действовать и как будут пытаться скрыть действенные стратегии. В результате оказалось, что лучшей из всех стратегий оказалась простейшая, так называемая «око за око». Нужно начинать с сотрудничества (и никогда не отказываться от него первым), а затем повторять стратегию, выбранную соперником на прошлом ходу. Если противник сотрудничал с нами, стоит продолжать сотрудничество, но если он отказался это сделать, то нужно сразу выразить несогласие с этим.
Игра «Струсил — проиграл»
Эта игра похожа на дилемму заключенного и вместе с ней является одной из наиболее изучаемых игр с ненулевой суммой. Суть игры — в противостоянии двух соперников в рискованной ситуации. Тот, кто первым уступит противнику, проигрывает.
Обычно эта игра формулируется так: водители едут навстречу друг другу на огромной скорости. Каждый должен в последний момент принять решение: свернуть вправо, чтобы избежать столкновения, либо нет. Возможны следующие варианты:
1. Ни один из игроков не трусит и машины сталкиваются. Это наихудший результат, в этом случае оба игрока получают 0 очков.
2. Оба игрока в последний момент сворачивают, чтобы избежать аварии. Это хороший результат для обоих, хотя они «теряют престиж» и никого из них нельзя считать победителем. В этом случае каждый получает 3 очка.
3. Один из игроков решает свернуть, другой — нет. Первый «теряет престиж» и получает всего 1 очко, второй считается победителем и ему присуждается 5 очков.
Представим эти стратегии и платежи в виде матрицы:
Хотя ситуация, описанная в этой игре, в реальной жизни встречается редко, в некоторых конфликтах противоборствующие стороны хотят полностью доминировать (например, в вооруженных конфликтах или трудовых отношениях), и возникают пограничные ситуации, подобные описанной в игре.
Эта игра чаще встречается в кино, например в фильме Николаса Рэя «Бунтовщик без причины» (Rebel without A Cause, 1955), где подростки мчатся на машинах к обрыву и тот, кто затормозит первым, — проиграл, «цыпленок».
И эта игра, и дилемма заключенного — игры с неполным конфликтом. Они показывают, что порой следование краткосрочным интересам каждого игрока может привести к катастрофическим результатам для обоих. Однако между этими играми есть различие: в дилемме заключенного наилучший результат достигается при совпадении стратегий, в игре «Струсил — проиграл» наоборот: если использовать стратегию, противоположную стратегии соперника, то результат будет лучше, чем если мы будем следовать одной и той же стратегии.
Анализ ситуации показывает, что если оба участника хотят достичь максимального выигрыша в 5 очков, то есть не сворачивать, то оба получат наихудший результат. Кажется, что будет лучше свернуть в сторону. В этом случае оба получат хороший результат, но никто не хочет сворачивать первым, так как получит всего 1 очко, а соперник — 5.
Эту игру можно анализировать с точки зрения сотрудничества: если игрок сворачивает, это можно рассматривать как сотрудничество, если не сворачивает — как соперничество, и если оба игрока сотрудничают, то получают хороший результат. Возможно, важнее всего то, что игра представляет собой своего рода переговоры, в которых каждый участник пытается пойти на уступки как можно позже и тем самым заставить оппонента действовать «разумно» (иными словами, свернуть в сторону), чтобы избежать столкновения.
Другая отличительная черта этой игры — убедительное объявление своей стратегии до начала игры. Например, один из игроков может демонстративно заблокировать руль, чтобы заставить соперника применить противоположную стратегию, заставив его свернуть, чтобы избежать столкновения.
И эта игра, и дилемма заключенного показывают, как сложно найти решение в подобных ситуациях, когда возможно как соперничество, так и сотрудничество, и что ситуация будет менее острой, если сразу обозначить антагонизм между общими интересами группы и краткосрочными интересами отдельных лиц.
Сотрудничать или умереть. Игра «Ястребы и голуби»
Игры, которые рассматриваются в теории игр, применимы во множестве различных ситуаций. Как правило, они часто встречаются в экономике, политике и военном деле — именно эти сферы изначально стимулировали развитие теории игр. Несмотря на это, со временем теория игр начала применяться в других областях, которые изначально казались очень далекими от понятий «сотрудничество» и «соперничество». Это относится к естественным наукам, в частности к экологии и эволюционным теориям.
Ранее считалось, что принятие решений — прерогатива только разумно мыслящих существ и, следовательно, о теории игр можно говорить только в связи с человеческой деятельностью. Однако Джон Мейнард Смит в 1978 году показал, что теория игр также применима к некоторым видам животных, которые выбирают коллективные стратегии поведения, чтобы поддерживать и улучшать развитие. Это пример не индивидуального, а коллективного поведения, которое может повлиять на биологический вид в целом. Борьбу вида за выживание можно рассматривать как соперничество, в рамках которого определенные действия отдельных особей могут привести к вымиранию остальных. Аналогично «альтруизм» отдельных особей может оказаться для них смертельным, но принесет выгоду для вида в целом.
Джон Мейнард Смит сформулировал дилемму ястребов и голубей, которую можно считать вариантом игры «Струсил — проиграл». Когда два животных сражаются за добычу, как правило, оба действуют агрессивно и пытаются нанести увечья противнику. Когда схватка вот-вот начнется, возможны два варианта: отступить, потеряв добычу, но сохранив жизнь (так поступают голуби), либо драться до победы и, возможно, потерять жизнь (так действуют ястребы).
Допустим, что в сообществе голубей появляется небольшая группа ястребов. Изначально численность ястребов будет расти, так как их стратегия более выгодна (всякий раз при встрече голубя и ястреба победителем будет выходить ястреб). По мере роста численности ястребов число стычек между ними будет возрастать, а значит, увеличится и урон, который они будут наносить друг другу. Со временем сформируется определенное равновесие между ястребами и голубями. Именно так происходит и в реальном мире.
С учетом вышесказанного Смит создал игру, присвоив платежи различным действиям ястребов и голубей. Платежи перечислены в следующей матрице:
Платежи были определены по следующему принципу: достижение цели (добычи или самки) оценивается в 10 очков, увечья приносят -20 очков. В схватке между ястребами выигрыши и проигрыши чередуются, в среднем каждый из участников получает -5 очков. В схватке ястреба с голубем победителем всегда выходит ястреб (10 очков), голубь отступает (0 очков). В схватке двух голубей пострадавших нет, но голуби тратят время и подвержены ненужному риску, поэтому Смит оценил эту ситуацию в -3 очка. В схватке между голубями победитель получает 10 - 3 = 7 очков, проигравший получает -3 очка, поэтому в среднем каждый получает 2 очка.
Джон Мейнард Смит — английский эволюционный биолог и генетик, который применял математические методы и, в частности, теорию игр при изучении эволюции.
Он учился в знаменитом Итонском колледже, затем изучал инженерное дело в Тринити-колледже Кембриджского университета. С юных лет он был членом коммунистической партии, но покинул ее в 1956 году после советского вторжения в Венгрию. Он достаточно быстро сменил сферу научной деятельности и занялся генетикой в Университетском колледже Лондона. Там же он преподавал зоологию и в 1958 году опубликовал научно-популярную книгу «Теория эволюции», ставшую чрезвычайно известной. С 1962 года работал в университете Суссекса, одним из основателей которого он являлся. В 1973 году внес свой основной вклад в теорию игр, сформировав концепцию эволюционно стабильной стратегии. Кульминацией его исследований в этой области стала книга «Эволюция и теория игр», вышедшая в 1982 году, в которой он описывает известную игру «Ястребы и голуби». В 1977 году был избран членом Лондонского королевского общества. В 1986 году получил медаль Дарвина. Европейское общество эволюционной биологии учредило премию для молодых исследователей, носящую его имя.
На основе этой игры Смит ввел понятие эволюционно стабильной стратегии, подавляющей любую возникающую мутацию. Смит показал, что популяция, состоящая только из голубей, равно как и только из ястребов, не является эволюционно стабильной. Смит отметил, что в соответствии с платежной матрицей игры в эволюционно стабильной популяции доля ястребов составит 8/13, доля голубей — 5/13. Иными словами, при таком соотношении популяция будет защищена от резкого роста численности ястребов или голубей. Правильность этого утверждения можно подтвердить, но применить его на практике несколько сложнее. Можно считать, что 8/13 популяции несут в себе ген ястреба, который определяет соответствующее поведение.
В описанной модели очевидно, что ни одна из двух стратегий не является удовлетворительной: ястребы всегда одерживают верх над голубями, но проигрывают в схватках между собой, а голуби не получают увечий в схватках между собой, но всегда уступают ястребам. Необходима независимая сторона, которая снизит число схваток между ястребами и в то же время запретит им с выгодой для себя использовать поведение голубей, сократив число агрессивных стычек. Подобная стратегия называется буржуазной.
По мере того как теория игр находила применение во все новых областях, а ее понятия получали все новые трактовки, Роберт Аксельрод применил теорию эволюции к самой теории игр, изучив кооперативные стратегии при многократном повторении одной и той же игры (эксперимент описан в разделе, посвященном дилемме заключенного).