Подкрепление
Любое объяснение каузально. Мы объясняем событие, указывая на его причину. Причины предшествуют своим следствиям по времени. Отсюда вытекает, что мы не можем объяснить событие (например, действие) через его последствия. Однако если экспланандум является моделью повторяющегося поведения, его следствия могут в какой-то момент войти в число причин, увеличивающих вероятность наступления этого события в следующий раз. Это может произойти двумя способами: путем подкрепления и путем отбора. Я сосредоточусь на втором способе, более важном для целей этой работы, но начну с того, что скажу несколько слов о первом.
Если то или иное поведение приносит приятные или выгодные следствия, мы чаще ведем себя таким образом. Если его следствия неприятны или влекут наказание, такое поведение встречается реже. Лежащий за этим механизм может быть просто рациональным выбором, если мы замечаем приятные или неприятные последствия и решаем действовать в будущем так, чтобы повторить или избежать повторения данного опыта[224]. Однако часто подкрепление не является следствием осознанного выбора. Когда младенцы начинают плакать, зная, что таким способом заставляют родителей взять себя на руки, нет оснований считать, что они сознательно отмечают выгоды от плача и позднее делают это по собственной воле, чтобы их получить. Когда дети постарше устраивают истерики, чтобы добиться своего, родители обычно могут понять, что это симуляция.
Подкрепляющее обучение хорошо изучено в лабораторных экспериментах над животными. Обычно животным предлагают нажать на рычаг или на один из нескольких рычагов, после чего им дают вознаграждение в зависимости либо от числа нажатий на рычаг с момента последней награды, либо от времени, которое прошло с момента получения последней награды. В обоих случаях функция может быть детерминистской или вероятностной. При режиме с постоянным соотношением количества реакций и подкреплений животное получает награду после того, как нажало на рычаг установленное количество раз, тогда как при режиме с вариативным числом подкреплений количество нажатий, необходимых для получения награды, произвольно варьирует. В обоих случаях каждое нажатие приносит поощрительное очко, которое добавляется к предыдущим. При режиме с постоянным интервалом между подкреплениями нажатие даст награду через определенное время после получения последней награды, тогда как при режиме с вариативным интервалом временно́й промежуток, по прошествии которого выдается награда, произвольно меняется. В обоих случаях время выдачи наград не зависит от количества нажатий. Каждый режим подкрепления через некоторое время производит специфический стабильный паттерн поведения, который к тому же исчезает, как только положительный стимул (награду) убирают. Так, реакции, усвоенные, когда награда следует за каждым нажатием на рычаг (особый случай режима с постоянным соотношением, известный как постоянное подкрепление), исчезают быстрее, чем те, которые были усвоены при режиме с вариативным соотношением. Интуиция подсказывает противоположную идею, поскольку кажется, что постоянное подкрепление порождает более сильную привычку, но, как это иногда бывает, интуиция заблуждается.
Значение этих открытий за пределами лаборатории зависит от цели.
Если цель в том, чтобы повлиять на действие, например, в школьном классе, в казино или на рабочем месте, организатор может (более или менее свободно) установить режим вознаграждений, чтобы сформировать желаемое поведение. Так, режим с вариативным интервалом часто используют для воздействия на поведение, например, когда учитель использует политику произвольных викторин. При режиме с вариативным соотношением, который работает для многих азартных игр, легче повлиять на поведение, если первая награда дается рано[225]. Поскольку менеджеры казино и ипподромов не располагают технологией, которая позволила бы им втягивать новых игроков, предлагая им более высокий выигрыш, им приходится полагаться на так называемое везение новичков[226]. Действия мошенников, однако, часто полагаются на выдачу быстрых наград. В школьном классе и в казино режимы вознаграждений работают «за спиной» у учеников или игроков, то есть они воздействуют на поведение не эксплицитными стимулами, но скорее как в случае с плачущим ребенком, то есть посредством бессознательного процесса. Наоборот, когда менеджеры платят работникам, если те достигли установленной цели (режим с постоянным соотношением) или ежемесячно (режим с постоянным интервалом), они просто устанавливают систему стимулов. Поскольку поведение работников может быть адекватно объяснено ожиданием вознаграждения, нет нужды обращаться к собственно вознаграждению.
Если цель в том, чтобы объяснить модели поведения их реальными последствиями, режимы вознаграждения имеют смысл, только если возникают естественным образом и, более того, настолько непрозрачны, что не создают открытых стимулов. С двумя постоянными режимами такое, похоже, случается нечасто. На поведение моих друзей влияет не то, сколько я им улыбаюсь, а то, насколько последовательны и уместны мои улыбки. В естественных условиях редко встречаются награды, выдаваемые на регулярной основе (как зарплата). Важнее два вариативных режима. Человек, играющий в «горячо-холодно» (режим с вариативным соотношением) с представителем противоположного (или того же) пола, может вызвать более сильное влечение, чем тот, кто неизменно демонстрирует дружественное поведение. Режим с вариативным интервалом возникает, когда вы хотите до кого-то дозвониться, а линия занята. Вы знаете, что рано или поздно дозвонитесь, но не знаете, когда. В этой ситуации возникает стабильный паттерн повторяемого набора номера, но теория рационального выбора не может дать точного прогноза. Эта теория могла бы предсказать любое число паттернов в зависимости от представлений звонящего о том, как долго может продлиться разговор. Однако представляется маловероятным, чтобы у людей были стабильные убеждения на сей счет.
Паттерн реакций, порождаемый подкреплением, как правило, отличается от паттерна, порождаемого сознательным, рациональным выбором. Предположим, животное должно нажать рычаг, выдающий награды в режиме либо с вариативным соотношением, либо с вариативным интервалом. Рациональный паттерн, максимально увеличивающий общее вознаграждение, состоит в том, чтобы большую часть времени нажимать рычаг с вариативным соотношением, набирая поощрительные очки, и при этом время от времени нажимать на рычаг с вариативным интервалом, чтобы посмотреть, не вышло ли новое вознаграждение. Подкрепляющее обучение, однако, не производит такой паттерн. Вместо этого животные гораздо чаще, чем надо, нажимают на рычаг с вариативным интервалом. Они уравнивают средние награды при нажатии одного или другого рычага, вместо того чтобы, как диктует рациональность, уравнивать предельные (marginal) вознаграждения. При других комбинациях режимов подкрепляющее обучение иногда подражает рациональному выбору, но делает это непоследовательно. Если и есть какой-то неинтенциональный механизм, способный надежно симулировать рациональность, его нужно искать в другом месте.
Дифференцированное половое соответствие
Чаще всего упоминают механизм естественного, или социального, отбора. В третьей части книги я указываю на то, что объяснять поведение можно, используя предположение о более или менее рациональном приспосабливании агентов к своей среде обитания. В радикально иной перспективе мы можем допустить, что агенты отбираются средой. Хотя отбор может быть плодом деятельности интенционального агента, когда, например, выводится порода послушных домашних собак или когда в лаборатории отбирают более умных крыс, многие механизмы отбора покоятся на каузальных процессах, не предполагающих интенционального агента.
В частности, дифференцированное выживание организмов, основанное на паттернах их поведения, может привести к оптимальному (для репродукции) поведению в популяции даже в отсутствие любого оптимизирующего отбора или намерения. Предположим, что 10 % организмов в популяции из 100 особей так эффективно добывают корм, что оставляют потомство численностью в среднем 10 особей, которое доживает до взрослого состояния, тогда как оставшиеся 90 % оставляют только 5 особей. Если поведение родителей (через какой-то механизм) передается потомству, следующее поколение взрослых организмов будет включать группу 100 / 550 ~ 18 %, которая будет демонстрировать более эффективное поведение. Еще несколько поколений – и практически все организмы будут демонстрировать такое поведение. Если мы спросим, почему оно повсеместно распространено, ответ будет: его последствия лучше[227]. Этот механизм работает через все поколения. В отличие от подкрепляющего обучения, он модифицирует поведение не отдельной особи, а следующих друг за другом поколений особей.
Естественный отбор
Теория естественного отбора подробно описывает эту историю. Здесь я приведу упрощенную, или классическую, версию теории, которая удовлетворяет нашим целям. Я хочу продемонстрировать, чем естественный отбор отличается от намеренного и тем более от рационального выбора. Естественный отбор является оптимизирующим механизмом, но только в слабом смысле. Также я хочу заложить фундамент для разбора в следующей главе того, что социальный отбор вряд ли способен провести даже столь слабую форму оптимизации.
Приспособляемость организма, измеряемая численностью его (способного к репродукции) потомства[228], определяется одновременно его окружением и физиологическими и поведенческими особенностями, или фенотипом. Его генотип – это набор инструкций, который, действуя согласно со средой, определяет фенотип. Эти инструкции записаны в длинных молекулах ДНК, которые имеют много общего с письменным языком. Буквы ДНК – это четыре молекулы (нуклеотиды), называемые Т, А, Г и Ц. Слова, или кодоны, ДНК – это триплеты нуклеотидов, каждый из которых содержит инструкции для сборки одной из 20 аминокислот, которые являются кирпичиками протеинов в организме. Поскольку триплетов 64 (61, если мы исключим 3 из них, выполняющих другие функции), одна и та же аминокислота может кодироваться более чем одним триплетом. Ген – это сегмент ДНК, кодирующий один отдельный протеин.
Организм, который более эффективно добывает пищу, сначала предстал как результат случайной мутации генома. В классической картине эволюции предполагалось, что мутации возникают в результате случайных небольших ошибок в дупликации генетического материала, которые происходят в процессе репродукции.
То, как мутации вносят свой вклад в эволюцию, можно схематически изобразить при помощи аналогии с трехуровневой структурой печатного предложения. Рисунок XVI.1 показывает параллели между двумя этими случаями.
Когда делается типографский набор книги для нового издания, невнимательность наборщика может породить отступления от оригинального текста. Мы можем представить их как замену одной буквы на другую, превращавшую, например, «руку» в «щуку» или «муку». Ошибки являются произвольными в том смысле, что они не связаны с содержанием книги. Сходным образом мутации являются произвольными, поскольку вероятность их возникновения не связана с характером изменения фенотипа, которое они вызывают. Некоторые буквы заменялись чаще других, если у наборщика были проблемы с различением «п» и «л». Второе издание некоторых книг может содержать больше ошибок, нежели прочие, если, допустим, наборщик был пьян. Точно так же коэффициенты мутаций могут быть подвержены действию мутогенных агентов[229].
РИС. XVI.1
Опечатки в книге или в любом письменном сообщении обычно негативно воздействует на содержание, иногда (в буквальном смысле) фатально. Перенос запятой, например, может быть вопросом жизни и смерти[230]. Подобно этому большинство мутаций имеют вредные последствия для организма, в котором они происходят, снижая тем самым его репродуктивную приспособляемость. Произошедшая случайная мутация, однако, может усилить приспособляемость организма так же, как случайная ошибка в воспроизведении текста первого издания может дать более точную или обновленную информацию. Но дальше эта аналогия уже не работает. Благоприятная мутация будет гораздо сильнее представлена в следующем поколении, поскольку организм, в котором она произошла, будет иметь больше потомства, которое унаследует эти мутации. В противоположность этому не существует механизма, благодаря которому книга со случайно исправленными ошибками первого издания продавалась бы лучше.
В типографских ошибках любые буквы могут быть заменены любыми другими. Новое слово может и не иметь смысла: «рука» может с одинаковым успехом быть заменена на «муку» или на «щуку». При мутации любой из нуклеотидов в триплете также может быть заменен на любой другой. В свою очередь не любая аминокислота может возникнуть из любой другой посредством одной-единственной мутации нуклеотида. Некоторые изменения протеинов могут произойти таким образом, другие – нет. Однако всегда возможно перейти от одной аминокислоты к другой через несколько последовательных мутаций. Этот процесс до некоторой степени напоминает игру, в которой данное слово при помощи однобуквенных замен трансформируется в другое при условии, что все промежуточные замены тоже являются словами, которые можно найти в словаре. От HAIR к HAIL можно перейти за один шаг, а от HAIR к DEAN – за четыре (HAIR – HEIR – HEAR – DEAR – DEAN). Но я совершенно уверен в том, что никакое количество шагов не способно привести вас от HAIR к LYNX, если только не выйти за пределы словаря.
В соответствующей «игре мутаций» все 64 кодона есть «в словаре», за исключением трех, которые служат знаками «абзаца» («терминирующие», завершающие протеины). Хотя три «кодона-точки» исключают некоторые одношаговые изменения триплетов, это ограничение слишком слабо, чтобы блокировать многошаговые изменения. Таким образом, можно перейти от аминокислоты метионин к триптофану за два шага, или от АТГ к ТТГ (леуцин) к ТГГ или от АТГ к АГГ (глицин) к ТГГ[231]. Кроме того, есть маршруты, включающие более одного шага, такие как АТГ – АЦГ – ТЦГ – ТГГ.
Представим теперь более сложную игру и предположим, что каждое слово включено в предложение и что слово, взятое для замены, не только должно быть в словаре, но и давать предложение, обладающее смыслом[232]. Теперь есть два ограничения для допустимых буквенных замен. Предположим, изначальное предложение: «I tend my looks». Заменив его на «I mend my looks», мы соблюдаем оба ограничения – осмысленности и наличия в словаре. Заменив его на «I send my tooks», мы нарушим оба условия. Если далее заменить «I send my looks» на «I send my books», оба условия будут удовлетворены. Чтобы получить это (осмысленное) предложение из изначального (осмысленного) предложения путем замены одной буквы, нам пришлось бы выйти за пределы множества имеющих смысл предложений.
Естественный отбор порождает локальные максимумы
Биологическая аналогия ясна. Аминокислота, появившаяся в результате замены нуклеотида, заложена в протеине. Поскольку протеины имеют жизненно важное значение для организма, они должны быть биологически жизнеспособным (аналог наличия смысла у предложений). Если любой промежуточный протеин на пути от начальной к финальной форме нежизнеспособен, он не может закрепиться в популяции, потому что организм, в котором произошла такая мутация, не оставит потомства, которое могло бы перейти на следующий уровень. Даже если финальная форма протеина увеличит приспособляемость по сравнению с первой стадией, этот факт может не создать никакого эволюционного давления на промежуточных стадиях. Если бы все осуществимые пути, от первой до финальной стадии, в какой-то момент потребовали от организма применить обходную стратегию «один шаг назад, два шага вперед», окончательная форма никогда не была бы достигнута. Поскольку большинство – и, по всей видимости, значительное – мутаций являются вредоносными, такая ситуация вполне достоверна. В упрощенной форме (не принимающей во внимание множественность путей) эта структура представлена на рис. XVI.2. Три разных протеина дают разные степени приспособляемости (измеряемой вертикально). Структура генетического кода допускает мутации с одним нуклеотидом от А в В и от В в С, но не от А в С.
Естественный отбор (в классическом виде) ограничивается небольшими улучшениями. Организм взбирается по склону приспособляемости до тех пор, пока не достигнет локального максимума, определяемого как состояние, в котором дальнейшие одношаговые изменения только уменьшат приспособляемость. Хотя в ландшафте приспособляемости могут присутствовать пики повыше, там может не быть достижимых одношаговых изменений. Этот процесс отличается от намеренного выбора тремя аспектами. В главе 6 мы отмечали, что благодаря своей интенциональности человеческие существа способны (1) использовать обходные стратегии, (2) ждать и (3) целиться с опережением в движущуюся цель. Мы только что видели, что естественный отбор не способен на (1). Что касается (2), рассмотрим рис. XVI.3.
РИС. XVI.2
Структура генетического кода допускает возникновение мутаций с одним нуклеотидом от А в В и от А в С, но не от В в С. Если происходит мутация от А в В, популяция застревает в локальном максимуме (нижнего уровня) В, поскольку одношаговая мутация в глобальный максимум С блокируется. Нет механизма, который благоприятствовал бы мутации в С, а не в В. В отличие от интенциональных агентов, натуральный отбор оппортунистичен, хватается за любую возможность улучшения, будучи неспособным дождаться, пока представится возможность оптимального изменения.
Что касается пункта (3), то популяции адаптируются к постоянно меняющимся условиям. Если изменения регулярные (например, сезонные или дневные) они приспосабливаются к изменениям. Если какое-то событие происходит только один раз (как например, внезапная смена климата), поведение, которое до того было в локальном максимуме приспособляемости, может стать субоптимальным, то есть мутации, которые прежде оказались бы вредоносными, становятся благоприятными. Если изменения сохранятся (например, потепление или похолодание климата в течение долгого периода), этот процесс может никогда не достичь локального максимума. Популяция будет отслеживать изменения в окружающей среде с эффективностью, зависящей от относительной скорости двух процессов. На удивление тонко отрегулированная приспособляемость, наблюдаемая у животных и растений, указывает на то, что животные адаптируются к внешней среде гораздо быстрее, чем та меняется. И все же организмы всегда будут отставать, потому что не могут предвосхищать изменений внешних условий. Наоборот, человеческие существа могут осознавать будущие изменения (например, глобальное потепление) и принимать меры предосторожности, прежде чем те произойдут, или, если такие перемены вызваны поведением человека, препятствовать их возникновению.
РИС. XVI.3
Среда обитания среди прочего включает другие виды, с которыми данная популяция может находиться в отношениях «добыча – хищник». Как «добыча» она может развивать стратегии уклонения, как «хищник» – стратегии охоты. Подобно тому как конкретная лиса охотится в полях за конкретным зайцем, так и «лиса» как вид охотится за «зайцем» как видом на протяжении поколений. Но хотя логика естественного отбора не позволяет «лисе» предсказать, где будет «заяц» несколько столетий спустя, некоторые хищники способны перехватывать добычу на пути бегства. Сходным образом процесс локальной максимизации естественного отбора произвел в людях способность к глобальной максимизации.
Мутации являются одновременно условиями и продуктом естественного отбора, поскольку скорость, с которой они происходят, может регулироваться эффектами приспособляемости. Здесь задействовано несколько механизмов. В популяциях бактерий, которые постоянно подвергаются воздействию новых антибиотиков, виды с высокой скоростью мутаций могут оказаться в более благоприятных условиях. Это частный случай общей идеи, что в меняющейся среде немутирующие популяции вымирают. В то же время слишком высокая скорость мутаций может привести к потере ценной генетической информации и к ее исчезновению. Между двумя этими крайностями есть оптимальная скорость. В постоянном окружении существует компромисс между преимуществами низкой скорости мутаций и издержками «на вычитывание гранков» и восстановительными механизмами, необходимыми для поддержания этой низкой скорости.
Такая классическая картина выглядит слишком простой по ряду параметров, которые следовало бы описать, если бы это был учебник по биологии. Поскольку наша книга им не является, я лишь отмечу, что более сложная картина модифицирует (но не отменяет) утверждение о том, что естественный отбор склонен застревать в ловушке локального максимума. Да, крупные мутации происходят, некоторые из них могут вызывать изменения, которые никогда бы не произошли посредством мелких мутаций. Кроме того, низшие формы не сразу уничтожаются отбором. На рис. XVI.2 мутация в В необязательно производит организм, являющийся нежизнеспособным в строгом смысле, то есть неспособным выживать или производить потомство. Некоторые организмы в состоянии В могут выжить и произвести организмы в состоянии С. На рис. XVI.3 некоторые организмы в состоянии А могут уцелеть в борьбе с более эффективными организмами в состоянии В довольно долго, чтобы произошла мутация в состояние С. Возникнет ли при этом глобальный максимум? Это вопрос относительной скорости двух процессов – вымирания более слабых видов и скорости, с которой происходит благоприятная мутация. Однако нет механизма, который мог бы систематически имитировать способность интенциональных существ предвосхищать события, ждать или использовать обходные стратегии.
Основываясь на тенденции естественного отбора порождать оптимизирующее поведение или оптимальные структуры через постепенное восхождение, мы не должны делать вывод о том, что все черты, наблюдаемые у организмов, являются оптимальными. С одной стороны, как уже было сказано, может существовать определенный лаг, если популяция не может угнаться за изменениями в окружающей среде. То, что мы наблюдаем, может быть оптимально в какой-то момент времени в прошлом, а потом перестать быть таковым. С другой стороны, феномен плейотропии говорит о том, что естественный отбор может поощрять черты, которые сами по себе могут выглядеть субоптимальными, но при этом являются частью оптимального решения. Такое возможно, потому что ген воздействует на фенотип неоднозначно. Если положительные следствия перевешивают отрицательные, то он будет поощряться естественным отбором. В качестве примера можно привести существование мужских черт у насекомых, которые причиняют физический вред своим партнерам при совокуплении. Считалось, что этот вред вызван либо негативным побочным плейотропическим эффектом приспособления, которое дало мужским особям репродуктивное преимущество в ином контексте, либо самим приспособлением мужских особей. Эксперименты показывают, что первое объяснение более правдоподобно.
Единицы отбора
Естественный отбор не только оппортунистичен и близорук, он еще (за двумя исключениями, о которых я вскоре скажу) жестко индивидуален. Он благоприятствует не виду или популяции, а индивидуальному организму. Если качество, возникшее в результате мутации, увеличивает относительную приспособляемость организма, оно закрепится в популяции, даже если приведет к снижению абсолютной приспособляемости. Представим себе популяцию рыб, сталкивающуюся с хищниками и плавающую рассеянной стаей. Если мутация заставит рыбу, в которой она произошла, переместиться в центр стаи, она будет лучше защищена от хищников и, как следствие, оставит больше потомства. По мере того как такое поведение будет распространяться в популяции, стая сделается компактнее, тем самым становясь более легкой добычей для хищников. На любом этапе процесса лучше быть в середине, чем на периферии стаи. Но с точки зрения абсолютной приспособляемости, такой исход для всех хуже, чем начальная ситуация, а с точки зрения относительной приспособляемости ничего не меняется. Точно так же ничем не сдерживаемый сексуальный отбор – правдоподобное объяснение огромных и дисфункциональных рогов, которые встречаются у некоторых видов оленей.
Одним исключением из индивидуализма является семейный отбор (форма субиндивидуализма), в котором единицей отбора является скорее ген, чем индивидуальный организм. Выбор единицы не имеет значения, когда действие гена одновременно и в равной пропорции увеличивает его присутствие в популяции и количество потомства, демонстрирующего соответствующее поведение. Так происходит при развитии более эффективных способов добычи пищи. Но в некоторых случаях ген может получить преимущества, даже если организм, в котором он инициирует то или иное поведение, таких преимуществ не получает, а именно когда организм жертвует собой ради близких родственников, у которых предположительно есть такой же ген. Когда животное замечает хищника и подает сигнал тревоги, его шансы на выживание часто снижаются, тогда как шансы его родственников растут. Поскольку эти родственники или хотя бы некоторые из них также наделены этим «геном предупреждения», более высокая вероятность их выживания может привести к распространению данного гена в популяции, если это выживание компенсируют низкие шансы выживания животного, подававшего сигнал об опасности. Это неединственное возможное объяснение распространенной формы поведения, хотя в некоторых случаях оно является наиболее достоверным. В каких-то случаях сигналы тревоги служат для того, чтобы отвлечь хищника или предупредить сородичей (независимо от того, принадлежат ли они к одной семье). В других случаях оно предназначено для того, чтобы отвлечь сородичей, например, чтобы заставить их уйти от скудных ресурсов. Таким образом, в сигналах тревоги нет ничего изначально альтруистического или жертвенного, хотя они и могут в некоторых обстоятельствах имитировать настоящий альтруизм.
Еще одно исключение – групповой отбор (форма сверхиндивидуализма). Рассмотрим две популяции рыб, в одной из которых произошла мутация, стимулирующая передвижение ближе к центру стаи, а в другой – нет. Со временем первая популяция будет оставлять меньше потомства, чем вторая, и будет постепенно вытеснена. Может показаться, что естественный отбор действует на уровне группы, а не особи. Однако пока две группы сосуществуют, во вторую могут проникать представители первой. Независимо от того, вызвано поведение, направленное на перемещение к центру, мутацией или просачиванием, результат один и тот же – вытеснение тех, кто ведет себя иначе. Точно так же если организмы в популяции имеют ген, который мешает им заниматься выбиванием пастбища, они могут быть вытеснены размножением более раскрепощенных организмов, у которых такой ген отсутствует. По этой причине групповой отбор не рассматривался как правдоподобный механизм порождения кооперации или самоограничения. Однако это возражение может быть опровергнуто в свете теории альтруистического наказания, приведенной в главе XV. Если организмы в популяции наделены геном, который заставляет их наказывать тех, кто не проявляет солидарности, последние не приобретут репродуктивных преимуществ от своего «безбилетничества». Этот механизм может обеспечивать кооперацию там, где можно с уверенностью вычислить несотрудничающих. Маловероятно, что он может применяться к рыбам, стремящимся попасть в центр стаи, но его вполне можно применить к животным, отказывающимся делиться пищей с сородичами.
Семейный и групповой отбор обеспечивают два механизма, порождающих кооперативное поведение; первый базируется на общем гене, а второй – на альтруистическом наказании. Третий механизм – механизм взаимного альтруизма, или «услуга за услугу» в повторяющихся интеракциях, таких как «Ты почешешь спину мне, а я – тебе» (для некоторых животных это надо понимать буквально) или «Я угощу тебя, когда у меня будет излишек, а когда лишняя еда окажется у тебя, ты угостишь меня». Другая сторона медали – наказание (или по крайней мере воздержание от кооперации), если другая сторона не сумела ответить взаимностью. Для работы этого механизма необходимо частое взаимодействие особей, чтобы они могли себя сдерживать на протяжении какого-то времени, помнили о том, что другие делали раньше, и узнавали их при новой встрече.
Этот механизм объясняет кооперацию во многих случаях двухчастного взаимодействия. Вот некоторые примеры и контрпримеры. Когда двум обезьянам-капуцинам дали возможность несколько раз поделиться пищей, чем больше еды отдавала первая обезьяна, тем больше получала от второй. Шимпанзе с большей готовностью делятся пищей с теми, кто ухаживал за ними в течение дня. Когда каждый из двух скворцов получал пищу тогда, и только тогда, когда второй давил на рычаг, они давили на рычаг по очереди. Самки летучих мышей-вампиров отрыгивают кровавую пищу для тех, кто не смог добыть ее в недавнем прошлом. Вампиры способны узнавать друг друга и склонны давать кровь тем, кто давал им ее в прошлом, в особенности родственникам. В другом эксперименте каждая из двух голубых соек получала больше, если нажимала на «эгоистический рычаг» А, чем когда нажимала на «рычаг кооперации» В, независимо от того, что делала вторая. И обе получали больше, если обе нажимали на В, когда на него не нажимала ни одна. Здесь модели «услуга за услугу» не возникло: после короткого сотрудничества в самом начале обе сойки стали постоянно нажимать на рычаг А.
Взаимный альтруизм, однако, непригоден в качестве механизма, порождающего кооперацию в более крупных группах. Единственной работающей в данном случае стратегией наказания могла бы быть четкая реакция, в результате которой некооперативное поведение одного из членов группы мгновенно заставляло бы остальных прекращать сотрудничество как с нарушителем, так и друг с другом. Все же интуитивно такая реакция кажется неправдоподобной. Похоже, на практике она не встречается.
Библиографические примечания
В работе «Отбор по последствиям» (Selection by consequences // Science. 1981. No. 213. P. 501–504) Б. Ф. Скиннер (Skinner B. F.) отмечал важность трех способов объяснения поведения через его последствия: естественный отбор, работающий с особями, подкрепление и (хотя он не использует этот термин) групповой отбор. Полезное введение в теорию подкрепления можно найти в книге Дж. Э. Р. Стэддона «Адаптивное поведение и обучение» (Staddon J. E. R. Adaptive Behavior and Learning. Cambridge University Press, 1983). Исследование того, как теория подкрепления может использоваться для воздействия (а не объяснения) на поведение, содержится в статье Д. Ли и Р. Белфлора «Повышение школьной успеваемости: обзор режимов подкрепления» (Lee D., Belflore P. Enhancing classroom performance: A review of reinforcement schedules // Journal of Behavioral Education. 1997. No. 7. P. 205–217). Классическое изложение теории естественного отбора с характерным акцентом на его индивидуалистской природе приводится в книге Дж. Уильямса «Приспособление и естественный отбор» (Williams G. Adaptation and Natural Selection. Princeton, NJ: Princeton University Press, 1966). Обсуждение постепенного восхождения и метафоры ландшафтов приспособляемости можно найти в главе 2.4 С. Гаврильца «Ландшафты приспособляемости и происхождение видов» (Gavrilets S. Fitness Landscapes and the Origin of Species. Princeton, NJ: Princeton University Press, 2004). Взгляд на ген как на единицу отбора представлен в книге Ричарда Докинза «Эгоистичный ген» (Докинз Р. Эгоистичный ген. М.: Мир, 1993). Прекрасное введение в изучение сигналов у животных содержится в книге У. А. Сёрси и С. Новицки «Эволюция коммуникации у животных» (Searcy W. A., Nowicki S. The Evolution of Animal Communication. Princeton, NJ: Princeton University Press, 2005). Обсуждению того, как альтруистическое наказание делает возможным групповой отбор, посвящена статья Е. Фера и У. Фишбахера «Социальные нормы и человеческая кооперация» (Fehr E., Fischbacher U. Social norms and human cooperation // Trends in Cognitive Sciences. 2004. No. 8. P. 185–190). Основополагающее исследование кооперации «услуга за услугу» у животных, не связанных отношениями родства, приводится в статье Р. Аксельрода и У. Гамильтона «Эволюция кооперации» (Axelrod R., Hamilton W. The evolution of cooperation // Science. 1981. No. 211. P. 1390–1396).