Источники шума
Мы надеемся, вы уже не сомневаетесь, что там, где есть место суждению, найдется и шум. Мы также надеемся, что у вас его теперь не больше, чем вы думаете. Мантра о шумовых помехах вдохновила нас начать этот проект, однако за много лет работы тема значительно расширилась. Давайте повторим основные усвоенные уроки в отношении различных компонентов шума – о важности каждого из них в общем шумовом фоне и о месте шума в исследовании суждений.
Компоненты шума
На рисунке 16 схематично представлены три уравнения, рассмотренные в главах 5, 6 и 16, которые иллюстрируют три последовательных этапа разделения ошибок на компоненты:
• разбивка ошибок на смещение и системный шум;
• разбивка системного шума на межэкспертный и внутриэкспертный шум;
• разбивка внутриэкспертного шума на постоянный и ситуативный.
На рисунке показано, что MSE разлагается на186 квадрат искажений и квадраты трех компонентов шума, рассмотренных ранее.
Рис. 16. Ошибки, искажения и компоненты шума
Начиная наши исследования, мы сосредоточились на относительных весах смещения и шумовых помех в составе ошибок. Мы также пришли к выводу, что доля шума в составе ошибок зачастую больше, чем доля смещения, и потому шум заслуживает более детального изучения.
Что касается компонентов шума, мы с самого начала руководствовались структурой комплексной ревизии шумовых помех, когда множество людей давали индивидуальные оценки по многим делам – например, при вынесении приговоров федеральными судьями или назначении суммы компенсации морального ущерба. Полученные в ходе этих исследований данные позволили дать комплексное обоснование межэкспертному шуму. С другой стороны, поскольку каждый участник эксперимента давал оценку каждому случаю, но только один раз, нельзя было сказать, являются ли постоянными или временными остаточные ошибки, которые мы назвали внутриэкспертными. При статистическом анализе (понимая его в консервативном смысле) остаточным ошибкам обычно дают некорректное название и трактуют как случайные. Другими словами, по умолчанию весь внутриэкспертный шум относят к ситуативным шумовым помехам.
Традиционная интерпретация внутриэкспертного шума как случайных ошибок долгое время препятствовала дальнейшему развитию нашей идеи. Казалось совершенно естественным сосредоточиться на межэкспертном шуме – стойком различии между строгими и снисходительными судьями или оптимистичными и пессимистичными прогнозистами. Однако нас также заинтриговал сам факт воздействия на оценки не относящихся к делу и временных обстоятельств, которые создавали ситуативные шумовые помехи.
Факты постепенно подводили нас к пониманию – «шумные» суждения, которые дают различные люди, в значительной степени зависят от чего-то еще, что нельзя отнести на счет необъективности конкретного человека и что также не является временным и случайным, а представляет собой стойкую персональную реакцию на множество факторов, определяющую действия индивидуума в отдельных случаях. В конечном счете мы пришли к выводу, что от нашего сделанного по умолчанию допущения о временной природе внутриэкспертного шума следует отказаться.
Хотя мы старались быть осторожными и не переусердствовать в генерализации на весьма ограниченной выборке, совокупные результаты большого числа исследований все же наводят на мысль, что постоянный внутриэкспертный шум и в самом деле более значим, чем прочие компоненты системного шума. Поскольку полная картина компонентов ошибок нечасто присутствовала в одном и том же исследовании, потребовалось несколько триангуляций, чтобы сформулировать предварительное заключение. Итак, перед вами то, что мы знаем – и чего не знаем.
Систематизация компонентов шума
Прежде всего, нам удалось определить относительный вес межэкспертного и внутриэкспертного шумов. В общем выяснилось, что внутриэкспертный шум вносит больший вклад в общую сумму помех, чем межэкспертный. Например, в страховой компании (см. главу 2) отклонения от средней суммы страховых премий, назначенных разными андеррайтерами, составляли всего 20 % от системного шума в целом; оставшиеся 80 % приходились на внутриэкспертный шум. А среди федеральных судей (см. главу 6) межэкспертный шум (отклонения от средней строгости) составлял немногим меньше половины системного шума в целом; внутриэкспертный шум оказался более значительным компонентом. В эксперименте с назначением компенсации морального ущерба общее количество системного шума варьировалось в широких пределах в зависимости от используемой шкалы (мера наказания, степень возмущения или сумма компенсации в долларах), однако доля внутриэкспертного шума была приблизительно постоянной: 63 %, 62 % и 61 % от системного шума в целом для каждой из трех шкал.
Тот факт, что в этих исследованиях межэкспертный шум не самый существенный компонент, уже сам по себе много значит, поскольку межэкспертный шум – единственная форма шума, которую организации могут хотя бы иногда контролировать, не проводя ревизию шумовых помех. Когда задачи распределяются между отдельными специалистами по более-менее случайному принципу, отклонение от среднего уровня в решениях доказывает присутствие межэкспертного шума. Например, при изучении работы патентных ведомств187 наблюдался большой разброс от среднего уровня предрасположенности экспертов к выдаче патентов, которые в дальнейшем приходилось оспаривать в суде. Аналогично служащие органов опеки188 различались по настойчивости, с которой они стремились отдать ребенка в приемную семью, с далеко идущими последствиями для благополучия детей. Подобные наблюдения основаны исключительно на оценках межэкспертного шума. Если же доля внутриэкспертного шума превышает долю межэкспертного, то эти и без того шокирующие открытия преуменьшают проблемы шумовых помех минимум в два раза. (Из этого предварительного правила есть исключения. Непозволительным разбросом в решениях о предоставлении убежища189 практически однозначно мы обязаны в основном межэкспертному шуму, а не внутриэкспертному, которого, как мы подозреваем, тоже хватает.)
Следующий этап анализа внутриэкспертного шума – разложение его на два компонента. Есть веские основания предполагать, что здесь доминирует постоянный внутриэкспертный шум, а не ситуативный. Наши соображения иллюстрирует ревизия шумовых помех, содержащихся в приговорах федеральных судей. Начнем с крайности и допустим, что весь внутриэкспертный шум преходящий. Из такого допущения следует, что мера наказания непостоянна и варьируется с немыслимой амплитудой, ведь тогда ожидаемый средний разброс в сроках заключения по одному и тому же делу, рассматриваемому одним и тем же судьей, в различных обстоятельствах составит около 2,8 года!190 Вариативность среднего показателя среди судей сама по себе уже шокирует. Такой же разброс для одного конкретного судьи в зависимости от обстоятельств был бы просто абсурдным. Кажется более разумным заключить, что судьи непостоянны в своих реакциях на различные преступления и различных обвиняемых и что это непостоянство в высшей степени зависит от личности судьи, однако является для него стабильным.
Для оценки доли постоянного и ситуативного шумов в составе внутриэкспертного нам нужно провести эксперимент, в котором одни и те же судьи выносят два независимых приговора по каждому делу. Как мы отмечали, создать такие условия в эксперименте, как правило, невозможно, поскольку нет гарантии, что второй приговор будет в полном смысле слова независим от первого. Велика вероятность – особенно в сложных делах, – что судья узнает задачу и повторит свой первоначальный вердикт.
Группа исследователей из Принстона191 под руководством Александра Тодорова разработала смелые экспериментальные методы для преодоления этого затруднения. Они привлекли участников с Amazon Mechanical Turk, интернет-платформы, где исполнители выполняют небольшие задания – например, заполнение анкет, – получая оплату за затраченное время. В одном эксперименте участники рассматривали изображения человеческих лиц, сгенерированные компьютерной программой, однако неотличимые от лиц реальных людей, и оценивали их по различным параметрам, например внешней привлекательности и честности (иными словами, можно ли этому человеку доверять). Эксперимент был повторен неделей позже с теми же самыми лицами и теми же респондентами.
Вполне справедливо ожидать в подобном эксперименте меньше согласованности среди участников, чем в профессиональных суждениях, таких как вынесение приговоров в суде. Каждый согласится, что одни люди очень привлекательны, а другие выглядят отталкивающе, однако в пределах области значимости мы ожидаем, что реакция на лица будет весьма индивидуальной. И в самом деле, среди респондентов обнаружилось мало согласия: скажем, при оценке честности разброс по изображениям насчитывал лишь 18 % от всех отклонений. Оставшиеся 82 % представляли из себя шумовые помехи.
Точно так же справедливо ожидать от результатов эксперимента меньшего постоянства в оценках, поскольку качество оценок исполнителей, которым платят за ответы онлайн, зачастую существенно ниже, чем у профессионалов. И тем не менее самым существенным компонентом шума стал постоянный внутриэкспертный шум. Вторым по значимости стал межэкспертный шум, то есть различия среди наблюдателей в средних оценках честности. Ситуативный шум, хотя и оставался существенным, был самым небольшим из компонентов.
Исследователи пришли к тем же самым выводам, когда задавали респондентам другие вопросы, к примеру, какие машины им нравятся или какие блюда они предпочитают, или более близкие к задачам, с которыми работают профессионалы. Скажем, в повторении исследования о назначении компенсации морального ущерба, рассмотренного нами в главе 15, респонденты оценивали меру наказания для десяти случаев причинения вреда здоровью; опрос проходил в два этапа, разделенных неделей. И опять постоянный внутриэкспертный шум стал самым значительным компонентом. Во всех исследованиях участники в основном не соглашались друг с другом, однако оставались практически постоянными в своих собственных оценках. Такое «постоянство без единодушия», как выразились исследователи, свидетельствует о явном наличии постоянного внутриэкспертного шума.
Наиболее убедительные доказательства роли постоянного внутриэкспертного шума содержатся в большом исследовании по проблеме освобождения обвиняемых под залог192, упомянутом в главе 10. В одной из частей этой внушительной работы авторы создали статистическую модель, которая симулировала работу судей, а именно то, как в принятии решения каждый из них использовал доступную ему информацию. Они создали индивидуальные модели 173 судей. Затем заставили модели вынести решения193 по 141 833 делам, в итоге получив 173 решения по каждому делу – всего более 24 миллионов решений. По нашей просьбе авторы любезно выполнили специальный анализ, в котором разделили разбросы оценок на три группы: «верные» оценки (близкие к среднему по каждому делу), межэкспертный шум, возникавший от различия в предрасположенности судей отпустить обвиняемого под залог, и оставшийся внутриэкспертный шум.
Анализ имеет прямое отношение к нашим доводам, поскольку межэкспертный шум, измеряемый в ходе этого исследования, оставался постоянным. Случайное присутствие ситуативного шума здесь ничего не значит, поскольку это анализ моделей, предсказывающих решения судей. Включены только поддающиеся проверке постоянные индивидуальные критерии прогнозирования.
Выводы были недвусмысленными: постоянного внутриэкспертного шума194 оказалось почти в четыре раза больше, чем межэкспертного (26 % против 7 % от общего отклонения). Идентифицированные в ходе эксперимента постоянные и уникальные шаблоны принятия решений давали гораздо больше шума, чем общие различия в строгости.
Все факты согласуются с рассмотренным в главе 7 исследованием ситуативного шума: хотя существование ситуативного шума удивляет и даже тревожит, нет признаков того, что здесь внутриэкспертная составляющая превышает межэкспертную. Зато в отношении системного шума мы с самого начала пренебрегли его наиболее важным компонентом, а именно постоянным внутриэкспертным шумом, или расхождением среди судей в их оценке определенных дел.
Учитывая относительную нехватку релевантных исследований, наши выводы не заключительные, однако они отражают изменение нашего понимания шумовых помех и того, как с ними бороться. В принципе межэкспертный шум, или, проще говоря, общие различия между судьями, не должны представлять серьезной проблемы в плане измерения и действий по устранению. Если встречаются аномально «несговорчивые» оценщики, «бдительные» сотрудники органов опеки, «не расположенные к риску» представители кредитных организаций, то учреждения, принимающие на работу этих людей, должны стремиться подогнать уровень их решений под средний. Например, университеты справляются с проблемой, требуя от преподавателей придерживаться заранее установленного распределения оценок на каждом курсе.
К сожалению, – как мы теперь понимаем, – зациклившись на межэкспертном шуме, легко упустить из виду важную проблему, а именно проблему индивидуальных различий. Шум в основном является продуктом не межэкспертных различий, а взаимодействий: различные судьи взаимодействуют с конкретными обвиняемыми, учителя со школьниками, социальные работники с семьями, руководители со своими конкретными планами на будущее. Шум – это в основном побочный продукт нашей уникальности, нашей «шумной натуры». Сокращение межэкспертного шума – достойная цель, но преследование только одной этой цели оставит без решения бóльшую часть возникающих из-за системного шума проблем.
Объяснение ошибок
Мы рассказали о шуме много нового, однако эта тема почти полностью выпадает из общественного сознания и дискуссий о суждениях и ошибках. Несмотря на доказательства присутствия шума и множество причин его возникновения, шум редко упоминается как основной фактор при вынесении суждений. Как такое возможно? Почему мы никогда не ссылаемся на шум, чтобы объяснить несостоятельность суждений, а по привычке обвиняем во всем искажения? Почему в шуме так редко видят причину ошибок, невзирая на его повсеместное проникновение во все суждения?
Ключ к разгадке в том, что, хотя средняя погрешность (смещение) и вариативность ошибок (шум) равновесны в уравнении расчета погрешности, умом мы воспринимаем их совершенно по-разному. И наш обычный способ познания окружающего мира не оставляет нам практически никакой возможности осознать роль шума.
Выше мы заметили, что задним числом легко найти причину любому событию, хотя предугадать его заранее было невозможно. В долине правдоподобности события закономерны и легко объяснимы.
То же самое можно сказать и о суждениях. Как и прочие события, решения принимаются в основном в долине правдоподобности и обычно нас не удивляют. Во всяком случае, суждения, имеющие удовлетворительные последствия, воспринимаются как должное и редко оспариваются. Когда стрелок поражает цель, когда операция на сердце проходит успешно, а стартап удается, мы предполагаем, что тот, кто принимал решение, сделал правильный выбор. Ведь он оказался прав! Подобно другим обыкновенным историям, истории успеха становятся само собой разумеющимися, едва все узнают результат.
Однако у нас возникает потребность объяснить и неординарные события: как плохие, так подчас и на удивление хорошие – к примеру, крайне рискованный бизнес-проект, который неожиданно окупился. Объяснения, ссылающиеся на чьи-то оплошности или особое чутье, намного популярнее, чем они того заслуживают, поскольку, когда известен исход дела, любая изначально рискованная авантюра легко превращается в воплощенный замысел гения или сумасшедшего. Хорошо задокументированные психологические искажения, называемые фундаментальными ошибками атрибуции, – это упорная тенденция приписывать вину или заслугу факторам, которые проще объяснить везением или сложившимися обстоятельствами. Другое искажение – ретроспективный взгляд – деформирует оценки до такой степени, что исходы, которые невозможно было предвидеть, задним числом производят впечатление легко предсказуемых.
Объяснения таким ошибкам найти не трудно; подобрать доводы для обоснования суждения куда легче, чем выяснить причину событий. Всегда можно сослаться на мотивы людей, делающих заключения. Если этого недостаточно, можно обвинить их в некомпетентности. А в последние десятилетия стало популярным и другое объяснение некачественным суждениям: психологические искажения.
Исследования в области психологии и поведенческой экономики задокументировали большой список психологических искажений: ошибка в планировании, излишняя самоуверенность, неприятие потерь, эффект владения, сохранение статус-кво, игнорирование будущего («ориентация на настоящее») и многие другие, в том числе, конечно, предубеждения в отношении определенных категорий людей. Мы многое знаем об условиях, при которых каждое из этих искажений с большой вероятностью влияет на оценки и решения, а также о способах, позволяющих проконтролировать и распознать искаженное мышление в реальном времени.
Психологическое искажение – вразумительное и логичное объяснение погрешностям в суждениях при условии, что искажение было предсказуемо или выявлено в реальном времени. Но и психологическим искажениям, обнаруженным лишь по факту, можно найти полезное, хотя и осторожное применение, если их объяснение пригодится на будущее. Например, поразительный отказ женщине – сильному кандидату на должность может стать поводом для выдвижения гипотезы о наличии гендерных предубеждений, которую будущие назначения, рассмотренные той же комиссией, подтвердят либо опровергнут. Сравните это с якобы причинно-следственным объяснением единичному случаю в стиле «раз человек потерпел неудачу, значит, был слишком самоуверен». Утверждение абсолютно бессодержательно, однако дает иллюзию понимания и уже этим доставляет удовольствие. Преподаватель школы бизнеса Фил Розенцвейг убедительно доказал195, что подобные пустые объяснения с псевдонаучным упоминанием искажений далеко не редкость в дискуссиях о бизнесе. Их популярность свидетельствует о насущной потребности выдумывать придающие смысл событиям истории о причинах и следствиях.
Шум как статистическое явление
Как мы заметили в главе 12, наш естественный способ мышления является каузальным. Что бы ни произошло, мы сосредотачиваемся на частностях, изобретая логичные и подчиняющиеся законам причины и следствия сюжеты, в которых неудачи часто приписывают ошибкам, а ошибки объясняются искажением. Легкость, с которой мы интерпретируем ошибочные суждения, не оставляет в анализе ошибок никакого места шуму.
Невидимость шума – прямое следствие каузального мышления. Шум по своей сути явление статистическое: он становится видимым лишь тогда, когда мы рассматриваем с точки зрения статистики множество сходных суждений. И вот тогда его уже трудно не заметить! Это статистические данные, которые постфактум свидетельствуют о расхождениях в вынесении приговоров и назначении страховых выплат. Это разнообразие вариантов при прогнозировании вероятности успеха. Это разброс попаданий на мишени. С точки зрения причины и следствия шума нигде нет; с точки зрения статистики он повсюду.
К несчастью, не так просто обрести статистическое мышление. Мы без усилий отыскиваем причины событий, которые наблюдаем, однако тому, чтобы смотреть на них с точки зрения статистики, нужно учиться и прилагать к этому много усилий. Причины находятся сами по себе; статистика дается с трудом.
В результате мы имеем примечательный дисбаланс во взглядах на смещение и шум как на источники ошибок. Если вы изучали основы психологии, то, вероятно, видели эффектные иллюстрации. Помните, как выделяется на расплывчатом фоне яркая и тщательно прорисованная фигура? Наше внимание приковано к этой фигуре, даже если она ничтожно мала по сравнению с остальным изображением. Такие иллюстрации – удачная метафора нашему интуитивному восприятию смещения и шума: смещение – это яркая фигура, а шум – всего лишь фон, на который мы не обращаем внимания. Вот почему мы так долго оставались в неведении относительно существенного недостатка наших суждений.
К разговору об источниках шума
«Мы легко замечаем разницу в средних показателях по вынесенным решениям, но насколько велик внутриэкспертный шум, которого мы не видим?»
«По вашим словам, на эту оценку повлияли предубеждения. А сказали бы вы то же самое при ином исходе? И как узнать, что это не шум?»
«Мы приняли правильное решение целенаправленно бороться с искажениями. Так давайте же не забывать и о шуме».