Шум. Несовершенство человеческих суждений — страница 7 из 48

Анализ шума

В предыдущей главе обсуждался разброс в результатах измерений или в суждениях по индивидуальным случаям. В подобных ситуациях разброс в суждениях – это погрешность с двумя составляющими: смещением и шумом. Безусловно, рассматриваемые нами системы вынесения суждений, такие как суды и страховые компании, работают с целым спектром дел и проводят между ними различия. Деятельность федеральных судей и оценщиков страховых убытков не имела бы смысла, если бы по всем рассматриваемым делам они выносили шаблонные суждения. Значительная часть вариативности в суждениях по отдельным делам является намеренной.

Однако разброс в суждениях по одному делу по-прежнему нежелателен, так как представляет собой системный шум. Как мы увидим далее, ревизия шума в ситуациях, когда одни и те же люди выносят решения по нескольким делам, позволяет провести более тщательный анализ системного шума.

Ревизия шумовых помех при назначении наказаний

Чтобы продемонстрировать анализ шума в ситуации с вынесением суждений по множеству дел, обратимся к исключительно подробной46 ревизии шума при назначении наказаний федеральными судьями. Этот анализ был опубликован в 1981 году в поддержку реформы системы вынесения приговоров, описанной в главе 1. Исследование имело узкую направленность и рассматривало именно приговоры, однако из него можно извлечь полезные уроки и для других областей, где выносятся профессиональные суждения. С помощью этой ревизии шума мы хотели более систематически подойти к «определению масштабов разброса при назначении наказаний», не ограничиваясь наглядными, но не подтвержденными официально примерами, упоминаемыми Франкелом и другими специалистами.

Авторы исследования подготовили 16 гипотетических дел, по которым правонарушители были признаны виновными и ожидали приговора. В кратких описаниях этих дел – случаев ограблений или мошенничества – давались различные сведения по шести категориям, например был ли подсудимый зачинщиком или соучастником преступления, имелось ли у него уголовное прошлое, использовалось ли при ограблении оружие и т. д.

Исследователи провели скрупулезно организованные собеседования с 208 действующими федеральными судьями со всей страны. В течение 90 минут судей знакомили со всеми 16 делами и предлагали вынести по ним приговоры47.

Нижеприведенное упражнение по визуализации информации поможет вам оценить, насколько полезны данные, полученные в ходе этого исследования. Представьте себе большую таблицу, состоящую из 16 столбцов, соответствующих преступлениям и помеченных латинскими буквами от А до P, и 208 рядов, по одному на судью, пронумерованных от 1 до 208. В каждой ячейке таблицы, от A1 до P208, указан срок тюремного заключения, назначенный по каждому делу определенным судьей. Эта таблица, состоящая из 3328 ячеек, схематично изображена на рисунке 9. Для изучения шума мы рассмотрим 16 столбцов, каждый из которых представляет собой отдельную ревизию шума.


Рис. 9. Представление результатов исследования о назначениях наказаний

Средний срок приговора

Не существует объективного способа установить «истинное значение» срока приговора в конкретном деле. Ниже мы будем рассматривать среднее значение сроков 208 приговоров по каждому делу (средний срок приговора) в качестве «справедливого». Как отмечалось в главе 1, Комиссия США по вопросам назначения наказаний исходила из такого же допущения, когда в качестве основы для рекомендаций по вынесению приговоров использовала средние значения сроков по прошлым делам. При этом «справедливое» среднее значение срока по каждому делу подразумевает, что смещение равно нулю.

Мы полностью отдаем себе отчет в том, что на практике такое допущение неверно: средний срок приговора по некоторым делам, скорее всего, предвзято смещен, например из-за расовой дискриминации, по сравнению со средним сроком других очень похожих дел. Вариативность предвзятого смещения в различных делах – а оно может быть как позитивным, так и негативным – это значимый источник ошибок и несправедливости. В заблуждение может вводить то, что саму эту вариативность часто48 называют «предвзятостью». Анализ, проводимый в этой главе – как и во всей книге, – посвящен в основном шуму, независимому источнику ошибок. Судья Франкел придавал особое значение несправедливости, вызываемой шумом, однако он также обращал внимание и на предвзятое смещение (в том числе расовую дискриминацию). Подобным же образом не следует считать, что наш упор на явление шума умаляет важность измерения и преодоления смещения вследствие предвзятости.

Для удобства в нижнем ряду таблицы указан средний срок приговора по каждому делу. Дела расставлены по возрастанию суровости приговора: средний срок приговора по делу А составляет 1 год, а по делу P – 15,3 года. Средний срок назначенного тюремного заключения49 по всем 16 делам – 7 лет.

Теперь давайте вообразим идеальный мир, в котором все судьи – безупречные измерительные инструменты правосудия и в приговорах напрочь отсутствует шум. Как бы в этом мире выглядел рисунок 9? Очевидно, что значения во всех ячейках по делу A были бы идентичными, ведь все судьи назначили бы обвиняемому ровно один год тюремного заключения. Та же картина наблюдалась бы во всех других столбцах. Конечно, значения в каждом ряду отличались бы, поскольку дела разные, однако сами ряды в точности повторяли бы друг друга. Единственным источником разброса в таблице были бы различия между делами.

К сожалению, мир федеральных судебных органов далек от идеального. Судьи непохожи друг на друга, и в столбцах таблицы наблюдается довольно большой разброс значений, что указывает на шум в суждениях по каждому делу. Мы видим гораздо больший разброс в сроках приговора, чем следовало бы, и наша цель – провести анализ этого разброса.

Лотерея при вынесении приговоров

Начните с уже знакомой нам идеальной картины мира, где сроки, назначенные по каждому делу различными судьями, будут одинаковыми. Каждый столбец таблицы окажется заполненным 208 идентичными цифрами. Теперь добавьте шума, пройдясь по столбцам и поменяв значения в каких-то ячейках, тем самым увеличивая или уменьшая средние сроки приговора. Поскольку вносимые вами изменения неодинаковы, они создают в столбцах таблицы разброс. Это и есть шум.

Основной результат этого исследования – обнаружение высокого уровня шума внутри набора суждений по каждому делу. Количественным показателем шума по каждому делу является стандартное отклонение в назначенных сроках заключения. Средний срок по делу составил 7,0 года, а стандартное отклонение от этого среднего срока – 3,4 года50.

Возможно, термин стандартное отклонение хорошо вам знаком, и все же более конкретный пример не будет лишним. Представьте, что вы случайным образом выбираете двух судей и вычисляете разницу между вынесенными ими приговорами по некоему делу. Теперь повторите это для всех пар судей и всех дел и усредните полученные результаты. Итоговая величина, средняя абсолютная разница, должна дать вам хорошее представление о том, лотерея каких масштабов определяет участь обвиняемого в зале суда. Если допустить, что значения сроков распределены нормально, средняя абсолютная разница в 1,128 раза больше стандартного отклонения, что указывает на то, что средняя разница между двумя случайно выбранными приговорами по одному делу составит 3,8 года. В главе 3 мы уже говорили о лотерее, с которой сталкивается клиент страховой компании, обращающийся за оценкой страховых рисков. Последствия лотереи в правовой системе, мягко выражаясь, более серьезны.

Средняя абсолютная разница в 3,8 года при среднем сроке приговора в 7,0 года вызывает озабоченность и, на наш взгляд, просто неприемлема. К сожалению, есть все основания полагать, что на практике уровень шума, возникающий в процессе отправления правосудия, еще выше. Во-первых, участники ревизии шума выносили приговоры по череде условных дел, которые было необычайно легко сравнивать между собой. В жизни нам не приходится рассчитывать на такое подспорье для соблюдения последовательности в решениях. Во-вторых, судьи в зале суда располагают гораздо бо́льшим объемом информации, чем во время эксперимента. Дополнительная информация, не имеющая решающего значения, увеличивает потенциал возможных расхождений во мнениях судей. Именно поэтому мы подозреваем, что на практике в залах суда обвиняемых ожидает еще большее количество шума, чем в нашем исследовании.

Некоторые судьи особенно суровы: межэкспертный шум

На следующем этапе анализа авторы разбили шум на отдельные составляющие. Впервые пытаясь объяснить для себя феномен шума, вы, как и судья Франкел, вероятно, подумали, что шум возникает из-за того, что некоторые судьи склонны выносить гораздо более суровые приговоры, чем остальные. Любой адвокат подтвердит, что у каждого судьи своя репутация: есть судьи «кровожадные», чьи приговоры всегда строже среднего, а есть «сердобольные», чьи приговоры, как правило, мягче. Мы будем называть подобные отклонения межэкспертными ошибками. (Повторим: мы называем ошибкой отклонение от среднего значения. На самом деле ошибка может устранить несправедливость в случае, если судьи в среднем выносят неправильные решения.)

Разброс в межэкспертных ошибках обнаруживается при решении любой задачи, требующей вынесения суждений. Вот несколько примеров: некоторые управляющие склонны завышать баллы, оценивая продуктивность работников, отдельные прогнозисты выказывают больше оптимизма, делая прогнозы о рыночной доле компании, какие-то ортопеды чаще настаивают на оперативном вмешательстве при проблемах с позвоночником.

В каждом ряду таблицы на рисунке 9 указаны сроки заключения, назначенные одним судьей. Средний срок приговора у одного судьи показан в крайнем правом столбце и отражает уровень строгости этого судьи. Как выяснилось, судьи существенно различаются по этому показателю. Стандартное отклонение значений в крайнем правом столбце – 2,4 года. Разброс таких масштабов не имеет ничего общего со справедливостью. Как вы уже догадались, разница в средних сроках приговоров отражает различия между судьями по другим параметрам, таким как происхождение, жизненный опыт, политические воззрения, предрассудки и так далее. Исследователи изучили отношение судей к назначению наказаний в целом. Например, им предлагалось ответить на вопрос, что является главной целью вынесения приговора: изолирование преступника от общества, его перевоспитание или предупреждение новых правонарушений. Оказалось, что судьи, выступающие за перевоспитание, как правило, назначают более короткие тюремные сроки и более длительные периоды административного надзора, чем судьи, сделавшие выбор в пользу изолирования и устрашения. Отдельно отметим, что судьи из южных штатов США выносили значительно более строгие приговоры, чем их коллеги из других регионов страны. Вполне закономерно, что консервативная идеология также имеет отношение к суровости приговоров.

В общем же можно сказать, что средний уровень назначаемых сроков можно уподобить личностным характеристикам. Воспользовавшись результатами этого исследования, мы могли бы расставить судей по порядку – от самого строгого до наиболее мягкого, точно так же, как личностный тест позволил бы определить уровень их экстраверсии или доброжелательности. Как и в случае с чертами характера, неудивительно, что строгость наказаний коррелирует с присутствием неких генетических факторов, жизненного опыта и других аспектов личности. Ничто из вышеперечисленного не имеет отношения к делу подсудимого. Для описания разброса в значениях средних сроков приговора, идентичных разбросу межэкспертных ошибок, мы используем термин межэкспертный шум.

Не все судьи одинаковы: внутриэкспертный шум

Как указывают черные стрелки на рисунке 9, значение межэкспертного шума составляет 2,4 года, а системного шума – 3,4 года. Разница между ними говорит о том, что строгость каждого судьи – не единственный фактор, играющий роль в возникновении системного шума. Этот дополнительный компонент мы назовем внутриэкспертным шумом.

Чтобы разобраться с понятием внутриэкспертного шума, давайте снова обратимся к рисунку 9, но на этот раз уделим внимание одной случайно выбранной ячейке, скажем С3. Средний срок приговора по делу С приведен внизу столбца – это 3,7 года. Теперь найдите значение среднего срока приговоров, которые Судья 3 вынес по всем рассмотренным делам, в крайнем правом столбце. Это 5 лет – всего на 2 года меньше, чем среднее значение по совокупности дел во всем исследовании. Если бы вариативность в судейской строгости была единственным источником шума в столбце 3, можно было бы предположить, что приговор в ячейке С3 составит 3,7–2 = 1,7 года. Но в ячейке С3 указано значение 4 года, а это означает, что, вынося этот приговор, Судья 3 проявил особую суровость.

С помощью подобной простой аддитивной[7] логики можно попытаться спрогнозировать сроки в каждом столбце таблицы, но на самом деле в большинстве ячеек вы обнаружите отклонения от этой простой модели. Просматривая ряды, вы увидите, что не во всех случаях судьи одинаково строги: они могут быть жестче среднего, рассматривая одни дела, и мягче среднего, вынося решения по другим. Мы называем такие остаточные отклонения внутриэкспертными ошибками. Если подсчитать значения внутриэкспертных ошибок по всем ячейкам таблицы, вы убедитесь, что их сумма будет равна нулю как для каждого судьи (каждого ряда), так и для каждого дела (каждого столбца). Однако при расчете уровня шума внутриэкспертные ошибки взаимно не уничтожаются, потому что при подобных вычислениях значения, указанные во всех ячейках, возводятся в квадрат.

Существует более легкий способ подтвердить тот факт, что простая аддитивная модель здесь не работает. Средний срок приговоров внизу каждого столбца таблицы постепенно увеличивается слева направо, однако в остальных рядах такого не наблюдается. К примеру, Судья 208 назначил гораздо более длительный срок подсудимому в Деле О, чем подсудимому в Деле P. Если бы каждый судья расставил дела в порядке возрастания целесообразного, по его мнению, срока тюремного заключения, итоговые рейтинги не совпали бы.

Мы назвали рассмотренный выше разброс внутриэкспертным шумом, потому что он отражает сложный внутренний характер отношения конкретного судьи к каждому делу. Один судья, например, может быть в среднем более строгим, но проявлять некоторую снисходительность к обвиняемым, совершившим ненасильственные преступления в экономической сфере. Другой, как правило, не отличается особенной суровостью, но менее терпим к рецидивистам. Строгость третьего судьи может быть ближе к средним значениям, при этом он выказывает больше сочувствия к соучастникам преступления, но выносит более жесткие приговоры, если жертва преступления – пожилой человек. (Мы используем термин внутриэкспертный шум с целью сделать текст более удобочитаемым. На самом деле в статистике это называется взаимодействием между переменной судьи и переменной дела. Мы просим прощения у читателей, подкованных в статистике, за то, что вынудили их заниматься подобными ментальными преобразованиями.)

В области уголовного правосудия идиосинкразические решения по некоторым делам, возможно, отражают личную философию вынесения приговоров отдельного судьи. Причиной других решений могут быть возникающие у судьи подсознательные ассоциации, например, если обвиняемая напоминает ему некую особенно гнусную преступницу или, напротив, внешне похожа на его дочь. Какова бы ни была причина их возникновения, такие внутриэкспертные ошибки не случайны: если бы судья повторно столкнулся с этим же делом, мы наблюдали бы их вновь. Но поскольку прогнозировать внутриэкспертный шум на практике сложно, в уже довольно непредсказуемую лотерею вынесения приговоров добавляется элемент неопределенности. Авторы исследования отметили: «То, как по-разному особенности преступления или преступника влияют на решение отдельных судей5152, является еще одной формой несоразмерности при назначении наказаний».

Возможно, вы успели заметить, что разложение системного шума на межэкспертный и внутриэкспертный компоненты следует логике уравнения расчета погрешности из предыдущей главы, где составляющими погрешности были смещение и шум. На этот раз уравнение можно записать так:


Системный шум2= Межэкспертный шум2+ Внутриэкспертный шум2


Наглядно это выражение можно представить таким же образом, как и первоначальное уравнение расчета погрешности (рисунок 10). Две стороны треугольника здесь равны по той причине, что, согласно исследованию о приговорах, внутриэкспертный и межэкспертный компоненты внесли примерно одинаковый вклад53 в системный шум.

Внутриэкспертный шум носит повсеместный характер. Врачи принимают решения о госпитализации, компании – о найме сотрудников, юристы – о представлении дел в суде, а голливудские продюсеры – о съемке сериалов. Внутриэкспертный шум наблюдается во всех этих ситуациях: лица, ответственные за принятие решений, классифицируют отдельные случаи совершенно по-разному.


Рис. 10. Разложение системного шума на составляющие

Составляющие шума

Разбирая явление внутриэкспертного шума, мы обошли молчанием довольно сложный момент: потенциальную роль случайной ошибки.

Вспомните ваши манипуляции с секундомером. Когда вы раз за разом пытались отмерить десять секунд, результаты были неодинаковыми: вы продемонстрировали внутриэкспертный разброс. Аналогичным образом судьи не назначили бы ровно такие же сроки наказания по 16 делам, если бы им пришлось сделать это в иной ситуации. В самом деле, как мы убедимся далее, если бы первоначальный эксперимент выпал на другой день той же недели, приговоры уже несколько отличались бы. Будь судья в приподнятом настроении из-за счастливого события в жизни дочери или из-за победы любимой спортивной команды накануне, а может, просто потому, что день выдался особенно погожим, приговоры могли бы получиться гораздо мягче. Такой внутриэкспертный разброс концептуально отличается от рассмотренного нами устойчивого межэкспертного разброса, однако отличить их друг от друга довольно сложно. Вариативность, вызванную непостоянными, мимолетными факторами, мы будем называть ситуативным шумом.

В этом исследовании мы практически пренебрегли ситуативным шумом и во время проведения ревизии шумовых помех истолковывали идиосинкразические модели вынесения приговоров выражением устойчивой жизненной позиции судей. Это, безусловно, весьма оптимистическое допущение, но существуют независимые причины полагать, что в данном исследовании ситуативный шум не играл значительной роли. Обладающие солидным опытом судьи, принимавшие участие в эксперименте, без сомнения, использовали свои личные установки о значимости всевозможных характеристик преступлений и подсудимых. В следующей главе мы обсудим ситуативный шум более подробно и покажем, как не спутать его с устойчивым внутриэкспертным шумом.

Итак, мы рассмотрели различные типы шума. Системный шум – нежелательный разброс в суждениях по одному делу, выносимых несколькими экспертами. Мы описали два значимых компонента системного шума, которые можно выделить, когда одни и те же люди дают оценку по нескольким делам:


Межэкспертный шум – разброс в средних значениях суждений, вынесенных различными экспертами.

Внутриэкспертный шум – разброс в отношении экспертов к отдельным делам.


В настоящем исследовании был примерно одинаковый уровень межэкспертного и внутриэкспертного шума. Однако внутриэкспертный шум, в свою очередь, несомненно, содержит некоторую долю ситуативного шума, который можно отнести к случайным ошибкам.

В иллюстративных целях мы рассказали о применении ревизии шума в судебной системе, но точно такой же анализ можно провести на основе ревизии шума в любой сфере – в бизнесе, здравоохранении, государственном управлении или где-то еще. Межэкспертный и внутриэкспертный (включающий ситуативный) виды шума вносят свой вклад в возникновение системного шума, и мы еще не раз к ним вернемся.

К разговору об анализе шума

«Межэкспертный шум возникает, когда разные судьи проявляют различную степень суровости при вынесении приговоров. А когда они не соглашаются друг с другом по поводу того, кто из обвиняемых заслуживает более строгого или мягкого отношения, – это пример внутриэкспертного шума. Его составная часть – ситуативный шум, или случаи, когда судьи противоречат сами себе».

«В идеальном мире обвиняемые представали бы перед справедливым судом, в реальности же они предстают перед системой, полной шума».

Глава 7