Рациональность. Что это, почему нам ее не хватает и чем она важна — страница 44 из 76

Психологи Хэл Аркес и Барбара Меллерс подсчитали: чтобы удовлетворять этим требованиям, dʹ убедительности доказательств должно быть равно 4,7 — почти пяти стандартным отклонениям, отделяющим свидетельства, доказывающие вину виновных лиц, от свидетельств, подтверждающих вину невиновных[299]. Такой сверхъестественной чувствительностью не обладают и самые современные медицинские технологии. Если же мы готовы опустить планку, скажем осуждать до 5 % невиновных и оправдывать до 5 % виновных, dʹ должно быть равно «всего лишь» 3,3 стандартного отклонения, что все еще близко к чувствительности принцессы на горошине.

Значит ли это, что наше высоконравственное стремление к справедливости обгоняет наше умение доказывать виновность? Почти наверняка. Аркес и Меллерс решили проверить на группе студентов, к какой же справедливости мы на самом деле стремимся. Студенты решили, что справедливое общество должно осуждать не более 5 % невиновных и выпускать на свободу не более 8 % виновных. Опрос группы судей показал, что и они считают примерно так же. (Определить, жестче эти требования принципа Блэкстона или мягче, невозможно, поскольку нам неизвестно, какая доля подсудимых виновна на самом деле.) Чтобы соответствовать такому стандарту, dʹ должно быть равно 3,0 — улики, оставленные действиями виновных, должны быть на три стандартных отклонения убедительнее улик, возникших вследствие действий невиновных.

Насколько это реально? Аркес и Меллерс перелопатили литературу, посвященную чувствительности различных тестов и методик, и нашли ответ: не очень. Когда испытуемых просят отличить лжецов от правдорубов, dʹ оказывается примерно нулевым, то есть они были вообще не в состоянии понять, кто врет, а кто говорит правду. Показания очевидцев надежнее, но ненамного (dʹ составляет скромные 0,8). Технические средства, а именно детекторы лжи, справляются лучше (dʹ~ 1,5), но результаты исследований на полиграфе обычно считаются недопустимыми доказательствами[300]. Чтобы было с чем сравнивать, ученые на время забыли о криминалистике и обратились к другим видам тестов; в результате они обнаружили, что чувствительность отборочных испытаний для военнослужащих составляет примерно 0,7 стандартного отклонения, прогнозов погоды — от 0,8 до 1,7, маммографии — 1,3, а компьютерной томографии, применяемой для обнаружения опухолей мозга, примерно 2,4–2,9 (здесь надо уточнить, что оценивались технологии конца ХХ в.; сегодня все эти показатели должны быть выше).

Предположим, что типичное качество доказательства в зале суда характеризуется dʹ порядка 1,0 (результат на одно стандартное отклонение выше для виновного, чем для невиновного). Если присяжные применяют жесткий критерий принятия решения — под влиянием, скажем, априорного убеждения, что только треть подсудимых и вправду виновна, — они оправдают 58 % виновных и осудят 12 % невиновных. Если же они выбирают нестрогий критерий, соответствующий априорному убеждению в виновности двух третей подсудимых, присяжные оправдают 12 % виновных и осудят 58 % невиновных. Печальная истина состоит в том, что суды оправдывают гораздо больше виновных и осуждают гораздо больше невиновных, чем любой из нас счел бы приемлемым.

Надо сказать, что судебная система умеет заключать сделки с дьяволом и повыгоднее. Большинство уголовных дел до суда вообще не доходит: они рассыпаются из-за слабости доказательной базы или заканчиваются досудебным соглашением (наилучший вариант), потому что собранные улики настолько убедительны. Тем не менее мышление в парадигме теории обнаружения сигнала способно направить наши споры о судебной системе в сторону большей справедливости. Сейчас гражданские активисты в большинстве своем ничего не знают о компромиссе между верными попаданиями и ложными тревогами и считают несправедливые обвинительные приговоры чем-то немыслимыми — как если бы присяжные были непогрешимы. Поэтому многие поборники справедливости выступают за снижение критерия принятия решения. Поместите за решетку больше преступников! Верьте женщинам безоговорочно! Следите за террористами и изолируйте их, прежде чем они нанесут удар! Тот, кто забрал чужую жизнь, должен лишиться собственной! Но математика неумолима: понижение критерия способно лишь заменить один вид неправосудия другим. Все эти призывы можно переформулировать. Упрячьте за решетку больше невиновных! Осудите за изнасилование больше непричастных! Изолируйте от общества безобидных недорослей, сболтнувших лишнего в социальных сетях! Казните больше случайных людей![301] Конечно, одним изменением формулировок доводы не опровергнешь. В какие-то периоды система действительно может лучше защищать интересы подсудимых в ущерб интересам их вероятных жертв — или наоборот — и требовать реформирования. Но если отнюдь не всезнающие люди все же хотят иметь систему правосудия, им придется смириться и с печальной неизбежностью наказания невиновных.

Однако, если не забывать о горьких компромиссах, неизбежных при отделении сигнала от шума, справедливости в мире станет больше. Помня о них, мы вынуждены признать, насколько чудовищны суровые наказания, особенно смертная казнь и длительные тюремные сроки. Это не просто жестокость по отношению к преступившим закон — все эти кары неизбежно падут и на головы невиновных. И эти же компромиссы напоминают нам, что к настоящей справедливости ведет увеличение чувствительности системы, а не закрепление свойственных ей перекосов: нам нужны более гуманные методики допросов обвиняемых и опросов свидетелей, более точная криминологическая экспертиза, ограничители прокурорского рвения и другие механизмы, защищающие правосудие от ошибок обоего рода.

Обнаружение сигнала и статистическая значимость

Компромисс между верными попаданиями и ложными тревогами — неотъемлемая часть любого решения, основанного на ненадежных данных, а это значит, что он присущ всякому человеческому суждению. Я расскажу еще об одном — о том, как определить, позволяют ли какие-то эмпирические данные сделать вывод об истинности гипотезы. В этой области теория обнаружения сигнала оборачивается теорией статистических решений[302].

Читатели, интересующиеся наукой, наслышаны о «статистической значимости», поскольку ее нередко упоминают в новостях, повествующих об открытиях в области медицины, эпидемиологии и общественных наук. В основе этого понятия лежит примерно та же математика, на которой зиждется теория обнаружения сигнала; первопроходцами здесь были статистики Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980). Поняв, как связаны эти две идеи, вы сможете избежать ошибок, которые регулярно совершают даже ученые. Всех студентов-статистиков предупреждают, что «статистическая значимость» — это техническая концепция, которую не стоит путать со «значимостью» в привычном понимании чего-то «важного» или «достойного внимания». Тем не менее многие не до конца понимают, что же это такое.

Предположим, исследовательница проводит какие-то наблюдения и преобразует результаты наблюдений в данные, отражающие эффект, который ее интересует, например разницу симптомов в группе, которой давали лекарство, и в группе, получавшей плацебо, или разницу в речевых навыках мальчиков и девочек, или повышение экзаменационных оценок у студентов, посещавших дополнительные занятия. Если это число равно нулю, значит, эффекта нет; если оно больше нуля — возможно, пора кричать «эврика». Но из людей выходят плохие подопытные кролики, в данных полно шума, и, если среднее оказывается выше нуля, это может означать как какое-то реальное изменение, так и ошибку отбора, чистую случайность. Давайте снова поднимемся на уровень восприятия бога и начертим кривые распределения результатов, которые исследовательница получит, если в реальности ничего не происходит (это называется «нулевая гипотеза»), и результатов, которые она получит, если что-то — эффект определенной величины — все же происходит. Эти кривые накладываются друг на друга — вот что делает науку таким непростым занятием. Картина должна показаться вам знакомой:



Нулевая гипотеза — это шум, альтернативная гипотеза — сигнал. Величина эффекта — что-то вроде чувствительности: она определяет, насколько легко отделить сигнал от шума. Прежде чем открывать шампанское, исследовательница должна применить к полученным результатам некий критерий, который еще называют критической величиной. Не преодолев критической величины, она не может опровергнуть нулевую гипотезу и примется заливать горе; если же она ее преодолела, значит, нулевая гипотеза опровергнута и можно праздновать, объявив эффект «статистически значимым».



Но где поместить эту критическую величину? Исследовательница вынуждена искать баланс между двумя типами ошибок. Если она опровергнет верную нулевую гипотезу — это ложная тревога, или, в терминах теории статистических решений, ошибка первого рода. Если же ей не удастся опровергнуть ложную нулевую гипотезу — это промах, или ошибка второго рода. Ни то ни другое не сулит ничего хорошего. Ошибка первого рода привносит ложные факты в совокупность научного знания. Ошибка второго рода — это перевод денег и усилий. Она случается, когда «мощность метода» (доля верных попаданий, или 1 минус доля ошибок второго рода) недостаточна для обнаружения эффекта.

Давным-давно — кем и когда, точно неизвестно — было решено, что ошибки первого рода («обнаружение» эффекта там, где его нет) наносят особенно сильный вред научному знанию, которое может выдержать только определенную их долю — если быть точным, не более 5 % от всех исследований, в которых нулевая гипотеза была верна. Отсюда и возникла общепринятая практика: ученые должны устанавливать такую критическую величину, которая гарантирует, что вероятность опровержения нулевой гипотезы в случаях, когда она верна, составляет менее 5 %; вот оно, вожделенное «p