. Но колоколообразные распределения — одновершинные, симметричные, с тонкими хвостами — являются самыми обычными; они возникают всегда, когда измеряемая величина представляет собой суммарный эффект огромного числа мелких причин, например множества генов и одновременно множества факторов внешней среды[288].
Теперь обратимся к нашей теме — к наблюдениям, случилось ли что-либо в реальности или нет. Абсолютное знание нам недоступно: мы не бог и можем полагаться лишь на результаты измерений — на точки на экране радара, засекшего самолет, или затемнения на снимке, вызванные опухолью. Результаты эти раз от раза не совсем одинаковы. Они, как правило, распределяются по колоколообразной кривой, как показано на рисунке ниже. Этот график можно считать графиком байесовского правдоподобия, то есть вероятности такого результата наблюдений при условии наличия сигнала[289]. В среднем у результата наблюдений есть определенное значение (вертикальная пунктирная линия), но иногда он чуть выше или чуть ниже.
Но вот трагическая загвоздка: можно было бы подумать, что если в окружающем мире ничего не произошло — никакого бомбардировщика и никакой опухоли, то и результаты измерений будут нулевыми. К сожалению, так никогда не бывает. В измерения всегда вкрадываются шумы — электростатический заряд, птичья стая, доброкачественная киста, видная на снимке, причем и они тоже меняются от измерения к измерению, формируя собственную колоколообразную кривую. Что еще печальнее, верхний диапазон измерений, регистрирующих шум, может накладываться на нижний диапазон измерений, регистрирующих реальные явления:
Трагедия в том, что видеть эту диаграмму и знать, чем вызван наблюдаемый феномен — сигналом или шумом, может только Господь бог. Все, что видим мы, смертные, — это результаты наших наблюдений:
Когда мы вынуждены догадываться, что представляет собой наблюдаемый феномен — сигнал (реальное явление) или шум (помеха в наших наблюдениях), нам не обойтись без какого-то порога отсечения. На языке теории обнаружения сигнала он называется критерием принятия решения и обозначается символом β (бета). Если результат наблюдения превышает этот критерий, мы говорим «да» и действуем, как если бы зарегистрировали сигнал (так это на самом деле или нет, узнать мы не можем); если результат недотягивает до него, мы говорим «нет» и действуем, как если бы это был посторонний шум:
Теперь давайте вернемся к восприятию бога и посмотрим, как хорошо мы в среднем справляемся с задачей обнаружения сигнала, применяя такой порог отсечения. Тут есть четыре варианта. Когда мы говорим «да» и это действительно сигнал (бомбардировщик или опухоль есть), это называется верным попаданием; доля сигналов, которые мы в этом случае правильно обнаруживаем, показана как затемненная область распределения.
Но что, если это просто шум? Если мы говорим «да», а сигнала на самом деле не было, это называют ложной тревогой; доля моментов, когда мы зря схватились за пистолет, выделена светло-серым.
Но что случается, если результат наблюдения недотягивает до критерия и мы говорим «нет»? И снова здесь может быть два варианта. Когда что-то действительно случилось, а мы этого не заметили, это называют промахом. Когда же мы безошибочно определили посторонний шум, это называют правильным отрицанием.
Вот как эти четыре варианта делят между собой пространство событий:
Так как мы всякий раз говорим либо «да», либо «нет», доли верных попаданий и промахов при наличии сигнала (правая кривая) должны в сумме составлять 100 %. Аналогичной должна быть и сумма долей ложных тревог и правильных отрицаний при регистрации шума (левая кривая). Если сдвигать критерий принятия решения влево (понижать) и стрелять с меньшей осмотрительностью или сдвигать его вправо (повышать) и пореже хвататься за оружие, мы меняем соотношение верных попаданий и промахов события, а также ложных тревог и правильных отрицаний — это чистая арифметика. Что менее очевидно, поскольку эти две кривые накладываются одна на другую, мы к тому же меняем соотношение между верными попаданиями и ложными тревогами (в тех случаях, когда мы говорим «да»), а также промахами и верными отрицаниями (когда говорим «нет»). Давайте посмотрим, что произойдет, если мы ослабим критерий принятия решения, то есть станем чаще хвататься за оружие и говорить «да»:
Хорошие новости: верных попаданий стало больше — мы ловим практически каждый сигнал. Плохие новости: ложных тревог тоже стало больше — мы хватаемся за пистолет чуть ли не при каждой фиксации постороннего шума. А что будет, если мы, наоборот, введем более жесткий критерий, станем осторожнее, будем чаще говорить «нет» и требовать доказательств понадежнее?
Теперь новости поменялись местами: мы почти не кричим «волки» из-за ложных тревог (это плюс), но пропускаем большую часть сигналов (это минус). В двух крайних случаях, раз от разу бездумно отвечая «да», мы всегда будем правы при наличии сигнала и всегда ошибаться при регистрации шума — и наоборот, если станем каждый раз говорить «нет».
Это вроде бы очевидно, но путать критерий принятия решения с точностью, обращая внимание либо только на сигналы, либо только на шум, — на удивление распространенное заблуждение. Предположим, экзаменатор по отдельности анализирует ответы на тест типа «да или нет»: сначала только ответы «да», а потом только ответы «нет». Сам он уверен, что таким образом узнает, что людям удается лучше — соглашаться с истинными или отвергать ложные высказывания, но на самом деле он видит лишь то, какого рода люди сами тестируемые: склонны ли они соглашаться чаще, чем не соглашаться, или наоборот. Я пришел в ужас, когда врач решил проверить остроту моего слуха тестом, состоявшим из серии звуковых сигналов, громкость которых последовательно повышалась от недоступных уху до четко различимых, и попросил меня поднять палец вверх, когда я наконец что-нибудь услышу. Это была не проверка моего слуха. Это была проверка на нетерпеливость и на готовность рискнуть в тот момент, когда я не могу с уверенностью сказать, что слышу на самом деле — звуковой сигнал или звон в ушах. Теория обнаружения сигнала подсказывает множество способов, как организовывать подобные проверки правильно: можно, например, штрафовать респондентов за ложные тревоги, заставлять их говорить «да» в конкретной доле случаев, просить их оценивать степень своей уверенности, не ограничиваясь поднятым вверх пальцем, или же предлагать тесты с несколькими вариантами ответов вместо тестов «да или нет».
Издержки и выгоды, установка критерия
Что должен делать рациональный наблюдатель, мучительно балансирующий между верными попаданиями и ложными тревогами (или промахами и правильными отрицаниями)? Если на мгновение предположить, что нам не суждено усовершенствовать ни свое восприятие, ни измерительные инструменты и от досадного наложения колоколообразных кривых никуда не деться, ответ вытекает из теории ожидаемой полезности (глава 6): все зависит от выгод обоих типов верных решений и издержек обоих типов ошибок[290].
Давайте вернемся к примеру, с которого мы начали знакомство с теорией обнаружения сигнала, а именно как отличить приближающийся бомбардировщик от помех на радаре. В таблице описаны четыре варианта развития событий; строки соответствуют состояниям реального мира, столбцы — реакциям оператора радара, а в ячейках перечислены исходы.
Решая, какое значение присвоить критерию принятия решений, ответственное лицо должно рассмотреть совокупные издержки (ожидаемую полезность) каждого столбца[291]. Ответ «да» спасет город, когда тот действительно в опасности (верное попадание), и это огромное преимущество; если же городу ничего не угрожает (ложная тревога), издержки придется понести умеренные, включая затраты на подъем в воздух истребителей-перехватчиков, а также панику среди сограждан и рост международной напряженности. Ответ «нет» в случае реальной атаки поставит город под удар (промах), и это страшная цена, зато сохранит благословенный мир и покой, если город никто не атакует (правильное отрицание). Если подбить баланс, то нам здесь, видимо, нужен низкий (то есть довольно чувствительный) критерий принятия решения: сколько-то дней, в которые истребителям придется без нужды бороздить воздушное пространство, — невысокая плата за тот единственный раз, когда они спасут город от бомбежки.
При других издержках и расчет будет другим. Предположим, ответив «да», мы должны будем не поднять в воздух истребители, но ударить ядерными ракетами по городам противника, гарантированно развязав Третью мировую войну. В этом случае катастрофическая цена ложной тревоги требует абсолютной уверенности в нападении, а это означает, что критерий принятия решения должен быть очень, очень высоким.
Неплохо также учесть базовые оценки частоты наличия бомбардировщиков и чаек, вызывающих светлые пятна на радаре (Байесовы априорные вероятности). Если чайки встречаются часто, а бомбардировщики — редко, разумно будет повысить критерий (не сразу хвататься за оружие), и наоборот.
Как мы уже обсудили в предыдущей главе, с такой же дилеммой можно столкнуться и в частной жизни, решая, соглашаться ли на операцию при неоднозначных результатах онкологического скрининга:
Так какое же значение должен присвоить критерию принятия решений рациональный агент — «идеальный наблюдатель», как его называют на языке теории обнаружения сигнала? Ответ: такое, которое максимизирует ожидаемую полезность[292]. В лаборатории, где экспериментатор контролирует число испытаний со звуком (сигнал) и без него (шум), поощряет участника за верные попадания и правильные отрицания и штрафует его за промахи или ложные тревоги, подсчитать полезность несложно. В этом случае гипотетический участник, который желает заработать как можно больше, устанавливает критерий согласно