Математика жизни и смерти. 7 математических принципов, формирующих нашу жизнь — страница 14 из 54

При фильтрации можно использовать самые разные виды усреднений. Лучше всего нам знакомо выведение среднего арифметического значения. Чтобы найти среднее арифметическое, нужно сложить все числа заданного множества и поделить полученную сумму на количество этих чисел. Если бы, например, мы хотели найти средний рост Белоснежки и семи гномов, мы сложили бы рост каждого из них и разделили на восемь. При этом рост Белоснежки – пиковый на фоне остального множества – заметно скажется на результате подсчета, исказив его в сторону увеличения. Более репрезентативное среднее значение – медиана. Чтобы найти медианный рост упомянутой компании, мы выстроим гномов и Белоснежку в ряд по росту (Белоснежку первой, Простака в конце) и возьмем за базовое значение рост того, кто стоит в середине ряда. Поскольку в нем восемь персонажей (четное число), средним не оказывается никто. Так что за медиану мы примем среднее арифметическое роста двоих средних (Ворчуна и Сони). Используя медиану, мы можем отбросить рост Белоснежки, который настолько смещал значение среднего арифметического. По той же причине медиана часто используется при представлении данных о среднем доходе. Как видно из рисунка 4, высокая заработная плата очень обеспеченных людей в нашем обществе имеет тенденцию искажать среднее значение – с этой идеей мы снова столкнемся в следующей главе, обсуждая, как математика может сбивать с толку в зале суда. Медиана дает нам лучшее представление о возможном «стандартном» располагаемом доходе семьи, чем среднее арифметическое. Конечно, можно утверждать, что при таких подсчетах не следует пренебрегать ростом Белоснежки или доходами высокооплачиваемых людей, ведь они так же истинны, как и любые другие данные из множества. Может, и так, но суть в том, что ни медиана, ни среднее арифметическое не являются истинными ни в каком объективном смысле. Просто различные виды усреднений применяются для разных целей.

ДОМОХОЗЯЙСТВА (ТЫС.)

При фильтрации зернистого цифрового изображения мы хотим удалить эффекты побочных значений пикселей. При усреднении по соседним значениям пикселей средняя фильтрация будет корректировать, но не полностью удалять эти экстремальные значения. И наоборот, при медианной фильтрации крайние шумовые значения пикселей эффективно игнорируются.


Рис. 4. Распределение домохозяйств Великобритании с заданным располагаемым (после уплаты налогов) доходом (с шагом £1000) в 2017 году. Медианное значение (£ 27 310) можно считать лучшим отображением «стандартного» располагаемого дохода домохозяйства, чем среднее арифметическое (£32 676)


По той же причине медианная фильтрация все чаще используется в мониторах отделений интенсивной терапии для предотвращения ложных тревог [67]. На основе медианного значения, высчитываемого по ряду последовательных показаний, задается условие для срабатывания сигнала тревоги – включаться только тогда, когда пороговые значения нарушаются в течение продолжительного (хотя и все еще короткого) времени, а не при одноразовым всплеске или падении отслеживаемого параметра. Медианная фильтрация может снизить частоту ложных срабатываний в мониторах интенсивной терапии на целых 60 %, не ставя под угрозу безопасность пациента [68].

Ложные тревоги – это подкатегория ошибок, известных как ложные срабатывания (а также ложноположительные результаты). Как следует из названия, они возникают, когда проверка подтверждает наличие определенного состояния или признака при его фактическом отсутствии. Как правило, ложное срабатывание встречается в бинарных тестах, предполагающих два ответа: положительный или отрицательный. В контексте медицинских тестов ложноположительные результаты приводят к тому, что здоровым людям говорят, что они больны. В зале суда ложноположительным результатом является обвинительное заключение, выносимое невиновному за преступление, которое он не совершал. (Со многими такими жертвами мы встретимся в следующей главе).

Бинарный тест может принести ошибочные результаты двояким образом. Возможные результаты такого теста (два верных и два неверных) представлены в табл. 2. Помимо ложноположительных результатов, существуют и ложноотрицательные.


Табл. 2. Четыре возможных исхода бинарного теста


В контексте медицинской диагностики можно предположить, что ложноотрицательные результаты потенциально более вредоносны, поскольку они говорят пациентам, что у них нет той болезни, на которую они проверяются, тогда как на самом деле у них она есть. С некоторыми невольными жертвами ложноотрицательных диагнозов мы встретимся позже в этой главе. Ложноположительные результаты могут также иметь удивительные и серьезные последствия, но по совершенно другим причинам.

На большом экране[69]

Возьмем, к примеру, скрининг болезней. Скрининг – это массовое тестирование на конкретное заболевание людей, у которых нет симптомов, но принадлежащих к группе высокого риска. Так в Великобритании женщины старше 50 лет регулярно проходят обследование молочных желез, так как подвержены повышенному риску развития рака молочной железы. И случаи ложноположительных результатов в программах медицинского скрининга сегодня стали предметом бурных дискуссий.

Доля невыявленного рака молочной железы у женщин в Великобритании может составлять около 0,2 %. Это означает, что в любой момент на каждые 10 тысяч женщин в стране, у которых рак молочной железы не диагностирован, может приходиться до 20 жертв заболевания. На первый взгляд, это немного, но только потому, что в большинстве случаев рак молочной железы обнаруживается быстро. Фактически рак молочной железы диагностируется у каждой восьмой женщины в течение ее жизни. В Великобритании примерно каждой десятой из этих женщин диагноз ставится с опозданием (на третьей или четвертой стадии). Поздний диагноз значительно снижает шансы на выживание в долгосрочной перспективе, что подтверждает жизненно важное значение регулярной маммографии, особенно для женщин, относящихся к уязвимым возрастным категориям. Однако у таких профилактических обследований существует математическая проблема, о которой большинство людей не знает.

Каз Дэниелс – мать троих детей из Нортхемптона. В 2010 году в возрасте 50 лет она в первый раз прошла профилактическую маммографию. Через неделю после процедуры она получила письмо с просьбой пройти дополнительное обследование через два дня. Срочность вызова, разумеется, ошеломляла. Следующие два дня она не находила себе места от волнения, не могла ни спать, ни есть, содрогаясь от мрачных перспектив в случае положительного диагноза.


Рис. 5. Из 10 000 женщин старше 50 лет, прошедших тестирование, 36 будут верно определены как положительные, а 996 – как положительные, несмотря на отсутствие заболевания


Большинство проходящих маммографию считают это обследование достаточно точным способом обнаружить рак молочной железы. Действительно, в случае развившегося рака, обследование обнаружит недуг девять раз из десяти. Примерно с такой же точностью обследование верно обнаружит отсутствие рака [70]. Зная эту статистику и получив положительный результат маммографии, Каз посчитала, что она, вероятно, больна раком. Однако простой математический довод показывает, что на самом деле все наоборот.

Распространенность невыявленного рака груди у женщин старше 50 лет – тех, кого приглашают на плановое обследование, – несколько выше, чем у женщин в целом; ее можно оценить примерно в 0,4 %. Результаты обследования для 10 тысяч женщин такого возраста представлены на рис. 5. В среднем только у 40 из них будет рак груди, а 9960 – нет. Однако каждая десятая, или 996 женщин, не страдающих этим недугом, получит ложноположительный диагноз. С учетом 36 истинно положительных диагнозов это означает, что положительный результат теста будет правильным только в 36 из 1032 случаев, или в 3,48 % случаев. Пропорция истинно положительных результатов обследования называется точностью теста. Из 1032 женщин, получивших положительный результат, только 36 действительно больны раком груди. Иными словами, даже при положительном результате маммографии в подавляющем большинстве случаев рака груди у вас нет. Несмотря на то что тест кажется достаточно точным, низкая распространенность заболевания среди населения предопределяет высокую степень его погрешности.

Бедная Каз этого не знала – как и многие другие женщины, которые проходят такие обследования. На самом деле многие врачи не в состоянии интерпретировать положительные результаты маммографии. В 2007 году группе из 160 гинекологов была предоставлена следующая информация о точности маммографии и распространенности рака молочной железы среди населения [71].

– Вероятность заболеть раком груди у женщин составляет 1 %.

– Фактически существующий рак груди будет обнаружен с вероятностью 90 %.

– При отсутствии рака груди вероятность положительного результата теста составляет 9 %.

Затем врачам предложили выбрать, какой из приведенных ниже вариантов ответа наилучшим образом характеризует шансы на то, что у пациентки с положительной маммографией на самом деле рак груди.

A. Вероятность того, что у нее рак груди, составляет около 81 %.

B. Из 10 женщин с положительной маммографией около 9 имеют рак груди.

C. Из 10 женщин с положительным результатом маммографии рак груди есть только у 1.

D. Вероятность того, что у нее рак груди, составляет около 1 %.

Самым популярным ответом среди гинекологов был A – что положительный результат маммографии будет верным в 81 % случаев (около восьми раз из десяти). Они правы? Мы можем проверить их ответ, рассмотрев обновленное дерево решений на рис. 6. При 1 % фоновой распространенности, из 10 000 случайно выбранных женщин в среднем 100 будут иметь рак груди. У 90 из них маммография корректно обнаружит заболевание. Из 9900 женщин, у которых нет рака, 891 получит ложноположительный диагноз. Из 981 женщины с положительным диагнозом только 90 – или примерно 9 % – действительно будут больны раком. Массовая переоценка истинной величины гинекологами вызывает беспокойство. Правильный ответ «C» выбрала примерно пятая час