аналогию Гэллапа о перемешивании супа перед тем, как его попробовать. И мы видели, что при намерении делать какие-то статистические заключения о неизвестных аспектах мира, включая прогнозы, наши выводы неизбежно будут иметь некоторую неопределенность.
В предыдущей главе мы обсудили, как использовать бутстрэппинг, чтобы узнать, какого разброса в характеристиках выборки можно ожидать, делая раз за разом перевыборку, а затем применить эти данные для указания степени неопределенности в отношении истинной, но неизвестной характеристики всей генеральной совокупности. Опять же для этого нужна концепция «случайного выбора» – идея, которую легко улавливают даже маленькие дети как выразители справедливого выбора.
Традиционно курс статистики начинается с вероятности – именно так я всегда делал, когда преподавал в Кембридже, – однако такое математическое вступление может быть препятствием в понимании важных идей, изложенных в предыдущих главах, где теория вероятности не требуется. Напротив, эта книга – часть того, что можно назвать новой волной в преподавании статистики, в которой формальная теория вероятностей как основа для статистических выводов появляется гораздо позже[159]. Мы уже видели, что компьютерное моделирование – очень мощный инструмент как для изучения возможных будущих событий, так и для бутстрэппинга с помощью прошлых данных, однако это довольно неуклюжий и грубый способ проведения статистического анализа. Поэтому, несмотря на то что мы долгое время избегали формальной теории вероятностей, настало время познакомиться с ее жизненно важной ролью в обеспечении «языка неопределенности».
Но почему за последние 350 лет развилось нежелание использовать эту блестящую теорию? Меня часто спрашивают, почему люди склонны считать вероятность сложной и интуитивно неясной идеей, и я отвечаю, что после 40 лет исследований и преподавания пришел к выводу, что вероятность действительно сложная и интуитивно неясная идея. Я сочувствую любому, кто считает вероятность трудной и запутанной. Даже после десятилетий работы статистиком, когда мне задают школьный вопрос на вероятность, я предпочитаю уединиться, чтобы молча посидеть в тишине с ручкой и бумагой, попробовать несколько разных способов и наконец озвучить (как я надеюсь) правильный ответ.
Давайте начнем с моего любимого метода решения задач, который мог бы избавить от смущения некоторых политиков.
В 2012 году 97 парламентариев спросили: «Если вы подбросите монетку дважды, какова вероятность выпадения двух орлов?» Большинство – 60 из 97 – не смогли дать правильный ответ[160]. Как политики могли бы улучшить результаты?
Возможно, им стоило бы знать правила работы с вероятностями, но большинство людей их не знают. Однако в качестве альтернативы можно использовать более интуитивную идею, которая (как показали многочисленные психологические эксперименты) позволяет людям лучше понять суть вероятностей.
Это идея «ожидаемого количества». Столкнувшись с задачей о двух монетах, вы спрашиваете себя: «Что будет, если я проведу такой эксперимент несколько раз?» Например, вы подбрасываете одну монету, потом вторую – всего делаете так четыре раза. Подозреваю, что даже политик мог бы, слегка подумав, прийти к выводу, что можно ожидать результатов, показанных на рис. 8.2.
Рис. 8.2
Дерево ожидаемых частот для подбрасывания двух монет, повторенного четыре раза. Например, вы ожидаете, что среди первых четырех подбрасываний будут два орла, а на втором подбрасывании в одном случае выпадет орел, а во втором – решка
Таким образом, один раз из четырех вы могли бы ожидать выпадения двух орлов. Поэтому вероятность, что оба орла выпадут в единственной попытке, составляет 1 / 4. К счастью, это и есть правильный ответ.
Дерево ожидаемых частот можно преобразовать в «дерево вероятностей», если для каждой «развилки» указать долю соответствующих случаев (см. рис. 8.3). Тогда становится ясно, что общая вероятность всей ветви дерева (например, выпадения орла после орла) получается путем умножения дробей, стоящих на частях ветви, то есть 1 / 2 × 1 / 2 = 1 / 4.
Рис. 8.3
Дерево вероятностей для подбрасывания двух монет. На каждой «развилке» указана доля событий. Вероятность целой ветви дерева определяется путем умножения дробей на всех ее частях
Деревья вероятностей – весьма распространенный и крайне эффективный способ изучения вероятностей в школе. В самом деле, мы можем использовать этот простой пример с двумя монетами для ознакомления со всеми правилами вероятностей. Дерево показывает следующее:
1. Вероятность события – это число от 0 до 1, где 0 – вероятность невозможных событий (например, не выпали ни орлы, ни решки), а 1 – вероятность достоверных событий (выпала какая-то из четырех возможных комбинаций).
2. Правило дополнения. Дополнением к событию А называется событие, которое произойдет в случае, если А не произошло. Вероятность его наступления равна единице минус вероятность события А. Например, вероятность события «выпала хотя бы одна решка» равна единице минус вероятность события «выпало два орла»: 1–1 / 4 = 3 / 4.
3. Правило сложения (правило «ИЛИ»): если события несовместны (то есть не могут произойти одновременно), то вероятность того, что произойдет хотя бы какое-то одно из них, равна сумме вероятностей отдельных событий. Например, вероятность «выпадения хотя бы одного орла» составляет 3 / 4, так как включает три несовместных события: «выпало два орла», ИЛИ «выпал сначала орел, а потом решка», ИЛИ «сначала выпала решка, а потом орел» – каждое с вероятностью 1 / 4.
4. Правило умножения (правило «И»): при наличии последовательности независимых событий (то есть одно не влияет на другое) вероятность наступления всех событий в последовательности равна произведению вероятностей отдельных событий. Например, вероятность выпадения двух орлов равна 1 / 2 × 1 / 2 = 1 / 4.
Эти основные правила позволяют решить задачу шевалье де Мере, показывая, что на самом деле в варианте 1 его шансы на победу составляли 52 %, а в варианте 2 – 49 %[161].
Мы по-прежнему делаем сильные предположения – даже в простейшем примере с подбрасыванием монет. Мы полагаем, что монета симметрична, что результат при ее подбрасывании не будет предсказуем, что она не упадет на ребро, что после первого броска в Землю не врежется астероид и так далее. Задача всех этих серьезных (за исключением, пожалуй, падения астероида) соображений – подчеркнуть, что все используемые нами вероятности условны: не существует безусловной вероятности события; всегда есть какие-то предположения и иные факторы, которые могут на нее влиять. И, как мы сейчас увидим, нам нужно проявлять осторожность в отношении того, на чем мы основываемся.
Условная вероятность – когда вероятности зависят от других событий
При диагностике рака молочной железы точность маммографии – примерно 90 %, то есть она правильно определяет 90 % женщин с раком и 90 % женщин без рака. Предположим, что 1 % обследуемых женщин действительно больны. Какова вероятность, что у случайно выбранной женщины окажется положительная маммограмма, и если так, то какова вероятность, что у женщины на самом деле рак?
В случае с двумя монетами события независимы, поскольку вероятность выпадения орла на второй монете не зависит от результата подбрасывания первой монеты. В школе мы обычно узнаем о зависимых событиях, когда нам начинают задавать несколько утомительные вопросы, скажем, о разноцветных носках, которые вытаскивают из ящика. Пример выше гораздо ближе к реальной жизни.
Подобные задачи – классические в тестах оценки интеллекта, и их не так легко решать. Однако идея ожидаемого количества существенно упрощает проблему. Ее суть – подумать, чего можно ожидать для большой группы женщин (скажем, 1000), как показано на рис. 8.4.
Рис. 8.4
Дерево ожидаемых частот, отображающее наши ожидания для 1000 женщин, проходящих скрининг рака молочной железы. Мы предполагаем наличие рака у 1 % женщин, а маммография верно классифицирует 90 % женщин с раком молочной железы и 90 % женщин без рака. Всего мы можем ожидать 9 + 99 = 108 положительных маммограмм, из которых девять окажутся истинно правильными
Из 1000 женщин у 10 (1 %) действительно выявляют рак молочной железы. Из этих 10 у девяти (90 %) обследование даст положительный результат. Однако из 990 здоровых женщин (без рака) у 99 (10 %) маммография будет ложноположительной. В общей сложности мы получим 9 + 99 = 108 положительных маммограмм, а значит, вероятность того, что у случайно выбранной женщины будет положительный результат, равна 108 / 1000 ≈ 11 %. Но среди этих 108 реально больны раком только 9, поэтому вероятность, что у женщины на самом деле рак, равна 9 / 108 ≈ 8 %.
Это упражнение на условную вероятность помогает понять весьма парадоксальный результат: несмотря на «90-процентную точность» маммографии, подавляющее большинство женщин с положительной маммограммой на самом деле не больны. Легко перепутать «вероятность положительного теста при условии наличия рака» с «вероятностью рака при условии положительного теста».
Такая путаница известна как «заблуждение прокурора», поскольку часто встречается в судебных разбирательствах, связанных с анализом ДНК. Например, судебно-медицинский эксперт может утверждать, что «если обвиняемый невиновен, то вероятность того, что его ДНК совпадет с ДНК, найденной на месте преступления, только один шанс на миллиард». Но это неверно интерпретируется как «учитывая данные анализа ДНК, есть только один шанс на миллиард, что обвиняемый невиновен»