Как возможность ошибиться делает науку наукой
Математическая статистика использует методы теории вероятностей, а ее столпы — закон больших чисел и центральная предельная теорема.
Естественное предположение, что наблюдаемые данные отражают реальное неизвестное распределение, оказывается верным. Например, гистограмма наблюдаемых величин приближается к истинной плотности распределения, если число наблюдений стремится к бесконечности.
Как закон больших чисел, так и центральная предельная теорема — не одно утверждение. Каждый из этих результатов представляет собой несколько разных теорем, охватывающих широкий спектр задач и условий. Мы познакомимся с их упрощенными формулировками, дающими хорошее представление об этих важных результатах.
Закон больших чисел — несколько разных теорем, утверждающих, что среднее значение наблюдений случайной величины при определенных условиях в том или ином смысле стремится к неизвестному математическому ожиданию этой величины. В простейшем случае он выглядит так. Пусть X1, X2, …, Xn — независимые одинаково распределенные случайные величины с математическим ожиданием a, Sn = X1 + X2 +…+ Xn. Тогда
Иными словами, среднее значение наблюдений стремится к математическому ожиданию. В частности, из закона больших чисел вытекает, что частота наблюдений какого-либо события стремится к вероятности этого события, то есть он прочно связывает «бытовое» частотное толкование вероятности и теоретическое как меры на вероятностном пространстве.
Центральная предельная теорема говорит о том, что при определенных условиях сумма независимых или слабо зависимых случайных величин, каждая из которых вносит небольшой вклад в общую сумму, имеет распределение, близкое к нормальному (гауссовскому). Теорема получила свое название за универсальность и важность, поскольку ее условия часто реализуются на практике. Например, многие биологические характеристики (рост человека или размах рук) подчиняются нормальному распределению, поскольку на них влияет множество факторов (скажем, действует много разных генов), вносящих по отдельности небольшой вклад. В простейшем случае теорема выглядит так.
Пусть опять X1, X2, …, Xn — независимые одинаково распределенные случайные величины с математическим ожиданием a и дисперсией σ2. Тогда
Здесь N(0,1) обозначает стандартное нормальное распределение со средним 0 и дисперсией 1.
Иными словами, при больших n сумма Sn близка к гауссовской случайной величине с математическим ожиданием (средним значением) na и дисперсией nσ2.
Эту теорему обычно доказывают, применяя методы функционального анализа. Но мы увидим позже, что ее можно понять и даже расширить, введя понятие энтропии как меры вероятности состояния системы: нормальное распределение имеет наибольшую энтропию при наименьшем числе ограничений. В этом смысле оно оптимально при описании неизвестной случайной величины либо случайной величины, являющейся суммой многих других величин, распределение которых тоже неизвестно.
Эти два закона лежат в основе количественных оценок достоверности наших знаний, основанных на наблюдениях. Здесь речь о статистическом подтверждении или опровержении предположения, которое можно сделать из каких-то общих оснований, и математической модели. Это может показаться странным, но сама по себе статистика не производит новых знаний. Набор фактов превращается в знание лишь после построения связей между фактами, образующих определенную структуру. Именно эти структуры и связи позволяют делать предсказания и выдвигать общие предположения, которые основаны на чем-то, выходящем за пределы статистики. Они называются гипотезами. Самое время вспомнить один из законов мерфологии — постулат Персига:
Задача математической статистики — ограничить это бесконечное число, а вернее, свести все гипотезы к одной, причем вовсе не обязательно верной. Итак, у нас есть случайная величина X, распределение P которой неизвестно (иногда совсем, иногда частично). Гипотеза — любое предположение о P. Простая гипотеза — предположение, что P — какое-то конкретное известное распределение. Сложная гипотеза — предположение, что P принадлежит целому классу распределений. Как правило, исследователь проверяет простую гипотезу.
Эта исходная гипотеза обычно называется нулевой. Что может выступить в таком качестве? В определенном смысле — что угодно, любое утверждение об исследуемой системе. Например, если у нас есть данные о росте призывников, мы можем проверить гипотезу, что неизвестный средний рост равен 1,76 м (или 2,10 м). Если у нас есть данные по количеству аистов и новорожденных, то мы можем проверить гипотезу, что эти две величины независимы. Если у нас есть два больших литературных произведения, мы можем проверять гипотезу, что их написал один автор, построив какую-то математическую модель.
Классическая постановка вопроса при этом такова: позволяют ли наблюдения отвергнуть нулевую гипотезу или нет? Точнее, с какой долей уверенности мы можем утверждать, что наблюдения нельзя получить, исходя из нулевой гипотезы? При этом если мы не смогли доказать, опираясь на статистические данные, что нулевая гипотеза ложна, то она принимается истинной.
Тут можно подумать, что исследователи вынуждены совершать одну из классических логических ошибок, которая носит звучное латинское имя ad ignorantiam. Это аргументация истинности некоторого утверждения, основанная на отсутствии доказательства его ложности. Классический пример — слова, сказанные сенатором Джозефом Маккарти, когда его попросили предъявить факты для поддержки выдвинутого им обвинения, что некий человек — коммунист: «У меня немного информации по этому вопросу, за исключением того общего заявления компетентных органов, что в его досье нет ничего, что бы исключало его связи с коммунистами». Или еще ярче: «Снежный человек существует, поскольку никто не доказал обратного». Выявление разницы между научной гипотезой и подобными уловками составляет предмет целой области философии: методологии научного познания. Один из ее ярких результатов — критерий фальсифицируемости, выдвинутый замечательным философом Карлом Поппером в первой половине XX века. Он призван отделять научное знание от ненаучного и на первый взгляд кажется парадоксальным:
Чем не один из законов мерфологии? Получается, любая научная теория автоматически потенциально неверна, а теория, верная «по определению», не может считаться научной[18].
Но всё же: почему мы, если не можем на базе статистических данных отвергнуть гипотезу, вправе считать ее истинной? Дело в том, что статистическая гипотеза берется не из желания исследователя или его предпочтений, она должна вытекать из каких-то общих формальных законов. Например, из центральной предельной теоремы либо принципа максимальной энтропии, о котором мы поговорим в самом конце книги. Эти законы корректно отражают степень нашего незнания, не добавляя без необходимости лишних предположений или гипотез. В известном смысле это прямое использование знаменитого философского принципа, известного как бритва Оккама:
Вообще с точки зрения принципа фальсифицируемости любое утверждение о существовании чего-либо ненаучно, ведь отсутствие свидетельства ничего не доказывает. В то же время утверждение об отсутствии чего-либо можно легко опровергнуть, предоставив экземпляр, косвенное свидетельство или доказав существование по построению. И в этом смысле статистическая проверка гипотез анализирует утверждения об отсутствии искомого эффекта и может предоставить в известном смысле точное опровержение.
Именно этим в полной мере оправдывается термин «нулевая гипотеза»: она содержит необходимый минимум знаний о системе.
Запутываем статистикой и помогаем распутаться
Очень важно подчеркнуть: если статистические данные говорят о том, что нулевая гипотеза может быть отвергнута, это не значит, что мы тем самым доказали истинность какой-либо альтернативной гипотезы. Вспомним постулат Персига: «Число разумных гипотез, объясняющих любое данное явление, бесконечно». Опровержение нулевой гипотезы не делает все остальные верными. Отвергая ее, мы освобождаем место для нового умозаключения, как в легенде об убийстве деспота-дракона.
Вообще математическая статистика и теория вероятностей рассуждают вовсе не о ложности или истинности каких-либо утверждений. Их следует крайне осторожно смешивать с логикой; здесь кроется масса трудноуловимых ошибок, особенно когда в дело вступят зависимые события. Вот пример такого смешения. Очень маловероятно, что человек может стать папой римским (примерно один к семи миллиардам); следует ли из этого, что папа Иоанн Павел II не был человеком? Утверждение кажется абсурдным.
А вот другой пример: проверка показала, что мобильный тест на содержание алкоголя в крови дает не более 1 % как ложноположителых, так и ложноотрицательных результатов. Следовательно, в 98 % случаев он верно выявит пьяного водителя. Это правильный вывод, но он вступает в кажущееся противоречие со следующими рассуждениями. Протестируем 1000 водителей, и пусть 100 из них будут действительно пьяны. В результате мы получим 900 × 1 % = 9 ложноположительных и 100 × 1 % = 1 ложноотрицательный результат: на одного проскочившего пьяницу придется девять невинно обвиненных случайных водителей. Выходит, речь должна идти лишь о 10 % правильных ответов, а не о 98 %. Чем не закон подлости! Паритет возникнет, только если доля пьяных водителей окажется равна 1/2 либо если отношение долей ложноположительных и ложноотрицательных результатов будет близким к реальному отношению пьяных водителей к трезвым. Причем чем трезвее обследуемая нация, тем несправедливее будет применение описанного нами прибора!