Вы запланировали исследование, собрали данные, провели анализ и получили «значимый» результат. Обязательно ли это должно быть важным открытием? Пятый принцип ASA просит вас быть не слишком самонадеянным.
5. P-значение или статистическая значимость не измеряет величину эффекта или важность результата.
Наш следующий пример показывает, что (особенно в случае больших выборок) мы можем быть достаточно уверены в наличии связи, но при этом не сильно впечатляться ее важностью.
Почему поступление в университет повышает риск развития опухоли мозга?
Мы рассматривали этот вопрос в главе 4. Сделав поправку в регрессионном анализе на семейное положение и уровень дохода, шведские ученые обнаружили относительное повышение риска на 19 % между низким (начальная школа) и более высоким (университетский диплом) уровнем образования, с 95-процентным доверительным интервалом от 7 до 33 %. Интересно, что в работе не указывалось никаких P-значений, однако в силу того что 95-процентный интервал для относительного риска не включает 1, можно заключить, что P < 0,05.
К этому моменту читатель уже должен иметь наготове список потенциальных вопросов к такому выводу, однако авторы упредили их, обнародовав одновременно с полученными результатами следующее:
• вывод о причинно-следственной связи невозможен;
• никакие поправки относительно факторов, потенциально влияющих на образ жизни (например, потребление алкоголя), не вносились;
• люди с более высоким экономическим статусом обычно чаще обращаются за медицинской помощью, поэтому может возникнуть так называемая предвзятость отчетности.
Но одна важная характеристика все же не была упомянута: небольшая величина видимой связи. Повышение риска на 19 % между низким и высоким уровнем образования гораздо ниже, чем для многих видов рака. В статье сообщалось, что в группе из более чем 2 миллионов человек старше 18 лет было диагностировано 3715 опухолей головного мозга (примерно 1 на 600). Следовательно, если мы, как в главе 1, переведем относительные риски в абсолютные, то получим такие расчеты:
• мы можем ожидать, что среди примерно 3 тысяч человек с минимальным уровнем образования будет диагностировано пять опухолей (если базовый риск 1 на 600);
• а среди примерно 3 тысяч человек с максимальным уровнем образования – шесть опухолей (относительное увеличение на 19 %).
Такой расчет формирует несколько иное восприятие результатов и весьма обнадеживает. Столь небольшой повышенный риск развития редкого вида рака может оказаться статистически значимым только при изучении огромного количества людей: в нашем случае – свыше двух миллионов.
Поэтому из этого научного исследования можно извлечь два важных урока:
• «большие данные» способны легко привести к статистически значимым, но не имеющим практической значимости результатам;
• не следует беспокоиться, что учеба в вузе приведет к развитию опухоли головного мозга.
Последний принцип ASA довольно тонкий.
6. Само по себе P-значение не дает надежного подтверждения модели или гипотезы. Например, P-значение, близкое к 0,05, взятое само по себе, предлагает лишь слабое свидетельство против нулевой гипотезы.
Это утверждение, частично основанное на «байесовской» аргументации, описанной в следующей главе, побудило группу известных статистиков выдвинуть предложение изменить стандартное пороговое значение для «открытия» нового эффекта на P < 0,005[211].
Какой эффект это может дать? Если на рис. 10.5 мы изменим уровень значимости с 0,05 (1 на 20) на 0,005 (1 на 200), то вместо 45 ложноположительных «открытий» получим только 4,5. Это уменьшит общее количество открытий до 84,5, и всего лишь 4,5 из них (5 %) будут ложными. Выглядит как значительное улучшение по сравнению с 36 %, не так ли?
Исходная идея Фишера для проверки гипотез оказалось очень полезной для практического использования и предотвращения необоснованных научных заявлений. Однако статистики часто жаловались на готовность некоторых исследователей перейти от P-значений, полученных в плохо спланированных экспериментах, к уверенным обобщающим выводам: своего рода алхимия для превращения неопределенности в определенность, механически применяющая статистические критерии к разделению результатов на «значимые» и «незначимые». В главе 12 мы рассмотрим некоторые из печальных последствий такого поведения, но сначала обратимся к альтернативному подходу к статистическим выводам, который полностью отвергает саму идею проверки значимости нулевой гипотезы.
Итак, еще одно расширяющее кругозор требование статистической науки: будет полезно, если вы сможете (временно) забыть все, что узнали из этой и предыдущих глав.
Выводы
• Проверки нулевых гипотез – предположений о статистических моделях – составляют основную часть статистической практики.
• P-значение – это мера несовместимости между наблюдаемыми данными и нулевой гипотезой: формально это вероятность наблюдения в эксперименте настолько же экстремального результата, если нулевая гипотеза верна.
• Традиционно для утверждений о статистической значимости используются пороговые значения 0,05 и 0,01.
• При проведении множественных проверок (например, по различным подмножествам данных или различным характеристикам) такие пороги требуют корректировки.
• Существует точное соответствие между доверительными интервалами и P-значениями: например, если 95-процентный интервал не включает 0, то мы можем отвергнуть нулевую гипотезу о 0 при P < 0,05.
• Теория Неймана – Пирсона определяет альтернативную гипотезу и фиксирует вероятности ошибок первого и второго рода для двух возможных типов ошибок при проверке гипотезы.
• Для последовательного анализа разработаны отдельные формы проверки гипотез.
• P-значения часто интерпретируются неправильно, в частности они не выражают вероятность того, что нулевая гипотеза верна, равно как и незначимый результат не означает, что нулевая гипотеза верна.
Глава 11. Учимся на опыте – байесовский путь
Я совсем не уверен, что «доверие» – это не злоупотребление доверием.
Сначала я должен сделать признание от имени всего статистического сообщества. Формальная основа для обучения на данных несколько запутанна. Несмотря на многочисленные попытки создать единую теорию статистических выводов, ни одна версия так и не была полностью принята. Неудивительно, что математики не любят преподавать статистику.
Мы уже познакомились с конкурирующими идеями Фишера и Неймана – Пирсона. Пришло время исследовать третий, байесовский подход к работе. Хотя он получил известность только в последнее пятидесятилетие, его базовые принципы восходят к далекому прошлому, фактически к преподобному Томасу Байесу, пресвитерианскому священнику и математику из Танбридж-Уэллса, занимавшемуся философией и теорией вероятностей[213].
Хорошая новость состоит в том, что байесовский подход открывает новые возможности для создания сложных данных. Плохая – он означает, что вам придется отложить в сторону почти все, что вы узнали из этой и других книг об оценивании, доверительных интервалах, P-значениях, проверке гипотез и так далее.
Первым крупным вкладом Томаса Байеса в науку было использование вероятности как выражения недостатка наших знаний о мире или, что одно и то же, нашего незнания о происходящем в данный момент. Он показал, что вероятность может использоваться не только для будущих событий, подверженных случайности, – стохастической неопределенности, если пользоваться термином, введенным в главе 8, но и для реальных событий, хорошо известных некоторым людям, просто мы этого пока не знаем, то есть для эпистемической неопределенности.
Если задуматься, то мы окружены эпистемической неопределенностью в отношении вещей, которые определены, но нам пока неизвестны. Игроки ставят на следующую карту, мы покупаем билеты мгновенной лотереи, обсуждаем пол будущего ребенка, ломаем голову над детективом, спорим о количестве тигров, оставшихся в дикой природе, и получаем оценки возможного числа мигрантов или безработных. Все это объективно существующие факты или числа, просто мы их не знаем. Снова подчеркну, что с байесовской точки зрения для представления нашего личного незнания этих фактов и чисел удобно использовать вероятности. Мы можем даже подумать о присвоении вероятностей альтернативным научным теориям, но этот вопрос более спорный.
Конечно, эти вероятности будут зависеть от наших нынешних знаний: вспомните пример из главы 8, где вероятность выпадения орла или решки зависит от того, посмотрели мы на монету или нет. Байесовские вероятности с необходимостью субъективны – они зависят от наших отношений с окружающим миром, а не являются свойствами самого мира. Такие вероятности должны меняться по мере получения нами новой информации.
Это приводит нас ко второму крупному вкладу Байеса – результату, который позволяет постоянно пересматривать текущие вероятности в свете новых доказательств. Он известен как теорема Байеса и фактически предоставляет формальный механизм обучения на опыте – блестящее достижение для малоизвестного священника из маленького английского курортного городка[214].
Наследие Байеса обеспечивает фундаментальное понимание того, что данные не говорят сами за себя – центральную роль здесь играет наше внешнее знание и наши суждения. Это может показаться несовместимым с научным процессом, тем не менее наши фоновые знания и понимание всегда были частью извлечения информации из данных, разница лишь в том, что в байесовском подходе они обрабатываются формальным математическим образом.