Еще одна проблема возникает, когда исследователи делят данные на много подклассов, проверяют гипотезу на каждом из них, а затем рассматривают самые значимые результаты. Классический пример – эксперимент, проведенный авторитетными исследователями в 2009 году, в котором испытуемому показывали серию фотографий людей с различными эмоциями на лице и проводили сканирование мозга (функциональную магнитно-резонансную томографию, фМРТ), чтобы посмотреть, какая его зона даст значимый отклик, приняв P < 0,001.
Изюминка заключалась в том, что «испытуемым» был двухкилограммовый атлантический лосось, который «не был жив на момент сканирования». Из 8064 участков мозга этой крупной мертвой рыбины 16 продемонстрировали статистически значимый отклик на фотографии. Ученые не стали утверждать, что мертвый лосось обладает уникальными умениями, а сделали верный вывод[196], что проблема в многократном тестировании – более 8 тысяч проверок обязательно приведут к ложноположительному результату[197]. Даже при строгом критерии P < 0,001 мы бы ожидали 8 значимых результатов по чистой случайности.
Один из способов обойти эту проблему – потребовать очень маленькое P-значение для уровня значимости, и здесь проще всего применить поправку Бонферрони[198], то есть использовать пороговое значение 0,05/n, где n – число проведенных тестов. Таким образом, проверки для каждого участка мозга лосося можно выполнять, требуя P-значение, равное 0,05/8000 = 0,00000625, или 1 на 160 000. Этот метод стал стандартным при поиске в геноме человека участков, связанных с болезнями: поскольку существует примерно 1 000 000 участков для генов, прежде чем заявлять об открытии, положено потребовать значение P меньше 0,05/1000000 = 1 на 20 миллионов.
Таким образом, при одновременной проверке большого количества гипотез (например, в области исследований мозга или геномике) метод Бонферрони позволяет решать, значимы ли наиболее экстремальные результаты. Также разработаны несложные методы, слегка смягчающие критерий Бонферрони для второго по экстремальности результата, третьего и так далее. Так контролируется общая доля «открытий», которые оказываются ложными, – так называемый уровень ложноположительных результатов.
Еще один способ избежать ложноположительных результатов – потребовать воспроизведения первоначального исследования, с проведением повторного эксперимента в других условиях, но с тем же протоколом. Чтобы американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов одобрило новый препарат, необходимо провести два независимых клинических испытания, причем в каждом должна быть показана клиническая польза с уровнем значимости P < 0,05. Это означает, что вероятность одобрить неэффективный препарат составляет всего 0,05 × 0,05 = 0,0025, или 1 на 400.
5. Существует ли бозон Хиггса?
На протяжении XX века физики разрабатывали стандартную модель, предназначенную для объяснения сил, действующих на субатомном уровне. Но одна часть модели оставалась недоказанной теорией – «поле Хиггса», которое объясняет наличие масс у частиц-переносчиков слабого взаимодействия. Квантом такого поля должна была стать гипотетическая частица – так называемый бозон Хиггса. В 2012 году исследователи из ЦЕРН[199] заявили о его открытии, как о результате «пять сигма»[200]. Однако мало кто понимал, что это показывало уровень статистической значимости.
Когда ученые построили график появления определенных событий для различных уровней энергии, оказалось, что кривая имеет четко выраженный «горб» именно в том месте, где его и следовало ожидать, если бы бозон Хиггса существовал. Важно то, что критерий согласия хи-квадрат дает P-значение меньше 1 на 3,5 миллиона при нулевой гипотезе, что бозона Хиггса не существует и горб был просто результатом случайного отклонения. Но почему об открытии сообщалось как о «пяти сигма»?
В теоретической физике стандартом считается объявление об открытии в терминах «сигм», где результат «два сигма» означает наблюдение, которое на две стандартные ошибки отклонилось от нулевой гипотезы (вспомните, что мы использовали греческую букву сигма (σ) для обозначения среднеквадратичного отклонения в генеральной совокупности): «сигмы» в теоретической физике точно соответствуют t-значению в результатах работы компьютерной программы для множественной линейной регрессии, показанных в табл. 10.5. Наблюдение, которое в соответствии с критерием хи-квадрат давало двустороннее P-значение 1 на 3,5 миллиона, отличалось бы от нулевой гипотезы на пять стандартных ошибок. Поэтому об открытии бозона Хиггса объявили как о результате уровня пять сигма.
Команда из ЦЕРН не хотела объявлять о своем «открытии» до тех пор, пока P-значение не стало крайне малым. Во-первых, им нужно было учесть тот факт, что проверки значимости выполнялись для всех уровней энергии, а не только однократно в итоговой проверке по методу хи-квадрат – в физике такой эффект при многократном тестировании известен как Look-elsewhere effect[201]. Во-вторых, они хотели быть уверены, что любая попытка воспроизвести результат даст тот же вывод. Было бы слишком неловко делать ложные заявления о законах физики.
Что касается ответа на вопрос, поставленный в начале этого раздела, то сейчас разумнее предположить, что бозон Хиггса существует. Это утверждение становится новой нулевой гипотезой, пока, возможно, не появится более глубокая теория.
Теория Неймана – Пирсона
Почему для исследования по защите сердца понадобилось больше 20 тысяч участников?
Исследование по защите сердца было масштабным, но его размер не определялся произвольным образом. При планировании испытания исследователи должны были указать, сколько людей нужно включить в группу, употребляющую статины или плацебо, причем требовалось серьезное статистическое обоснование, чтобы оправдать стоимость такого эксперимента. План опирался на идеи, развитые Ежи Нейманом и Эгоном Пирсоном, которых мы уже упоминали как разработчиков понятия доверительных интервалов.
Идею P-значений и проверок значимости Рональд Фишер внедрил в 1920-х годах как способ проверки разумности какой-то конкретной гипотезы. Если наблюдается маленькое P-значение, то либо случилось нечто удивительное, либо нулевая гипотеза ложна: чем меньше P-значение, тем обоснованнее утверждение, что она неверна. Эта методика задумывалась как довольно неформальная процедура, но разработанная Нейманом и Пирсоном в 1930-х теория индуктивного поведения попыталась поставить ее на более строгий математический фундамент.
Конструкция ученых требовала указывать не только нулевую, но и альтернативную гипотезу, которая предоставляла более сложное объяснение данных. Затем они рассматривали возможные решения после проверки – либо отвергнуть нулевую гипотезу в пользу альтернативы, либо не отвергать[202]. Это приводило к вероятности появления двух видов ошибок – ошибки первого рода, возникающей, когда мы отклоняем истинную нулевую гипотезу, и ошибки второго рода – когда принимаем неверную нулевую гипотезу. Строгая юридическая аналогия проиллюстрирована в табл. 10.6: ошибка первого рода – это осудить невиновного человека, а ошибка второго рода – признать кого-то невиновным, тогда как на самом деле он совершил преступление.
Таблица 10.6
Возможные результаты проверки гипотезы, по аналогии с судебным разбирательством
Нейман и Пирсон предложили при планировании эксперимента выбирать две величины, которые вместе определяют, насколько масштабным он должен быть. Во-первых, следует заранее зафиксировать значение для вероятности ошибки первого рода (при условии, что нулевая гипотеза верна), скажем 0,05; это называется размером критерия и, как правило, обозначается буквой α (альфа). Во-вторых, нужно заранее определить вероятность ошибки второго рода (при условии, что альтернативная гипотеза верна); она традиционно обозначается β (бета). На самом деле исследователи обычно работают с величиной 1 – β, которая именуется мощностью критерия и представляет собой вероятность отклонить нулевую гипотезу в пользу альтернативной, когда последняя верна. Другими словами, мощность в каком-нибудь эксперименте – это вероятность, что будет правильно обнаружен реальный эффект.
Налицо тесная связь между размером α и P-значением Фишера. Если в качестве пороговой величины, при которой результаты считаются значимыми, взять число α, то результаты, которые заставят нас отказаться от нулевой гипотезы, будут в точности теми же, для которых P < α. Поэтому α можно рассматривать как пороговый уровень значимости: α = 0,05 означает, что мы отвергнем нулевую гипотезу для всех P-значений меньше 0,05.
Существуют формулы для размера и мощности при различных видах экспериментов, и каждая зависит от размера выборки. Но если у выборки фиксированный размер, то компромисс неизбежен: чтобы увеличить мощность, мы можем ослабить порог для «значимости» и тем самым с большей вероятностью идентифицировать истинный эффект, однако это означает увеличение вероятности ошибки первого рода (размера). В юридической аналогии мы можем ослабить критерии для осуждения (например, снизив требования для стандарта доказывания «вне разумных сомнений»), что в результате приведет к большему количеству правильно осужденных преступников, но, увы, и к большему количеству невинно осужденных.
Теория Неймана – Пирсона берет начало в процессах контроля качества на производстве, но в настоящее время широко используется при проверке новых методов лечения. Перед началом рандомизированного клинического исследования в протоколе указывается нулевая (лечение неэффективно) и альтернативная (как правило, эффект одновременно правдоподобен и важен) гипотезы. Затем исследователи устанавливают размер и мощность критерия, нередко выбирая α = 0,05 и 1 – β = 0,80. Это означает, что для объявления результата значимым организаторы эксперимента требуют, чтобы P-значение было меньше 0,05, и с 80-процентной вероятностью достигнут этого, если лечение на самом деле эффективно. Вместе эти два числа позволяют оценить необходимое количество участников эксперимента.