Эта идея должна умереть. Научные теории, которые блокируют прогресс — страница 84 из 93

урналов в области социальных наук и медицины наблюдение обычно считается статистически значимым, если вероятность того, что наблюдаемый эффект случаен, составляет менее 5 %. В мире физики погрешность обычно оказывается ниже и часто составляет 0,3 % («правило трех сигм», 3) или даже 0,00003 % (три десятитысячных процента, «правило пяти сигм», 5). Однако суть остается прежней: если ваш результат заметно выше этого порога, он получает весомый ярлык «статистически значимого».

Однако чаще всего этот термин используется неправильно. Если вы посмотрите на типичную научную работу, опубликованную в рецензируемых журналах, то увидите, что тестирование на статистическую значимость проводится не для одного наблюдения, а для десятков или даже сотен. Исследователь, изучающий болеутоляющее средство для страдающих от артрита, рассматривает данные, позволяющие последовательно отвечать на один вопрос за другим: помогает ли лекарство уменьшить боль у пациента? помогает ли оно пациенту с болью в колене? с болью в спине? с болью в локте? с сильной болью? с умеренной болью? с болью в степени между умеренной и сильной? помогает ли оно пациенту расширить диапазон доступных движений? качество жизни?

Каждый из этих вопросов проверяется с точки зрения статистической значимости и обычно сравнивается со стандартным для отрасли пятипроцентным правилом. Иными словами, существует вероятность 5 % – то есть один шанс из 20, – что бесполезный препарат будет казаться эффективным исключительно благодаря случайности.

Но попробуйте провести тестирование по 10 вопросам – и шанс, что случайность исказит ваш результат при ответе на 1 или несколько из этих вопросов, тут же возрастет до 40 %. Но в типичной научной работе задается больше 10 вопросов, а иногда и намного больше. Вы можете скорректировать эту «проблему множественных сравнений» с помощью математических инструментов (хотя это и нельзя считать общепринятым методом). Вы также можете попробовать избавиться от этих нежелательных эффектов, приняв решение ответить всего на 1 главный вопрос (хотя на практике такие «первичные результаты» оказываются на удивление пластичными). Однако даже эти корректировки часто не учитывают влияние множества эффектов, способных негативно сказаться на расчетах исследователя, – подобно тому как незначительные изменения в классификации данных могут повлиять на исходный результат: «острая» боль – это 7 баллов по 10-балльной шкале? Или 8 и выше?.. Иногда подобные вопросы упускаются из виду; иногда они сознательно игнорируются или становятся объектом манипуляций.

Даже в лучшем случае, когда статистическая значимость рассчитывается самым правильным образом, она способна сказать вам не так уж много. Разумеется, маловероятно, что нужный эффект достигается лишь благодаря стечению случайных факторов. Однако это соображение ничего не говорит нам о том, насколько правильным был протокол проведения эксперимента; насколько точно были откалиброваны измерительные приборы; не было ли ошибок в компьютерной программе; в достаточной ли степени экспериментатор замаскировал данные, чтобы предотвратить предвзятость при их анализе; понимали ли ученые все возможные источники ложных сигналов; было ли надлежащим образом простерилизовано все вспомогательное оборудование; и так далее. Когда эксперимент оказывается неудачным, скорее всего, ответственность лежит не на случайности – точнее, не на статистической случайности, а на старой доброй ошибке исследователя.

Когда физики ЦЕРНа сообщили, что им удалось поймать нейтрино, двигающиеся быстрее скорости света, даже порога статистической значимости на уровне 6 сигм (и тщательной проверки на наличие ошибок) оказалось недостаточно для того, чтобы убедить физическое сообщество в том, что команда ЦЕРНа нигде не ошиблась. Ведь полученный результат противоречил не только физическим законам, но и результатам наблюдения за нейтрино, рождающимися при взрыве сверхновых звезд. И вполне естественно, что через несколько месяцев кому-то удалось выявить неточность в расчетах (в общем и целом незначительную), которая позволила опровергнуть заключение команды.

Подобные вещи происходят в научном мире на удивление часто. Управление по контролю за продуктами и лекарствами США каждый год инспектирует несколько сотен клинических лабораторий. Примерно в 5 % случаев делается вывод о том, что та или иная лаборатория использует в своей работе «крайне сомнительные условия и практики» и полученная в этой лаборатории информация не может считаться надежной.

Зачастую такие практики включают в себя откровенное мошенничество. Любой инспектор способен сразу заметить подобное, однако ему сложно представить, что реальное количество ошибок в лабораториях может оказаться в несколько раз выше того, что он видит. Что толку в том, чтобы называть результат статистически значимым с погрешностью 5 %, 0,3 % или даже 0,00003 %, если вероятность того, что данные существенно искажены ошибками в лаборатории, составляет 10 %, 25 % или даже еще выше? В условиях, когда возможны такие ошибки (не говоря уже о сознательном мошенничестве), даже самые железобетонные выводы, основанные на статистической значимости, теряют любой смысл.

Тем не менее, несмотря на то что статистика не всегда выдерживает проверку практикой, ученые зачастую пытаются использовать понятие статистической значимости как универсальный и простой способ определения того, заслуживает ли то или иное наблюдение доверия, а выводы – публикации. Из-за этого рецензируемая литература замусорена «статистически значимыми» абсурдными результатами, которые невозможно повторить и в которые невозможно поверить даже при самом богатом воображении.

Концепция «статистической значимости» стала своего рода «количественным костылем» качественного по своей сути процесса определения правильности выводов. Без нее науке станет намного лучше.


Научные выводы и статистические ритуалыГерд Гигеренцер

Психолог; Центр адаптивного поведения и познания Института развития человека имени Макса Планка, Берлин; автор книги Risk Savvy: How to Make Good Decisions[102].

В молодости у Готфрида Вильгельма Лейбница была прекрасная мечта: открыть систему исчисления, позволяющую изобразить любую отдельно взятую идею в мире в виде символов. Подобное универсальное исчисление могло бы положить конец всем научным дебатам. К примеру, любое эмоционально накаленное обсуждение в рамках Edge.org можно было бы легко завершить при помощи бесстрастных точных расчетов. Лейбниц с большим оптимизмом предполагал, что разработать подобную систему исчисления небольшая группа людей могла бы всего за 5 лет.

Однако до сих пор никому, включая и самого Лейбница, так и не удалось найти этот Священный Грааль.

Тем не менее мечта Лейбница жива и даже процветает в области социальных наук и неврологии. Поскольку нам так и не удалось найти главный объект этой мечты, на его место приходят объекты-заменители. В некоторых областях это множественная регрессия, в других – байесовская статистика. Однако подлинным чемпионом считается так называемый «нулевой ритуал»:


1. Сформулируйте нулевую гипотезу «отсутствия разницы в среднем» или «нулевой корреляции». Не уточняйте предсказания своих собственных исследовательских гипотез.

2. Используйте 5-процентную погрешность как условие для отказа от нулевой гипотезы. Если результат окажется статистически значимым, примите свою исследовательскую гипотезу как верную. Сформулируйте результат в виде P< 0,05, P< 0,01 или P< 0,001, в зависимости от того, к какому условию оказывается ближе полученное вами P-значение.

3. Всегда используйте эту процедуру.


Мы не должны ни на минуту верить, что эта процедура имеет что-то общее с корректной статистикой. Сэр Рональд Фишер, которому совершенно неверно приписывается этот метод, на самом деле писал, что исследователям нельзя использовать один и тот же уровень статистической значимости от эксперимента к эксперименту. Узнав о том, как этот метод применяется в наши дни, знаменитые статистики Ежи Нейман и Эгон Пирсон наверняка перевернулись бы в своих гробах. Приверженцы байесовской статистики также с подозрением относятся к P-значениям.

Однако стоит вам открыть любой журнал по психологии, бизнесу или нейробиологии, и вы наверняка увидите на его страницах массу примеров P-значений. Вот лишь несколько иллюстраций. В 2012 году среднее количество P-значений, приведенных в Academy of Management Journal, главном прикладном журнале в области управления, составляло в среднем 116 на статью (в диапазоне от 19 до 536)! Вы можете подумать, что такова специфическая особенность науки менеджмента. Тогда скажу, что 89 % всех поведенческих, нейропсихологических и медицинских исследований с участием добровольцев, результаты которых были опубликованы в 2011 году в журнале Nature, сообщили лишь о P-значениях – и даже не рассматривали такие понятия, как величина эффекта, доверительные интервалы или максимальное правдоподобие.

Ритуал представляет собой коллективную или индивидуальную церемонию, состоящую из действий, совершаемых в заранее предписанном порядке. Обычно он включает в себя некие священные числа или цвета, нежелание подумать о том, почему вы вообще совершаете те или иные действия, а также страх наказания за то, что вы перестанете их совершать. И все эти свойства в полной мере присутствуют в нулевом ритуале.

Слова «5 процентов» тоже считаются священными, поскольку предполагается, что именно эта величина позволяет нам увидеть разницу между реальным эффектом и случайным шумом. В ходе исследований в области функциональной магниторезонансной томографии числа заменяются цветами, и мозг на мониторе прибора расцвечивается всеми красками.

Масштаб распространения этой бредовой идеи поражает. Если бы психиатры хотя бы немного уважали статистику, то наверняка включили эту аберрацию в «Руководство по диагностике и статистическому учету психических расстройств». Исследования, проведенные в США, Великобритании и Германии, показывают, что большинство исследователей вообще не понимают (или не хотят понимать), что такое