Расчеты могут быть верными с точки зрения математики, но при этом использовать некорректные статистические методы. Вот некоторые популярные примеры неправильных методов.
• Провести кластерное рандомизированное испытание, при котором для какого-либо конкретного вмешательства целые группы людей распределить случайным образом, а потом анализировать результаты так, как будто случайно распределялись отдельные люди.
• Измерить две группы на исходном уровне и после вмешательства, а потом заявить, что группы различны, если одна значимо отличается от исходного уровня, а изменения во второй незначимы. Правильная процедура в этом случае – провести статистическую проверку того, отличаются ли группы одна от другой (проверка взаимодействия).
• Истолковать «незначимость» как «отсутствие эффекта». Например, в исследовании связи между употреблением алкоголя и смертностью, упомянутом в главе 10, мужчины в возрасте 50–64 лет, употреблявшие 15–20 стандартных доз в неделю, продемонстрировали значительное уменьшение риска смертности, в то время как снижение для мужчин, пьющих чуть меньше или чуть больше, незначимо отличалось от нуля. В работе это было заявлено как важное отличие, но доверительные интервалы показали, что разница между этими группами несущественна. Еще раз заметим: разница между значимым и незначимым не обязательно значима.
Что касается этапа заключений, то здесь, пожалуй, самая вопиющая практика – проведение множества статистических проверок с последующим обнародованием только наиболее значимых результатов, которые выдаются за типичные. Мы видели, как сильно это повышает шансы найти значимость – вплоть до «оживления» мертвой рыбы. Это все равно что смотреть по телевизору только забитые командой голы и в упор не видеть тех, которые она пропускает: при такой избирательной отчетности невозможно получить истинное представление о матче.
Избирательная отчетность начинает переходить границы между простой некомпетентностью и нарушением научной этики, и есть тревожные подтверждения того, что это не редкость. В США даже был вынесен обвинительный приговор за избирательное сообщение о значимых результатах в одном анализе для подмножеств. Скотт Харконен возглавлял компанию InterMune, занимавшуюся клиническими испытаниями нового препарата от идиопатического легочного фиброза. Испытание в целом не выявило никакой пользы, но у небольшой группы пациентов (с легкой и умеренной степенью заболевания) отмечалось значительное снижение смертности. Харконен выпустил для инвесторов пресс-релиз с указанием этого результата и добавил, что, по его мнению, такое исследование может привести к увеличению объемов продаж. Хотя это и не была заведомая ложь, жюри присяжных в 2009 году осудило его за мошенничество с использованием электронных средств коммуникации, а конкретно – за намерение обмануть инвесторов. Государство требовало 10-летнего заключения и штрафа в 20 тысяч долларов, однако Харконена приговорили к шести месяцам домашнего ареста и трем годам условно. Последующее клиническое испытание не выявило никакой пользы от лекарства для указанного подмножества больных[248].
Нарушения в статистике могут быть сознательными или нет. Они даже намеренно использовались, чтобы показать недостатки научного рецензирования и публикации. Йоханнес Боханнон из немецкого института диеты и здоровья провел исследование, в котором людей разделили на три группы: 1) придерживающихся обычной диеты; 2) низкоуглеводной; 3) низкоуглеводной с добавлением шоколада. После ряда измерений, проводившихся в течение трех недель, было сделано заключение, что потеря веса в группе людей, диета которых включала шоколад, превышает потерю веса в группе с низкоуглеводной диетой на 10 % (P = 0,04). Этот «значимый» результат предоставили в один журнал, который назвал его «выдающимся» и сообщил, что за 600 евро «он может быть опубликован в нашем основном журнале». После публикации пресс-релиза Институтом диеты и здоровья в СМИ появились многочисленные статьи под заголовками наподобие «Шоколад ускоряет потерю веса».
Но потом выяснилось, что все это было преднамеренным обманом. Йоханнес Боханнон оказался журналистом Джоном Боханноном, Института диеты и здоровья вообще не существовало; правда, данные исследования оказались несфабрикованными. Однако в каждой группе было всего по пять испытуемых, тесты проводились многократно, но сообщили только о существенных различиях.
Авторы этой сфальсифицированной работы сразу же признались в обмане. Однако далеко не все статистические махинации осуществляются с благими намерениями указать таким способом на слабые места экспертной оценки.
Преднамеренный обман
Умышленная фабрикация данных действительно практикуется, но считается, что достаточно редко. Проверка анонимных самоотчетов показала, что 2 % ученых признались в фальсификации данных, в то время как Национальный научный фонд и Отдел по обеспечению добросовестности в исследованиях сталкиваются с довольно небольшим числом заведомо нечестных действий, хотя обнаруженное количество наверняка занижено[249].
Кажется вполне логичным, чтобы мошенничество в статистике выявила сама статистика. Ури Симонсон, психолог из Пенсильванского университета, проверял статистические данные, описывающие предположительно рандомизированные испытания, которые должны демонстрировать типичный случайный разброс, но оказывались либо неправдоподобно похожими, либо неправдоподобно различными. Например, он заметил, что в одном отчете все три стандартных отклонения составили 25,11, хотя предполагалось, что их вычисляли для трех разных групп по 15 человек. Симонсон получил исходные данные и показал с помощью моделирования, что шансы получить такие одинаковые стандартные отклонения исчезающе малы, после чего исследователь, ответственный за этот отчет, был снят с должности[250].
Британский психолог Сирил Берт, известный своим исследованием наследственности IQ, был посмертно обвинен в мошенничестве, когда выяснилось, что коэффициенты корреляции, которые он приводил для IQ разлученных близнецов, практически не менялись со временем, несмотря на постоянное увеличение группы близнецов: коэффициент был равен 0,770 в 1943 году, 0,771 в 1955-м и 0,771 в 1966-м. Психолога обвинили в подтасовке данных, но поскольку все его записи были после его смерти сожжены, вопрос до сих пор остается спорным. Некоторые утверждают, что тут просто закралась ошибка, ведь обман слишком очевиден, вряд ли ученый мог его совершить.
Все было бы гораздо проще, если бы единственными проблемами статистики – пусть даже серьезными – были только некомпетентность и нечестность. Мы могли бы обучать, проверять, воспроизводить, открывать данные для проверки и так далее, об этом мы поговорим в последней главе, посвященной правильным методам работы. Но, увы, существует более масштабная и тонкая проблема, и именно она, по мнению некоторых, и есть главный фактор кризиса воспроизводимости.
«Сомнительные исследовательские практики»
Даже если данные подлинные, анализ произведен правильно, а статистика и соответствующее P-значение корректны, могут возникнуть затруднения с интерпретацией полученных результатов, если мы точно не знаем, исходя из чего исследователи сделали такие выводы.
Мы видели какие проблемы возникают, когда исследователи сообщают только о значимых результатах, но, возможно, более важен тот сознательный или неосознанный набор мелких решений, которые принимает исследователь в зависимости от того, что, как ему кажется, показывают данные. Такие поправки могут касаться изменения структуры эксперимента; решения о прекращении сбора данных; того, какие данные нужно исключить, какие коэффициенты подправить, какие группы выделить, на каких характеристиках сосредоточиться, на какие группы разделить непрерывные переменные, как обработать недостающие данные, и так далее. Симонсон называет такие решения «степенями свободы исследователя», в то время как Эндрю Гельман описывает их более поэтично – «сад расходящихся тропок». Все эти ухищрения увеличивают шансы на получение статистической значимости и все подпадают под общее название «сомнительной исследовательской практики».
Важно различать поисковые и подтверждающие исследования. Поисковые эксперименты – как раз то, о чем говорит их название: это гибкие исследования с целью рассмотреть многие возможности и выдвинуть гипотезы для последующей проверки с помощью более формальных подтверждающих экспериментов. В поисковых исследованиях можно применять самые разные настройки, но подтверждающие исследования нужно проводить в соответствии с заранее установленным и предпочтительно публичным протоколом. Любой может использовать P-значения, чтобы охарактеризовать силу доказательств для своих выводов, но эти P-значения надо четко различать и по-разному интерпретировать.
Действия, направленные на получение статистически значимых результатов, известны как P-хакинг[251], и хотя самый очевидный метод – выполнить несколько проверок, а опубликовать только наиболее значимый результат, есть гораздо более тонкие способы, позволяющие исследователям реализовать свои «степени свободы».
Делает ли вас прослушивание песни «Битлз» When I’m Sixty-Four моложе?
Вы можете быть вполне уверены в правильном ответе на этот вопрос. Что делает его еще более впечатляющим, учитывая, что Симонсон с коллегами ухитрились (нужно признать, довольно мудреными средствами) получить существенный положительный результат[252].
Студенты Пенсильванского университета, распределенные случайным образом, слушали композиции When I’m Sixty-Four группы «Битлз», или Kalimba, или Hot Potato группы The Wiggles. Затем испытуемых спрашивали, когда они родились, на сколько лет себя ощущают и еще задавали несколько абсолютно не относящихся к делу вопросов