Неразумная обезьяна. Почему мы верим в дезинформацию, теории заговора и пропаганду — страница 49 из 81

Благоприятные исходы можно объяснить эффектом плацебо, но, вероятно, более точно их можно описать как следствие регрессии к средним значениям[59]. Этим термином обозначают наблюдение, согласно которому в первом случае измерения результаты могут принимать крайние значения, а при последующих измерениях результирующие величины все в большей мере приближаются к средним значениям. Например, люди обращаются за медицинской помощью, когда симптомы болезни выражены в наибольшей степени. Это экстремальное состояние, но с течением времени оно возвращается к более или менее нормальному уровню. Однако многие больные упорно приписывают улучшение приему давно отставленного народного средства, совершенно при этом списывая со счетов феноменальные таланты собственной иммунной системы. Нобелевский лауреат Питер Медавар заметил, что “если человек (а) плохо себя чувствует, (б) получает лечение, от которого ему должно стать лучше, и (в) если ему действительно становится лучше, то никакая сила медицинской науки не заставит его поверить в то, что его здоровье восстановилось не благодаря лечению”.

Это высказывание иллюстрирует один недооцениваемый аспект научного исследования: не все исследования проводятся одинаково. Обнаружение статистической значимости не всегда говорит о получении искомого эффекта. Печально, что бессмысленная значимость результата часто обесценивает важные аспекты тех исследований, в которых статистический анализ играет первостепенную роль, – особенно в медицине и генетике. В 2005 году Иоаннидис написал провокационно озаглавленную статью “Почему большинство опубликованных научных данных неверны”, в которой содержатся поистине захватывающие выводы. В медицинских отраслях многие значимые результаты являются всего лишь продуктами плохого дизайна исследований, их недостаточного технического обеспечения, или же объясняются слишком малой численностью групп, что делает осмысленные выводы попросту невозможными. В своей работе Иоаннидис выделяет шесть индикаторов, о которых следует помнить, оценивая истинность любого сообщения:

1. Чем меньшим по объему данных является научное исследование, тем меньше вероятность получения верных данных. Если выборка мала, то снижается вероятность ее достаточной репрезентативности и повышается вероятность получения ложноположительных результатов. Именно этим пороком страдают данные натуропатических исследований, для которых характерны малые выборки и низкокачественный дизайн.

2. Чем ниже абсолютная величина эффекта, полученного в научном исследовании, тем меньше вероятность получения верного результата. Корреляция важна сама по себе, но важна также и величина эффекта. Величина эффекта – это мера выраженности феномена, полезная для решения вопроса о том, является ли выявленное отношение случайным или более существенным. Если величина эффекта мала, то сам эффект может быть просто случайным.

3. Чем больше число объектов исследования и чем слабее критерии наличия связей этих объектов в научной области, тем ниже вероятность того, что полученные результаты окажутся верными. Проще говоря, если эксперимент допускает множество разнообразных трактовок полученных результатов, то некоторые из них по чистой случайности могут оказаться ложноположительными. При большом числе возможных корреляций, доступных исследованию, очень легко впасть в искушение “собирать сливки”, то есть предпочитать те результаты, которые – возможно, случайно – демонстрируют возможную статистическую связь.

4. Чем больше гибкость дизайна, определений, исходов и методов анализа, примененных в научном исследовании, тем менее вероятна достоверность полученных результатов. Если ученый допускает вольности в определениях, то появляются лазейки для предвзятости и “отрицательный” результат можно мановением руки превратить в положительный.

5. Чем больше места в научном исследовании занимают финансовая заинтересованность и другие побочные интересы, тем меньше вероятность получения достоверных результатов. Особенно это касается биомедицинских исследований, где между учредителями и результатами часто возникает конфликт интересов, что порождает предвзятость. Как разъясняет Ионаннидис, конфликт интересов не обязательно должен быть финансовым: ученые не свободны от идеологических пристрастий, и это может повлиять на результат.

6. Чем более “горячей” является отрасль исследования (то есть если в отрасли работают многие коллективы, изучающие одну и ту же проблему), тем менее вероятным будет получение истинного результата. Это утверждение на первый взгляд противоречит здравому смыслу, но тем не менее оно верное и важное. В принципе, чем больше исследований проводится по одной теме, тем выше должно быть качество работы, но в реальности происходит противоположное, особенно если в этой области работают агрессивно конкурирующие друг с другом группы. В таких случаях решающим фактором становится время, и коллективы ученых стремятся как можно скорее опубликовать сырые данные, что приводит к повышению доли ложноположительных результатов. Иоаннидис и его коллеги обозначают эту фазу исследований “феноменом Протея”, так как для подобных случаев характерен быстрый переход от победных реляций к решительным опровержениям[60].

Эти тревожные и тщательно обоснованные наблюдения поднимают очень важный и неотложный вопрос: если большинство результатов научных исследований неверны, то какая вообще от них польза? Как сделать исследования осмысленными? В первую очередь надо отметить вот что: исследования, которые имеет в виду Иоаннидис, это не “все” исследования, а лишь работы, базирующиеся на “плохо обоснованной стратегии публикации окончательных результатов исключительно на основании единственного исследования, подкрепленного формальной статистической значимостью (как правило, величиной p-критерия, меньшей 0,05)”. Этот подход, несомненно, представляет собой большую проблему в тех областях науки, где выводы делаются с главной опорой на статистические корреляции (корреляции выуживаются из обширного числа разнородных данных). Однако эта проблема сходит на нет при хорошем планировании экспериментов, основанном на давно известных принципах. Например, феномены, зарегистрированные на Большом адронном коллайдере, подвергаются строгому статистическому анализу для полной уверенности в том, что новая элементарная частица действительно была обнаружена. Золотой стандарт пороговых величин статистической значимости в физике частиц настолько высок, что вероятность публикации ложноположительных результатов исчезающе мала.

Однако для медицины и биологии проблема, описанная Иоаннидисом, стоит чрезвычайно остро. В этих областях науки избежать сложных взаимодействий настолько трудно, что ученые прибегают к пробным исследованиям, “ориентированным на открытие”, а не начинают свою работу с отчетливого формулирования гипотезы. Такой подход прямо располагает к ложным открытиям – когда на первый план совершенно безосновательно выдвигают случайно полученные результаты. Суть проблемы заключается в произвольной природе установления граничных значений значимости, которые и обозначают как p-критерии. При величине p-критерия меньше 0,05 результат считается статистически значимым, и многие ученые просто рабски привязаны к этой величине. Но p-критерий никогда не предназначался для того, чтобы быть истинной мерой качества или тем более идеала! Биолог Рональд Фишер предложил этот критерий в двадцатые годы как удобный статистический признак того, что полученные данные заслуживают внимания[61].

В то время движение за математическую строгость статистики как раз набирало силу, и возглавляли его заклятые конкуренты Фишера польский математик Ежи Нейман и английский статистик Эгон Пирсон. Нейман и Пирсон формализовали такую концепцию как статистическая сила, но проигнорировали инновации Фишера. Нейман отвергал некоторые новшества Фишера как “в математическом смысле худшие, а не просто бесполезные”, а Фишер называл методы Неймана “ужасными для интеллектуальной свободы”. Остальные статистики, устав от междоусобной распри пионеров, объединили оба подхода. Правило Фишера просто внедрили в системы Неймана и Пирсона, и таким образом p-критерий получил ту важность, на которую вообще-то он никогда и не претендовал.

Это объединение привело к злоупотреблениям и недоразумениям; некоторые исследователи, глубоко зарывшись в данные, начинают наудачу искать статистически значимые зависимости, не думая об осмысленности таких связей и не оценивая, являются ли они обоснованными или чисто случайными. Член Королевского общества Дэвид Колкухоун уже давно раскритиковал тех, кто практикует такие вещи, точно и кратко заметив: “Функция теста на значимость заключается в том, чтобы уберечь вас от выставления напоказ собственной глупости, а не в том, чтобы сделать непригодный к обнародованию результат подходящим для публикации”. Был предложен даже весьма подходящий акроним для обозначения такого прочесывания данных – “Проверка статистической значимости гипотезы” (Statistical Hypothesis Inference Testing, SHIT). Без знания механизмов действия или основополагающих принципов относиться к корреляциям надо с осторожностью. Простое просеивание через сито статистики всевозможных тестов в надежде обнаружить post hoc значимых данных обычно действительно дает результат – правда, он чаще вводит в заблуждение, чем предоставляет полезную информацию. Как однажды заметил экономист Рональд Коуз, “если достаточно долго пытать данные, то они в конце концов признаются”. Вот только вряд ли такие данные будут надежными.

Итак, почему же все-таки ученые публикуют недостаточно обоснованные и спорные данные? Отчасти из-за того, что статистическая некомпетентность поражает не только неученых любителей. Но есть и другой, более удручающий фактор, базирующийся на иных мотивах: пристрастное отношение к публикациям и давление, оказываемое на ученых. Научные журналы редко склонны считать, что отрицательные результаты заслуживают публикации, а это вынуждает исследователей искать и находить связи между явлениями,