Искусство статистики. Как находить ответы в данных — страница 47 из 56

Так как же Бем получал свои результаты? Иногда он корректировал проект в соответствии с данными и выделял определенные группы – например, сообщал о положительном предвидении при показе эротических картинок, а не о негативных результатах с неэротическими. Бем признавал: «Я начинаю один [эксперимент] и, если ничего не выходит, бросаю его и начинаю заново с изменениями». Некоторые из этих изменений описывались в статье, другие – нет[261],[262]. Эндрю Гельман заметил, что выводы Бема

основаны на P-значениях, которые являются утверждениями о том, как выглядели бы характеристики выборки, если бы данные были другими; однако Бем не предоставил никаких доказательств того, что его анализ был бы таким же, если бы данные были другими. В самом деле, девять исследований, описанных в его статье, основаны на разных методиках анализа данных[263].

Этот случай – классический пример использования исследователем чрезмерного количества степеней свободы. Тем не менее Бем оказал большую услугу психологии и науке в целом: его статья 2011 года стала катализатором для самоанализа в среде ученых в отношении возможных причин отсутствия достоверности в научной литературе. Даже высказывалось предположение, что весь этот процесс, как и другие исследования, описанные в главе, был намеренно спланирован Бемом, чтобы показать слабые стороны в психологических исследованиях.

Выводы

• Часть ответственности за кризис воспроизводимости в науке лежит на недобросовестных статистиках-практиках.

• Намеренная фабрикация данных – явление довольно редкое, в отличие от ошибок в статистических методах.

• Еще большую проблему представляют сомнительные исследовательские практики, которые, как правило, преувеличивают уровень статистической значимости.

• Вместо того чтобы представить статистические факты широкой публике, пресс-службы, журналисты и редакторы раздувают поток недостоверных сведений, неверно интерпретируя результаты и распространяя их.

Глава 13. Как можно улучшить статистику

В чем польза скрининговых исследований при раке яичников?

В 2015 году в Великобритании были опубликованы результаты масштабного скринингового исследования рака яичников. Оно стартовало еще в 2001 году, когда после тщательных расчетов необходимой мощности свыше 200 тысяч женщин случайным образом распределили на три группы – два вида скрининга и контрольная группа. Исследователи тщательно составили протокол, в котором в первичный анализ входило наблюдение за снижением смертности от рака яичников, оцениваемое с помощью статистического метода, предполагающего, что пропорциональное уменьшение риска будет одинаковым в течение всего периода наблюдения[264].

Когда после среднего 11-летнего периода наблюдения данные были проанализированы, установленный первичный анализ не показал статистически значимой пользы и авторы должным образом сообщили об этом незначимом результате в качестве своего основного вывода. Но тогда почему в газете Independent появился заголовок «Прорыв в определении рака яичников по анализу крови: колоссальный успех нового метода тестирования может привести к национальному скрининговому обследованию в Британии»?[265]

Мы еще вернемся к тому, правильно ли интерпретировались результаты этого масштабного и очень дорогостоящего исследования.


В предыдущей главе мы говорили о том, как плохая практика может проявиться на любом этапе создания статистических текстов. А значит, если мы хотим использовать статистику более эффективно, следует задействовать три группы людей.


1. Поставщики статистической информации: ученые, статистики, исследовательские компании, промышленность. Они могут лучше генерировать данные.

2. Коммуникаторы: научные журналы, благотворительные организации, работники пресс-служб, журналисты и редакторы. Они могут лучше подавать статистические данные.

3. Аудитория: общественность, лица, принимающие решения, и эксперты. Они могут лучше проверять статистические данные.


Давайте поочередно рассмотрим, что может делать каждая группа.

Улучшение качества данных

Как можно улучшить научный процесс? Широкое сотрудничество выдающихся исследователей привело к появлению «манифеста воспроизводимости», в котором говорится о совершенствовании методов исследования и обучения, содействии предварительной регистрации проектов и анализу исследований, улучшении качества отчетности о реально проделанной работе, стимулировании повторных экспериментов, развитии экспертных оценок и поощрении открытости и прозрачности[266]. Многие из этих идей отражены в Open Science Framework – программном проекте с открытым кодом, который, в частности, способствует обмену данными и предварительной регистрации исследований[267].

С учетом примеров из предыдущей главы неудивительно, что многие предложения из этого манифеста касаются статистической практики, в частности обращение к предварительно зарегистрированным исследованиям призвано оградить от поведения, описанного в предыдущей главе, когда проект, гипотезы и анализ подстраиваются под уже полученные данные. Однако можно утверждать, что полная предварительная определенность нереальна, она не дает исследователю проявить воображение, а также лишает гибкости в процессе адаптации к новым данным. Опять же ответ, похоже, заключается в строгом различии между поисковыми и подтверждающими исследованиями, при этом нужно четко сообщать ту последовательность выбора, к которой прибегли исследователи.

Предварительная определенность анализа не лишена недостатков, поскольку может ограничить исследователей каким-то одним видом анализа, который по мере поступления данных они могут счесть неподходящим. Например, группа, проводившая скрининговое исследование рака яичников, планировала включить в анализ всех рандомизированных пациентов, однако обнаружила, что если исключить из анализа «распространенные» случаи (когда рак яичников был выявлен до начала испытаний), что может показаться вполне разумным, то стратегия мультимодального скрининга продемонстрирует значимое 20-процентное снижение смертности от рака яичников (P = 0,02). Кроме того, даже если были включены все случаи безотносительно того, был или не был выявлен рак на момент начала испытания, значимое 23-процентное снижение смертности в мультимодальной группе проявилось также в период между 7 и 14 годами после рандомизации. Поэтому проблемы, которые нельзя предусмотреть (например, рандомизация людей, у которых уже есть рак, или скрининг, требующий для большей точности определенного времени), мешают тому, чтобы предварительно запланированный общий результат оказался значимым.

Авторы педантично сообщали, что их первичный анализ не показал значимого результата, и с сожалением отмечали, что «основным ограничением в испытании была наша неспособность предвидеть в своем статистическом проекте отдаленный эффект скрининга». Это не помешало некоторым СМИ интерпретировать незначимый результат как подтверждение нулевой гипотезы и сообщить, что скрининговые исследования вообще не работают. Заголовок в Independent, провозглашающий, что скрининг может спасти тысячи жизней, хотя и слишком смел, тем не менее лучше отражает результаты исследования.

Улучшение коммуникации

Выше мы говорили о некорректном освещении СМИ содержания научных статей, основанных на статистических данные. Мы не знаем простых способов повлиять на журналистскую деятельность и СМИ – особенно сейчас, в условиях жесткой конкуренции с интернет-публикациями и социальными сетями, а также сокращения доходов от рекламы. Однако то, что статистики участвуют в составлении рекомендаций для СМИ и обучающих программ для журналистов и сотрудников пресс-служб, вселяет надежду. Хорошая новость заключается в том, что журналистика данных процветает и сотрудничество с журналистами может обогатить тексты, основанные на данных, правильным и качественным контентом и визуализацией.

Однако преобразование сухих чисел в истории сопряжено с немалым риском. Традиционно хороший рассказ строится на эмоциях, увлекательном сюжете и эффектной развязке, а наука редко может все это предоставить, поэтому возникает соблазн все сильно упростить, а эффект преувеличить. Тексты должны опираться на факты, которые помогут автору разносторонне осветить поднятую проблему. В идеале в публикации может сообщаться, что какое-то лекарство или метод решения имеет как преимущества, так и побочные эффекты, которые люди могут оценивать по-разному и, соответственно, приходить к разным выводам. Журналисты, похоже, избегают подобных текстов, однако настоящий профессионал должен уметь делать такие истории захватывающими (например, включив мнения людей с разными взглядами). Так, Кристи Ашванден[268], работающая на портале FiveThirtyEight, обсуждала статистические данные, полученные в ходе скрининговых исследований молочной железы, после чего решила отказаться от этой практики, в то время как ее подруга, располагая теми же фактами-свидетельствами, приняла противоположное решение[269]. Это подтверждает, как важно иметь собственное мнение, но при этом с уважением относиться к статистическим данным.

Мы могли бы также детальнее исследовать вопрос о наиболее оптимальной передаче статистических данных. Например, как сообщать о неуверенности в отношении наблюдений и прогнозов, не ставя под угрозу надежность информации, авторитет статистики и доверие к ней, и как адаптировать наши методы к аудитории с различными взглядами и знаниями. Это важные, требующие углубленного изучения вопросы. Кроме того, удручающий уровень статистических дискуссий во время британской кампании по Брекзиту говорит о необходимости исследовать новые способы передачи информации о том, как политические решения могут влиять на общество.