Эта идея должна умереть. Научные теории, которые блокируют прогресс — страница 85 из 93

P-значение. Они путают его с вероятностью гипотезы или с каким-то другим обманчивым понятием – таким как вероятность репликации данных. В ведущих научных журналах можно встретить потрясающие примеры подобных ошибок. К примеру, для того чтобы выяснить, различаются ли между собой два средних значения, мы должны протестировать степень их различия. Однако при этом не следует сравнивать каждое из этих средних значений с какой-то общей точкой отсчета (например, вот так: «Нейронная активность повысилась у испытуемых, прошедших обучение (Р< 0,05), но не в контрольной группе (Р> 0,05)». В 2011 году в Nature Neuroscience был опубликован анализ неврологических статей в журналах Science, Nature, Nature Neuroscience, Neuron и The Journal of Neuroscience. И если в 78 статьях со статистикой все было в порядке, то в 79 были описаны некорректные процедуры.

Отказ от следования ритуалу может вызывать немалую тревогу, даже когда в этом ритуале нет особого смысла. В одном исследовании (имена авторов в данном случае не имеют значения) пользователей интернета спрашивали, есть ли разница между героизмом и альтруизмом. Подавляющее большинство респондентов (2347 человек, 97,5 %) ответили «да»; лишь 58 сказали «нет». Что же сделали авторы с этой информацией? Они рассчитали распределение хи-квадрат, вычислили, что c 2(1) = 2178,60, что P< 0,0001, и пришли к поразительному выводу, что на самом деле «нет» сказало больше людей, чем «да».

Один из признаков обсессивно-компульсивного расстройства – ритуал компульсивного мытья рук, даже если в этой процедуре нет никакой необходимости. Аналогичным образом исследователи, придерживающиеся нулевого ритуала, постоянно делают статистические выводы, даже в ситуациях, когда это не нужно, – например, когда у нас нет случайной выборки из общей совокупности или когда мы в принципе не дали никакого определения этой совокупности. В таких случаях мы вообще не можем применять статистическую модель с участием случайной выборки из общей совокупности и вместо нее используется описательная статистика. Поэтому даже если вам удается рассчитать статистически значимое Р-значение, совершенно неясно, о какой общей совокупности идет речь.

Проблема состоит не в статистике, а в ее ошибочном использовании как автоматической машины для создания выводов.

И наконец, подобно тому как обсессивно-компульсивное расстройство и бесконечное мытье рук могут ухудшать качество жизни, стремление рассчитывать статистически значимые P-значения может подрывать качество исследований. Это выражается следующим образом.

Поиск статистически значимых теорий заменяется поиском значимых Р-значений. Такая подмена цели приводит к появлению сомнительных исследовательских практик: избирательности выводов, когда сообщается лишь о случаях, когда результаты «сработали», или исключению некоторых данных после изучения их влияния на результаты. Из примерно 2 тысяч психологов, принявших участие в исследовании, проведенном в 2012 году журналом Psychological Science, свыше 90 % признались в том, что хотя бы раз применяли одну или несколько сомнительных исследовательских практик. Столь существенный масштаб подмены, направленной на создание статистически значимых P-значений, оказывается более вредным для прогресса, чем редкие случаи откровенного мошенничества.

Одним из этих вредных результатов можно считать то, что вокруг нас бушует настоящий потоп опубликованных, однако невоспроизводимых результатов. Генетические и медицинские исследования на основе Больших данных постоянно сталкиваются с подобной проблемой, когда кто-то безуспешно пытается повторить опубликованные результаты.

Я не хочу выплескивать вместе с водой ребенка: статистика предлагает очень полезный инструментарий для исследователей. Однако пришло время избавиться от статистических ритуалов, приводящих к автоматическим и бессмысленным выводам. Ученым следует изучать ритуалы, а не следовать им.

Сила статистикиЭммануэль Дерман

Профессор кафедры финансового инжиниринга, Колумбийский университет; бывший руководитель группы количественных стратегий, отдел ценных бумаг компании Goldman Sachs; автор книги Models. Behaving. Badly («Модели. Которые. Плохо. Себя. Ведут»).

Я вырос в среде физиков, modus operandi которых предполагает наблюдение явлений, эксперименты с ними, разработку гипотез, теорий и моделей. Физики предлагают всё новые эксперименты и используют статистику для анализа результатов, чтобы сравнить свои умозрительные построения с реальностью. Статистика для физика – это просто инструмент для подтверждения или отрицания теории.

Однако в наши дни мир, и особенно мир общественных наук, почему-то влюбился в статистику и науку о данных как в источник знания и самой Истины. Кое-кто даже заявляет, что статистический анализ закономерностей придет на смену нашим традиционным методам познания окружающего мира – не только в области общественных наук и медицины, но также в области естественных наук.

Нам следует вести себя крайне осторожно, чтобы не слишком поддаться очарованию статистики и науки о данных и в результате отказаться от классических методов открывания истин о природе (а человек – это тоже часть природы).

Хорошим примером силы классического метода может считаться открытый Кеплером в XVII веке второй закон планетарного движения, который, в сущности, представляет собой не закон, а скорее наблюдение и описание некоторой закономерности. Второй закон Кеплера гласит, что линия (радиус-вектор), соединяющая Солнце и обращающуюся вокруг него планету, за равные периоды времени описывает равные площади. Эта глубинная симметрия планетарного движения означает в том числе, что чем ближе планета оказывается к Солнцу, тем быстрее она движется по своей орбите.

Однако обратите внимание, что между планетами и Солнцем на самом деле нет никаких линий.

Открытие Кеплера, до сих поражающее нас, потребовало изучения данных, полученных Тихо Браге, многочасовых размышлений, интуитивных прозрений – только вообразите себе эту невидимую линию! – а затем и проверки гипотезы. Информация, интуиция, построение гипотезы и, наконец, проверка ее фактами – это заслуженный и освященный временем процесс.

Второй закон Кеплера фактически представляет собой утверждение о сохранении углового момента, которое позднее было развито в ньютоновских теориях движения и гравитации. Теории Ньютона были приняты с такой готовностью потому, что из них можно было вывести три уже верифицированных закона Кеплера. Через 300 лет Джон Мейнард Кейнс сказал о Ньютоне так:

Я предполагаю, что своей исключительностью он обязан мускулам своей интуиции, самым сильным и выносливым, какими когда-либо был одарен человек.

Статистика – я имею в виду данную научную дисциплину – напоминает мне неприкаянного дикаря, обитающего в области где-то посреди между математикой и естественными науками. Статистика – это не язык, не наука, описывающая мир природы, а скорее, набор методов, предназначенных для проверки гипотез. Статистика сама по себе способна выявить лишь тенденции и примеры корреляции в прошлом и предположить, что они сохранятся и в будущем. Однако, как говорится в знаменитой фразе, неизвестно кому принадлежащей, «корреляция еще не означает причинно-следственной связи».

Наука – битва за то, чтобы найти причины и объяснения, несмотря на путаницу данных. Так что давайте не будет слишком сильно очаровываться наукой о данных, главные победы которой пока что заключаются в громогласной саморекламе и попытках убедить мир в собственной значимости. У фактов как таковых нет голоса. И космическая сага Кеплера показывает, что такого понятия, как «необработанные данные», тоже не существует. Для того чтобы понять, какие именно данные отобрать и как именно о них думать, требуется прозрение, прорыв в неизвестность.

А пока, чтобы правильно работать с собранными данными, будем по-прежнему использовать классические консервативные методы: интуицию, моделирование, теоретизирование – и только потом статистику.

ВоспроизводимостьВиктория Стодден

Специалист по авторскому праву в области вычислительных технологий; профессор статистики, Колумбийский университет.

Я не хотела бы говорить о том, пора ли в отставку этой абстрактной идее; не хочу также обсуждать вопрос о ее месте в научном дискурсе и ее роли в процессе открытий; вместо этого я предложила бы поговорить об определении самого понятия «воспроизводимость» (reproducibility) и о том, как этот термин используется в разных исследовательских средах, с которыми имеют дело ученые.

В 1660-е годы, когда Роберт Бойль впервые ввел концепцию воспроизводимости в научный оборот, понятие научного эксперимента и открытия было двояким. С одной стороны, под этим подразумевались дедуктивные рассуждения, опирающиеся на математику и логику, с другой – относительно новая техника индукции, предложенная Фрэнсисом Бэконом. Технология проверки истинности утверждения была хорошо отлажена в логических дедуктивных системах, однако с проверкой эксперимента дело обстояло гораздо сложнее. В ходе своей совместной с Робертом Гуком работы по созданию вакуумной камеры Бойль пришел к выводу о том, что индуктивные (они же эмпирические) выводы – возникающие в результате наблюдений природы и затем сформулированные в виде заключения – необходимо верифицировать путем независимого повторения опыта. Именно поэтому публикации эмпирических исследований с тех пор всегда содержат достаточно подробное описание процедуры и протокола опыта, оборудования, которое в ходе него применялось, и результатов наблюдений. Эти подробности позволяют другим исследователям повторить процедуру и, возможно, получить те же результаты.

В наши дни следование этой концепции затрудняется повсеместным использованием вычислительных методов. Компьютеры не похожи на научный инструментарий прошлого, поскольку они представляют собой скорее платформы для внедрения тех или иных методов, а не непосредственные инструменты исследователя. И в современных условиях концепция воспроизводимости настоятельно требует публикации дополнительных сведений – таких как информация об использовавшемся программном обеспечении и другие цифровые данные (которые, однако, публикуются далеко не всегда).