Ингредиенты. Странные химические свойства того, что мы едим, пьем и наносим на кожу — страница 29 из 45

ния не был скомпрометирован обманом; математическими, статистическими и иными ошибками; другими выбоинами, о которых мы еще не говорили; а также крючкотворством, дурачествами, вздором, чепухой и бредом.


Это определение просто ужасно, поэтому большинство ученых, журналистов, политиков и других людей, кроме специалистов по статистике, просто проигнорировали его и притворились, что на самом деле определение звучит так:

Р-значение – это вероятность того, что связь между Близнецами и алкоголизмом объясняется случайностью.

Руководствуясь вторым (ненастоящим) определением, вы можете посмотреть на Р-значение 0,015 и прийти к выводу, что:

1) существует всего 1,5-процентная вероятность, что связь между Близнецами и алкоголизмом случайная;

2) следовательно, вероятность того, что связь не вызвана случайностью, составляет 100 – 1,5 = 98,5 %;

3) таким образом, вероятность подлинности связи равна 98,5 %.

На протяжении долгого времени многие ученые рассуждали именно так. Они пришли к единому мнению, что если Р-значение ниже 0,05 (5 %), то связь может быть признана «статистически значимой» и подлинной. Если Р-значение – ох! – выше 0,05, то результат считается «статистически незначимым» и неподлинным. Эта разница не просто академическая: если бы вы были профессиональным ученым, то ваша работа заключалась бы в публикации статистически значимых исследований. Если бы вам это удавалось, то вы могли бы оставаться в профессии, а если нет, то пришлось бы открыть пекарню.

К сожалению, применение Р-значения для выяснения подлинности связи более неправильно, чем добавлять бри в борщ.

Если вы посмотрите на точное определение этого показателя, то заметите, что второй и третий пункты могут быть нарушены по практически любой причине. Полученное Остином Р-значение 0,015 могло быть связано со множеством факторов: антиканадские хакеры злонамеренно меняют цифры в базах данных; ученый разделил некоторые числа, вместо того чтобы умножить их; врачи чаще диагностировали алкоголизм среди Близнецов и т. д.

Вероятно, самое простое определение Р-значения – это «мера удивления», как говорит Регина Нуццо.

Представьте себе следующую картину: Рождество, 02:00, и вы просыпаетесь от шума в гостиной. «Господи, – думаете вы, – ЭТО ЖЕ САНТА!»

Или?

Конечно, это может быть он. Нет закона физики, исключающего его существование. Однако это также может быть ваш ребенок, который тайком спустился на первый этаж, чтобы подкараулить седобородого старичка. Или это может быть ваш 36-летний брат, пожирающий печенье, приготовленное для Санты. Или книга упала с полки. Или вор вломился. Низкое Р-значение похоже на странный звук в ночи: оно указывает на то, что происходит нечто неожиданное, но не говорит, что именно. Даже если звук достаточно громкий, чтобы вы были на 99 % уверены в том, что внизу что-то произошло, вы не можете быть на 99 % убеждены, что сам Санта пробрался к вам через камин.

Давайте подведем итоги. Случайность – это четвертая выбоина на пути к подлинной связи, и с ней связано много сложностей. В отличие от первых трех она не является исключительно нашей виной. Так работает Вселенная: иногда крошки от печенья образуют нечто похожее на связь, хотя на самом деле это лишь случайность. В отличие от других колдобин в нашем списке, случайности нельзя устранить: мы можем лишь попытаться их понять. К сожалению, мы десятилетиями неправильно воспринимали Р-значения, и, хотя оно само по себе не является выбоиной, этот показатель способствует созданию самой большой выбоины из всех, что мы пока видели. Давайте вернемся к Близнецам-алкоголикам.

* * *

Я кое-что от вас скрывал. Питер Остин и его коллеги не только выяснили, что Близнецы чаще попадают в больницу из-за алкоголизма. Они также обнаружили множество связей между знаками зодиака и заболеваниями. По сути, они создали научный гороскоп.


Ваш научный гороскоп



В общей сложности они отобрали 72 диагноза вроде тех, что перечислены выше. Каждый знак зодиака был связан со статистически более высокой вероятностью госпитализации в связи с определенными заболеваниями, чем все остальные вместе взятые. Все Р-значения для связей были менее 0,05, то есть статистически значимыми.

Таким образом, Остин и его коллеги пришли к выводу, что все 72 связи, которые они обнаружили, являются подлинными.

Хочу сказать другим Скорпионам: астрология реальна – наслаждайтесь анальными абсцессами!

Я.

ШУЧУ.

Так работает Вселенная: иногда крошки от печенья образуют нечто похожее на связь, хотя на самом деле это лишь случайность.

Я говорил об этом так, будто это реальная наука. На первый взгляд это действительно так. Остин и его коллеги действительно сделали все, о чем было заявлено: изучили огромные базы данных, провели расчеты и выявили все вышеприведенные связи (и многие другие). В этом смысле все реально. Однако Питер не астролог, не шаман и не врач. Он статистик. Его эксперимент продемонстрировал, как слепое следование неправильным ментальным представлениям может привести к появлению… множества Сант.

Короче говоря, этот эксперимент был манекеном для статистического краш-теста, предназначенного для того, чтобы показать опасности выбоины № 5: Р-хакинга, то есть игры с данными, которая продолжается до тех пор, пока вы не «найдете» то, что искали.

Давайте повторим краш-тест в замедленном режиме. В данном случае было допущено две критические ошибки.

Во-первых, Остин решил, что если Р-значение ниже 0,05, то связь является подлинной. Это совершенно неправильно.

На самом деле не существует показателя, который гарантировал бы подлинность связи. Р-значение – это ключ, но далеко не самый важный, и он определенно не является Великим открывателем фундаментальных истин. Это лишь звук в ночи, а не неопровержимое доказательство существования Санты.

Во-вторых, Остин и его коллеги забросили свою экспериментальную сеть слишком далеко. Вместо того чтобы сформулировать единственную специфическую гипотезу об одном знаке зодиака или диагнозе, они создали, а затем проверили 14 718! Для этого потребовались гигантская база данных и коды, которые позволили сделать тысячи сравнений. Они задавали очень похожие вопросы снова и снова.

Выше ли у риск госпитализации в связи с туберкулезом?

А с сифилисом?

А с подагрой?

А с аппендицитом?

А с… и так далее.


Выше ли у  риск госпитализации в связи с туберкулезом?

А с сифилисом?

А с подагрой?

А с аппендицитом?

А с… и так далее.


Каждый из этих вопросов является основой для отдельного эксперимента. Выходит, что Остин провел не одно испытание, а более 14 тысяч[126].

Что в этом плохого? То, что сделали Остин с коллегами – забросили экспериментальную сеть слишком далеко, а затем выбрали результаты, которые показались им самыми значимыми, – можно сравнить с тем, чтобы родить пятерых детей, а затем ждать 30 лет, чтобы посмотреть, кто из них станет самым успешным (Р-значение < 0,05), отречься от остальных (Р-значение > 0,05) и объявить себя лучшим родителем в истории (опубликовав только те результаты, где Р-значение < 0,05). Остин мог взять гигантскую базу данных, провести более 14 тысяч экспериментов, «обнаружить», что Близнецы на 30 % чаще попадают в больницу из-за алкоголизма, чем представители других знаков зодиака, и опубликовать только этот результат.

Чем больше у вас детей, тем выше вероятность, что как минимум один из них станет успешным, независимо от того, насколько вы хороший родитель. Аналогичным образом, чем больше гипотез вы проверяете, тем выше вероятность, что хотя бы одна из них случайно окажется статистически значимой.

То, о чем мы только что говорили, – это самая примитивная форма Р-хакинга: проверить тысячи гипотез и опубликовать только те, где показатель < 0,05. Есть гораздо более деликатные способы сделать это. Даже профессиональные ученые могут не увидеть в этих способах манипуляций данными. Давайте проведем быстрый мысленный эксперимент. Представьте, что вместо 14 тысяч исследований Остин проводит всего одно: у него есть теория, что Скорпионы чаще бывают алкоголиками, и, чтобы ее доказать или опровергнуть, он просматривает базу данных. Он обнаруживает, что у этого знака риск стать алкоголиками повышен на 37 %! Увы, Р-значение составляет 0,76, гораздо больше 0,05, и, следовательно, результат не является статистически значимым. Стоит ли ему опустить руки и заняться чем-нибудь другим?

Нет.

Остин ученый и всю жизни превращал лимоны в лимонад, не боясь неудач. Он не собирается сдаваться.

Вместо этого он может сказать себе: «Это данные только за 2000 год. Возможно, если объединить информацию за 1999 и 2000 годы, я что-нибудь найду».

И он находит. Результат? Р-значение 0,43.

Окей, все уже движется в правильном направлении. Теперь он использует данные только за 1999 год.

Р-значение 0,12.

Ох, уже совсем близко!

Затем ему в голову приходит мысль: дети не могут быть алкоголиками (по крайней мере, он на это надеется). Он пробует снова, на этот раз используя только данные о людях старше 18 лет.

Р-значение = 0,071.

Почти получилось!

Теперь ему кажется, что учитывать 18-летних неправильно. Возможно, влияние Меркурия становится особенно сильным после 30 лет, поэтому он пробует еще раз, используя данные только о тех, кому от 30 до 40 лет.

Р-значение = 0,98.

Блин!

Теперь ему в голову приходит другая мысль. Вероятно, алкогольная зависимость редко встречается у студентов, поэтому он использует данные только о людях старше 22.

Р-значение = 0,043.

Джекпот! Можно публиковаться!

То, что сделал Остин в нашем мысленном эксперименте, является менее явной формой Р-хакинга. Вместо того чтобы проводить тысячи исследований, он провел одно, а затем подправлял его до тех пор, пока не получил то, что искал. В данном примере он манипулировал только парой переменных: возрастом людей и годом госпитализации. Однако также можно добавить больше людей из разных городов, разделить данные по полу, подправить детали алгоритма, который использовался для определения связей, или провести сотни других манипуляций с данными.