Природа, однако, ведет себя далеко не последовательно, ее ответы переменчивы, жеманны, двусмысленны. Она отвечает на вопрос в той форме, в которой он поставлен перед ней в эксперименте, а не в той, которая в голове у экспериментатора; она не собирается переводить ответы на понятный ему язык; ничем не делится даром; и она помешана на точности. Поэтому экспериментатор, который хочет, например, сравнить два удобрения, потратит время впустую, если, разделив свое поле на две равные части, удобрит одну одним, а вторую другим, затем засеет и сравнит собранный урожай между двумя половинами. Вопрос его задан так: какова разница между урожаем с участка А при условиях 1 и урожаем с участка Б при условиях 2? Он не спросил сначала, будет ли участок А давать урожай, одинаковый с участком Б при одинаковых условиях, и он не сможет отделить влияние свойств участка от влияния экспериментальных условий, поскольку Природа, в соответствии с запросом, записала не только вклады каждого из двух различных удобрений в урожай, но и вклады, определяемые различиями между участками в плодородии почв, структуре, водоотведении, расположении, микрофлоре и сотнями других переменных».
Автор этого отрывка — Джоан Фишер Бокс, дочь Рональда Фишера, он взят из написанной ею биографии ее прославленного отца. Хотя сама она не посвятила себя статистике, она явно очень глубоко понимает главный вызов, с которым статистики сталкиваются. Она недвусмысленно утверждает, что вопросы, которые они задают, «нацелены на установление причинно-следственных связей». А то, что стоит у них поперек дороги, — это конфаундеры, хотя она и не употребляет этот термин. Они хотят узнать влияние удобрения (тогда говорили «унавоживания»), т. е. ожидаемую урожайность при применении одного удобрения в сравнении с урожайностью при применении альтернативы. Природа, однако, говорит им о влиянии удобрения в смеси (помните термин «вмешивающаяся переменная»?) со следствиями множества других причин.
Мне нравится образ, который Фишер Бокс предложила в процитированном отрывке: природа словно джинн из сказки, который отвечает точно на тот вопрос, который мы ему реально задали, а не на тот, который хотели бы задать. Но нам приходится верить (а Фишер Бокс, очевидно, верит), что ответ на тот вопрос, который мы хотим задать, действительно существует в природе. Наши эксперименты — это довольно неряшливый способ получить этот ответ, но они ни в коем случае не определяют его. Если мы точно следуем ее аналогии, то do (X = x) должно быть сначала, потому что это свойство природы, представляющее искомый ответ: как повлияет на урожай применение первого удобрения на всем поле? Только затем идет рандомизация, потому что это присущий человеку способ получить ответ на данный вопрос. Можно сравнить ее с датчиком термометра, который представляет собой способ измерения температуры, но не саму температуру.
В молодые годы, работая на опытной станции в Ротамстеде, Фишер обычно применял очень сложный, систематический подход, для того чтобы отделить влияние удобрения от других переменных. Он делил свои поля на сетку из небольших участков и тщательно планировал исследование так, чтобы каждое удобрение было испробовано с каждым опытным видом растений и типом почвы (рис. 23). Он проделывал это с целью получить уникальные образцы для сравнения их между собой; в реальности он никогда не смог бы предугадать все конфаундеры, способные определять плодородие данного участка. Достаточно умный джинн сможет победить любую самую совершенную схему структурирования поля.
Примерно в 1923 или 1924 году Фишер догадался, что единственный дизайн исследования, неподвластный «джинну», — это случайность. Представим, что мы ставим этот же самый эксперимент 100 раз на поле с неизвестным распределением плодородия почвы. Каждый раз вы назначаете то или иное удобрение для того или иного участка поля случайным образом. Иногда вам очень не везет, и вы назначаете удобрение 1 как раз на те участки, которые сами по себе наименее плодородны. В другой раз, наоборот, оно случайно попадает на плодородные участки. Но если вы свободно и случайно тасуете части поля при всякой следующей итерации эксперимента, можно гарантировать, что эффект везения или невезения нивелируется. В этом случае удобрение 1 будет назначено на определенной общей выборке участков поля, репрезентативно представляющей поле в целом. Это как раз то, что и нужно для контролируемого опыта. Поскольку распределение плодородности по полю остается одним и тем же во всех итерациях эксперимента — «джинн» не может его изменить, — он оказывается вынужден ответить (ну чаще всего!) на тот каузальный вопрос, который вы ему задали.
С нашей современной точки зрения в эпоху, когда рандомизированные опыты — это золотой стандарт, все вышесказанное может казаться очевидным. Но в то время сама идея случайности в схеме эксперимента привела коллег Фишера на статистическом поприще в откровенный ужас. Неприязнь усиливало, вероятно, и то, что Фишер буквально вынимал карты из тасованной колоды, назначая то или иное удобрение для определенных участков поля. Подчинить науку причудам шанса — каково!
Рис. 23. Одна из множества придуманных инноваций Р. Э. Фишера — схема исследования «латинский квадрат», согласно которой один участок, засаженный данным типом растений, появляется в каждой строке (тип удобрения) и в каждом столбце (тип почвы). Подобные схемы все еще используются на практике, но Фишер затем убедительно показал, что рандомизированная схема еще более эффективна.
Однако Фишер хорошо понимал, что не очень точный ответ на правильный вопрос гораздо лучше, чем очень точный ответ на неверный вопрос. Если задавать «джинну» неправильные вопросы, вам никогда не выяснить у него то, что вы хотите знать. Если же вы ставите вопрос правильно, отдельные неверные ответы — гораздо меньшая проблема. Вы можете оценить, насколько эти ответы неточны, потому что неточность образуется в результате процедуры рандомизации (которая известна и понятна), а вовсе не из-за характеристик почвы на участках (которые неизвестны).
Таким образом рандомизация дает нам два преимущества. Первое — она элиминирует системную ошибку (благодаря ей мы правильно задаем вопрос природе). Во-вторых, она позволяет исследователю оценить неточность ответа. Тем не менее, согласно историку Стивену Стиглеру, Фишер ратовал за рандомизацию преимущественно из-за второго момента. В подсчете неточности, или, статистическим языком, ошибки, ему не было равных в мире, он разработал для этого множество новых математических процедур. При этом его понимание вмешивающихся переменных и их устранения было чисто интуитивным, поскольку ему недоставало математической символики, для того чтобы адекватно передать то, что он искал.
Теперь, через 90 лет, мы можем воспользоваться оператором do, чтобы ответить на вопросы, которые Фишер хотел, но не мог задать. Давайте взглянем с каузальной точки зрения, каким образом рандомизация позволяет нам задать «джинну» правильный вопрос.
Начнем, как обычно, с каузальной диаграммы. Модель 1, показанная на рис. 24, показывает, как урожайность каждого участка определяется при нормальных условиях, когда фермер решает, как удобрять тот или иной участок, руководствуясь предвзятостью или прихотью. Вопрос, который он хочет задать джинну по имени Природа, таков: «Какова будет урожайность при однородном применении удобрения 1 (в сравнении с удобрением 2) на всем поле?». Или в терминах оператора do: каково P (урожай do (удобрение = 1))?
Рис. 24. Модель 1: неправильно контролируемое исследование
Если фермер ставит эксперимент наивно, например применяя удобрение 1 на верхней части поля, а удобрение 2 на нижней, то в качестве вмешивающейся переменной у него, вероятно, окажется дренированность. Если в один год он применит удобрение 1, а на другой — удобрение 2, то вмешивающейся переменной окажется погода. В любом случае сравнение окажется необъективным.
То, что хотел бы знать фермер, описывается моделью 2, когда все участки получают одно и то же удобрение (рис. 25). Как объяснялось в главе 1, действие оператора do — стереть все стрелки, идущие к «удобрению», и придать этой переменной определенное значение, положим удобрение = 1.
Рис. 25. То, что мы хотели бы знать
Наконец, давайте посмотрим, как все будет выглядеть после применения рандомизации. Теперь на некоторых участках поля будет do (удобрение = 1), а на других do (удобрение = 2), но выбор — какое воздействие будет оказано и на какой участок — окажется случайным. Эта ситуация описывается моделью 3 на рис. 26, в которой значение переменной удобрение назначается рандомизирующим устройством, например колодой карт, как у Фишера.
Рис. 26. Модель 3: ситуация, симулированная рандомизированным контролируемым опытом
Обратите внимание, что все стрелки, направленные к переменной удобрение, теперь исчезли, отражая предположение, что фермер в своем выборе удобрения на участке руководствуется только выпавшими картами. Не менее важно и то, что от переменной карта к переменной урожайность нет стрелки, потому что растения не знают, что на карте (в случае растений это надежное допущение, но если рандомизированный опыт ставится на людях, об этом стоит подумать). Таким образом, модель 3 описывает ситуацию, в которой отношения между переменными удобрение и урожайность не осложнены (т. е. у них нет никакой общей причины). Это значит, что в ситуации на рис. 26 наблюдение удобрение = 1 — это то же самое, что и интервенция удобрение = 1.
Это подводит нас к ключевому выводу: рандомизация — это способ симулировать модель 2. Она убирает все имевшиеся конфаундеры, не внося новых. В этом источник ее силы: в ней нет ничего таинственного или мистического. Это всего лишь, как выразилась Джоан Фишер Бокс, «искусный допрос Природы». Эксперимент, однако, утратил бы свою объективность, если бы экспериментатор назначал бы удобрения по своему выбору или если бы растения на участке «знали», какая карта им выпала. Вот почему клинические исследования с участием людей приходится организовывать с большим вниманием к