Распространение огромных баз данных в науке не так очевидно для широкой публики, но не менее важно. Например, для проекта «1 000 геномов» было собрано двести терабайт информации и размещено в так называемом крупнейшем публичном каталоге генетических вариаций. В Архиве космических телескопов имени Барбары Микульски, созданном НАСА, накоплено 2,5 петабайта данных, относящихся к нескольким исследованиям глубокого космоса. Но большие данные повлияли не только на передовую науку, они проникли во все сферы научного знания. Всего одно поколение назад морской биолог мог потратить месяцы, чтобы определить численность любимого вида. Теперь у того же биолога есть моментальный доступ к миллионам единиц информации о рыбе, ее икре, содержимом ее желудка и о чем угодно еще. Вместо того чтобы вести учет, биолог расскажет историю.
Для нас важнее вопрос, что идет дальше. Как извлечь смысл из всех этих чисел, битов и пикселей? Объемы данных могут быть гигантскими, но вопросы мы задаем простые. Этот ли ген вызывает рак легких? В каких солнечных системах вероятнее встретить планеты, похожие на Землю? Какие факторы сокращают популяцию нашей любимой рыбы и что с этим делать?
В определенных кругах существует почти религиозная вера в то, что ответы на все эти вопросы можно найти в самих данных, если достаточно хорошо провести их интеллектуальный анализ. Однако читатели этой книги обнаружат, что такая страстная убежденность не всегда имеет под собой основания. Вопросы, которые я только что задал, носят каузальный характер, и на них никогда нельзя ответить, ориентируясь только на информацию. От нас требуется подготовить модель процесса, генерирующего данные или, по крайней мере, каких-то ее аспектов. Всякий раз, когда вы видите статью или исследование, где данные анализируют без модели, вы можете быть уверены, что в итоге они будут просто обобщены и, возможно, трансформированы, но не интерпретированы.
Я не хочу сказать, что интеллектуальный анализ данных бесполезен. Он способен стать важнейшим первым шагом, который позволит найти интересные ассоциативные паттерны и точнее поставить вопросы для трактовки. Теперь можно не спрашивать, существуют ли гены, вызывающие рак легких. Вместо этого достаточно просканировать геном и найти гены, у которых высокая корреляция с раком легких (как в примере с Большим, описанном в главе 9). Потом ставится вопрос, вызывает ли этот ген рак легких (и каким образом). Мы никогда бы не задали вопрос об этом гене, если бы у нас не было интеллектуального анализа данных. Однако, чтобы пойти дальше, необходимо разработать причинную модель, уточняющую, например, на какие переменные воздействует ген, какие здесь возможны осложнители и какие иные причинные пути способны достичь этого результата. Интерпретация данных подразумевает выдвижение гипотез о том, как все происходит в реальном мире.
Еще одна роль больших данных в задачах для причинного вывода открывается в механизме причинного анализа, описанном во вступлении, на последнем этапе его работы (шаг 8), где мы переходим от оцениваемой величины к оценке. Эта стадия статистической оценки принимает нетривиальный оборот, когда число переменных велико, и только современные технологии интеллектуального анализа данных и машинного обучения помогут справиться с проклятием многомерности. Это объясняет, почему большие данные и причинный вывод сегодня играют важнейшую роль в развивающейся персонализованной медицине. Здесь мы пытаемся извлечь выводы из прошлого поведения группы индивидов, как можно более похожих по максимальному набору параметров на данного конкретного человека. С помощью причинного вывода мы отбрасываем нерелевантные характеристики и извлекаем этих индивидов из разнообразных исследований, в то время как большие данные позволяют собрать о них достаточно информации.
Легко понять, почему некоторые люди считают интеллектуальный анализ данных финальным, а не первым шагом. Он обещает решение с использованием имеющихся технологий. Он избавляет и нас, и машины будущего от необходимости рассматривать и формулировать обоснованные предположения о том, как устроен мир. В некоторых областях наши знания находятся в таком зачаточном состоянии, что мы понятия не имеем, как приступить к созданию модели мира. Но большие данные не решат эту проблему. Важнейшая часть ответа должна исходить из модели, нарисованной нами или предложенной и уточненной машинами.
Чтобы не показаться излишне критичным по отношению к работе с большими данными, я хотел бы упомянуть одну новую возможность для их симбиоза с причинным выводом. Она называется транспортабельностью.
Благодаря большим данным мы можем получить доступ к огромному количеству не только людей в любом конкретном эксперименте, но и исследований, проведенных в разных местах и в различных условиях. Часто нам нужно объединить результаты этих исследований и перенести их на новые группы населения, которые могут отличаться даже в том, что будет для нас неожиданным.
Процесс перевода результатов исследования из одних условий в другие играет в науке фундаментальную роль. Фактически научный прогресс остановился бы, если бы у нас не было способности обобщать результаты лабораторных экспериментов и переносить их в реальный мир, например из пробирок на животных и на людей. Но до недавнего времени каждой науке приходилось разрабатывать собственные критерии для отделения валидных обобщений от невалидных, а систематических методов для решения проблемы транспортабельности в целом не существовало.
За последние пять лет мне и моему бывшему студенту (теперь коллеге) Элиасу Барейнбойму удалось найти исчерпывающий критерий, чтобы принять решение о том, переносимы ли результаты. Как обычно, необходимое условие для его использования — представить процесс генерации данных в виде диаграммы причинности, на которой отмечены места потенциальных несоответствий. Переносить результат не обязательно означает принимать его в исходной форме и применять в новой среде. Исследователю, возможно, придется откалибровать его, чтобы учесть различия между двумя средами.
Предположим, мы хотим узнать эффект воздействия рекламы в Интернете (X) на вероятность того, что потребитель купит товар (Y), скажем доску для серфинга. У нас есть данные, полученные в результате исследований в пяти разных местах — в Лос-Анджелесе, Бостоне, Сан-Франциско, Торонто и Гонолулу. Теперь мы хотим оценить, насколько эффективной эта реклама будет в Арканзасе. К сожалению, все группы и все исследования несколько отличаются. Например, группа, изученная в Лос-Анджелесе, моложе, чем наша целевая аудитория, а в Сан-Франциско она отличается по количеству переходов по ссылке. На рис. 65 показаны уникальные характеристики каждой группы и каждого исследования. Можем ли мы объединить данные, полученные в далеких друг от друга местах, чтобы оценить эффективность рекламы в Арканзасе? Можем ли мы сделать это, не собрав данные в Арканзасе? Или измерив лишь ограниченное число переменных? Или проведя пилотное наблюдательное исследование?
Рис. 65. Проблема транспортабельности
На рис. 66 эти различия переведены в форму графика. Переменная Z представляет возраст, который играет роль осложнителя; молодые люди с большей вероятностью увидят рекламу и с большей вероятностью купят продукт, даже если не видели рекламу. Переменная W отражает переход по ссылке с целью получить дополнительную информацию. Это медиатор — шаг, который необходим, чтобы просмотр рекламы превратился в покупку продукта. Буква S в каждом случае обозначает переменную, «производящую различие», т. е. гипотетическую переменную, которая указывает на характеристики, отличающие две группы. Например, в группе б «Лос-Анджелес» индикатор S указывает на Z, возраст. В каждом из иных городов индикатор указывает на характерную черту группы, приведенную на рис. 65.
Для рекламного агентства хорошая новость здесь в том, что компьютер теперь способен справиться с этой сложной проблемой слияния данных и, руководствуясь do-исчислением, сообщить нам, какие исследования используются для ответа на наш запрос и какими способом это делается, а также какую информацию нам нужно собрать в Арканзасе, чтобы подтвердить вывод. В некоторых случаях эффект переносится напрямую, без дополнительной работы — возможно, нам не придется ехать в Арканзас. Например, эффект от рекламы в Арканзасе должен быть таким же, как в Бостоне, потому что согласно диаграмме, группа с отличается от группы а только переменной V, которая не влияет ни на воздействие X, ни на результат Y.
Рис. 66. Различия между исследованными группами, выраженные в графической форме
Нам необходимо по-новому оценить данные в некоторых других исследованиях, положим, принять в расчет иную возрастную структуру населения в лос-анджелесском исследовании б. Интересно, что эксперимента в Торонто e достаточно для оценки нашего запроса в Арканзасе, несмотря на несоответствие в параметре W, если мы можем измерить только X, W и Y в Арканзасе.
Примечательно, что мы нашли примеры, в которых транспортировка невозможна из любого отдельно взятого исследования; тем не менее целевое количество можно оценить по их комбинации. Кроме того, даже исследования, откуда нельзя ничего перенести, не совсем бесполезны. Так, исследование Гонолулу е на рис. 66 невозможно транспортировать из-за стрелки S → Y. Однако стрелка X → W не загрязнена S, поэтому данные, полученные в этой группе, можно использовать для оценки P (W | X). Объединив это с оценками P (W | X) из других исследований, мы повысим точность этого подвыражения. Тщательно комбинируя такие подвыражения, мы можем синтезировать точную общую оценку целевого количества.
Хотя в простых случаях эти результаты интуитивно разумны, когда диаграммы становятся более сложными, нам нужна помощь формального метода.