Все лгут. Поисковики, Big Data и Интернет знают о вас всё — страница 12 из 18

Приглядимся повнимательнее

Мой брат Ной на четыре года младше меня. Большинство людей при первой встрече с нами говорят, что мы очень похожи. Мы оба слишком громко говорим, одинаково лысеем и с большим трудом сохраняем порядок в своих квартирах.

Но есть и различия. Я прижимист, а Ной покупает все самое лучшее. Я люблю Леонарда Коэна и Боба Дилана, а Ной – Cake и Beck.

Пожалуй, самым заметным отличием между нами является наше отношение к бейсболу. Я обожаю его и в частности «Нью-Йорк Метс». Ной же находит бейсбол невероятно скучным, и его ненависть к спорту уже давно стала неотъемлемой частью его личности[23].


Сет Стивенс-Давидовиц, обожает бейсбол


Ной Стивенс-Давидовиц, ненавидит бейсбол


Как получилось, что двое парней со столь сходными генами, воспитанные одними и теми же родителями в одном и том же городе, имеют такие противоположные чувства к бейсболу? Что определяет, какими взрослыми мы вырастем? Или более принципиально: что не так с Ноем? Лежит ли ответ в области психологии развития, которая собирает, отфильтровывает и анализирует большие массивы баз данных взрослого человека, а также сопоставляет их с ключевыми событиями детства? Это может помочь нам решить данный, а также смежные вопросы. Такой процесс можно было бы назвать расширенным использованием больших данных.

Чтобы увидеть, как это работает, давайте рассмотрим одно из проведенных мной исследований. Оно касалось того, как детские впечатления влияют на выбор бейсбольной команды{115}, за которую вы болеете – или готовы ли вы вообще переживать за какую-либо команду. Для этого исследования я использовал статистику Facebook о «лайках» бейсбольных команд. В предыдущей главе я отметил, что данные Facebook могут быть далеки от реальности во всем, что касается деликатных вопросов. В данном же случае я полагаю, что никто, даже фанаты Филли[24], не стесняются признаваться на Facebook в интересе к определенной команде.

Для начала я проанализировал возраст мужчин, лайкавших странички одной из двух нью-йоркских бейсбольных команд. Вот график, отражающий число болельщиков «Метс» в зависимости от года их рождения.



Чем выше точка, тем больше поклонников у команды. Ее популярность растет и падает, потом снова возрастает и опять падает. «Метс» были очень известны среди родившихся в 1962 и 1978 годах. Полагаю, поклонники бейсбола понимают, в чем тут дело. «Метс» выиграли всего две мировые серии – в 1969 и 1986 годах. В те годы мужчинам 1962 и 1978 г. р. было примерно по семь-восемь лет. Таким образом, важным прогностическим фактором симпатии к «Метс» – по крайней мере среди мальчиков – является тот факт, выиграла ли команда Мировую серию, когда им было около семи или восьми лет, или нет.

На самом деле мы можем расширить этот анализ. Я изучил информацию на Facebook, показывающую, сколько фанатов различных команд разного возраста поставили лайки любой из широкого выбора команд MLS[25] и обнаружил, что существует необычно большое количество мужчин 1962 года рождения, болеющих за «Балтимор Ориолс». И мужчин 1963 года рождения, поддерживающих «Питсбург Пайрэтс». Когда указанные команды были чемпионами, эти люди были восьмилетними мальчиками. Вычислив возрастной пик поклонников всех изученных мной команд, я составил следующий график:



В очередной раз мы видим: самый важный год в жизни мужчины{116}, определяющий выбор его любимой бейсбольной команды во взрослом возрасте – плюс-минус восемь лет. В целом, возраст от 5 до 15 является ключевым периодом для покорения сердца мальчика. В 19 или 20 лет этот показатель сокращается до ⅛ от пикового значения. И как раз в это время вопрос решится окончательно: либо парень полюбит какую-то команду на всю жизнь, либо вообще не будет интересоваться этим видом спорта.

Вы можете спросить: а что насчет женщин – любительниц бейсбола? Здесь зависимость выражена намного менее ярко, а возрастной пик, похоже, приходится на возраст около 22 лет.

Это мое любимое исследование. Оно касается двух моих самых обожаемых тем – бейсбола и источников моей взрослой неудовлетворенности. Я прочно подсел на бейсбол в 1986 году и страдал в одиночестве, болея за «Метс» – и болею до сих пор. Ной родился четыре года спустя и был избавлен от этого.

Сегодня бейсбол – не самая важная тема в мире, по крайней мере так неоднократно говорил мне мой консультант, доктор философии. Но моя методика может помочь нам решить подобные вопросы – в том числе показать, как люди формируют свои политические или сексуальные предпочтения, музыкальные вкусы и финансовые привычки. (Мне было бы особенно интересно узнать о происхождении сумасшедших идей моего брата в области последних двух тем.) Полагаю, мы увидим, что многие из наших взрослых привычек и интересов (даже те, которые мы считаем основополагающими) могут быть объяснены произвольными фактами – датой нашего рождения или тем, что происходило в те несколько ключевых лет, пока мы были молоды.

Конечно, подобные работы уже проводились, они касались происхождения политических предпочтений. Яир Гитца, главный научный сотрудник компании «Catalist», занимающейся анализом данных, и Эндрю Гельман, политолог, статистик Колумбийского университета, пытались проверить расхожую мысль о том, что большинство людей начинают с либеральных идей, но с возрастом скатываются в консерватизм. Это мнение выражено известной цитатой, часто приписываемой Уинстону Черчиллю: «Если человеку еще нет 30 и он не либерал, значит, у него нет сердца; если человеку уже за 30 и он не консерватор, значит у него нет мозгов».

Гитца и Гельман потратили 60 лет на обработку данных исследований, включивших в себя более 300 тысяч наблюдений за предпочтениями избирателей. И обнаружили, вопреки утверждению Черчилля, что подростки иногда придерживаются либеральных взглядов, а иногда – консервативных. То же самое касается людей среднего возраста и пожилых.

Их работа явно продемонстрировала, что политические взгляды на самом деле формируются точно так же, как и спортивные предпочтения. Есть критический период, оказывающий решающее влияние на всю остальную жизнь. Между 14 и 24 годами множество американцев формируют свое мнение, основываясь на славе президента. Популярный республиканец или непопулярный демократ – и многие молодые люди станут республиканцами. Наоборот – и очередное поколение пополнит колонны демократов. И эти взгляды, обретенные в ключевой период, у большинства американцев останутся на всю жизнь.

Чтобы увидеть, как это работает, сравните предпочтения американцев, родившихся в 1941 году, и тех, кто родился десятилетие спустя.

Представители первой группы достигли совершеннолетия во время президентства популярного республиканца Дуайта Эйзенхауэра. В начале 1960-х, несмотря на то, что этим людям было под 30, они в основном голосовали за представителя Республиканской партии. И даже старея, представители этого поколения постоянно склонялись к поддержке республиканцев.

Американцы, родившиеся на 10 лет позже – беби-бумеры, – достигли совершеннолетия во время президентства Джона Ф. Кеннеди, чрезвычайно популярного демократа. Линдон Джонсон был изначально прославленным демократом. Ричард Никсон являлся республиканцем, который в конечном счете ушел в отставку с позором. Представители этого поколения всю свою жизнь склонялись к либеральному образу мыслей.

Имея все эти данные, исследователи смогли определить самый важный возраст для выработки политических взглядов – 18 лет.

Они обнаружили, что этот эффект импринтинга очень важен. Их модель предполагает, что в результате президентства Эйзенхауэра число республиканцев, родившихся в 1941 году, увеличилось на 10 %. Кеннеди, Джонсон и Никсон увеличили количество демократов среди американцев, родившихся в 1952 году, на 7 %.

Я дал понять, что скептически отношусь к данным исследования, но меня впечатляет количество рассмотренных откликов. В действительности подобная работа не могла быть сделана на основании одного небольшого опроса. Чтобы увидеть, как именно меняются предпочтения с возрастом, ученым нужны были сотни тысяч наблюдений и обобщения многих исследований.

Для моего анализа любви или нелюбви к бейсболу объем данных также имел решающее значение. Мне нужно было узнать не только количество болельщиков каждой команды, но и разбить их по возрасту. Для этого требуются миллионы наблюдений – и Facebook вместе с другими цифровыми источниками способны предоставить нам подобную информацию.

Здесь вступает в игру объем исследуемой статистики. Нужно иметь много пикселей в фотографии, чтобы можно было увеличить четкость изображения одной ее малой части. Аналогично, необходимо много наблюдений в общем массиве данных для того, чтобы иметь возможность увеличить четкость одного небольшого подмножества – например, сказать, насколько популярна команда «Метс» среди мужчин 1978 года рождения. Небольшой опрос пары тысяч человек не будет достаточно большой выборкой.

Это третье достоинство больших данных: они позволяют рассмотреть вблизи мелкие сегменты большого массива – чтобы получить новую информацию о том, кто мы есть. Можем присмотреться и к другим параметрам помимо возраста. Если у нас есть достаточно информации, мы в состоянии понять, как ведут себя люди, живущие в определенных городах и поселках. Мы можем посмотреть даже, как они действуют ежечасно и ежеминутно.

В этой главе мы пристально посмотрим на поведение людей.

Что на самом деле происходит в наших регионах, городах и поселках?

Оглядываясь назад, все кажется удивительным. Но когда Радж Четти, ставший затем профессором в Гарварде, и его небольшая исследовательская группа впервые изучили довольно большой набор данных – налоговые записи всех американцев с 1996 года, – они не были уверены в какой-либо его пользе. Налоговая передала им эту информацию, поскольку ее руководство сочло, что исследователи могли бы использовать ее для прояснения последствий налоговой политики.

Первоначальные попытки Четти и его команды использовать эту статистику заводили их в многочисленные тупики. Их анализ последствий Федеральной налоговой политики и налоговой политики штатов приводил в основном к тем же выводам, которые получали все остальные исследователи, работавшие только с этой информацией. Возможно, результаты Четти, использовавшего сотни миллионов единиц данных налоговой службы, были немного более точными. Но получение практически такого же результата, как и у остальных, не является серьезным достижением социальной науки. Это не тот тип работы, о котором готовы писать в лучших научных журналах.

Более того, организация сбора и анализ всех данных налоговой службы занял много времени. Четти и его команда, потонув в информации, потратили на получение тех же результатов даже больше времени, чем все остальные ученые.

Стало казаться, что люди, скептически относившиеся к идее больших данных, были правы. Не нужно перелопачивать данные сотен миллионов американцев, чтобы разобраться в налоговой политике – опроса десяти тысяч человек оказалось бы вполне достаточно. Четти и его команда были, естественно, обескуражены.

И вот наконец ученые поняли свою ошибку. «Это не простое исследование, которое основано на большем массиве данных», – объясняет Четти{117}. Исследователи задавали слишком мало вопросов относительно данных, которые им были переданы. «Большие данные позволяют вам использовать совершенно другие конструкции, отличные от тех, которые применялись при опросах, – добавляет Четти. – Можно, например, более внимательно отнестись к географии распределения данных».

Другими словами, имея информацию о сотнях миллионов людей, Четти и его команда смогли определить закономерности, относящиеся к городам и различным регионам – большим и малым.

Будучи аспирантом Гарварда, я был в конференц-зале, когда Четти представил свои первые результаты, пользуясь данными налогового учета каждого американца. Социологи обращаются в своем творчестве к наблюдениям: сколько элементов у них имеется. Если социолог работает с опросом 800 человек, он говорит: «У нас восемь сотен наблюдений». Если он работает с лабораторным экспериментом, в котором принимали участие 70 человек, он скажет: «У нас есть семьдесят наблюдений».

«У нас есть 1,2 миллиарда наблюдений», – сказал Четти. Зрители нервно хихикнули.

И Четти с соавторами начали – сначала в конференц-зале, а затем в серии статей – демонстрировать нам важные новые выводы о жизни американского общества.

Рассмотрим такой вопрос: является ли Америка страной больших возможностей? Есть ли у вас шанс сколотить состояние, если ваши родители небогаты?

Традиционный способ ответа на этот вопрос – посмотреть на репрезентативную выборку американцев и сравнить ее с аналогичной статистикой других стран.

Вот данные по разным странам о равенстве возможностей. Был задан вопрос: какова вероятность того, что человек с родителями, входящими в 20 % самых бедных жителей страны, попадет в 20 % людей с наиболее высокими доходами?



Как видите, у США не самый высокий результат.

Но в этом простом анализе не хватает конкретики. Команда Четти подобрала материалы по регионам и обнаружила, что шансы разбогатеть сильно различаются в зависимости от того, в какой части страны вы родились.



В некоторых частях Соединенных Штатов шанс бедного ребенка преуспеть равен шансу в любой развитой стране мира. В других частях США вероятность того, что бедный ребенок станет богатым, ниже, чем в любой развитой стране мира.

Эти результаты никогда не были бы получены при небольшом опросе, который содержал бы данные лишь о нескольких людях из Шарлотт и Сан-Хосе. Естественно, это не позволило бы создать такую разбивку по регионам, которую сделала команда Четти.

На самом деле ученые смогли еще более конкретизировать разбиение по географическому признаку. Поскольку они обладали столь большим массивом данных – информацией о каждом американце в стране, – то умудрились учесть даже небольшие группы людей, мигрировавших из города в город. И смогли понять, как это может повлиять на перспективы переехавших из Нью-Йорка в Лос-Анджелес, из Милуоки в Атланту, из Сан-Хосе в Шарлотт. Это позволило им проверить причины и следствия, а не только корреляцию (различия между этими понятиями мы обсудим в следующей главе). И, да – переезд в «правильный» город в годы формирования личности значительно повлиял на конечный результат.

Так как, является ли Америка «страной больших возможностей»?

Ответ: ни да, ни нет. Некоторые регионы таковыми являются, а некоторые нет.

Как пишут авторы, «США лучше описывать как совокупность обществ, некоторые из которых являются «страной больших возможностей» с высоким уровнем мобильности в зависимости от поколения, а в других лишь небольшому числу детей удается выбраться из нищеты».

Так что можно сказать о тех частях Соединенных Штатов, где существует высокая мобильность доходов? Что делает некоторые места страны лучше, позволяя бедному ребенку добиться лучших условий жизни? Территории, где тратится больше средств на образование, предоставляют больше шансов. В местах с более религиозным населением и более низким уровнем преступности у детей также больше возможностей выбраться из нищеты. А вот регионы с большим количеством чернокожего населения уменьшают этот шанс. Что интересно, это относится не только к чернокожим детям, но и к живущим там белым. В местах с большим количеством матерей-одиночек ситуация хуже. Там этот эффект сказывается не только на детях одиноких матерей, но и на их ровесниках, растущих в полных семьях. Некоторые из полученных результатов свидетельствуют о несомненной важности окружения ребенка, его сверстников. Если у его друзей сложный семейный фон и мало возможностей, для избежания нищеты ему придется больше бороться.

Данные говорят нам о том, что некоторые регионы США обеспечивают детям больший шанс вырваться из нищеты. А в каких областях у людей больше шансов избежать встречи со «старухой с косой»{118}?


Мы предпочитаем думать, что смерть уравнивает всех. Никто не может ее избежать – ни нищий, ни король, ни бездомный, ни Марк Цукерберг. Все умрут.

Но если богатые не могут избежать смерти, они по крайней мере в состоянии отсрочить ее приход. Американские женщины, входящие в группу 1 % людей с наиболее высоким доходом, в среднем живут на 10 лет дольше, чем американские женщины из 1 % людей с наиболее низким доходом. У мужчин этот разрыв достигает 15 лет.

Как результаты различаются в разных регионах США? Зависит ли ваша продолжительность жизни от того, где вы живете? Разнятся ли эти данные для богатых и бедных? Команда Раджа Четти нашла ответы на эти вопросы – опять же за счет увеличения объема данных и разбивки их по географическому признаку.

Интересно, что средняя продолжительность жизни богатых американцев почти не зависит от того, где они живут. Если у вас есть излишек денег, вы можете ожидать, что проживете примерно 89 лет будучи женщиной или около 87 лет, если вы мужчина. Богатые люди везде стремятся развивать у себя здоровые привычки. В среднем они больше тренируются, лучше питаются, меньше курят и реже страдают от ожирения. Богатые могут позволить себе беговую дорожку, органические авокадо, занятия йогой. И они могут купить это все в любом уголке Америки.

У бедных история другая. Продолжительность жизни самых нищих американцев существенно варьируется в зависимости от того, где они живут. В самом деле, если обитать в подходящем месте, можно добавить пяток лет к продолжительности жизни бедного человека.

Так почему же в некоторых местах бедняки могут жить настолько дольше? Что такого есть в этих городах?

Вот четыре характеристики города. Три из них не коррелируют с продолжительностью жизни бедных, но одна связана с ней. Посмотрите, сможете ли вы догадаться, какая именно?

Что позволяет бедному человеку прожить в определенном городе значительно дольше?

Жители города значительно более религиозны.

В городе низкий уровень загрязнения.

В городе высокий процент жителей имеют медицинские страховки.

В городе живет много богатых людей.

Первые три – религия, окружающая среда и медицинское страхование – не коррелируют с продолжительностью жизни бедных. Переменная, имеющая решающее значение, по данным Четти и других исследователей, – число богатых людей, живущих в городе. Чем их больше, тем дольше живут и бедняки. Например, в Нью-Йорке они живут намного дольше, чем в Детройте.

Почему же наличие богачей является таким мощным фактором продолжительности жизни бедных людей? Одну из гипотез – с которой можно поспорить – выдвинул Дэвид Катлер, один из авторов исследования и один из моих советчиков. Причиной может быть заразное поведение.

Существует большое количество исследований, показывающих, что привычки заразны{119}. Бедняки, живущие рядом с богачами, могут перенять у них ряд привычек. Некоторые из них – скажем, пафосная лексика – не могут оказать влияния на здоровье. Но другие – например физические тренировки – способны создать положительный эффект. Действительно, бедные люди, живущие рядом с богатыми, работают больше, меньше курят и реже страдают от ожирения.


Мне особенно нравится одно исследование команды Раджа Четти, получившей доступ к массиву данных налоговой инспекции. Ученые разобрались, почему одни люди уходят от налогов, а другие нет{120}. Объяснить причины этого явления немного сложнее.

Очень важно знать о существовании простого способа для самозанятых людей, имеющих одного ребенка, максимизировать сумму денег, получаемых от правительства. Если вы сообщите, что ваш налогооблагаемый доход ровно 9000 долларов в год, государство выпишет вам чек на 1377 долларов – эта сумма отражает скидку с подоходного налога, своего рода грант для работающих бедняков. Если вы сообщите о более высоком доходе, сумма налогов немедленно увеличится. Сообщите о меньшей сумме, и налоговый вычет уменьшится. Налогооблагаемый доход в размере 9000 долларов – это самый выгодный вариант.

И как ни странно, самозанятые люди с одним ребенком чаще всего сообщают о доходе именно в 9000 долларов.

Неужели эти американцы скорректировали свои графики работы специально для получения идеальной суммы дохода? Нет конечно. Когда таких работников проверяли в случайном порядке – очень редкое явление, – почти всегда выяснялось, что они заработали либо существенно меньше 9000 долларов, либо существенно больше.

Другими словами, они жульничали с налогами, делая вид, что заработали именно ту сумму, которая обеспечит им самый большой чек от государства.

Насколько типичным был этот вид налогового мошенничества и кто среди самозанятых людей с одним ребенком скорее всего его совершал? Согласно данным Четти и его коллег, распространенность этого вида жульничества очень сильно колебалась в зависимости от региона. Среди людей этой категории о заработке в 9000 долларов в Майами сообщили 30 %, тогда как в Филадельфии – всего 2 %.

Что нам укажет на обманщиков? Что известно о местах с наибольшим количеством подобных мошенников и о местах, где их меньше всего? Мы можем сопоставить уровни приписок с другими демографическими параметрами различных городов. В результате получается, что существует два мощных прогностических фактора: высокая концентрация в регионе людей, профессия которых предполагает налоговые льготы, и высокая концентрация налоговых специалистов.

На что указывают эти факторы? Четти и его команда дают объяснение. Ключевым катализатором подобного ухода от налогов была информация.

Большинство самозанятых налогоплательщиков с одним ребенком просто не знают, что магическое число для получения наибольшей суммы от государства – 9000 долларов. Но живя рядом с теми, кто знает – это могут быть соседи или налоговый консультант, – у них резко возрастают шансы пронюхать об этом.

На самом деле команда Четти нашла еще больше доказательств того, что знания ведут к обману. Когда американцы переезжали из региона с невысоким уровнем подобного мошенничества в район с довольно значительным, они перенимали этот трюк. Постепенно обман распространился от региона к региону по всей территории США. Уход от налогов оказался заразным, как вирус.

Теперь остановитесь на минуту и подумайте о том, насколько интересные результаты дало это исследование. Оно показало, что, когда речь пойдет об афере с налогами, самым важным будет не определить, кто честный, а кто нечестный. Самым важным будет понять, кто знает, как мухлевать, а кто – нет.

Поэтому когда кто-то говорит вам, что никогда не уклоняется от уплаты налогов, есть довольно высокая вероятность, что он врет. Исследование Четти показывает: многие мошенничали бы, если бы знали как.

Если вы хотите сжульничать со своими налогами (но я вам не рекомендую этого делать), вы должны жить рядом со специалистом в области налогообложения или быть соседом налоговых мошенников, которые могут подсказать вам, что нужно делать.

Если вы хотите, чтобы ваши дети стали знаменитостями, где вы должны жить?

Большие данные предоставляют возможность более пристально взглянуть на мир и получить действительно детализированный ответ на любой поставленный вопрос – и этот тоже.


Мне было любопытно, откуда приезжают самые успешные американцы, и вот однажды я решил ознакомиться с «Википедией»{121}. (Сегодня вы тоже можете это сделать.)

Немного программирования, и вот у меня есть набор данных о более чем 150 тысячах американцев, которых редакторы «Википедии» сочли достаточно заметными и достойными попасть в эту базу данных. Информация включала место и дату рождения, профессию и пол. Я соединил ее с региональными сведениями о рождении, собранными Национальным центром статистики департамента здравоохранения. После чего подсчитал шансы на попадание в Википедию людей, родившихся в каждом графстве США.

Можно ли сказать, что упоминание в «Википедии» является заметным достижением? Конечно, имеются некоторые ограничения. Редакторы «Википедии» больше внимания обращали на молодых мужчин, что может вызвать смещение выборки. А некоторых персонажей нельзя считать особо достойными. Например, Тед Банди попал в «Википедию», потому что убил десятки молодых женщин. В результате мне пришлось удалить преступников, что, впрочем, не оказало существенного влияния на результаты.

Я ограничил исследование беби-бумерами (людьми, рожденными в период между 1946 и 1964 годами), потому что у них было время на то, чтобы проявить себя – практически, целая жизнь. Примерно один из 2058 рожденных в Америке беби-бумеров был сочтен достаточно заметным, чтобы попасть в «Википедию». Около 30 % – за достижения в области искусства или развлечения, 29 % – спортсмены, 9 % – политики и 3 % – за научные результаты.

Первый поразительный факт, который я заметил – огромная географическая изменчивость вероятности достижения большого успеха, по крайней мере по меркам «Википедии». Ваши шансы стать заметной фигурой в значительной степени зависят от места вашего рождения.

В «Википедию» попал примерно один из 1209 беби-бумеров, рожденных в Калифорнии. Тогда как уроженцев Западной Виргинии там – один из 4496 беби-бумеров. При разбиении по округам результаты становятся еще более красноречивыми. До упоминания в «Википедии» добрался примерно один из 748 беби-бумеров, родившихся в графстве Саффолк, штат Массачусетс. А в некоторых других штатах процент успеха был в 20 раз меньшим.

Почему оказалось, что в некоторых частях страны гораздо легче штамповать влиятельных людей? Я внимательно осмотрел лучшие округа и выяснил, что почти все они вписываются в одну из двух категорий.

Во-первых – и это меня удивило, – во многих из этих регионов имеется большой студенческий городок{122}. Почти каждый раз, когда я видел название графства (например Уоштено, штат Мичиган), я узнавал, что там имеется классический университетский городок, в данном случае – Энн-Арбор. В верхние 3 % попадают такие округа, как: Мэдисон, штат Висконсин; Афины, штат Джорджия; Коламбия, штат Миссури; Беркли, штат Калифорния; Чапел-Хилл, штат Северная Каролина; Гейнсвилл, штат Флорида; Лексингтон, штат Кентукки; Итака, штат Нью-Йорк.

Почему так? Некоторые из попавших в «Википедию» людей вполне могут быть сыновьями и дочерьми преподавателей и аспирантов. Последние, как правило, достаточно умны (черта, которая в борьбе за большой успех может быть весьма полезной). И действительно, большое число выпускников колледжей в регионе является мощным прогностическим фактором успеха родившихся там людей.

Но, скорее всего, влияние имеет и еще кое-что – раннее приобщение ко всему новому. В городках, где располагаются колледжи, особенно хорошо развивается все, связанное с музыкой. У ребенка в университетском городке будет больше возможностей попасть на уникальные концерты, услышать передачи необычных радиостанций, там есть даже независимые музыкальные магазины. И дело не ограничивается искусством. Университетские городки поставляют довольно большой процент заметных бизнесменов. Возможно, раннее знакомство с передовым искусством и идеями способствует развитию умения организовывать бизнес.

Успех университетских городков касается не только регионов. Он связан и с расами тоже. Афроамериканцы недостаточно представлены в «Википедии» (за исключением спортсменов) – особенно, если говорить о бизнесе и науке. Это, несомненно, сильно связано с дискриминацией. Но в одном маленьком графстве, где 84 % населения 1950 года рождения – черные, родилось почти столько же заметных беби-бумеров, сколько в графствах с наибольших процентом людей, упомянутых в «Википедии».

Из менее чем 13000 беби-бумеров, рожденных в округе Мэкон, штат Алабама, 15 попали в «Википедию» – или один из 852. И каждый из них – чернокожий. 14 из них были из города Таскджи, в котором расположился университет Таскджи, исторически «черный» колледж, основанный Букером Т. Вашингтоном. В списке выходцев из этого региона присутствуют судьи, писатели и ученые. На самом деле, черный ребенок, родившийся в Таскджи, имел такую же вероятность стать заметным не только в спорте, как и белый ребенок, родившийся в одном из городов с университетом, в котором учатся в основном белые.

Во-вторых, скорее всего, в «Википедию» попадут уроженцы округа, включающего в себя большой город. Наиболее высокая вероятность попадания в «Википедию» у тех, кто родился в Сан-Франциско, Лос-Анджелесе или Нью-Йорке. (Я объединил пять округов Нью-Йорка вместе, поскольку во многих статьях «Википедии» не указан район рождения.)

Урбанистические регионы, как правило, являются элементом модели успеха. Чтобы оценить значение возможности быть в молодости рядом с успешными профессионалами, сравните Нью-Йорк, Бостон и Лос-Анджелес. Среди них первый производит больше всего журналистов самого высокого уровня, второй – самых заметных ученых, а третий – самых знаменитых актеров. Помните, мы говорим о людях, которые родились там, а не переехали туда. И это справедливо даже после вычитания людей, чьи родители проявили себя в той же области.

Графства, в которых нет крупных городов с колледжами, демонстрируют гораздо худшие результаты, чем городские округа.

Мои родители, как и многие беби-бумеры, переехали от людных тротуаров к зеленым улицам – в моем случае из Манхэттена в округ Берген, Нью-Джерси. Потенциально это было ошибочным решением – по крайней мере с точки зрения воспитания детей-знаменитостей. Ребенок, рожденный в Нью-Йорке, на 80 % вероятнее окажется в «Википедии», чем тот, кто появился на свет в графстве Берген. Это всего лишь корреляция, но можно сказать, что взросление рядом с великими идеями лучше, чем жизнь на большом заднем дворе.

Выявленный эффект мог бы быть даже сильнее, если бы у меня имелось больше сведений о том, где все эти люди жили в детстве – ведь многие из них выросли отнюдь не в том штате, где родились.

Успех университетских городков и больших городов поражает уже при беглом ознакомлении с данными. Но я копнул глубже и провел более сложный эмпирический анализ.

Это позволило мне вычислить существование еще одной переменной, ставшей сильным прогностическим фактором, способствующим занесению имени человека в «Википедию». Речь о доле иммигрантов в стране вашего рождения. Чем выше в регионе процент граждан, родившихся в другой стране, тем больше вероятность, что ребенок, появившийся там на свет, добьется заметного успеха. (Вот тебе, Дональд Трамп!) Если два места являются одинаковыми с точки зрения городского ландшафта и наличия колледжа, то из региона с большим числом иммигрантов выйдет больше выдающихся американцев. Почему?

Многие известные люди были детьми иммигрантов. Я сделал исчерпывающий обзор биографий 100 самых знаменитых белых беби-бумеров (по данным проекта Массачусетского технологического института «Пантеон», который также работает с данными «Википедии»). Большинство из них были работниками искусства. По крайней мере 13 родились у матерей-иммигранток – в том числе Оливер Стоун, Сандра Баллок и Джулианна Мур. Этот показатель более чем в три раза выше, чем в среднем по стране за этот период. (Многие имеют отцов-иммигрантов – в том числе Стив Джобс и Джон Белуши, – но эти данные трудно сравнивать со средними по стране, поскольку информация об отцах не всегда включается в свидетельства о рождении.)

А что насчет переменных, не влияющих на успех? Одна, которую я нашел, кажется довольно удивительной: неважно, сколько денег штат тратит на образование. В штатах со схожим процентом городских жителей расходы на образование никак не коррелируют с числом выросших там известных писателей, художников или руководителей предприятий.

Интересно сравнить мое изучение данных «Википедии» с одним из исследований, о котором уже говорилось ранее – команда Четти пыталась выяснить, какие регионы позволяют людям достичь верхней грани среднего класса. Я же попытался выяснить, какие области помогают им достичь славы. Результаты разительно отличаются.

Большие затраты на образование помогают детям достичь верхней грани среднего класса, но совсем не способствуют тому, чтобы они стали известными писателями, художниками или бизнес-лидерами. Многие из тех, кто добился заметных успехов, ненавидели школу, а некоторые даже бросили учебу.

Как выяснила команда Четти, Нью-Йорк – не самое лучшее место для воспитания ребенка, если вы хотите, чтобы он достиг вершины среднего класса. А мое исследование показало, что это отличное место, если вы хотите дать ему шанс на славу.

Когда вы смотрите на факторы, обеспечивающие признание, существенные различия между регионами начинают обретать смысл. Многие штаты сочетают в себе все основные составляющие успеха. Вернемся к Бостону. Многочисленные университеты делают этот город котлом, в котором кипят инновационные идеи. В этом регионе живет множество чрезвычайно успешных людей, являющих отличный пример достижения успеха для молодежи. И это привлекает иммигрантов, чьи дети просто вынуждены использовать эти уроки.

Но что если область не имеет ни одного из этих качеств? Значит ли это, что ей суждено будет «выращивать» меньше суперзвезд? Не обязательно. Есть и другой путь: крайне узкая специализация. Отличным примером может быть округ Розо в штате Миннесота – небольшой сельский регион с малым количеством «понаехавших» и крупных вузов. Примерно один из 740 человек, родившихся здесь, оказался затем в «Википедии». Их секрет? Все девять были профессиональными хоккеистами, чему, несомненно, способствовало наличие хоккейных программ в местных школах и колледжах.

Так что, если вы не особенно жаждете стать звездой хоккея, но хотите обеспечить своим будущим детям все возможные преимущества, может, стоит переехать в Бостон или Таскджи? Им это не повредит. Но есть и более серьезные вещи. Как правило, экономисты и социологи сосредотачиваются на том, как избежать негативных последствий – таких, как нищета и преступность. Но великая цель, стоящая перед обществом – не только подтянуть отстающих. Важно помочь как можно большему количеству людей выделиться. Возможно, как раз усилия по определению мест рождения сотен тысяч самых известных американцев и помогут создать какие-то первоначальные стратегии – в частности поощрение иммиграции, субсидирование университетов и поддержку искусства.


Обычно я изучаю данные по США. Поэтому, когда я пристально рассматриваю географическую информацию, то отбираю ее по нашим городам и поселкам – по таким регионам, как округ Мэйкон, Алабама или округ Розо, Миннесота. Но еще одно огромное (и все возрастающее) преимущество данных из интернета заключается в том, что подобным же образом можно легко собрать информацию со всего мира – и посмотреть, как и в чем различаются страны. А ученые, занимающиеся сбором и анализом данных, получают возможность прокрасться в антропологию.

Недавно я исследовал довольно необычный вопрос: как протекает беременность в разных странах мира? Я проверил число запросов в Google о беременных женщинах. И первым делом обнаружил поразительное сходство физических симптомов, на которые жалуются женщины.

Я проанализировал, как часто различные симптомы соединяются в поисковых запросах со словом «беременна». Например, как часто вместе с «беременностью» искали «тошноту», «боли в спине» или «запор»? В Канаде и в Соединенных Штатах симптомы были очень схожи. В таких странах, как Великобритания, Австралия и Индия, они тоже были примерно одинаковы.

Похоже, беременные женщины во всем мире жаждут одного и того же. В США в Google чаще всего делают поиск по словам «хочется есть лед во время беременности». Следующие четыре варианта – желание съесть соленое, сладкое, фрукты и острую пищу. В Австралии список продуктов, о которых мечтают беременные, не очень отличается: соль, сладости, шоколад, мороженое и фрукты. А что насчет Индии? Похожая история: острая пища, сладости, шоколад, соль и мороженое. На самом деле пятерка желаемых продуктов практически одинакова во всех странах, информацию по которым я просмотрел.

Предварительные данные свидетельствуют: ни в одной части мира нет диеты или среды, где бы существенно менялось физическое ощущение беременности.

Но мысли, окружающие беременность, варьируются весьма значительно.

Начните с вопроса о том, что могут безопасно делать беременные женщины. Самые частые запросы в США: могут ли беременные женщины «есть креветки», «пить вино», «пить кофе» или «принимать “Тайленол”»?

Когда дело доходит до подобных обеспокоенностей, другие страны имеют мало общего как с Соединенными Штатами, так и друг с другом. Вариант с вином не входит в первую десятку вопросов в Канаде, Австралии и Великобритании. Проблемы на Зеленом континенте в основном связаны с употреблением во время беременности молочных продуктов – особенно сливочного сыра. А в Нигерии, где интернетом пользуются 30 % населения, самый частый вопрос – можно ли беременным пить холодную воду?

Реальны ли эти опасения? Когда как. Есть убедительные доказательства того, что беременные женщины подвергаются повышенному риску заражения листериями из непастеризованного сыра. Было установлено, что употребление слишком большого количества алкоголя негативно влияет на ребенка. В некоторых частях мира считается, что, когда мать пьет холодную воду, у плода может начаться пневмония – правда, я не знаю ни одного медицинского подтверждения этого факта.

Огромные различия в вопросах из разных стран мира, скорее всего, вызваны неиссякающим потоком информации, поступающим из разрозненных источников в каждой из них: официальные научные исследования, околонаучные изыскания, бабушкины сказки и обычный треп. Женщинам трудно определить, на что следует обращать повышенное внимание и, соответственно, о чем спрашивать у Google.

Глядя на популярные запросы типа «как… во время беременности», мы видим четкую разницу между странами. В Соединенных Штатах, Австралии и Канаде больше всего вопросов с текстом: «Как предотвратить растяжки во время беременности». А в Гане, Индии и Нигерии предотвращение растяжек даже не входит в пятерку основных проблем. Там женщины, как правило, больше озабочены занятием сексом или сном.


Пять самых частых поисковых запросов типа «как… во время беременности»


Пятерка наиболее популярных поисковых запросов, начинающихся со слов «Может ли беременная женщина…»


Несомненно, рассматривая различные выборки данных, можно узнать намного больше о здоровье и культуре в разных уголках мира. Но мой предварительный анализ показывает: когда дело доходит до выхода за пределы нашей биологии, большие данные продемонстрируют нам, что люди даже менее сильны, чем мы думали.

Как мы заполняем часы и минуты жизни

«Приключения молодого человека, основные интересы которого – изнасилования, особо яростное насилие и Бетховен».

Это было похоже на рекламу скандального фильма Стэнли Кубрика «Заводной апельсин». По сценарию, вымышленный молодой герой Алекс Делардж с пугающей отрешенностью совершал шокирующие акты насилия. В одной из самых известных сцен фильма он насиловал женщину, во все горло распевая «Поющие под дождем».

Почти сразу появились сообщения о подражателях. Действительно, группа мужчин изнасиловала 17-летнюю девушку, распевая именно эту песню. Фильм был запрещен к показу во многих европейских странах, и некоторые из наиболее шокирующих сцен были удалены из версии, показанной в Америке.

На самом деле есть много примеров того, как люди в реальной жизни подражают искусству{123} – когда мужчины, казалось, были просто загипнотизированы увиденным на экране только что. После показа фильма о бандитах «Цвета» произошла серьезная перестрелка. После показа фильма «Нью-Джек-Сити» последовали массовые беспорядки.

Возможно, наиболее тревожным оказался случай, когда через четыре дня после выхода фильма «Денежный поезд» мужчины использовали жидкость из зажигалок, чтобы поджечь кассу в метро – практически точно имитируя сцену, увиденную в кино. Единственное различие между вымышленным и реальным поджогами: в кино кассир сбежал, тогда как в реальной жизни он сгорел.

Существуют также некоторые свидетельства, полученные на основании психологических экспериментов: люди, посмотревшие фильм с жестокими сценами, выказывают больше гнева и враждебности, даже не имитируя точно ни одну из увиденных сцен{124}.

Другими словами, рассказы и эксперименты показывают, что жестокие фильмы провоцируют агрессивное поведение. Но насколько велик эффект? Мы говорим об одном-двух убийствах в 10 лет или о сотнях каждый год? Рассказы и эксперименты не могут ответить на этот вопрос.

Чтобы понять, могут ли помочь в этом большие данные, два экономиста – Гордон Даль и Стефано делла Винья – слили воедино три больших набора данных за период с 1995 по 2004 год: ежечасные сведения ФБР о преступлениях, цифры кассовых сборов и степень насилия во всех фильмах с kids-in-mind.com.

Использованная ими информация была исчерпывающей – каждый фильм и каждое преступление, совершенное в каждый час по всей территории Соединенных Штатов. Это могло бы дать очень важные доказательства.

Ключом их исследования было то, что в одни выходные самый популярный фильм был очень жестоким{125}, например «Ганнибал» или «Рассвет мертвецов», а в другие выходные – позитивным, таким как «Сбежавшая невеста» или «История игрушек».

Экономисты могли точно сказать, сколько убийств, изнасилований и нападений было совершено в дни, когда показывали жестокий фильм, – и сравнить эти цифры с количеством убийств, изнасилований и нападений за выходные, когда показывали веселое, спокойное кино.

Так что же они выяснили? Увеличивалась ли преступность после жестоких фильмов, как предполагали некоторые экспериментаторы? Или оставалась прежней?

Экономисты обнаружили, что после показа популярного жестокого фильма преступность сокращалась.

Вы не ошиблись. По выходным, когда шел популярный жестокий фильм и миллионы американцев следили за людьми, убивающими других людей, число преступлений значительно сокращалось.

Когда вы получите этот странный и неожиданный результат, вашей первой мыслью будет: «Что я сделал неправильно?» Каждый экспериментатор тщательно все проверил. Никаких ошибок. Вторая мысль: «Есть какая-то переменная, объясняющая такие результаты?» Ученые проверили, не влияет ли на выводы время года. Нет. Они собрали данные о погоде, думая, что, возможно, она имеет значение. Нет, и она ни при чем.

«Мы проверили все предположения, все, что мы делали, – сказал мне Даль. – И не смогли найти никаких ошибок».

Несмотря на слухи, несмотря на лабораторные эксперименты, какими бы неожиданными ни казались результаты, демонстрация жестокости в фильмах вызывала резкое снижение уровня преступности. Как такое могло быть?

Чтобы найти ключ к разгадке, Даль и делла Винья решили использовать большие данные, проанализировав их повнимательнее. Традиционно результаты опросов дают информацию ежегодно или, в лучшем случае, ежемесячно. С толикой везения удалось бы получать данные по выходным дням. Теперь сравните: используя комплексные наборы данных, а не малые выборки (опросы), мы смогли составить почасовые и даже поминутные графики. Это позволило узнать о человеческом поведении намного больше.

Иногда, если это не жизненно важная информация, временные колебания даже забавны. EPCOR – коммунальная компания в Эдмонтоне, Канада, раскрыла поминутные данные о потреблении воды во время хоккейного матча за золотую медаль между США и Канадой на Олимпиаде-2010 (предположительно его смотрели 80 % канадцев). Статистика говорит нам, что вскоре после завершения каждого периода потребление воды резко возрастало – туалеты в Эдмонтоне явно работали с максимальной нагрузкой.

Можно получить даже поминутные данные о поиске в Google{126}, при этом откроются некоторые интересные закономерности. Например, число поисковых запросов «разблокировать игру» резко увеличивается в 8 утра по будням и достигает максимума в 3 часа дня – это, несомненно, ответ на попытки школ заблокировать доступ к мобильным играм на своей территории без запрета на работу сотовых телефонов учащихся.



Количество поисковых запросов со словами «погода», «молитва» и «новости» достигает максимума около 5:30 утра – это доказывает, что большинство людей просыпаются гораздо раньше меня. Число поисковых запросов со словом «самоубийство» достигает пика в 12:36 дня, а минимума – около 9 утра. Это доказывает, что большинство людей утром гораздо менее несчастны, чем я.

Статистика показывает, что время между 2 и 4 часами утра – не лучшее для решения главных вопросов бытия. В чем смысл сознания? Существует ли свобода воли? Есть ли жизнь на других планетах? Популярность этих вопросов поздно ночью может быть результатом, в частности, использования каннабиса. Пик поисков с текстом «Как забить косяк?» приходится на период между 1 и 2 часами ночи.

Имея огромный набор данных, Даль и делла Винья смогли понять, как меняется уровень преступности по часам в те выходные, когда показывают фильмы. Они обнаружили, что снижение преступности в те выходные, когда были показаны фильмы с насилием – относительно других выходных, – начинается в самом начале вечера. Другими словами, преступность шла на убыль до начала показа жестоких сцен, когда люди еще только шли к кинотеатрам.

Можете догадаться, почему? Прежде всего, подумайте о тех, кто, скорее всего, предпочтет пойти смотреть жестокий фильм. Это молодые – особенно молодые – агрессивные мужчины.

Затем следует подумать о том, где обычно совершаются преступления. Это редко происходит в кинотеатре. Бывали исключения – в том числе в 2012 году, когда произошла стрельба в кинотеатре в Колорадо. Но, по большому счету, мужчины ходят в кинотеатры безоружными и сидят молча.

Предоставьте молодым агрессивным мужчинам шанс увидеть Ганнибала, и они пойдут в кино. Предоставьте молодым агрессивным мужчинам возможность посмотреть фильм «Сбежавшая невеста», и они откажутся. А вместо этого, возможно, пойдут в бар, клуб или в бильярдный зал, где уровень преступности потенциально выше.

Жестокие фильмы удерживают агрессивных людей от пребывания на улицах.

Головоломка решена? Не совсем. Статистика показала еще одну странность. Обозначенный эффект стартовал с началом показа фильмов, но не заканчивался с окончанием лент, когда кинотеатр закрывался. В те вечера преступность была ниже и позже – с полуночи до 6 утра.

Даже если она снижалась в то время, когда молодые люди находились в кинотеатре, что ей мешало усилиться после того, как они выходили оттуда и больше не были ничем заняты? Ведь они только что посмотрели жестокий фильм, который, как показывают эксперименты, делает людей более злыми и агрессивными.

Вы в состоянии придумать какие-либо объяснения этому феномену? После долгих раздумий, исследователей – экспертов по преступности озарило. Они знали, что алкоголь является одной из основных причин преступности{127}. Кроме того, они не раз бывали в кинотеатрах США, поэтому знали, что там практически не продаются спиртные напитки. Действительно, ученые обнаружили: количество преступлений, связанных с употреблением алкоголя, в вечерние часы после жестоких фильмов снизилось.

Конечно, исследования Даля и делла Винья имели определенные ограничения. Ученые, например, не могли протестировать длительный эффект – чтобы понять, как долго может продолжаться снижение уровня преступности. Возможно, последовательное воздействие ряда жестоких фильмов в конечном счете приводит к еще большему насилию. Однако их исследование оценивает непосредственное влияние таких лент, что и было главной темой экспериментов. Вероятно, жестокий фильм влияет на некоторых людей и делает их необычайно злыми и агрессивными. Однако знаете ли вы, что именно совершенно точно негативно влияет на людей? Общение с другими потенциально жестокими людьми. И пьянство[26].

Сейчас это обрело смысл, которого, казалось, не было до того момента, пока Даль и делла Винья не начали анализ огромной горы данных{128}.

Когда мы начинаем рассматривать информацию более детально, становится понятным еще один важный момент: мир сложен. Действия, предпринимаемые нами сегодня, могут иметь отдаленные последствия, большинство из которых непредсказуемы. Идеи распространяются – иногда медленно, а иногда экспоненциально, как вирусы. Люди реагируют на стимулы самым непредсказуемым образом.

Эти связи и отношения, эти всплески и затухания не могут быть отслежены маленькими опросиками или другими традиционными способами получения и обработки данных. Мир слишком сложен и слишком многообразен для того, чтобы понять его с помощью небольших объемов информации.

Наши двойники

В июне 2009 года Дэвид «Биг Папи» Ортис с удовольствием смотрел на дело рук своих. За предыдущие полтора десятилетия Бостон влюбился в своего здоровяка родом из Доминиканской республики с дружелюбной улыбкой и щелью между зубами[27].

Он принял участие в пяти победных играх Всех звезд, выиграл приз MVP[28] и помог Бостону впервые за 86 лет победить в чемпионате. Но в 2008 году, когда ему стукнуло 32, его успешная карьера явно подходила к концу. Его средний уровень упал на 68 пунктов, его процент пребывания на базе стал равен 76 очкам, а процент сильных ударов составил 114 очков. В начале сезона 2009 года результаты Ортиса упали еще ниже.

Вот как Билл Симмонс, спортивный журналист и страстный болельщик «Бостон Ред Сокс», описал происходившее в первые месяцы сезона 2009 года{129}: «Очевидно, что Дэвид Ортис уже не отличается в игре… Здоровенный бьющий выглядит как порнозвезда, тяжелоатлет, центровой НБА и мечта юных девиц: он сдал». Любители спорта доверяют своим глазам и глазам Симмонса: Ортис закончился. На самом деле Симмонс предсказал, что Ортис в скором времени окажется на скамейке запасных или даже уйдет из спорта.

Действительно ли Ортис закончился? Если бы в 2009 году вы были генеральным менеджером «Сокс», вы бы его убрали? И в более общем плане: как мы можем предсказать успешность бейсболиста в будущем{130}? И еще более обобщенно: как мы можем использовать большие данные для предсказания того, что люди будут делать в будущем?

Теория, которая заведет вас далеко в дебри науки о данных, такова: посмотреть на то, что делали саберметрики (те, кто использовал данные для изучения бейсбола), и распространить это на другие области науки о сборе и анализе данных. Бейсбол стал одной из первых областей, породивших огромные массивы данных почти обо всем. И существовала целая армия умных людей, готовых посвятить жизнь тому, чтобы понять смысл этих данных. Сейчас почти каждый параметр изучен досконально. Бейсбол проложил дорогу, после него стало проще изучать все остальное.

Самый простой способ предсказать будущее игрока – предположить, будет ли он играть так же, как делает это сейчас. Если парень старался изо всех сил в течение последних полутора лет, можно предположить, что и в ближайшие полтора года он будет прикладывать такие же усилия.

Если следовать этой методологии, Бостон должен был попрощаться с Дэвидом Ортисом.

Однако есть и более актуальная информация. В 1980-х Билл Джеймс, которого многие считают основателем саберметрики, подчеркнул важность возраста. Он обнаружил, что бейсболисты достигают расцвета достаточно рано – примерно к 27 годам. Но команды, как правило, игнорируют последующее снижение их активности и переплачивают за стареющих игроков.

Согласно этой более передовой методике оценки, «Сокс» нужно было обязательно убрать Дэвида Ортиса.

Но из-за привязки к возрасту можно что-то упустить. Не у всех игроков карьера протекает одинаково. Некоторые могут закончиться в 23, другие – в 32. Низкие бейсболисты стареют иначе, чем высокие, карьера толстых отличается от карьеры тощих. Бейсбольные статистики обнаружили: существуют различные типы игроков, каждый из которых стареет по-своему. Подобное распределение также не в пользу Ортиса: «здоровенные бьющие» действительно, в среднем, достигают пика раньше{131} и заканчивают карьеру вскоре после 30.

Если «Сокс» оценит его недавние матчи, возраст и физические параметры, администрация, без сомнения, должна разорвать контракт с Дэвидом Ортисом.

В 2003 году статистик Нейт Сильвер представил новую модель для прогнозирования результативности игрока, которую назвал PECOTA. Она оказалась лучшей – и самой крутой. Сильвер искал двойников бейсболистов. Вот как это работает. Нейт создал базу данных всех значительных игроков бейсбольной Лиги за все время – это более 18 тысяч человек. В нее была включена вся информация, которую удалось собрать: рост, возраст, телосложение, положение в команде, количество хоумранов, средний уровень пробежек и число аутов за каждый год карьеры. Теперь нужно было найти 20 игроков, карьера которых была бы больше всего похожа на карьеру Ортиса – тех, кто играл примерно как он в свои 24, 25, 26, 27, 28, 29, 30, 31, 32 и 33 года. Другими словами, найти двойников. А потом посмотреть, как в дальнейшем развивались их карьеры.

Поиск двойников – это еще один пример использования детализации. Он фокусируется на небольшой группе людей, наиболее похожих на данного человека. И, как и любая детализация, результат получается тем точнее, чем больше данных у вас есть. Оказывается, двойники Ортиса{132} выдали совсем другой прогноз на будущее самого Ортиса. Среди них были Хорхе Посада и Джим Томе. Эти парни начинали свои карьеры немного медленно, а затем следовали удивительные всплески результативности. Около 30 лет они достигли уровня мирового класса, а затем, в первые годы после 30, потихоньку сдавали.

Тут-то Сильвер и предсказал, как сложится карьера Ортиса – на основании судеб его двойников. Он обнаружил, что те восстановили свои силы. В отношении поклонниц Симмонс, возможно, был бы прав. Но что касается двойников Ортиса, то здесь все иначе – они сдали, но затем вернулись.

Поиск двойника – лучшая методика, когда-либо использовавшаяся для прогноза результативности бейсболиста. Согласно ей, «Сокс» должны были потерпеть. Клуб действительно не стал рубить сплеча. И в 2010 году средняя результативность Ортиса выросла до 270. Он совершил 32 хоумрана и вошел в сборную Всех звезд. А затем входил в нее еще четыре года подряд.

В 2013 году, играя на своей традиционной позиции назначенного отбивающего, в возрасте 37 Ортис набрал 0,688 очка, а Бостон победил Сент-Луис в Мировой серии – 4:2.

Ортис был признан MVP (наиболее ценным игроком) Мировой серии[29].

Едва дочитав статью о подходе Нейта Сильвера к оценке результативности игрока, я сразу же начал думать о том, может ли и у меня тоже быть двойник.

Поиск такового является перспективным во многих областях, а не только в спорте. Мог бы я найти человека, разделяющего мои интересы? Может быть, если бы я нашел кого-то, больше всего похожего на меня, мы могли бы проводить время вместе. Может быть, он бы знал рестораны, которые могли бы мне понравиться. Возможно, он мог бы познакомить меня с тем, чего я не знаю, и я бы заинтересовался этим.

Поиск двойников возможен даже по особенностям личности. И, как и любая детализация, сходство будет тем сильнее, чем больше у вас данных. Предположим, я буду искать двойника в наборе данных десяти человек. Я мог бы найти кого-то, кто разделяет мой интерес к книгам. Предположим, я буду искать двойника в наборе данных тысяч людей. Я мог бы найти кого-то, кому, как и мне, нравятся популярные книги о здоровье. Но предположим, что я буду искать двойника в наборе данных сотен миллионов людей. Тогда я мог бы найти кого-то, кто действительно похож на меня.

Однажды я провел поиск двойника в социальных сетях. Используя весь массив профилей Twitter, я искал людей, имеющих больше всего общих интересов со мной.

Вы, конечно, можете многое рассказать о моих интересах на основании информации в моем аккаунте в Twitter. В целом, я подписан примерно на 250 человек, разделяющих мою страсть к спорту, политике, комедиям, науке и мрачным еврейским певцам.

Так есть ли кто-нибудь во Вселенной, так же, как и я, подписанный на все эти 250 аккаунтов, мой твиттер-близнец? Конечно, нет. Двойники не идентичны нам, они лишь похожи на нас. И нет никого, кто подписан хотя бы на те же 200 аккаунтов. Или даже на 150.

Однако в конце концов я нашел аккаунт, подписанный на 100 пользователей из моих 250 – это Country Music Radio Today. Да неужели? Оказывается, Country Music Radio Today – это бот (его уже нет), который подписался на 750 тысяч профилей «Твиттера» в надежде, что они ответят ему тем же.

У меня есть бывшая подруга, которая, как я подозреваю, получила бы удовольствие от такого результата. Однажды она сказала, что я больше похож на робота, чем на человека.

Но шутки в сторону! Тот факт, что моим двойником стал бот, позволяет сделать важный вывод. Чтобы поиск двойников оказался по-настоящему точным, следует стремиться не просто найти кого-то, любящего то же, что и вы. Нужно искать того, кто не любит то же, что не любите вы.

Мои интересы становятся очевидными не только на основании тех аккаунтов, на которые я подписываюсь, но и тех, которые я не выбираю. Я интересуюсь спортом, политикой, комедиями и наукой, а не едой, модой или театром. Мои подписки показывают, что мне нравится Берни Сандерс, но не Элизабет Уоррен[30], Сара Сильверман, но не Эми Шумер[31], «New Yorker» но не «Atlantic»[32], мои друзья – Ной, Эмили Сэндс и Джош Готтлиб, но не Сэм Ашер. (Извини, Сэм, но твои посты в Twitter – это скукота.)

Из 200 миллионов аккаунтов в Twitter, у кого профиль похож на мой? Оказалось, мой двойник – пишущий для Vox[33] Дилан Мэтьюз. Это стало большим разочарованием с точки зрения улучшения использования социальных сетей, ведь я уже и так подписан на аккаунт Дилана в Twitter и Facebook и постоянно читаю его статьи в Vox. Поэтому знание о том, что именно он является моим двойником, ничего в моей жизни не изменило. Но это довольно круто – узнать о существовании человека, больше всех в мире похожего на вас. Особенно, если это кто-то, кем вы восхищаетесь. И когда я закончу эту книгу и перестану жить отшельником, может быть, мы с Мэтьюзом сможем общаться и обсуждать сочинения Джеймса Суровецки.

Поиск двойника Ортиса был важен для многих поклонников бейсбола, а поиск моего двойника был интересен только мне. Что еще могут показать такие исследования? Прежде всего, с помощью подобных данных многие крупнейшие интернет-компании стараются улучшить свои услуги и работу с пользователями. Amazon использует что-то вроде поиска двойников для вычисления книг, которые вы хотели бы купить. Там видят, что именно выбирают люди с вашими параметрами, и основывают на этом свои рекомендации.

Pandora делает то же самое, определяя, какие песни вы хотите слушать. Примерно так же Netflix узнает, какие фильмы вы хотели бы посмотреть. Результат получился просто ошеломляющим. Когда инженер Amazon Грег Линден в первый раз использовал поиск двойников для предсказания предпочтений читателей, и рекомендации оказались настолько точными, основатель Amazon Джефф Безос пал перед Линденом на колени с воплем: «Я тебя не достоин!»

Но самое интересное в поиске двойников не то, что он сейчас используется почти повсеместно, а то, что он часто не используется. Есть несколько крупных областей, работа которых может быть значительно улучшена путем персонализации. Возьмите, например, наше здоровье.

Исаак Коган, ученый и исследователь из Гарварда, пытается воплотить этот принцип в медицине. Он хочет собрать и организовать всю нашу медицинскую информацию так, чтобы вместо использования одинакового подхода ко всем, врачи подыскивали бы похожих на вас пациентов. Затем они могли бы использовать более персонализированную диагностику и более целенаправленное лечение.

Коган считает это естественным развитием медицины, и даже не особо радикальным. «Что такое диагноз? – спрашивает он. – Диагноз, по сути, является утверждением, что вы оказались в той же ситуации, как и множество ранее изученных людей. Если я, не дай бог, диагностирую у вас инфаркт, то скажу, что у вас та же патофизиология, которую я уже видел у других людей с сердечным приступом».

Диагноз, по сути, является примитивным вариантом поиска двойника. Проблема в том, что наборы данных, которые используют врачи для его постановки, слишком маленькие. Сегодня диагноз основывается на опыте доктора, лечившего своих пациентов, и он может быть дополнен данными из научных статей о популяциях, с которыми работали другие исследователи. Как мы видели, поиск двойника может стать действительно полезной штукой – необходимо только, чтобы он включал в себя намного большую статистику.

Вот область, в которой большие данные на самом деле могут помочь. Так почему же на внедрение метода требуется столько времени? Почему он до сих пор широко не используется? Проблема заключается в сборе информации. Большинство медицинских заключений по-прежнему существуют только на бумаге и похоронены в папках. А те, которые оцифрованы, часто не могут быть использованы вследствие несовместимых форматов. «Мы нередко имеем больше информации о бейсболе, чем о здоровье», – говорит Коган{133}. Но простые меры порой идут длинными путями. Ученый неоднократно говорил о «низко висящих плодах». Например, он считает, что даже просто создание базы данных, включающей информацию о росте и весе детей, а также обо всех возможных детских болезнях, стало бы революционным развитием педиатрии. После этого развитие каждого ребенка можно было бы сравнить с развитием любого другого ребенка. Компьютер помог бы найти детей, развитие которых идет по уже пройденному кем-то пути и автоматически предупредил бы обо всех тревожных моментах. Например, он был бы в состоянии обнаружить преждевременный рост ребенка, что в некоторых случаях может указывать на две возможные причины: гипотиреоз или опухоль мозга. Ранняя диагностика в обоих случаях принесет огромную пользу. «Подобные заболевания возникают достаточно редко – примерно одно на десять тысяч, – говорит Коган. – В остальном эти дети здоровы. Думаю, мы могли бы диагностировать болезнь раньше по крайней мере на год. Стопроцентно смогли бы».

Джеймс Хейвуд{134} – предприниматель, использующий другой подход к решению проблемы объединения медицинских данных. Он создал сайт PatientsLikeMe.com, где люди могут сообщать данные о своих заболеваниях, методах лечения и возникающих побочных эффектах. И Джеймс уже добился большого успеха в отношении ряда болезней.

Его цель заключается в сборе достаточного количества информации о людях со сходными состояниями – чтобы впоследствии каждый мог найти своего двойника по здоровью. Хейвуд надеется, что таким образом можно будет найти людей нужных возраста и пола, с похожими историей и симптомами – и посмотреть, что им помогло. Это будет совсем другой тип медицины.

Истории, рассказанные данными

Во многих случаях детализация данных для меня ценнее локального поиска для конкретного исследования, поскольку она предлагает новый способ видения и описания жизненных процессов.

Когда люди узнают, что я – и ученый, занимающийся сбором и анализом данных, и писатель, они иногда делятся каким-либо фактом или результатами опроса. Я часто нахожу эти сведения скучными, обобщенными и лишенными жизни. Они не сообщают мне никаких интересных историй.

Помимо этого, друзья пытались уговорить меня начать читать различные романы и биографии. Но меня это тоже мало интересует. Я всегда спрашиваю себя: «Происходило ли подобное в других ситуациях? Каков более общий принцип?» Их истории кажутся мелкими и непоказательными.

Я попытался изложить в этой книге нечто, на мой взгляд, не имеющее аналогов. Оно основано на данных и цифрах; оно показательно и позволяет заглянуть далеко вперед. И при этом большие данные – настолько обширный материал, что позволяют представить себе описываемых ими конкретных людей. Когда мы составляем поминутный график расхода воды в Эдмонтоне, я вижу, как люди встают с дивана в конце хоккейного периода. Когда мы внимательно изучаем людей, переезжающих из Филадельфии в Майами и начинающих мухлевать с налогами, я вижу, как они разговаривают со своими соседями и узнают о налоговых трюках. Когда мы детально анализируем статистику о бейсбольных болельщиках разного возраста, я вижу свое детство, детство брата, а также миллионы взрослых мужчин, все еще неистово болеющих за команды, завоевавшие их сердца, когда им было по восемь лет.

Рискуя в очередной раз впасть в пафос, я должен сказать: упомянутые в этой книге экономисты и ученые, занимающиеся сбором и анализом информации, создали не просто новый инструмент, но новый жанр. В этой главе и в большей части этой книги я попытался описать данные – настолько подробные и многочисленные, что позволяют нам добиться предельно точной детализации. Не ограничиваясь информацией о каком-либо конкретном обычном человеке, мы с их помощью все еще можем рассказывать разнообразные и запоминающиеся истории.

Глава 6