Прежде всего, вы, наверное, заметили: обсуждая теории Фрейда, мы довольно серьезно отнеслись к порнографии. Более того, в этой книге мы намерены достаточно часто обращаться к анализу порносайтов. Это довольно странно, ведь данные, полученные из такого источника, редко используются большинством ученых. Последние обычно удобно опираются на результаты традиционных опросов – и именно на них выстраивают свои карьеры. Но если немного подумать, становится ясно, что широкое использование данных порносайтов (а также поиск по ним и обработка полученных таким образом сведений) позволяет лучше понять человеческую сексуальность. На самом деле это, наверное, самое важное на свете. Получив такие данные, Шопенгауэр, Ницше, Фрейд и Фуко визжали бы от восторга, однако в то время, когда они жили, подобных данных не существовало. Их не было еще пару десятилетий назад, но они есть сейчас. Существует множество уникальных источников информации по различным темам, открывающих нам глаза в областях, о которых ранее мы могли только догадываться. Способность предложить нам новые типы фактов – первая могущественная особенность больших данных.
Данные порносайтов и поисковых запросов Google не только новые, они самые правдивые. В доцифровое время люди прятали свои постыдные мысли от других. В эпоху цифровых технологий они продолжают их прятать – но не от интернета и, в частности, не от сайтов вроде Google и PornHub, где поддерживается анонимность. Подобные сайты играют роль своего рода цифровой сыворотки правды – именно это позволило нам открыть популярность темы инцеста. Большие данные позволяют нам наконец увидеть, чего люди хотят на самом деле, а не то, что они говорят или делают. Предоставление самых правдивых фактов является второй могущественной особенностью больших данных.
Поскольку сейчас существует огромное количество разнообразных сведений, можно найти содержательную информацию даже о самом небольшом популяционном срезе. Мы в состоянии сравнить, скажем, количество людей, видящих во сне огурцы, с теми, кто видит во сне помидоры. Возможность пристально вглядеться в самые мелкие подмножества людских сообществ – это третья могущественная особенность больших данных.
Большие данные обладают еще одной внушительной возможностью – той, которую я не использовал в своем кратком исследовании теории Фрейда, но которую я наверняка применю в будущем: она дает возможность проводить быстрые контролируемые эксперименты. Это позволяет определить причинно-следственную связь, а не просто корреляцию. Такие тесты в основном используются коммерческими предприятиями, но они станут мощным инструментом в руках социологов. Возможность проводить многочисленные причинно-следственные эксперименты – это четвертая могущественная особенность больших данных.
Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.
Глава 3Переосмысление данных
В 6 часов утра в определенную пятницу каждого месяца улицы большей части Манхэттена будут практически пустыми. Магазины будут закрыты, их фасады скрыты за стальными ставнями, а в квартирах над ними будет темно и тихо.
Напротив, все этажи здания Goldman Sachs, всемирно известного инвестиционного банковского учреждения, расположенного в Нижнем Манхэттене, будут ярко освещены, его лифты будут сновать туда-сюда, поднимая тысячи людей, едущих к своему рабочему месту. К 7 утра большинство столов будут заняты.
Можно без сомнения назвать этот час здесь в любой другой день сонным. Однако в эту пятницу тут будут кипеть энергия и азарт, потому что в этот день должна прибыть информация, которая окажет значительное влияние на фондовый рынок.
Через несколько минут после появления она будет растиражирована на новостных сайтах. Еще через несколько секунд она начнет обсуждаться и рассматриваться со всех сторон – в Goldman и сотнях других финансовых компаний. Но основная часть действий в области финансов в эти дни происходит за миллисекунды. Goldman и другие финансовые компании платят десятки миллионов долларов, чтобы получить доступ к оптоволоконным кабелям, сокращающим время передачи информации из Чикаго в Нью-Джерси на четыре миллисекунды (с 17 до 13). У финансовых фирм имеются алгоритмы{42} для чтения информации и торговли на ее основе, и все это происходит за мгновения. После получения важнейших для финансового рынка данных они будут действовать быстрее, чем вы моргаете.
Так что это за важные данные, которые так ценны для Goldman и ряда других финансовых институтов?
Месячная ставка по безработице.
Эта ставка, однако, оказывает такое огромное влияние на фондовый рынок, что финансовые учреждения сделали все от них зависящее для увеличения скорости получения этих данных, их анализа и реагирования в соответствии с полученной информацией. Последняя является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд.
При том что фирмы тратят миллионы долларов для ускорения поступления потока информации на миллисекунды, вам может показаться более чем странным тот факт, что правительству для вычисления уровня безработицы требуется так много времени.
Действительно, ускорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера{43}, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось. «Либо BLS (Бюро трудовой статистики Министерства труда США) не хватает ресурсов, – заключил он, – либо их мышление застряло в XX веке».
Поскольку правительство в ближайшее время явно не наберет нужный темп, возникает вопрос: есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы? В нашу высокотехнологичную эпоху, когда почти каждый клик любого человека в интернете где-то записывается, неужели нам действительно придется ждать несколько недель, чтобы выяснить, сколько людей остались без работы?
Одно из возможных решений родилось под влиянием работы бывшего инженера компании Google Джереми Гинзберга. Он заметил, что данные о состоянии здоровья, как и сведения по безработице, правительство выпускает с задержкой. Центрам по контролю и профилактике заболеваний требуется неделя для подготовки данных об эпидемии гриппа{44}, хотя врачам и больницам было бы полезно иметь такие сведения как можно раньше.
Гинзберг подозревал, что заболевание гриппом напрямую связано с поисковыми запросами относительно его лечения. В сущности, люди сообщают о своих симптомах Google. Джереми решил, что эти запросы могут дать достаточно точную оценку текущему состоянию заболеваемости гриппом. И действительно, такие поисковые фразы как «симптомы гриппа» и «боль в мышцах» оказались важными показателями скорости распространения этого заболевания[9].
Тем временем инженеры компании Google создали сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
Например, с помощью Google Correlate мы с Хэлом Варианом, главным экономистом Google, сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье{45}. Когда последние растут, американцы, как правило, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, люди чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
Так может быть, поиск в Google можно использовать в качестве лакмусовой бумажки для оценки безработицы таким же образом, как он используется для оценки стоимости жилья или распространения эпидемии гриппа? В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы? И можно ли сделать это достаточно точно до того, как правительство соберет и обнародует свои результаты опросов?
В один прекрасный день я ввел в Google Correlate запрос «Уровень безработицы в США в период с 2004 по 2011 год».
Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей? Вы можете подумать, что это «биржа труда» или что-то подобное. Да, количество таких запросов увеличилось, но не они были на самом верху списка. «Новые рабочие места»? Тоже много, но не первые.
Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Вы верите? Чаще всего люди искали порнографический сайт с таким названием. Это может показаться странным – на первый взгляд. Но у безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Еще очень часто встречается запросов «игра «паук». Опять же, это не удивительно для группы людей, у которых, предположительно, внезапно оказалось очень много свободного времени.
Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.
Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто наиболее ценным в больших данных является не их размер, а тот факт, что они могут предложить вам новые виды информации для исследования, которые никогда раньше не собирались.
До появления Google существовали сведения об определенных видах деятельности (например, о продаже билетов в кино), которые могут дать подсказки о том, каким количеством свободного времени располагают люди. Но возможность узнать, сколько из них раскладывают пасьянс или смотрят порно – это нечто новое, и это очень мощный ресурс. В данном случае эта информация способна помочь нам быстрее оценить состояние экономики – по крайней мере, до тех пор, пока правительство не научится быстрее проводить опросы и обобщать полученные данные.
Жизнь в кампусе Google в Маунтин-Вью, Калифорния, существенно отличается от той, которая кипит в штаб-квартире Goldman Sachs на Манхеттене. В 9 часов утра офисы Google почти пусты. Если в поле зрения оказывается кто-либо из работников, скорее всего, он пришел, чтобы съесть бесплатный завтрак – бананово-черничные блинчики, омлет и огуречную воду. Некоторых сотрудников может просто не быть в городе – они присутствуют на выездном заседании в Боулдере, в Лас-Вегасе или, возможно, принимают участие в бесплатном лыжном походе к озеру Тахо. Примерно в обеденное время волейбольная площадка и футбольное поле наполнятся людьми. Лучший буррито, который я когда-либо ел, был в мексиканском ресторане Google.
Как одна из крупнейших и наиболее конкурентоспособных технологических компаний в мире может быть настолько расслабленной и щедрой? Google собирает урожай больших данных так, как даже не снилось ни одной другой компании в мире. Это позволяет ей создать автоматизированный денежный поток. А также стать главным героем данной книги, ведь поисковые запросы в Google на сегодняшний день являются доминирующим источником больших данных. Но важно помнить: успех Google основан на сборе нового типа данных.
Если вы живете достаточно давно и пользовались интернетом еще в ХХ веке, то можете вспомнить различные существовавшие тогда поисковые системы – в частности, MetaCrawler, Lycos, AltaVista. И вы, наверное, помните, что эти поисковые системы были в лучшем случае не особо надежными. Иногда, если вам везло, им удавалось найти то, что вы хотели. Но нередко они не справлялись с этой задачей. Если в конце 1990-х годов вы вводили в самых популярных поисковиках запрос «Билл Клинтон», на вершине списка результатов мог оказаться случайный сайт с заголовком «Bill Clinton Sucks» («Билл Клинтон сосет») или сайт с неприличными анекдотами о Клинтоне. Вряд ли это можно считать самой актуальной информацией о тогдашнем президенте США.
В 1998 году появился Google, и результаты его поиска были несомненно лучше, чем у любого из его конкурентов. Если вы в 1998 году вводили запрос «Билл Клинтон» в Google, вам выдавался его веб-сайт, адрес электронной почты Белого дома и лучшие биографии этого человека, которые тогда существовали в интернете. Работа Google казалась волшебством.
Что же изменили основатели компании Google Сергей Брин и Ларри Пейдж?
Другие поисковые системы находили для своих пользователей веб-сайты, в которых чаще всего фигурируют фразы, введенные в поисковый запрос. Если вы искали информацию о Билле Клинтоне, эти поисковики нашли бы в сети сайты с наибольшим числом упоминаний Билла Клинтона. Существует множество причин, по которым эта рейтинговая система была несовершенной, и одной из них было то, что ее легко обмануть. Сайт с анекдотами, на странице которого будет написано «Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон», в выдаче будет выше, чем официальный сайт Белого дома[10].
Брин и Пейдж нашли способ фиксировать новый тип информации, который был гораздо ценнее, чем простой подсчет слов. Нередко в публикуемых на сайтах статьях даются ссылки на другие ресурсы, которые могут быть полезными для понимания обсуждаемого вопроса. Например, если в статье в электронной версии «Нью-Йорк Таймс» упоминается Билл Клинтон, то читатели, кликнув на его имя, перейдут на официальный сайт Белого дома.
Каждый ресурс, создающий одну из таких ссылок, в некотором смысле, демонстрирует свою точку зрения на информацию по Биллу Клинтону. Брин и Пейдж сумели объединить все эти точки зрения на каждую тему. Их поисковик мог собрать мнения «Нью-Йорк Таймс»{46}, миллионы рассылок, сотни мнений блогеров и все остальное, что есть в интернете. Поскольку множество людей считают, что самая релевантная ссылка по запросу «Билл Клинтон» – его официальный сайт, его большинство людей и ищут, набирая слова «Билл Клинтон».
Подобные ссылки были теми данными, которые не учитывали другие поисковые системы. Эти данные были невероятно предиктивны и определяли наиболее полезную информацию на заданную тему. Дело в том, что доминирование Google среди поисковых систем определяется не просто сбором большего количества данных, чем остальные – оно зиждется на нахождении более качественных данных. Меньше чем через два года после своего запуска компания Google, анализируя ссылки, стала самой популярной поисковой системой в интернете. Сегодня Брин и Пейдж вместе стоят больше 60 миллиардов долларов.
И Google, и все остальные поисковые системы пытаются использовать данные, чтобы помочь нам понять окружающий мир. Революционная суть больших данных не в том, чтобы собирать все больше и больше сведений. Она в том, чтобы собирать только нужные.
Но интернет – не единственное место, где можно собрать новые факты и где получение правильных данных может иметь революционные результаты. Эта книга во многом о том, как сведения из интернета способны помочь нам лучше понимать людей. В следующем подразделе, однако, мы не будем заниматься интернет-данными. Это даже не будет иметь ничего общего с людьми. Но описанная там история поможет проиллюстрировать основную идею этой главы: огромную ценность новых, нетрадиционных данных. И принципы, которым мы можем научиться на этом примере, помогут нам понять суть опирающейся на цифровую базу революции в области данных.
Тело как информация
Летом 2013 года гнедой конь выше среднего роста с черной гривой стоял в деннике в небольшом сарае в штате Нью-Йорк. Он был одним из 152 однолеток, предназначенных для августовской продажи в Саратога-Спрингс, и одним из 10 тысяч годовалых лошадей, выставленных на аукцион в этом году.
Состоятельные мужчины и женщины, готовые раскошелиться и выложить огромные деньги за лошадь, хотят самостоятельно выбрать ей имя. В результате гнедой конь тогда еще не имел клички и, как и большинство лошадей на аукционе, вместо этого назывался по номеру денника – 85.
Чтобы выделить № 85 на этом аукционе, почти ничего не делалось. У него была хорошая родословная, но не исключительная. Его отец Pioneer of the Nile был хорошей скаковой лошадью, но другие дети Pioneer of the Nile не добивались особых успехов на скачках. Имелись и сомнения, основанные на экстерьере № 85: у него была царапина на лодыжке, отпугивавшая озабоченных покупателей, поскольку могла быть свидетельством травмы.
Владельцем № 85 был египетский пивной магнат Ахмед Заят, приехавший в Нью-Йорк продать одну лошадь и прикупить несколько других.
Как почти все владельцы, Заят нанял команду специалистов, которые должны были помочь ему выбрать лошадей для покупки. Но его эксперты отличались от обычных. Типичными «знатоками», которых вы могли бы увидеть на подобном мероприятии, были мужчины среднего возраста, многие из которых приехали из Кентукки или сельской части Флориды, с низким уровнем образования, но чья семья испокон веков вращалась в конном бизнесе. Однако специалисты Заята работали в небольшой фирме под названием EQB. Ее глава не был лошадником, принадлежавшим к старой школе. Напротив, им был эксцентричный Джефф Седер, родившийся в Филадельфии и имевший множество гарвардских степеней.
Заят и раньше работал с EQB, так что процесс выбора был ему знаком. Седер с командой несколько дней оценивали бы предлагаемых лошадей, после чего вернулись бы к Ахмеду со списком из пяти лотов, которые они рекомендовали бы к покупке на замену № 85.
На этот раз, правда, все было по-другому. Команда Седера пришла к Заяту и сказала, что не в состоянии выполнить его просьбу. Эксперты просто не могли посоветовать ему купить ни одну из 151 лошади, выставленной на продажу в тот день. Вместо этого они высказали неожиданную и почти отчаянную просьбу: Заят ни в коем случае не должен продавать № 85. «Эта лошадь, – заявил эксперт из EQB, – не просто лучшая на аукционе, она лучшая лошадь года и, вполне возможно, десятилетия». «Продай свой дом, – упрашивали Заята специалисты, – но не продавай эту лошадь»{47}.
Но на следующий день после недолгих торгов № 85 был куплен за 300 тысяч долларов человеком, называвшим себя Инкардо Блудстоком. Как позже выяснилось, это был псевдоним, используемый Ахмедом Заятом. В ответ на мольбы Седера Заят купил свою собственную лошадь, что было почти беспрецедентным явлением. (Правила аукциона не позволяли Заяту просто снять лошадь с торгов, в результате чего ему пришлось совершать эту сделку под псевдонимом.) 62 лошади были проданы на том аукционе за более высокую цену, а две – даже дороже 1 миллиона долларов каждая.
Спустя три месяца Заят наконец выбрал имя для № 85: Американский Фараон. 18 месяцев спустя в жаркий субботний вечер в пригороде Нью-Йорка Американский Фараон стал первой за более чем три десятилетия лошадью, выигравшей тройную корону.
Что же такое знал Джефф Седер о № 85, по-видимому, неизвестное никому другому? Как этому выходцу из Гарварда удавалось так хорошо оценивать лошадей?
Я познакомился с Седером{48}, которому тогда было 64 года, в июне в Окале, штат Флорида – более чем через год после того, как Американский Фараон завоевал тройную корону. Там проходил недельный осмотр двухлеток, завершившийся аукционом – таким же, как тот, на котором в 2013 году Заят купил свою собственную лошадь.
У Седера раскатистый голос, как у Мэла Брукса, копна волос, при ходьбе он заметно подпрыгивает. Он был одет в брюки с подтяжками цвета хаки, черную рубашку с логотипом своей компании, в ухе виднелся слуховой аппарат.
В течение последующих трех дней он рассказывал мне свою историю – в том числе и о том, как ему удается так хорошо предсказывать будущее лошадей. Вряд ли это был прямой путь. После окончания с отличием Гарварда и Фи Бета Каппа[11] Седер там же получил юридическое образование и степень по бизнесу. В 26 лет он уже работал аналитиком в компании Citigroup в Нью-Йорке, но чувствовал себя несчастным и выгоревшим дотла. Однажды, сидя в атриуме нового офисного здания компании на Лексингтон-авеню он обнаружил, что внимательно рассматривает большую фреску, изображающую бескрайнее поле. Картина напомнила о его любви к сельской местности и лошадям. Дома Джефф посмотрел на себя в зеркало и увидел унылую фигуру в костюме-тройке. В тот момент он понял, что не хочет больше быть банкиром и ему не суждено жить в Нью-Йорке. На следующее утро он уволился с работы.
Седер переехал в сельскую часть Пенсильвании и занимал самые разнообразные должности в текстильной промышленности и даже в спортивной медицине, прежде чем смог посвятить жизнь своей страсти – прогнозированию успеха скаковых лошадей. Цифры на скачках приблизительные. Из тысячи двухлеток, представленных на аукционе Окала – одном из самых престижных, – может быть, всего пять когда-нибудь смогут выиграть скачки со значительным призовым фондом. А что будет с остальными 995 лошадьми? Примерно треть окажется слишком медленной{49}. Еще треть получит травму – скорее всего, потому, что их ноги не смогут выдерживать огромное напряжение бешеной скачки (каждый год на американских ипподромах умирают сотни лошадей{50} – в основном из-за переломов ног{51}). Оставшаяся треть будет страдать тем, что можно назвать синдромом Бартлби. Писарь из рассказа Германа Мелвилла, перестает работать и отвечает на каждое требование работодателя словами: «Я не хочу». Многие лошади в начале своей карьеры, видимо, приходят к выводу, что они не обязаны работать, если им не хочется. Поначалу они могут бежать быстро, но в какой-то момент просто замедляются или вообще останавливаются. Зачем изо всех сил бежать по краю овального поля, когда у вас ломит копыта и суставы? «Я предпочитаю не напрягаться», – решают они. (Я испытываю слабость к Бартлби – как к лошадям, так и к людям.)
Как владельцам выбрать выгодную лошадь при таком количестве шансов ошибиться? Люди всегда верили, что самый лучший способ предсказать, будет ли лошадь побеждать, – проанализировать ее родословную. Быть специалистом по выбору лошадей – значит уметь разобрать по косточкам все, что только возможно, об отце, матери, дедушках, бабушках, братьях и сестрах интересующей клиента лошади. Например, агенты сообщают, что «большой размер лошади естественен, потому что в ее роду по материнской линии было много рослых коней».
Но существует одна проблема. Конечно, родословная очень важна, однако она все же может объяснить лишь малую часть успеха спортивной лошади. Рассмотрим послужной список братьев и сестер всех обладателей наиболее престижной ежегодной награды – титула «Лошадь года». Все они имеют идентичные наилучшие родословные. Тем не менее более трех четвертей из них не выигрывали крупные скачки{52}. Традиционный способ прогнозирования успеха оставляет много возможностей для совершенствования.
На самом деле неудивительно, что родословная не дает достаточной информации для точного прогноза. Представьте, что так подбирали бы людей. Например, владелец клуба НБА решил купить игроков в свою команду, исходя из их родословных – когда они еще были десятилетними детьми. Он бы нанял агентов, приказав им изучить Ирвина Джонсона{53}, сына «Мэджика» Джонсона. «У него сейчас хороший рост, – сказал бы эксперт. – Это естественный рост, унаследованный от Джонсона. Потому же мальчик должен иметь отличные зрение, самоотдачу и скорость. Он кажется общительным, у него хороший характер. Уверенная походка. Представительный. Это хороший вариант». К сожалению, 22 года спустя рост этого человека составил 185 см (слишком низкий для профессионального баскетболиста). И Ирвин Джонсон стал модным блогером! Он может оказать серьезную помощь в разработке дизайна формы, но вряд ли сможет сделать что-либо полезное на баскетбольной площадке.
Помимо фэшн-блогера, владелец клуба НБА, собравшийся набрать себе команду таким же образом, как многие выбирают лошадей, скорее всего купит Джеффри и Маркуса Джорданов – сыновей Майкла Джордана. В колледже оба они показали себя вполне заурядными игроками. А вот «Кливленд Кавальерс» удача улыбнулась. Эту команду ведет вперед Леброн Джеймс, рост мамы которого был всего 165 см{54}. Или представьте себе страну, которая избирала бы своих лидеров на основе их родословных. Нами бы руководили такие люди, как Джордж Буш-младший. (Извините, не удержался.)
Агенты, помогающие выбрать лошадей, ориентируются не только на родословную, но и на другую информацию. Например, они анализируют аллюры двухлеток и внимательно рассматривают предлагаемых лошадей. В Окале я часами общался с различными экспертами и в результате понял, что у них нет единого, общего для всех критерия поиска.
Добавьте к этим противоречиям и неясностям то, что у некоторых покупателей, похоже, бездонные кошельки – и вы получите рынок с довольно малой эффективностью. 10 лет назад лошадь под № 153 была двухлеткой, бегавшей быстрее всех и, казалось, выглядевшей для большинства агентов просто потрясающе. К тому же она обладала замечательной родословной, будучи потомком Северной Танцовщицы и Секретариата – двух величайших скаковых лошадей всех времен. Ирландский миллиардер и шейх из Дубая захотели купить ее и вступили на торгах в битву, очень быстро превратившуюся в борьбу двух гордынь. Сотни любителей лошадей стали свидетелями того, как ставки поднимались все выше и выше, пока двухлетний конь наконец не был продан за 16 миллионов долларов – на сегодняшний день это самая высокая цена, когда-либо заплаченная за лошадь. Позже № 153, получившая имя Зеленая Мартышка{55}, поучаствовала в трех скачках, заработала всего 10 000 долларов и была отправлена на покой.
Седер никогда не увлекался традиционными методами оценки лошадей. Его интересовали только данные. Он планировал измерять различные показатели скаковых лошадей, а затем смотреть, какие из них коррелируют с показанными в забегах результатами. Важно отметить, что Седер выработал свой план на полтора десятилетия раньше, чем была изобретена Всемирная паутина, но его стратегия во многом базируется на научных данных, и уроки, извлеченные из его рассказа, может применить любой, кто работает с большими данными.
В течение многих лет попытки Седера не приносили ничего, кроме разочарования. Он измерял размер ноздрей лошадей, создав первый и самый большой в мире массив подобных данных и соответствующих им возможных доходов. Джефф обнаружил, что размер ноздрей не может указать на успех. Потом он делал лошадям ЭКГ, чтобы исследовать их сердце. Он отрезал ноги мертвым коням, чтобы измерить объем их быстро сокращающихся мышц. Однажды он даже взял лопату, чтобы определить количество экскрементов лошадей – исходя из теории, что слишком большой их объем перед соревнованиями может замедлить бег. Ничто не коррелировало с результатами на скачках.
А затем, 12 лет назад, произошел первый большой прорыв. Седер решил измерить размер внутренних органов лошадей. Поскольку при существовавшей тогда технологии это было невозможно, он построил свой собственный портативный аппарат УЗИ. Результаты оказались поразительными. Джефф обнаружил, что размер сердца, и в частности левого желудочка, был мощным прогностическим фактором успеха лошади, одной из самых важных переменных. Другой орган, имевший большое значение – селезенка: лошади с небольшой селезенкой практически не имели шансов завоевать приз.
Сделал Седер и еще пару важных наблюдений. Он оцифровал видео тысяч бегущих галопом лошадей и обнаружил, что определенные аллюры коррелируют с успехом на ипподроме. Он также заметил, что некоторые двухлетки начинают хрипеть, пробежав всего одну восьмую мили. Таких лошадей иногда продают даже за миллион долларов, но данные Седера показали: подобные «хрипуны» практически никогда не добиваются успеха. Таким образом, Джефф приказал помощнику сидеть возле финиша и отсеивать «хрипунов».
Из примерно тысячи лошадей, выставленных на аукционе Окала, десяток справился со всеми тестами Седера. Он полностью игнорировал родословную – за исключением того, как это будет влиять на цену коня при продаже. «Родословная может сказать нам, что у лошади очень маленький шанс быть замечательной, – говорит он. – Но если я вижу, что конь великолепен, какая мне разница, у кого он родился?»
Однажды вечером Джефф пригласил меня в свой номер в отеле «Хилтон» в Окале. Там он рассказал мне о своих детстве, семье и карьере. Показал фотографии жены, дочери и сына. Сказал, что был одним из трех еврейских учеников, перешедших в старшие классы в школе в Филадельфии, и что по окончании школы его рост был 145 см (позже, в колледже, он вырос до 173 см). Рассказал о своей любимой лошади Pinky Pizwaanski. Седер купил и назвал ее в честь одного гея-жокея. Он чувствовал, что Pinky-конь всегда старался изо всех сил, даже если и не был самым успешным.
И наконец, Седер показал мне файл, в котором содержались все данные о коне № 85, – файл, ставший наиболее успешным прогнозом в его карьере. Он разглашал свой секрет? Возможно. Но Джефф сказал, что его это не волнует. Важнее сохранения секрета для него было доказать свою правоту, показать всему миру, что эти 20 лет копания во внутренностях, выгребания навоза и таскания с собой аппарата УЗИ принесли наконец результат.
Вот некоторые сведения о лошади № 85.
№ 85 (позже Американский Фараон), однолетка
Здесь четко и ясно видно, почему Седер и его команда так одержимо рекомендовали № 85. Процентиль его левого желудочка составлял 99,61!
Не только левый желудочек, но и все остальные важные органы, включая сердце и селезенку, были исключительно крупными. Вообще говоря, Седер обнаружил: когда дело касается скачек, чем больше левый желудочек, тем лучше. Но его размер может быть и признаком болезни – если другие органы невелики. У Американского Фараона все наиболее важные органы были больше среднего размера, а левый желудочек был просто огромен. Данные кричали о том, что № 85 уникален, таких лошадей была одна на 100 тысяч или даже на миллион.
Какую информацию ученые могут извлечь из проекта Седера?
Первое и, пожалуй, самое главное. Если вы собираетесь попробовать использовать новые данные для революционного улучшения ситуации, лучше сперва задаться вопросом: где не срабатывают старые методы? Одержимость агентов-лошадников родословными оставила Седеру достаточно места для маневра. То же самое можно сказать и о победе Google над поисковыми системами, одержимыми подсчетом слов.
Одним из недостатков в попытке Google предсказать приближение эпидемии гриппа{56}, используя данные поисковых запросов, было то, что вы можете сделать это очень хорошо и сами – просто используя данные прошлой недели и добавив сезонные корректировки. До сих пор ведутся споры о том, насколько сведения, полученные на основании поисковых запросов, лучше простой, но мощной модели. На мой взгляд, поиск в Google практичнее для измерения состояний, для которых существующие данные не столь показательны. Поэтому Google STD в долгосрочной перспективе может оказаться более полезным, чем Google Flu.
Второй урок заключается в том, что при попытке сделать прогноз не нужно всерьез задаваться вопросом, почему ваша модель работает. Седер не может полностью объяснить, почему левый желудочек имеет столь важное значение при прогнозировании успеха лошади. Он также не в состоянии точно сказать, почему на успех влияет именно величина селезенки. Возможно, когда-нибудь лошадиные кардиологи и гематологи и дадут ответ на эти вопросы. Но сейчас это не важно. Седер занимается прогнозированием успеха, а не его объяснением. То есть вы просто должны знать, что это работает, и не пытаться понять почему.
Например, Walmart использует данные о продажах во всех своих магазинах, чтобы знать, какие продукты следует пока отложить. До урагана Фрэнсис – разрушительного шторма, обрушившегося на юго-восток США в 2004 году, – компания Walmart подозревала (и совершенно справедливо), что, когда город переживет удар стихии, покупательские привычки людей могут измениться. Эксперты компании изучили данные по продажам после предыдущих ураганов, стараясь понять, что именно люди, возможно, захотят купить. Какой товар оказался самым популярным? Клубничное печенье. За несколько дней до урагана этот продукт продается в семь раз быстрее, чем обычно.
На основе проведенного анализа в супермаркеты вдоль 95-го шоссе (по пути урагана) поехали грузовики с клубничным печеньем «Поп-Тартс»{57}. И действительно: в эти дни оно продавалось особенно хорошо.
Почему печенье «Поп-Тартс»? Наверное, потому, что оно не требует охлаждения или приготовления.
Почему клубничное? Понятия не имею. Но когда проносятся ураганы, люди сметают клубничное печенье.
Поэтому теперь за несколько дней до очередного урагана Walmart обязательно увеличивает количество этого продукта на полках. Причина взаимосвязи урагана с клубничным вкусом не имеет значения. Важно само ее наличие. Возможно, однажды ученые-диетологи выяснят связь между ураганами и выпечкой с начинкой из клубничного джема. Однако пока мы ждем объяснений, при приближении ураганов Walmart будет по-прежнему заполнять свои полки клубничным «Поп-Тартс» и приберегать рисовые хлебцы для солнечных дней.
Такой же вывод можно сделать и из истории экономиста из Принстона Орли Эшенфелтера. То, чем для Седера были лошади, для Эшенфелтера было вино.
Немногим более 10 лет назад Эшенфелтер испытывал сильное раздражение. Он покупал много красного вина из региона Бордо во Франции. Иногда оно было вкусным и достойным своей высокой цены, но неоднократно случалось так, что оно вызывало сильное разочарование.
Почему, спрашивал Эшенфелтер, он должен платить одну и ту же цену за вино, вкус которого так сильно разнится?
Однажды Орли получил совет от знакомого журналиста и знатока вин. Существует способ выяснить, будет ли вино хорошим. Ключевым моментом, сказал друг Эшенфелтера, является погода во время вегетации винограда.
Орли заинтересовался. И начал выяснять, правда это или нет и не может ли он всегда покупать самое лучшее вино. Он скачал данные о погоде в Бордо за 30 лет. Собрал аукционные цены на вина: аукционы, проходящие через много лет после первой продажи вина, показывают, каким оно на самом деле было.
Результат оказался просто удивительным. Действительно, по большей части, качество вина может быть объяснено погодой во время вегетации. Фактически же его можно определить с помощью простой формулы, которую мы могли бы назвать первым законом виноградарства:
Цена = 12,145 + 0,00117 зимних дождей + 0,0614 средний рост температуры за сезон – 0,00386 дожди во время сбора.
Так почему же качество вина в Бордо определяется таким образом? Чем объясняется первый закон виноградарства? Есть некое объяснение формулы хорошего вина Эшенфелтера: тепло и ранний полив необходимы для того, чтобы виноград правильно созревал. Однако точные сведения о его прогностической формуле выходят за рамки любой теории и, вероятно, никогда не будут поняты до конца даже специалистами в этой области.
Почему сантиметр зимних дождей добавляет в среднем 0,1 цента к цене бутылки полностью созревшего красного вина? Почему не 0,2 цента? Почему не 0,05? Никто не может ответить на эти вопросы. Но если зимой выпало 1000 сантиметров дополнительных осадков, вы должны быть готовы платить за бутылку вина 1 дополнительный доллар.
Как бы то ни было, несмотря на то, что Эшенфелтер не знал точно, почему его регрессия действует именно так, все же использовал ее для покупки вина. По его словам, «это отлично срабатывало»{58}. Качество вина, которое он пил с того времени, заметно улучшилось.
Если ваша цель предсказать будущее – какое вино будет иметь приятный вкус, какие продукты нужно будет продавать, какие лошади будут бежать быстрее других, – вам не нужно слишком сильно беспокоиться о том, почему ваша модель работает так, как работает. Просто пользуйтесь. Это второй урок, который можно извлечь из истории Джеффа Седера.
Заключительный урок, который можно извлечь из удачной попытки Седера спрогнозировать потенциального победителя Тройной короны, – вы должны быть открытыми и гибкими в определении того, что именно следует считать данными. Именно этого не хватало экспертам, оценивавшим шансы лошадей до Седера. Они проверяли время бега и родословную. Гений Джеффа заключался в том, что он стал искать информацию там, куда другие до него не смотрели – то есть нетрадиционные источники данных. Если ученые сумеют взять на вооружение такой свежий и оригинальный взгляд, это обязательно окупится.
Слова как данные
Однажды в 2004 году два молодых экономиста с опытом работы в СМИ, Мэтт Генцкоу и Джесси Шапиро, бывшие тогда аспирантами в Гарварде, прочитали о недавнем решении суда в Массачусетсе легализовать однополые браки.
Парни обратили внимание на нечто интересное: две газеты использовали разительно отличающиеся выражения, описывая одно и то же событие. «Вашингтон Таймс», имеющая репутацию консервативной, озаглавила статью «Гомосексуальная “свадьба” в Массачусетсе». А «Вашингтон пост», считающаяся либеральной, сообщила о «победе однополых пар».
Неудивительно, что различные новостные источники могут склоняться к разным мнениям, что газеты могут пересказать одну и ту же историю в разном ключе. В течение многих лет Генцкоу и Шапиро размышляли, могут ли они использовать свое экономическое образование для того, чтобы понять причины этой предвзятости СМИ. Почему некоторые из них кажутся более либеральными, а другие – более консервативными?
Но у парней не было никаких идей о том, как им решать эту задачу – они не могли понять, каким образом систематически и объективно измерять субъективность СМИ.
Интересным для Генцкоу и Шапиро в истории о гей-браках было не то, что газеты разошлись во взглядах – их заинтересовало, как именно разнилось освещение событий. Речь идет о заметном смещении акцентов при выборе слов. В 2004 году слово «гомосексуалисты», которое использовала «Вашингтон Таймс», было старомодным и унизительным способом описания геев. А вот термин «однополые пары», который употребила «Вашингтон пост», подчеркивает, что отношения геев – просто еще одна форма любви.
Ученые задались вопросом: не может ли язык быть ключом к пониманию необъективности. Возможно, либералы и консерваторы последовательно использовали разные выражения? И можно ли слова, употребляемые газетами при описании той или иной истории, превратить в данные? И что эти сведения могут рассказать об американской прессе? Могли бы мы определить по словам, является пресса либеральной или консервативной? И могли бы мы понять, почему? В 2004 году это были не праздные вопросы. Миллиарды слов в американских изданиях больше не попадали на газетную бумагу или микропленку. Некоторые сайты сейчас записывают каждое слово из каждой статьи почти каждой газеты в США. Генцкоу и Шапиро могли бы прошерстить эти сайты и быстро протестировать, в какой степени язык может показать перекос газеты в ту или иную сторону. Эти тесты помогли бы им улучшить наше понимание принципов работы СМИ.
Но прежде чем описывать их находки, давайте оставим на минутку историю Генцкоу и Шапиро, а также их попытки количественно описать газетный язык, и обсудим, как ученые уже использовали этот новый тип данных – слова – для более глубокого понимания человеческой природы.
Конечно, язык всегда был предметом интереса социологов. Однако для его изучения, как правило, требуется внимательное чтение текстов. И превращение огромных кусков текста в данные раньше не представлялось возможным. Сейчас же, используя компьютеры и оцифровку, легко осуществить классификацию слов, взятых из огромного массива документов. Таким образом, язык стал предметом анализа больших данных. Ссылки, с которыми работает Google, также состоят из слов – равно как и поисковые запросы в Google, с которыми работаю я. Язык настолько важен в информационной революции, что заслуживает отдельного, посвященного только ему раздела книги. На самом деле сейчас он используется настолько широко, что появилось даже понятие «текст как данные».
Основной разработкой в этой области является Google Ngrams. Несколько лет назад два молодых биолога, Эрез Эйден и Жан-Батист Мишель, предложили своим помощникам одно за другим подсчитывать слова в старых пыльных текстах – чтобы выяснить, как часто в них встречается та или иная лексика. Однажды Эйден и Мишель услышали о новом проекте компании Google по оцифровке книг со всего мира и почти сразу же сообразили: так в истории языка будет разобраться гораздо проще.
«Мы поняли, что наши методы безнадежно устарели, – рассказывал Эйден в интервью журналу «Discover». – Было понятно: конкурировать с этой всепобеждающей цифровой мощью невозможно». Поэтому они решили с ней сотрудничать. При помощи инженеров Google Эйден и Мишель создали сервис, осуществляющий поиск по определенному слову или фразе по миллионам оцифрованных книг. Потом приложение сообщает исследователям, как часто это слово или фраза появлялись ежегодно в период с 1800 по 2010 годы.
Так что же мы можем узнать по частоте, с которой слова или фразы появляются в книгах в разные годы? Прежде всего, о медленном росте популярности колбасы и относительно недавнем быстром росте популярности пиццы.
Но есть и гораздо более серьезные результаты. Например, Ngrams Google может показать, как формировалась наша национальная самобытность. Вот, скажем, увлекательный пример из книги Эйдена и Мишеля «Uncharted» («Неизведанное»).
Но сначала один вопрос. Как вы думаете, сегодня Соединенные Штаты – единая или разобщенная страна? Если вы принадлежите к большинству обычных людей, то скажете, что США сильно разобщены из-за высокого уровня политической поляризации. Можно даже сказать, что сегодня страна разобщена как никогда. Америка, в конце концов, теперь разделена по цвету: красные штаты – республиканские, синие – демократические. Но в книге «Uncharted» Эйдена и Мишеля есть один впечатляющий момент, демонстрирующий, насколько сильнее Соединенные Штаты были разобщены в прошлом. Об этом свидетельствуют слова, которые люди используют, говоря о своей стране.
Обратите внимание на слова, которые я использовал в предыдущем абзаце, говоря о разобщенности страны. Я писал: «США – разобщенная страна». Я говорил о США как о существительном в единственном числе. Это естественно, это правильная грамматика и стандартный вариант употребления слов. Уверен, вы этого даже не заметили.
Однако американцы далеко не всегда говорят подобным образом. На заре формирования Соединенных Штатов люди, упоминая свою страну, использовали множественное число. Например, Джон Адамс в докладе о положении дел в 1799 году говорил о «Соединенных Штатах и ИХ договорах с его британским Величеством». Если бы моя книга была написана в 1800 году, я бы сказал: «Соединенные Штаты разобщены». Эта небольшая разница в использовании слов давно заинтересовала историков, поскольку предполагает существование момента, когда Америка перестала думать о себе как о совокупности штатов и начала думать о себе как о единой нации.
Так когда это произошло? Историки, как сообщает нам «Uncharted», никогда не знали этого точно, поскольку у них не было надежного способа прояснить ситуацию. Но многие уже давно подозревали, что это произошло во время Гражданской войны. Джеймс Макферсон, бывший президент американской исторической ассоциации и лауреат Пулитцеровской премии, отметил: «Война ознаменовала собой переход Соединенных Штатов из множественного числа к существительному единственного числа».
Но оказывается, что Макферсон был неправ. Google Ngrams обеспечил Эйдену и Мишелю надежный способ проверки. Они могли видеть, как часто в американских книгах употреблялись фразы «Соединенные Штаты являются…» и «США является…» – год за годом. Переход был достаточно постепенным и не ускорялся ни до Гражданской войны, ни после ее окончания.
Спустя 15 лет после Гражданской войны еще довольно часто писали «Соединенные Штаты являются…», а не «США является…», показывая, что страна лингвистически все еще была разделена. Военные победы опережали изменения в мышлении.
Это все об объединении страны. А как объединяются мужчина и женщина? Слова могут помочь и здесь.
Например, на основании того, о чем говорили конкретные мужчина и женщина во время первой встречи, мы можем предсказать, будет ли у них второе свидание.
Это продемонстрировала междисциплинарная команда Стэнфордского и Северо-Западного университетов – Дэниэл Макфарланд, Дэн Джуравски и Крейг Роулингс. Они общались с сотнями гетеросексуальных участников быстрых свиданий{59}, пытаясь определить факторы, влияющие на возникновение контакта с партнером и желание пойти на вторую встречу с ним.
Сначала исследователи использовали традиционные данные. Они опросили участников быстрых свиданий, записав их рост, вес, увлечения, и проверили, насколько сильно эти факторы коррелируют с тем, с кем зафиксирована искра романтического интереса. В среднем женщины предпочитают мужчин выше себя ростом, разделяющих их увлечения; мужчины в среднем предпочитают более худощавых женщин, разделяющих их увлечения. Ничего нового.
Но ученые обнаружили и новую информацию. Они поручили участникам эксперимента взять с собой цифровые диктофоны. Таким образом удалось собрать все использовавшиеся в разговоре слова, выявить наличие смеха и вычленить тон голоса. Исследователи могли проверить, как мужчины и женщины сигнализировали о своей заинтересованности и чем партнеры «зарабатывали» этот интерес.
Так о чем же говорят нам лингвистические данные? Во-первых, о том, как мужчина или женщина передает свою заинтересованность. Один из способов демонстрации того, что женщина привлекла мужчину, очевиден – он смеется над ее шутками. Еще один фактор, менее очевидный: в разговоре мужчина ограничивает диапазон оттенков голоса. Проводились исследования, показывающие, что монотонный голос часто воспринимается женщинами как мужской. Это означает, что мужчины, когда им нравится женщина, – возможно, подсознательно – преувеличивают свою мужественность.
А вот женщины сигнализируют о своей заинтересованности изменением диапазона оттенков голоса – они начинают говорить более мягко и более короткими фразами. Хорошей подсказкой о заинтересованности женщины являются используемые ею слова. Скажем, ей вряд ли нравится мужчина, если в ее речи встречаются слова и фразы уклонения от прямого ответа – такие, как «возможно» или «наверное».
Парни, если женщина начала подстраховываться высказываниями на любую тему – если ей «вроде бы» нравится ее напиток, или она «вроде как» зябнет, или «наверное» может поесть еще, – могу поручиться: она «вроде бы» «как бы» «наверняка» увлечена не вами.
Женщина наверняка заинтересована в вас, если она рассказывает о себе. Получается, если мужчине нравится женщина, самое прекрасное слово, которое он может услышать из ее уст – «я»: это знак того, что она чувствует себя комфортно. Помимо этого, женщина, скорее всего, проявляет интерес, если использует самонаправленные фразы – такие как «Понимаете?», «Правда?» и «Я имею в виду». Почему? Ученые отметили, что эти фразы привлекают внимание слушателя. Они дружелюбные и теплые, они предполагают поддержание контакта с мужчиной – ну, вы понимаете, что я имею в виду?
Далее. Как мужчинам и женщинам следует общаться, чтобы заинтересовать партнера по свиданию? Статистика утверждает: у мужчин есть много способов говорить таким образом, чтобы увеличить свои шансы понравиться женщине. Дамам нравятся мужчины, которые соглашаются с ними. Поэтому неудивительно, что женщины скорее сочтут наметившийся контакт удачным, если мужчина смеется над их шутками и продолжает разговор на предложенные ими темы, а не постоянно меняет их, заводя разговор о том, о чем он хочет поговорить сам[12]. Женщинам также нравятся мужчины, выражающие им свои поддержку и сочувствие. Если мужчина говорит: «Это круто» или «Это потрясающе», женщины значительно чаще думают о возникшем контакте. Равно как и при использовании им таких фраз, как «Это тяжело» или «Тебе, должно быть, было грустно».
Для женщин есть плохие новости, поскольку статистика, кажется, подтверждает неприятную правду о мужчинах. Разговор играет лишь небольшую роль в их реакции на женщин. При прогнозировании контакта со стороны мужчины внешность женщины перевесит все. Тем не менее есть одно слово, которое можно использовать, чтобы хоть немного повысить шансы на симпатию мужчины, и мы это уже обсуждали: «я». Мужчины более склонны заинтересовываться женщиной, которая рассказывает о себе. И, как отмечалось ранее, женщины также скорее готовы сообщить о возникшем интересе после свидания, где они рассказывали о себе. Таким образом, если на первом свидании пойдет предметный разговор о женщине, это очень серьезный знак. Дама свидетельствует о том, что ей комфортно в этих отношениях и она, похоже, ценит, что мужчина не перетянул на себя весь разговор. А джентльмену нравится, что женщина открылась ему навстречу. Так что второе свидание очень вероятно.
И наконец, в расшифровке записей свиданий был найден четкий индикатор проблем – знак вопроса. Если во время первого свидания было задано много вопросов, это практически исключает возможность второго – как со стороны мужчины, так и со стороны женщины. Это кажется нелогичным, ведь, кажется, вопросы – как раз признак интереса. Но не на первом свидании. На первом большое число вопросов – признак скуки. «Чем вы увлекаетесь?» «Сколько у вас братьев и сестер?» Так люди говорят, когда разговор глохнет. При этом многие удачные первые свидания могут включать в себя только один вопрос – в конце: «Ты встретишься со мной еще раз?» Если это единственный вопрос за всю встречу, скорее всего, ответ будет: «Да».
Мужчины и женщины говорят по-разному, не только когда пытаются завоевать друг друга. Они всегда говорят по-разному.
Команда психологов проанализировала слова, используемые в сотнях тысяч постов на Facebook{60}. Специалисты выясняли, как часто каждое слово употребляется как мужчинами, так и женщинами. В результате определились самые «мужские» и самые «женские» слова в английском языке.
Многие из этих слов, увы, были очевидны. Например, женщины говорят «покупки» и «мои волосы» гораздо чаще, чем мужчины. А последние говорят «футбол» и «Xbox» гораздо чаще, чем женщины. Чтобы утверждать то же самое, вам, наверное, не понадобилась бы команда психологов с их анализом больших данных.
Некоторые выводы, впрочем, оказались более интересными. Женщины используют слово «завтра» гораздо чаще мужчин – возможно, потому, что последние не настолько хорошо умеют загадывать наперед. Добавление буквы «о» к слову «so» (буквы «А» к слову «так») – одна из наиболее типичных женских лингвистических черт. Среди слов, которые непропорционально часто использовались женщинами, были «so», «sooo», «sooooo».
Может быть, тут дело в моем детском интересе к женщинам, которые не боятся случайно вырвавшихся ругательств, но я всегда думал, что представители обоих полов матерятся в равной степени. Но нет. В список слов, использующихся гораздо чаще мужчинами, чем женщинами, входят «черт», «трахает», «бред сивой кобылы», «лохи».
Здесь представлены облака слов, используемых в основном мужчинами, а затем тех, которые чаще всего употребляют женщины. Чем больше слово, тем чаще его используют представители соответствующего пола.
Мужчины
Женщины
Больше всего в этом исследовании мне нравится то, что новые данные предлагают нам выводы, которые существовали уже давно, но мы о них не знали. Мужчины и женщины всегда говорили по-разному. Но в течение сотен тысяч лет эта информация исчезала сразу же, как только звуки растворялись в пространстве. Теперь же она сохраняется в компьютерах и может быть проанализирована с помощью умных машин.
Возможно, учитывая мой пол, я должен был сказать: «Используемые слова, черт возьми, исчезают. Теперь мы можем отдохнуть от просмотра футбола и игры в Xbox и изучить это дерьмо. Ну, конечно, если будет не насрать на это».
Но не просто мужчины и женщины говорят по-разному. С возрастом люди тоже начинают использовать другие слова. Это может даже дать нам некоторые подсказки касательно процесса старения. Вот данные из того же исследования – слова, чаще всего используемые в Facebook людьми того или иного возраста. Я называю это распределение «Пить. Работать. Молиться». Подростки пьют. После 20 лет они работают. Когда им стукнет 30 и больше, они молятся.
Новый мощный инструмент для анализа текста иногда называют еще анализатором настроения. Теперь ученые в состоянии оценить, насколько счастливым или грустным является конкретный отрывок.
Как? Команда исследователей попросила большое число людей охарактеризовать десятки тысяч слов английского языка как положительные или отрицательные. Самыми положительными, согласно этой методике, стали «счастье», «любовь» и «круто». Наиболее негативными – «грустно», «смерть» и «депрессия». Таким образом на базе огромного набора слов был создан определитель настроения.
19–22 года
23–29 лет
30–65 лет
Используя его, можно измерить среднее настроение слов в текстовом отрывке. Если кто-то пишет: «Я счастлив, люблю и чувствую себя замечательно», анализатор отметит это как очень счастливый текст. Если кто-то пишет: «Мне грустно думать о смерти и депрессии», анализатор выдаст заключение, соответствующее очень грустному тексту. Остальные фрагменты будут располагаться где-то посередине.
Так что же можно узнать при помощи определителя настроения текста? Специалисты по анализу данных Facebook продемонстрировали одну замечательную возможность. Они могут оценивать валовое национальное счастье страны практически ежедневно. Если сообщения о своем состоянии люди склонны писать в позитивных тонах, страна в этот день считается счастливой. Если же тексты в основном будут негативными, день в стране явно не задался.
Одна из находок специалистов по анализу данных Facebook: Рождество – один из самых счастливых дней в году. Я был настроен скептически в отношении этого анализа, да и в целом в отношении всего проекта. Вообще, думаю, что многие люди тайно грустят в Рождество – потому что одиноки или поссорились со своей семьей. В целом я не склонен доверять обновленной информации Facebook в связи с нашей склонностью лгать онлайн о своей жизни (это мы обсудим в следующей главе).
Если вы одиноки и несчастны в Рождество, вам действительно захочется расстраивать всех друзей постом о том, как вы несчастны? Подозреваю, многие люди, проводящие безрадостное Рождество, публикуют в Facebook посты о том, как они благодарны за эту «замечательную, удивительную, поразительную, счастливую жизнь», тем самым повышая показатель валового счастья страны. Но если мы собираемся определить реальный уровень Валового Национального Счастья, следует использовать больше источников, чем просто обновления ленты в Facebook.
Заявление о том, что Рождество – это, в целом, радостное событие, будет похоже на правду. Обзор поисковых запросов в Google касательно депрессии и опросы Gallup также говорят о том, что Рождество является одним из самых счастливых дней в году. И, вопреки распространенному мифу, число самоубийств во время праздников снижается. Даже если в Рождество и встречаются грустные и одинокие люди, гораздо больше веселых и счастливых.
Сегодня, когда человек садится почитать, он большую часть времени проводит за внимательным изучением постов в Facebook. Но некогда, не так давно, люди читали книги – и здесь анализ настроений может нам сообщить многое.
Команда ученых, возглавляемая Энди Рейганом из Калифорнийского университета и Школы информации в Беркли, скачала тексты тысяч книг и сценариев фильмов{61}. Затем исследователи определили, насколько счастливым или печальным был каждый фрагмент каждого текста.
Рассмотрим, например, книгу «Гарри Поттер и дары смерти». Ученые показали, как настроение повествования меняется вместе с описанием ключевых моментов сюжета.
Обратите внимание: многие взлеты и падения настроения, выявленные анализировавшей текст командой, соответствуют ключевым событиям.
Большинство историй имеют более простые структуры. Возьмем, например, трагедию Шекспира «Король Иоанн». В этой пьесе все идет гладко. Короля Иоанна Безземельного просят отказаться от престола. Он отлучен от церкви за неподчинение папе римскому. Вспыхивает война. Его племянник умирает – возможно, в результате самоубийства. Другие люди умирают. И в конце умирает Иоанн, отравленный недовольным монахом.
А вот анализ настроений по ходу пьесы.
Другими словами, просто анализируя текст, компьютер смог показать, что события идут от плохого к худшему и к еще более худшему.
Или рассмотрим фильм «127 часов». Его основной сюжет выглядит следующим образом.
Альпинист идет в поход по национальному парку Каньонлендс в штате Юта. Он знакомится с другими туристами, но затем расходится с ними. Внезапно он поскальзывается и сбивает непрочно стоявший камень, который зажимает его руку. Альпинист пытается различными способами освободиться, но каждый раз терпит неудачу. Он впадает в отчаяние. Наконец он отрезает себе руку и убегает. Позже он женится, заводит семью, но продолжает ходить в горы – хотя теперь не забывает оставить записку, когда уходит.
А вот анализ настроений фильма, опять же, сделанный командой ученых Рейгана.
Так что же мы узнаем, изучив настроение тысяч подобных историй?
Специалисты по анализу данных обнаружили, что огромный процент историй вписывается в одну из шести относительно простых структур, обнаруженных командой Рейгана:
От нищеты к богатству (подъем)
От богатства к нищете (падение)
Человек в яме (падение, потом подъем)
Икар (подъем, потом падение)
Золушка (подъем, потом падение, потом подъем)
Эдип (падение, потом подъем, потом падение)
Возможны небольшие отклонения, не учитываемые простой схемой. Например, фильм «127 часов» относится к категории «Человек в яме», хотя есть моменты, когда эмоциональный фон временно улучшается. Но подавляющее большинство историй вписываются в одну из шести категорий. «Гарри Поттер и дары смерти» является исключением.
Нам еще нужно ответить на множество дополнительных вопросов. Например, как изменялась структура истории с течением времени? Становились ли с годами истории сложнее? Имеются ли культурные различия в типах историй? Какие типы историй люди любят больше всего{62}? Мужчин и женщин привлекают разные структуры историй или одинаковые? А как насчет людей из разных стран?
В конечном счете текст как данные может обеспечить нам беспрецедентное понимание того, что на самом деле хотят зрители. Это понимание может существенно отличаться от мнения писателей и создателей фильмов.
Рассмотрим исследование двух профессоров Уортонской школы – Ионы Бергера и Кэтрин Л. Милкмен. Они выясняли, какие типы историй привлекали людей больше всего, какие – позитивные или негативные – скорее попадут в список, которым делятся активнее всего по электронной почте (по данным «Нью-Йорк Таймс»). Исследователи скачивали каждую статью из «Нью-Йорк Таймс» в течение трех месяцев. Используя программу анализа настроений, профессоры расшифровывали настроение статей. Скажем, «Премия «Тони» за меценатство» оказалась положительной историей. А вот «Слухи в интернете о самоубийстве корейской актрисы» и «Германия: умерла кормилица белого медвежонка» – что неудивительно – имели негативный характер.
Профессоры также фиксировали информацию о том, где именно каждая статья была размещена. На главной странице? Сверху справа? Сверху слева? Кроме того, они записывали информацию о времени выхода статьи. Поздно вечером во вторник? В понедельник утром?
Они могли сравнить две статьи (позитивную и негативную), оказавшиеся на сайте «Нью-Йорк Таймс» на одном и том же месте и вышедшие примерно в одно и то же время – чтобы посмотреть, какой из них люди будут активнее делиться по электронной почте.
Итак, какие статьи имеют больше откликов – позитивные или негативные?
Позитивные. Как заключают авторы исследования, «чем позитивнее контент, тем больше он имеет шансов быть распространенным в интернете».
Обратите внимание на этот неожиданный контраст с обычным журналистским представлением о том, что людей привлекают жестокие истории и рассказы о катастрофах. Действительно, СМИ вываливают на головы людей кучу мрачных статей. Пожалуй, нам есть что обсудить в редакционной поговорке: «Чем больше крови, тем сильнее притягивает». Однако исследование профессоров из Уортонской школы показывает, что на самом деле люди хотят видеть больше веселых историй. Они могут предложить новую поговорку: «Если что-то заставляет улыбаться, люди поделятся этим с другими».
Вот вам и вся правда о грустных и радостных текстах. Как бы вы могли определить, какие слова можно считать либеральными или консервативными? Что это говорит нам о современных СМИ? Это немного сложнее и возвращает нас к Генцкоу и Шапиро. Как вы помните, они были экономистами, заметившими, что браки геев по-разному описывались в двух разных газетах, и в этой связи задавшимися вопросом: не смогут ли они использовать язык для выявления политической предвзятости.
Первое, что сделали эти двое – проверили записи стенограмм Конгресса. Поскольку эти записи уже оцифрованы, ученые смогли скачать каждое слово, использованное в 2005 году каждым конгрессменом – как демократом, так и республиканцем. После чего они попробовали выяснить, какие фразы предпочитают использовать демократы, а какие – республиканцы.
И такие фразы действительно были. Вот несколько примеров в каждой категории.
Что объясняют эти различия в лексике?
Иногда демократы и республиканцы используют разные формулировки для описания одного и того же понятия. В 2005 году республиканцы пытались сократить федеральный налог на наследство. Они, как правило, называют его «налогом на смерть» (это звучит как поборы с недавно усопших). Демократы же обозначили его как «налог на недвижимость» (что выглядит как налог на богатых). Аналогичным образом, республиканцы пытались превратить социальное страхование в индивидуальные пенсионные счета. Для них это была «реформа». Для демократов же это звучало более угрожающе – «приватизация».
Иногда различия в языке – это вопрос расстановки акцентов. Наверняка и республиканцы, и демократы с большим уважением относятся к Розе Паркс, герою борьбы за гражданские права. Но демократы чаще упоминают ее имя. Кроме того, обе партии считают Саддама Хусейна, бывшего президента Ирака, злым диктатором. Но республиканцы гораздо чаще упоминали его в своих попытках оправдать войну в Ираке. Аналогично, борьба за «права трудящихся» и забота о «бедняках» являются основополагающими принципами Демократической партии. «Право частной собственности» и урезание «госрасходов» – основные принципы республиканцев.
И эти различия в использовании лексики весьма существенны. Например, в 2005 году республиканцы в Конгрессе использовали фразу «налог на смерть» 365 раз, а «налог на недвижимость» – всего 46. У демократов картина оказалась прямо противоположной: 35 фраз «налог на смерть» и 195 – «налог на недвижимость».
Если эти слова могут сказать нам, является ли конгрессмен демократом или республиканцем, то ученые поняли, что их можно использовать и для определения газет правого или левого толка. Консервативные газеты делают на своих страницах примерно то же самое, что и республиканцы в конгрессе: последние предпочитают употреблять выражение «налог на смерть» – для убеждения людей противодействовать ему. Например, относительно либеральная «Вашингтон пост» использовала выражение «налог на недвижимость» в 13,7 раз чаще, чем словосочетание «налог на смерть». А более консервативная «Вашингтон Таймс» употребила фразу «налог на смерть» и «налог на имущество» примерно в одинаковых пропорциях.
Благодаря чудесам интернета Генцкоу и Шапиро смогли проанализировать лексику большинства национальных газет. Ученые использовали два вебсайта – news-library.com и proquest.com, – где имеется оцифрованный архив 433 газет. Затем они подсчитали, как часто там употреблялась тысяча подобных политически заряженных выражений – для определения политической ориентации самих СМИ. Самой либеральной по этому показателю оказалась «Philadelphia Daily News». А самой консервативной – «Billings (Montana) Gazette».
Когда у вас появляются первые обстоятельные мерила пристрастий такого широкого спектра СМИ, вы, пожалуй, можете ответить на самый важный вопрос о прессе: почему одни публикации демонстрируют сдвиг влево, а другие – вправо{63}?
Экономисты быстро сосредоточили свое внимание на одном ключевом факторе: политических настроениях в том или ином регионе. Если он в целом либеральный – как Филадельфия и Детройт, – доминирующая газета, скорее всего, будет либеральной. Если же он более консервативен – как Биллингс и Амарилло, штат Техас, – основная часть газет там будет консервативной. Иными словами, факты убедительно свидетельствуют: газеты склонны давать своим читателям то, чего те хотят.
Вы можете сказать, что владелец газеты имеет влияние на направление взглядов своего издания. Но нет. Как правило, на политическую направленность газеты он влияет меньше, чем мы могли бы предположить. Обратите внимание на то, что происходит, когда один и тот же человек или компания владеет газетами на различных рынках. Рассмотрим компанию «Нью-Йорк Таймс». Генцкоу и Шапиро обнаружили, что она владеет как либеральной «Нью-Йорк Таймс» в Нью-Йорке, где около 70 % населения являются демократами, так и (на момент исследования) консервативной «Spartanburg Herald-Journal» в Спартанбурге, Южная Каролина, где около 70 % населения – республиканцы. Конечно, есть и исключения: новостная корпорация Руперта Мердока{64} владеет всеми признанной консервативной газетой «Нью-Йорк пост». Но в целом полученные данные свидетельствуют о том, что рынок определяет направленность газет в гораздо большей степени, чем воля хозяев.
Исследование имеет огромное влияние на наше представление о новостных СМИ. Многие люди, особенно марксисты, рассматривали американскую журналистику как нечто, управляемое кучкой богатых людей или корпораций с целью воздействия на массы, для того, чтобы подтолкнуть людей к определенным политическим взглядам. Однако в статье Генцкоу и Шапиро показано: это не основная мотивация владельцев газет. Они, прежде всего, стремятся дать массам то, чего те хотят – чтобы владельцы газет могли стать еще богаче.
Да, есть же еще один вопрос – важный, спорный и, возможно, еще более провокационный. Куда, в среднем, больше склоняются американские СМИ – влево или вправо? Другими словами, СМИ в Америке скорее либеральные или консервативные?
Генцкоу и Шапиро обнаружили, что в основном газеты имеют левый уклон. Средняя газета, по используемым в ней словам, больше похожа на конгрессмена-демократа, чем на конгрессмена-республиканца.
«Ага! – могут завопить консервативно настроенные читатели. – Я же говорил!» Многие консерваторы давно подозревали, что газеты, пытаясь манипулировать массами, пишут предвзято – чтобы поддержать левые взгляды.
Нет, это неверно, отвечают авторы статьи. На самом деле либеральный уклон в газетах хорошо откалиброван и заточен на то, что читатели хотят увидеть. Последние, в среднем, имеют небольшой уклон влево. (У исследователей есть данные об этом). И газеты, в среднем, также имеют небольшой уклон влево – чтобы подать своим читателям ту точку зрения, которую они желают видеть.
В этом нет никакого великого заговора. Есть только капитализм.
Новостные СМИ, по данным Генцкоу и Шапиро, часто действуют как любая другая отрасль на планете. Точно так же, как супермаркеты выясняют, какое мороженое люди предпочитают, и заполняют им свои полки, газеты выясняют, какие оценки люди хотят видеть, и заполняют ими свои страницы. «Это просто бизнес», – сказал мне Шапиро{65}. Вот что вы можете узнать, когда разберете на составные части и количественно оцените такие мудреные явления, как новости, анализ и мнения.
Изображения как данные
Традиционно когда ученые или бизнесмены хотели собрать информацию, они проводили исследования. Данные аккуратно формировались на основе чисел или флажков в окошках опросников. Сейчас все иначе. Дни структурированных, чистых и простых полученных в результате исследований данных закончились. Идя по жизни сегодня, мы повсюду оставляем свои грязные следы, которые и становятся основным источником информации.
Как мы уже видели, слова – это данные. Клики – это данные. Ссылки – это данные. Опечатки – это данные. Бананы во сне – данные. Тон голоса – данные. Хрипы – данные. Сердечный ритм – данные. Размер селезенки – данные. Я утверждаю, что поисковые запросы – наиболее разоблачительные данные.
Оказывается, фотографии – тоже данные.
Так же, как слова, собранные в книгах или в периодике и хранившиеся на пыльных полках, фотографии были вытащены из фотоальбомов и картонных коробок и оцифрованы. Они тоже были превращены в биты и байты и запущены в облако. Как текст может преподать нам урок – продемонстрировав, например, как менялась манера людей излагать свои мысли, – так и фотографии могут показать нам историю США – например, изменением способов позирования перед камерой.
Я считаю гениальным исследование группы четырех ученых-компьютерщиков в университетах Браун и Беркли. Они воспользовались достижением цифровой эпохи: многие вузы отсканировали ежегодные фотографии выпускников{66} и сделали их доступными онлайн. В интернете исследователи нашли 949 ежегодников с фотографиями учеников американских средних школ за период 1905–2013 годов. Это собрание включало десятки тысяч снимков. Используя компьютерные программы, ученые смогли создать по фотографиям «обычное» лицо каждого десятилетия. Другими словами, они смогли выяснить среднее расположение и конфигурацию носа, глаз, губ, волос. Здесь представлены типичные лица более чем за век – с разбивкой по полу:
Ничего не замечаете? Американцы – и особенно женщины – стали улыбаться. В начале XX века они фотографировались почти с каменным выражением, а в конце – просто сияли.
Так в чем причина? Разве американцы стали счастливее?
Нет. Ответить на этот вопрос помогли другие ученые. Причина – по крайней мере, на мой взгляд – просто удивительна. На заре фотографии люди относились к ней, как к живописи{67}. Они не могли сравнить этот процесс ни с чем другим. Таким образом, фотосюжеты были скопированы с сюжетов картин. А поскольку люди, позирующие художнику для картины, не могли сохранять улыбку в течение долгих часов, они принимали серьезный вид. Люди, которых снимал фотограф, также делали серьезные лица.
Что же в итоге заставило их поменять выражение лица? Бизнес, прибыль, маркетинг, конечно. В середине ХХ века Kodak – компания, продававшая пленку и камеры – была расстроена тем, что люди делают не слишком много снимков. Тогда была разработана стратегия приучения людей снимать все больше и больше. Рекламные кампании Kodak стали ассоциировать фотографии с понятием счастья. Их целью было заставить людей приобрести привычку делать фото всякий раз, когда они хотели показать другим, что в их жизни произошло нечто хорошее. Так что улыбки в ежегодниках являются результатом этой успешной кампании (как и большинство фотографий, которые вы видите в Facebook и в Instagram сегодня).
Но данные, полученные на основе фотографий, могут рассказать нам гораздо больше, чем обозначение периода времени, когда старшеклассники начали говорить: «Сы-ы-ыр». Удивительно, но снимки в состоянии поведать нам даже о положении дел в экономике.
Познакомьтесь с одной провокационно озаглавленной научной работой: «Измерение экономического роста из космоса». Когда у документа название вроде такого, можете держать пари: я обязательно прочитаю его. Авторы работы – Вернон Хендерсон, Адам Соригард и Дэвид Н. Вайль – начали с замечания, что во многих развивающихся странах существующие измерения валового внутреннего продукта (ВВП) являются неэффективными. Это происходит потому, что значительная часть экономической активности остается незафиксированной в бухгалтерских книгах, а ресурсы правительственных учреждений, в задачу которых входит измерение производительности экономики, довольно ограничены.
Авторы озвучили неординарную мысль. Они говорят, что могли бы измерять ВВП, исходя из того, насколько светло в этих странах ночью{68} – получив эту информацию из фотографий со спутника ВВС США, который делает полный оборот вокруг Земли 14 раз в сутки.
Почему свет в ночное время может быть хорошим показателем ВВП? В очень бедных частях мира людям трудно заплатить за электричество. В результате при плохих экономических условиях в домах резко уменьшалось количество света, которое жители позволяли себе включать ночью.
В Индонезии в результате Азиатского финансового кризиса 1998 года количество света ночью резко снизилось. А в Южной Корее в период с 1992 по 2008 год объем ночного освещения увеличился на 72 %, что соответствовало исключительно высоким экономическим показателям в тот период. В Северной Корее в то же время количество освещения ночью уменьшилось, что соответствовало удручающим экономическим показателям.
В 1998 году в южной части Мадагаскара было обнаружено большое скопление рубинов и сапфиров. Городишко Илакака из практически стоянки для грузовиков превратился в крупный торговый центр. До 1998 года там почти не было ночного освещения, а после обнаружения месторождения за пять лет количество света в ночное время взрывообразно увеличилось.
Авторы признают, что их оценка экономической активности по уровню ночного освещения далека от идеала. Вы не можете точно оценить состояние экономики только по тому, сколько света улавливает спутник. Авторы не рекомендуют использовать этот показатель для развитых стран, где существующие экономические данные дают более точную картину. И, по правде говоря, они обнаружили, что даже в развивающихся странах оценка количества света ночью столь же бесполезна, как и официальные показатели. Но сочетание ущербных правительственных данных и несовершенных показателей ночного освещения дает более точный результат, чем может обеспечить лишь один источник. Другими словами, с помощью снимков, сделанных из космоса, вы можете просто улучшить свое понимание уровня развития экономик той или иной страны.
Джозеф Райзингер, доктор наук в области информатики, разделяет разочарование авторов идеи о ночном освещении в отношении существующих баз данных с информацией об экономиках развивающихся стран. В апреле 2014 года Райзингер отметил, что Нигерия обновила информацию об объеме ВВП с учетом новых секторов, которые тамошние чиновники, возможно, пропустили при опубликовании предыдущих оценок. По их нынешним оценкам, ВВП Нигерии сейчас на 90 % выше{69}.
«Это крупнейшая экономика в Африке, – сказал Райзингер{70}, и его голос постепенно начал набирать силу. – Мы даже не знаем, какие основные параметры мы хотели бы знать об этой стране».
Он хотел найти способ более четко оценивать различные экономические показатели. Его решение – это отличный пример того, как можно переосмыслить данные и какова их реальная ценность.
Райзингер основал компанию «Premise», в которой работают группы сотрудников из развивающихся стран, вооруженные смартфонами. В чем заключается их работа? Фотографировать интересные происшествия, которые могут иметь какое-либо экономическое значение.
Сотрудники, вооружившись смартфонами, могут делать снимки АЗС или фруктовых корзин в супермаркетах. Они фотографируют одни и те же места снова и снова. Фотографии отправляются в головной офис компании, где вторая группа сотрудников – компьютерщики – превращают фотографии в информацию.
Специалисты компании могут проанализировать все – от длины очередей на заправках до того, сколько яблок лежит в корзине в супермаркете, и до цены этих яблок. На основе самых разных фотографий любых видов деятельности компания может начать оценивать уровень экономической активности и инфляции. В развивающихся странах длинные очереди на АЗС – основной индикатор экономических проблем. Равно как недозрелые яблоки и их отсутствие. Снимки, сделанные в Китае, помогли обнаружить продовольственную инфляцию в 2011 году и продовольственную дефляцию в 2012 году – задолго до появления официальных данных.
«Premise» продает эту информацию банкам или хедж-фондам, а также сотрудничает со Всемирным банком.
Как и многие хорошие идеи, «Premise» продолжает приносить пользу. Недавно Всемирный банк заинтересовался размерами теневой экономики на Филиппинах, связанной с сигаретами. В частности, он хотел знать последствия недавних шагов правительства, включавших случайные рейды против производителей сигарет, не уплачивающих налоги. Что придумала компания «Premise»? Фотографировать табачные киоски на улице. Посмотрим, на скольких из них имеются акцизные марки, которые отличают законные сигареты. Было обнаружено, что эта часть теневой экономики, бывшая достаточно обширной в 2015 году, в 2016-м стала значительно меньше. Усилия правительства принесли результат, хотя для того, чтобы понять объем скрытого товара (нелегальных сигарет), требуются новые данные.
Как мы видели, эпоха цифровых технологий принесла совершенно новое понимание того, что считать данными, и из новой информации было сделано много интересных выводов. Знание причин, заставляющих СМИ смещать тональность своих выступлений влево или вправо, обеспечивающих успех первого свидания и возможность выявления хорошо развивающиейся экономики – это только начало.
Неслучайно на основе этих новых данных было сделано немало денег – начиная с десятков миллиардов господ Брина и Пейджа. Джозеф Райзингер также работает не в убыток себе. Обозреватели подсчитали, что годовой доход «Premise» сегодня составляет десятки миллионов долларов. Недавно инвесторы влили в компанию еще 50 миллионов{71}. Это означает, что некоторые из них считают «Premise» одним из самых выгодных предприятий в мире – в первую очередь, в области создания и использования фотографий. То есть в той же лиге, что и «Playboy».
Другими словами, новые типы данных имеют огромное значение как для ученых, так и для предпринимателей. При этом понятие данных в последнее время значительно расширилось. Сегодня специалисты не должны ограничивать себя узким или традиционным представлением о них. В наши дни фотографии очередей в супермаркетах – ценные данные. Наполнение полок там же – данные. Спелость яблок – данные. Фотографии из космоса – данные. Кривизна линии губ – тоже данные. Любая информация!
И все эти новые сведения мы наконец можем увидеть даже сквозь прикрывающую их ложь.{72}