Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим — страница 17 из 46

почему, сколько что, хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.

Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.

Основными факторами оказались возраст кабелей и наличие неполадок в люках в прошлом. Как ни странно, эти сведения были полезными, поскольку легко объясняли руководству Con Edison, на чем основан рейтинг. Но, помилуйте, возраст и неполадки в прошлом? Разве это не достаточно очевидно? И да и нет. С одной стороны, как любил повторять математик Дункан Уоттс (в своей книге[66]), «все очевидно, когда вы уже знаете ответ». С другой стороны, важно помнить, что модель изначально содержала 106 прогностических факторов. И не так уж очевидно, как их взвесить, а затем ранжировать десятки тысяч люков, учитывая множество переменных, связанных с каждым фактором. В итоге получаются миллионы точек данных, притом что сами данные изначально непригодны для анализа.

Этот случай наглядно демонстрирует, как данные находят новое применение для решения сложных задач реального мира. Для этого понадобилось изменить подход к работе и использовать все данные, которые удалось собрать, а не только их небольшую часть. Нужно было принять естественную беспорядочность данных, а не рассматривать точность как высший приоритет. К тому же пришлось рассчитывать на корреляции, не зная полностью причин, которые легли в основу прогнозирования.

Конец теории?

Большие данные меняют наш подход к познанию мира. В эпоху малых данных мы руководствовались гипотезами о том, как устроен мир, а затем старались проверить их путем сбора и анализа данных. В дальнейшем наше понимание будет зависеть от изобилия данных, а не от гипотез. Получая и анализируя данные, мы увидим связи, о которых и не подозревали раньше.

Гипотезы часто являются продуктом теорий естественных и социальных наук, которые помогают объяснить, а иногда и спрогнозировать события окружающего мира. По мере того как мир переходит от гипотез к данным, велико искушение решить, что теории тоже больше не нужны.

В 2008 году главный редактор журнала Wired Крис Андерсон высказал мнение, что «ввиду огромного потока данных научные методы уже неактуальны». В статье «Век петабайтов» он заявил, что это означает не что иное, как «конец теории». Традиционный процесс научного открытия (проверка гипотезы на достоверность с помощью модели основополагающих причин), по утверждению Андерсона, уже отжил свое и заменен статистическим анализом корреляций, в котором нет места теории.[67]

В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».

Статья вызвала оживленное обсуждение, хотя Андерсон быстро отказался от своих смелых заявлений.[68] Но его основная идея достойна внимания. По сути, он считает, что до недавнего времени в стремлении проанализировать и понять окружающий мир нам требовались теории, которые проверялись на достоверность. В эпоху больших данных, напротив, основная идея состоит в том, что нам больше не нужны теории — достаточно взглянуть на данные. Предполагается, что все обобщенные правила (о том, как устроен мир, как ведут себя люди, что покупают потребители, как часто ломаются детали и т. д.) могут утратить свою актуальность, когда в ход идет анализ больших данных.

«Конец теории» позволяет предположить: несмотря на то что предметные области, такие как физика и химия, полны теорий, анализ больших данных не нуждается в каких-либо концептуальных моделях. Но это абсурд!

Большие данные имеют теоретическую основу. При анализе больших данных используются статистические и математические теории, а иногда и теоретические знания из области компьютерных наук. Да, это не теории о причинной динамике того или иного явления (например, гравитации), но все же теории! И, как было показано ранее, модели на основе этих теорий, лежащих в основе анализа больших данных, открывают полезные возможности прогнозирования. На самом деле анализ больших данных может предложить свежий взгляд и новые идеи именно потому, что не обременен рамками традиционного мышления и присущими ему предубеждениями, которые неявно представлены в теориях конкретной области.

Поскольку анализ больших данных основан на теориях, эту основу невозможно игнорировать — более того, нужно признать, что она тоже влияет на результат. Все начинается с того, как мы выбираем данные. Их сбор может быть обусловлен удобством (доступны ли данные) или экономией (можно ли получить данные по дешевке). Наш выбор в данном случае зависит от теорий. Как полагают Дана Бойд[69] и Кейт Кроуфорд,[70] наши находки зависят от того, что мы выбираем. В конце концов, специалисты Google использовали в качестве закономерности условия поиска, связанные с гриппом, а не с размерами обуви. Точно так же, анализируя данные, мы выбираем инструменты, которые опираются на теории. Наконец, интерпретируя результаты, мы снова применяем теоретические знания. Эпоха больших данных отнюдь не лишена теорий — они повсюду, со всеми вытекающими последствиями.

Большие данные не предрекают «конец теории», но принципиально меняют наше представление об окружающем мире. Обществу предстоит еще ко многому привыкнуть ввиду этих изменений. Многие учреждения столкнутся с новыми трудностями. Но огромные преимущества, которые мы получим, делают такой компромисс не только целесообразным, но и неизбежным. При этом следует отметить, как это произойдет. Большинство специалистов в области высоких технологий, поскольку сами занимаются их созданием, сказали бы, что все дело в новых инструментах — от быстрых чипов до эффективного программного обеспечения. Однако эти инструменты не настолько важны, как можно подумать. Более глубокая причина сложившихся тенденций лежит в том, что у нас появилось намного больше данных, так как стало фиксироваться больше факторов действительности. Об этом — в следующей главе.

Глава 5Датификация

Мори Мэтью Фонтейн был многообещающим офицером военно-морского флота США. Получив новое назначение, в 1839 году он направился на бриг Consort. Его дилижанс внезапно съехал с дороги, опрокинулся, и Мори вылетел наружу. Жестко приземлившись, он сломал бедренную кость и вывихнул колено. Местный врач вправил ему коленный сустав, но бедренная кость срослась неправильно, и через несколько дней ее потребовалось повторно ломать. Из-за травм 33-летний Мори начал прихрамывать и стал непригоден к морской службе. Спустя почти три года, потраченных на оздоровление, он был назначен на офисную службу в ВМФ в качестве руководителя отдела со скучным названием «Депо карт и приборов».

И эта должность подошла ему как нельзя лучше! Будучи молодым штурманом, Мори задавался вопросом, почему корабли движутся по водной глади зигзагообразно, а не по прямой. Задавая этот вопрос капитанам, он слышал в ответ, что намного лучше держаться знакомого курса, чем рисковать и идти по малознакомому, который таит в себе скрытые опасности. Океан считался непредсказуемым царством, полным неожиданностей, волн и порывов ветра.

Имея опыт путешествий, Мори знал, что это не совсем так. Он во всем искал систему. Находясь в просторном порту в Вальпараисо (Чили), он заметил, что ветры дуют с точностью часов. Вечерний сильный ветер резко затихал на закате и сменялся легким бризом, будто кто-то щелкнул выключателем. Во время другого рейса Мори пересек теплые ярко-синие воды Гольфстрима, которые текут между темными стенами морских вод Атлантики по одному и тому же пути, словно река Миссисипи. Португальцы и вправду веками плавали по Атлантике, опираясь на постоянные восточные и западные ветры — пассаты (от древнеангл. «путь» или «курс», который стал ассоциироваться с торговлей).

Всякий раз, оказываясь в новом порту, мичман Мори отправлялся на поиски старых морских капитанов, чтобы перенять знания, основанные на опыте, который передавался из поколения в поколение. Так он узнал о приливах, ветрах и морских течениях, действующих с определенной закономерностью, о которой не прочтешь ни в одной книге и которой не увидишь ни на одной карте, что выпускались для моряков военно-морским флотом. Вместо этого в ВМФ полагались на карты порой столетней давности, многие из которых содержали значительные упущения или откровенные неточности. Занимая новую должность начальника депо карт и приборов, Мори стремился исправить это положение.