Большие данные: обращаться с осторожностью
Глава 7Большие данные-шманные: Чего они не могут?
«Сет, Лоуренс Саммерс хотел бы встретиться с вами», – получил я несколько загадочное письмо. Оно было от Лоуренса Каца, одного из моих ученых-советников. Кац не сказал, почему Саммерс заинтересовался моей работой, хотя позже я узнал, что ему это было известно.
Я сидел в приемной возле офиса Саммерса. После некоторой задержки бывший министр финансов США, бывший президент Гарвардского университета и лауреат крупнейших премий в области экономики предложил мне войти.
Саммерс начал встречу, зачитав мою статью о влиянии расизма на деятельность Обамы, которую распечатал для него его секретарь. Саммерс владеет методом скоростного чтения. В процессе он иногда высовывает кончик языка вправо, в то время как его глаза стремительно мечутся влево-вправо и вниз по странице. Саммерс, читающий текст научной работы, напоминает мне великого пианиста, исполняющего сонату. Он так сосредоточен, что, кажется, забывает обо всем остальном. Меньше чем за пять минут он прочел статью в 13 страниц.
«Вы говорите, что поисковые запросы в Google со словом «ниггер» предполагают расизм, – сказал Саммерс. – Это похоже на правду. Они предсказывают, где Обама получит меньшую поддержку, чем Керри. Это интересно. Мы действительно можем сказать, что Обама и Керри похожи?»
«Они были классифицированы политологами как имеющие подобные идеологии, – ответил я. – Кроме того, нет никакой связи между расизмом и изменениями в Белом доме. Результат остается неизменным, даже если мы добавляем элементы демографии, посещение церкви и владение оружием». Так говорим мы, экономисты. Я был весьма воодушевлен.
Саммерс остановился и уставился на меня. Он ненадолго повернулся к настроенному на канал CNBC телевизору. Затем снова посмотрел на меня, потом на телевизор, потом опять на меня. «Ладно, мне нравится эта статья, – сказал Саммерс. – Над чем вы еще работаете?»
Следующие 60 минут были, возможно, самыми интеллектуально головокружительными в моей жизни. Мы с Саммерсом поговорили о процентных ставках и инфляции, о поддержании порядка и о преступности, о бизнесе и о благотворительности. Многие встречающиеся с Саммерсом люди подпадают под его обаяние. Мне посчастливилось разговаривать с этим, бесспорно, самым умным человеком, которого я когда-либо встречал. Саммерс показался мне невероятно мудрым. Новые идеи увлекают его больше, чем что-либо другое – и это, кажется, нередко создает ему немалые проблемы. Он был вынужден оставить свой пост в Гарварде после того, как высказал предположение, согласно которому одна из причин нехватки женщин в науке может заключаться в намного большей вариативности IQ у мужчин. Если Саммерс находит какую-либо идею интересной, он, как правило, говорит об этом, даже если это режет чей-то слух.
После запланированного времени окончания нашей встречи прошло полтора часа. Разговор затягивался, но я до сих пор не имел понятия, зачем понадобился Саммерсу, когда мне нужно будет уходить и как я узнаю об этом. Такое впечатление, что на тот момент Саммерс и сам, вероятно, забыл, зачем устроил эту встречу.
И тогда он задал вопрос на миллион – или, возможно, миллиард – долларов. «Вы думаете, что на основе каких-либо данных сможете предсказать ситуацию на фондовом рынке?»
Ага! Вот наконец и выяснилась причина, по которой меня позвали сюда.
Саммерс не был первым, кто задал мне этот вопрос. Мой отец в основном поддерживал мои нетрадиционные научные интересы. Но однажды и он поднял эту тему. «Расизм, жестокое обращение с детьми, аборты, – сказал он. – А ты не можешь зарабатывать на этом деньги для себя?» Другие члены семьи и друзья тоже заговаривали об этом. Не говоря уже о коллегах и незнакомцах в интернете. Кажется, всем хотелось знать, могу ли я использовать поиск в Google и другие крупные базы данных для покупки акций. Теперь к ним присоединился бывший секретарь казначейства Соединенных Штатов. Это было уже серьезнее.
Так могут ли новые источники больших данных успешно предсказать, какие акции будут наиболее выгодны? Короткий ответ – нет.
В предыдущих главах мы обсудили четыре мощных достоинства больших данных. В этой поговорим об их ограничениях – о том, чего мы не можем сделать с их помощью и, порой, как мы не должны их применять. Я решил начать этот разговор с рассказа о нашей с Саммерсом неудачной попытке выиграть на фондовых рынках.
В главе 3 мы отмечали, что новые данные скорее будут полезны в случае неубедительности результатов уже осуществленных исследований в той или иной области. Это горькая правда: гораздо легче получить новые выводы по поводу расизма, жестокого обращения с детьми или абортов, чем о том, как функционирует бизнес. Это является следствием того, что на поиск даже малейшего преимущества в эффективности бизнеса брошены поистине огромные ресурсы. Конкуренция в области финансов крайне жесткая.
Саммерс, человек, не склонный воспевать похвалу чужому уму, был уверен, что хедж-фонды нас уже опередили. Во время нашей беседы я был очень впечатлен тем, насколько уважительно он говорил о них, а также его убежденностью в том, что они предвосхитили многие из моих предложений. В ответ я с гордостью поделился с ним придуманным мной алгоритмом, который позволил мне получать более полные данные с помощью Google Trends. Он сказал, что это очень здорово. Когда же я спросил, мог ли «Ренессанс», количественный хедж-фонд, придумать подобный алгоритм, он усмехнулся и сказал: «Да, конечно, они бы смогли догадаться».
Сложность конкурирования с хедж-фондами – не самая основная проблема, с которой мы с Саммерсом столкнулись, продумывая возможность использования новых больших наборов данных для победы на фондовых рынках.
Проклятие числа размерностей
Предположим, ваша стратегия прогнозирования на фондовом рынке – подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет – от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!
Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 – это ваш билет в хорошую жизнь!
Или нет.
Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей – монета 391 – скорее всего, счастливая. Уменьшите количество переменных – подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет – и монеты постараются «не ударить в грязь лицом».
«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники – каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали – нашли эквивалент монеты 391.
Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter{173}. Они построили алгоритм обработки каждодневного настроения твитов всего мира, используя методы, подобные анализу настроений, рассматриваемому в главе 3. Однако они учитывали не одно настроение, а множество – счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия – таких как «я спокоен» – позволяет предположить повышенную вероятность роста промышленного индекса Доу – Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.
В чем здесь проблема?
Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу – Джонса всего за несколько месяцев.
За шесть дней до этого спокойствие не было легитимным прогностическим фактором фондового рынка. В тот момент оно было эквивалентом нашей гипотетической монеты 391 для больших данных. Хедж-фонд на базе твитов был закрыт через месяц после запуска вследствие малой отдачи{174}.
Не только хедж-фонды, пытающиеся предсказать динамику рынков, страдали от «проклятия размерности». Те же проблемы возникли у ученых, пытавшихся найти генетические ключи, объясняющие, кто мы есть.
Благодаря проекту «геном человека» теперь можно собрать и проанализировать полную ДНК человека. Потенциал этого проекта казался огромным.
Возможно, нам удалось бы найти ген, ответственный за шизофрению. Может быть, мы могли бы обнаружить ген, вызывающий болезни Альцгеймера, Паркинсона и боковой амиотрофический склероз. Может быть, мы могли бы найти ген, отвечающий – ух ты! – за высокий уровень интеллекта. Есть ли ген, который в состоянии добавить кучу пунктов к IQ? Есть ли ген, создающий гения?
В 1998 году Роберт Пломин, видный поведенческий генетик, утверждал, что нашел ответ. Он получил набор данных, включавший ДНК и уровни интеллекта сотен студентов. Он сравнил ДНК «умников» (учащихся с IQ от 160 и выше) с ДНК студентов со средним уровнем IQ.
И обнаружил поразительную разницу в ДНК этих двух групп. Это различие было расположено в одном маленьком уголке 6-й хромосомы – неясный, но мощный ген, задействованный в метаболизме мозга. Одна версия этого гена, названного IGF2r, у более умных встречалась в два раза чаще.
«Сообщается о находке первого гена, связанного с высоким уровнем интеллекта», – запестрели заголовки «Нью-Йорк Таймс».
Можете задуматься о многочисленных этических вопросах, возникших после открытия Пломина. Следует ли разрешить родителям проводить тестирование детей на наличие гена IGF2r? Должны ли быть разрешены аборты, если у плода выявлен низкий уровень IQ? Можно ли генетически модифицировать людей, чтобы обеспечить им высокий уровень IQ? Коррелирует ли IGF2r с расой? Хотим ли мы знать ответ на этот вопрос? Следует ли продолжить исследования в области генетики, связанные с IQ?
Прежде чем специалисты по биоэтике, которым приходилось заниматься подобными острыми вопросами, занялись решением проблемы, перед генетиками – в том числе перед самим Пломиным – встал более простой вопрос: насколько точным был результат? Неужели правда, что IGF2r предопределяет уровень интеллекта? Неужели правда, что гении вдвое чаще являются носителями этого гена?
Нет. Через несколько лет после первого исследования, Пломин получил доступ к данным другой выборки людей, также включавшей ДНК и показатели IQ. На этот раз IGF2r с IQ не коррелировал. Пломин – и это показатель добросовестного ученого – отказался от своих заявлений.
Это, по сути, реализация общей схемы исследований в области генетики и IQ. Во-первых, ученые сообщили, что нашли генетический фактор, определяющий уровень IQ. Затем они получили новые данные и обнаружили, что исходное утверждение было неправильным.
Например, недавно группа ученых под руководством Кристофера Шабри исследовала 12 громких заявлений о вариантах генома, связанных с IQ. Специалисты изучили данные о 10 тысячах человек и не смогли воспроизвести корреляции ни для одной из 12 заявок{175}.
В чем проблема во всех этих случаях? «Проклятие размерности». Геном человека, как теперь известно ученым, отличается миллионами элементов. То есть, попросту говоря, слишком много генов для тестирования.
Если вы анализируете достаточно много твитов, чтобы понять, коррелируют они с фондовым рынком или нет, то лишь случайно можете найти тот, который действительно коррелирует. Если вы испытываете достаточно много генетических вариантов, чтобы понять, коррелируют они с IQ или нет, то найдете нужный лишь случайно.
Как преодолеть «проклятие размерности»? Вы должны со смирением относиться к своей работе и не потерять голову из-за ее результатов. Вы должны проверять их с помощью дополнительных тестов. Например, прежде чем ставить все свои сбережения на монету 391, стоит посмотреть, что будет происходить в течение ближайших нескольких лет. Социологи называют это «вневыборочным» тестом. И чем больше переменных вы включаете, тем скромнее надо быть. Чем больше переменных вы включаете, тем жестче должен быть «вневыборочный» тест. Важно также тщательно следить за проведением каждого исследования – тогда вы сможете точно сказать, с какой вероятностью вы стали жертвой «проклятия размерностей» и насколько скептически следует отнестись к результатам. Что возвращает нас к разговору с Ларри Саммерсом. Вот как мы пытались обогнать рынок.
Первая идея Саммерса заключалась в использовании поисковых запросов для прогноза продаж ключевых продуктов (например, iPhone), который мог бы пролить свет на дальнейшую динамику акций компании (например, Apple). Действительно, существует корреляция между поисковыми запросами относительно «айфонов» и величиной их продаж. Когда люди часто гуглят «айфон», вы можете биться об заклад, что этих телефонов продается много. Однако эта информация уже была заложена в цену акций Apple. Очевидно, когда у Google стали много спрашивать об «айфонах», хедж-фонды тоже выяснили, что они будут хорошо продаваться – независимо от того, были ли для этого использованы данные поисковых запросов или какой-то иной источник.
Следующая идея Саммерса касалась прогнозирования инвестиций в развивающиеся страны. Если большое число инвесторов в ближайшем будущем начнут вкладывать деньги в, скажем, Бразилию или Мексику, то акции компаний в этих странах, несомненно, вырастут. Возможно, мы могли бы спрогнозировать рост инвестиций с помощью ключевых поисковых запросов в Google – например, «инвестировать в Мексику» или «инвестиционные возможности в Бразилии». Это оказалось тупиком. Проблема? Такие поисковые запросы были слишком редки. Вместо выявления значимых закономерностей эти данные постоянно перескакивали с одного на другое.
Мы пытались исследовать акции отдельных компаний. Возможно, если бы люди искали «GOOG», это означало бы, что они собираются купить акции Google. Подобные запросы, предположительно, дают понять, что эти акции будут прилично торговаться. Но они не прогнозируют, будет ли фондовый рынок расти или падать. Одним из основных ограничений является то, что эти поиски не скажут нам, заинтересован ли кто-то в покупке или в продаже акций.
Однажды я взахлеб делился с Саммерсом своей новой идеей: последние запросы «купить золото», по-видимому, коррелируют с будущим ростом цен на золото. Саммерс ответил, что я должен проверить это и убедиться в точности результата. Корреляция перестала работать – возможно, потому, что некоторые хедж-фонды также обнаружили данное соотношение.
В итоге за несколько месяцев мы не нашли ничего полезного. Несомненно, если бы мы искали корреляцию с рыночными показателями в каждом из миллиардов терминов поисковых запросов в Google, мы бы нашли тот, который сработает – пусть даже незначительно. Но это, скорее всего, стало бы нашей монетой 391.
Чрезмерный акцент на том, что можно измерить
В марте 2012 года Зои Чанс, профессор маркетинга{176} из Йельского университета, получила по почте маленький белый шагомер. Она решила изучить, как это устройство, измеряющее количество шагов, которое вы делаете в течение дня, и начисляющее за это баллы, может вдохновить вас больше заниматься спортом.
То, что произошло дальше, стало настоящим кошмаром больших данных. Чанс оказалась настолько одержима этим устройством и зависима от увеличения числа шагов, что стала ходить с ним везде – от кухни до гостиной, до столовой, до подвала, до своего кабинета. Она шагала рано утром, поздно ночью, почти целый день – 20 тысяч шагов за 24 часа. Она смотрела на шагомер сотни раз в день, и от ее человеческого общения остались только разговоры онлайн с другими пользователями шагомера – они обсуждали стратегии для улучшения результатов. Зои вспоминала, как положила шагомер на свою трехлетнюю дочь, когда та зашагала – потому что была одержима повышением результата.
Чанс стала настолько одержимой, что забыла, с чего все началось. Она забыла об основной цели достижения самого высокого результата – обретении хорошей физической формы, поэтому не позволяла дочери пройти даже несколько шагов без шагомера. При этом она не выполнила ни одного научного исследования. В конце концов она избавилась от этого устройства – после того, как однажды поздно вечером упала обессиленная при попытке сделать еще несколько шагов. Хотя Зои и является специалистом по обработке и управлению данными, этот опыт очень сильно повлиял на нее. «Это заставило меня начать скептически относиться к возможности получить дополнительную информацию и понять, что лишние данные – это не всегда хорошо», – сказала Чанс.
Эта история, конечно, крайность, но она указывает на потенциальные проблемы, которые могут возникнуть у людей, использующих данные для принятия решений. Цифры могут оказаться соблазнительными{177}. Мы можем зациклиться на них и упустить из виду более важные вещи. Например, Зои практически перестала замечать все остальное в жизни.
Даже менее навязчивая влюбленность в цифры может иметь свои недостатки. Рассмотрим акцент на тестировании, которому в XXI веке в американских школах стали уделять особое внимание. На основе тестов учителя судят об успеваемости учеников. Конечно, стремление получить более объективные показатели успеваемости вполне понятно, но есть многое, что нелегко передать цифрами. Более того, все эти тесты заставляют многих учителей просто целенаправленно готовить учеников к ним. Некоторые даже, как было доказано в статье Брайана Джейкоба и Стивена Левитта, мошенничают при прохождении этих тестов{178}.
Проблема заключается в следующем: то, что можно измерить – зачастую не совсем то, что нас интересует. Мы можем оценить, как студенты отвечают на вопросы, выбирая из нескольких ответов. Но мы не можем измерить критическое мышление, любопытство или развитие личности. Попытка увеличить один легко измеряемый показатель – результаты теста или количество шагов в день – не всегда помогает достичь того, чего мы пытаемся добиться.
В попытках самоулучшения этой ошибки не избежал и Facebook. Компания обладает тоннами информации о том, как люди используют сайт. Легко увидеть, сколько лайков имеет конкретный пост, сколько раз по нему кликнули, сколько раз им поделились. Но, по данным Алекса Пейсаховича, специалиста по информации Facebook, которому я уже писал об этих важных моментах, ни один из этих параметров не дает ответ на более важные вопросы: на что похож опыт использования сайта? Соединяет ли тот или иной пост пользователей с их друзьями? Способен ли он чему-то научить? Заставил ли смеяться?
Или рассмотрим информационную революцию в бейсболе в 1990-х годах. Многие команды стали использовать все более сложные виды статистики вместо того, чтобы полагаться на старомодный человеческий метод – принимать решения. Легко было измерить количество атак и подач, но не работу на поле, поэтому некоторые команды стали недооценивать важность обороны. В своей книге «The Signal and the Noise» («Сигнал и шум») Нейт Сильвер указал, что, например, «Окленд Эйс», увлекшаяся данными, занесенными в «Moneyball», в середине 1990-х проигрывала от восьми до десяти игр в год именно из-за паршивой обороны.
Решение не всегда принимается благодаря увеличению объема информации. Чтобы большие данные работали лучше, нужна особая приправа: решение человека и небольшие исследования, которые мы могли бы назвать малыми данными. В интервью с Сильвером генеральный менеджер и главный персонаж «Moneyball» Билли Бин заявил, что уже приступил к увеличению своего бюджета на сбор информации.
Чтобы заполнить пробелы в гигантском пуле данных, Facebook тоже должен был использовать старомодный подход: спрашивать людей о том, что они думают. Каждый день при загрузке новостей сотням пользователей Facebook задавались вопросы о том, что они там прочитали. Иными словами, Facebook теперь автоматически собирает данные (лайки, клики, комментарии) и дополняет их малыми данными («вы действительно хотите увидеть этот пост в своей Ленте новостей? Почему?»). Да, даже такой невероятно успешной и большой компании, как Facebook, иногда приходится использовать источник информации, всячески принижавшийся в этой книге ранее – небольшой опрос.
Действительно, из-за этого сбора малых данных в дополнение к основному массиву информации – огромному количеству кликов, лайков и постов – команда специалистов Facebook может взглянуть на статистику иначе, чем можно было предположить. В Facebook работают социальные психологи, антропологи и социологи – для поиска того, что не могут предоставить нам голые цифры.
Некоторые педагоги тоже становятся внимательнее к слепым пятнам в больших данных. Растет уровень национальных усилий по дополнению тестирования информацией, полученной из малых данных. Теперь стали широко распространены опросы студентов, возрос интерес к опросам родителей и наблюдениям за учителями (другими опытными преподавателями) во время урока.
«Руководство школьных округов понимает, что не следует сосредотачиваться исключительно на результатах тестов», – говорит Томас Кейн{179}, профессор из Гарварда. Трехлетнее исследование Фонда Билла и Мелинды Гейтс подтверждает значение в образовании как больших, так и малых данных. Авторы проанализировали, что именно модель, основанная на оценках тестов, опросы учеников или наблюдения педагогов, является наилучшим вариантом оценки качества обучения школьников. Максимальный результат получается при объединении всех трех компонентов. «Каждый элемент вносит свой вклад в общую картину{180}», – заключают авторы доклада.
Как я выяснил в Окале, штат Флорида, на встрече с Джеффом Седером, на самом деле многие операции с большими данными используют малые данные – чтобы заполнить пробелы. Напомню, Седер, получивший образование в Гарварде – гуру в мире лошадей. Он использовал уроки, извлеченные из огромного числа экспериментов, что позволило ему правильно спрогнозировать успех Американского Фараона.
Поделившись со мной информацией, а также компьютерными файлами и расчетами, Седер признался, что у него было и секретное оружие – Пэтти Мюррей.
Мюррей, как и Седер, имеет высокий интеллект и элитарное образование – диплом Брин Маур. Она также переехала из Нью-Йорка в глубинку. «Я люблю лошадей больше, чем людей», – признается Пэтти. Но Мюррей немного более традиционна в плане подхода к выбору лошадей. Она, как и многие агенты-лошадники, лично осматривает их, наблюдает, как они двигаются, проверяет их на наличие шрамов и синяков, а также беседует с их владельцами.
Затем Мюррей связывается с Седером, и они принимают окончательное решение относительно лошадей, которых будут рекомендовать. Мюррей вынюхивает проблемы коней – проблемы, которые Седер со всеми своими самыми инновационными и важными данными не отлавливает.
Я предсказываю революцию, основанную на открытиях больших данных. Но это не значит, что мы можем просто прошерстить информацию и получить ответ на любой вопрос или игнорировать этические соображения. И большие данные не исключают необходимости использования всего того, что люди развивали в течение тысячелетий, стремясь понять окружающий мир. Они просто дополняют друг друга.