О чем говорят цифры. Как понимать и использовать данные — страница 31 из 40

Обучение на собственном опыте. Использование практикумов вместо стандартных форм обучения (студенты работают в группах по пять человек, решая реальные проблемы на основе заданий и данных, предоставленных промышленными спонсорами; напряженная работа в течение семи месяцев завершается отчетом перед спонсором).


Магистерская программа по аналитике Университета Северной Каролины основана на инновационном учебном плане, состоящем из специально разработанных для нее курсов. Они посвящены интеллектуальному поиску данных и анализу текстов, прогнозированию, оптимизационным задачам, базам данных, визуализации данных, безопасности баз данных, финансовой и потребительской аналитике. Студенты приходят в программу с разным базовым образованием и опытом, хотя предпочтительна определенная ориентация на количественные исследования. Средний возраст студентов 27 лет, примерно 26 процентов уже имеют университетское образование. Примерно половина студентов до поступления на программу работала на полную ставку. Несмотря на сложную ситуацию и медленный рост в национальной экономике, выпускники программы 2011 года поставили рекорд по количеству интервью с работодателями – 469 (то есть на каждого выпускника пришлось по 12 интервью; в 2012–2013 годы численность студентов возросла до 80 человек). Все выпускники обеспечены заявками работодателей на пять лет вперед. Учитывая, что спрос работодателей на этих выпускников постоянно растет, вполне понятно, что аналогичные программы открываются и в других университетах. Одно из недавних исследований выяснило, что 59 университетов предлагают программы по деловой аналитике или бизнес-разведке, в том числе 37 магистерских и 22 бакалаврские программы[98]. Школы также начинают предлагать курсы по изучению данных, а в скором времени надо ожидать и программ с выдачей диплома.

Количественные навыки

Количественный подход важен, но не менее важны и количественные навыки. Говорят, что легче привести свои действия в соответствие с новым способом мышления, чем придумать новый образ действий. Если постоянно тренировать количественные навыки, то через некоторое время окажется, что у вас выработался количественный подход.

Требуйте чисел

Хорошие количественные аналитики (а также организации, стремящиеся воспитать их в своем коллективе) всегда должны требовать количественную информацию, когда им представляют идеи, теории и случайные наблюдения. Приучитесь задавать вопрос: «Есть ли у вас данные в поддержку этой гипотезы?» Ну а если вы действительно круты, то периодически вставляйте фразу «Множество слухов – это еще не данные». Требование данных играет большую роль, поскольку позволяет ответить на вопросы: «Как человек мыслит?», «Какие инструменты и процессы помогли обеспечить это направление действий?» В дополнение к глобальным задачам спасения мира попытайтесь бороться с желанием перескакивать сразу к выводам, не требуя представления данных.

То же справедливо при презентации ваших идей. Если никаких данных нет, проведите хотя бы небольшой эксперимент в стиле «сумасшедшего ученого» и соберите их. Постоянно стремитесь собрать как можно больше данных до того, как начнете развивать свои теории. Это поможет поставить их на надежную основу количественного анализа и одновременно увеличит шансы убедить слушателей в правильности ваших идей. Навык опираться на цифры и подтверждать ими свои идеи абсолютно необходим любому, кто хочет стать квалифицированным количественным аналитиком.

Никогда не доверяйте числам

Только что мы писали о том, что аналитик всегда стремится собрать числа и прочие данные в поддержку своих теорий и взглядов на мир. Но сейчас мы хотели бы поговорить о необходимости разумно-скептического подхода к ним. Как и в случае с новым знакомым, не доверяйте данным до тех пор, пока не узнаете о них больше. Никогда не принимайте за чистую монету никакие числа, которые вам представили. Существует несколько причин, по которым данные не заслуживают доверия. Люди (а особенно политики) иногда лгут и мошенничают, прикрываясь цифрами, или в крайнем случае неправильно интерпретируют их, стремясь добиться своих скрытых целей. Шотландский поэт и критик Эндрю Ланг писал: «Он использует статистику, как пьяница использует столб – больше в качестве опоры, а не источника света»[99]. Числа могут быть неправильно отобранными, и в таком случае они не отражают состава генеральной совокупности. Критичное отношение к данным оправданно, особенно если они нетипичны и вызывают удивление. Лучший способ получить надежные данные – относиться к ним критично и стараться узнать как можно больше об их происхождении. В частности, скептицизм относительно данных должен включать следующие аспекты.


Релевантность. Представленные данные должны иметь непосредственное отношение к проблеме, для решения которой они собирались. Они должны быть репрезентативными по отношению к той группе или организации, которую они предположительно представляют. Если данные не дают хотя бы некоторых ответов на вопросы, они бесполезны.


Точность. Если данные релевантные, но неточные, их необходимо отбросить. Точность данных можно оценить, изучив вопрос о том, кто и как их готовил. Если данные не проходят эту проверку на точность, они опять-таки бесполезны.


Правильная интерпретация данных. Даже точные данные могут ввести в заблуждение, если их неправильно истолковать. Особенно склонны неверно интерпретировать данные те люди, у которых есть скрытые мотивы и цели. Рассмотрим пример, в котором интерпретация данных способствовала формированию субъективного мнения.

Критик из журнала Newsweek, писавший рецензию на книгу «Лучшая половина» (The Better Half) о первых суфражистках, завершил свой опус несколько провокационно. Он задал риторический вопрос, что сказали бы Сьюзан Энтони и ее подруги, если бы узнали о том, что пятьдесят лет спустя после предоставления американским женщинам политических прав социологи Колумбийского университета обнаружили: лишь одна из двадцати двух женщин голосовала не за того кандидата, за которого голосовал ее муж.

Один из читателей в ответ на это написал: «Я думаю, что суфражистки были бы весьма довольны. Их движение проделало большую работу, если менее чем через пятьдесят лет после предоставления женщинам политических прав только один муж из двадцати двух имел мужество голосовать не так, как его жена»[100].

Таким образом, всегда стоит задавать себе вопрос, насколько правильна интерпретация данных с учетом проблем и мотивов того лица, которое ее представило.

Особенная осторожность с причинно-следственным аргументами

Стоит с особой осторожностью относиться к аргументации, основанной на причинно-следственных связях: их выявить очень сложно. Как мы уже упоминали во вставке об экспериментах «сумасшедшего ученого», если вы формируете контрольную и целевую группу, случайным образом распределяя в них людей, и эти группы демонстрируют различные результаты, то обычно аналитик приписывает это воздействию тестируемого фактора. Но если вы просто выявили статистическую связь между двумя факторами, вряд ли она окажется причинно-следственной. Возможно, вы слышали фразу «корреляция – еще не причина». Это важно помнить.

Когнитивные психологи Кристофер Чабрис и Даниэль Симонс предложили эффективную процедуру для выявления причинно-следственной связи в книге «Невидимая горилла и другие способы нашей интуиции обмануть нас» (The Invisible Gorilla and Other Ways Our Intuitions Deceive Us): «Когда вы слышите или читаете о наличии связи между двумя факторами, задумайтесь, можно ли говорить о том, что в тестовую группу для их проверки люди отбирались действительно случайно. Если это невозможно, слишком дорого или этически неприемлемо, то проводить эксперимент нельзя и причинно-следственная связь считается неподтвержденной»[101].

Например, вы прочитали в газете: «В ходе десятилетнего эксперимента доказано, что запойное пьянство приводит к раку». Задумайтесь над тем, возможно ли в данном случае случайное распределение участников на тестовую и контрольную группы с последующей просьбой к одним запойно пить, а к другим – соблюдать трезвость в течение десяти лет. Наверно, нет. Куда более вероятно, что исследователь обнаружил корреляционную зависимость между запойным пьянством (по всей видимости, по собственным словам опрашиваемого) и случаями рака в группе населения, которую мониторили в течение десяти лет. Возможно, исследователь учитывал, что выявленная корреляция может объясняться и другими факторами (например, сильно пьющие люди часто курят), но уж репортер точно об этом не задумывался.

Если вы заподозрили, что кто-то в вашей организации является сторонником софизма cum hoc ergo propter hoc (после этого – значит по причине этого), то для предотвращения неправильных выводов следует тщательно следить за разработкой условий экспериментов, хорошо знать статистику и эконометрику. Именно в этом случае лучше пригласить эксперта.

Задавайте вопросы

Задавать вопросы стоит для того, чтобы лучше понять суть проблемы и оценить методику ее решения. Аналогично, если у вас возникли сомнения по поводу представленных данных, следует без колебаний задавать вопросы. Многие стесняются задавать вопросы по поводу чисел, поскольку боятся показаться глупыми. Эти страхи преувеличены. Некоторые идеи по поводу того, какие вопросы лучше задавать, приведены во вставке «Хорошие вопросы о количественном анализе».

Хорошие вопросы о количественном анализе

Перечень приведенных далее вопросов, конечно, не исчерпывающий, но может помочь вам с чего-то начать. Они пригодны практически для любых видов количественного анализа или такого неколичественного, который должен стать количественным.