О чем говорят цифры. Как понимать и использовать данные — Томас Дэвенпорт, Ким Хо

Изучение предыдущих поисков решения. Известно, что обычно суд не считает несовместимыми математические расчеты и право и не отрицает, что математику можно использовать в качестве инструмента для поиска доказательств. Существует несколько судебных прецедентов, когда обвинение использовало математическую вероятность для доказательства вины подсудимого.

Моделирование (выбор переменных). Прокурор решил рассчитать математическую вероятность того, что внешность и машина задержанных супругов Коллинз случайно совпали с описанием преступников.

Сбор данных. Прокурор вызвал в качестве свидетеля преподавателя математики из местного колледжа. В своих показаниях он постарался убедить присяжных в том, что вероятность совпадения характерных особенностей случайной пары жителей города с описанием преступников ничтожна. В данном случае частные вероятности совпадения каждой из особенностей, упомянутых в описании преступников, можно оценить следующим образом:

Анализ данных. Преподаватель математики предположил, что все эти частные вероятности независимы, и тогда вероятность их совпадения можно рассчитать, перемножив показатели из таблицы.

Р(А) = вероятность того, что произвольно выбранная пара совпадет по описанию с описанием подозреваемых равна

или один шанс из 12 миллионов.

Презентация результатов и проведение мероприятий. Прокурор заключил, что вероятность наличия у случайно выбранной пары всех указанных характерных особенностей составляет один шанс на двенадцать миллионов. Соответственно, отсюда можно сделать вывод о том, что у пары, у которой присутствуют все эти особенности, лишь один шанс из двенадцати миллионов оказаться невиновными. Жюри присяжных вынесло вердикт: «Виновны».

Коллинзы подали апелляцию. Верховный суд штата Калифорния решил, что жюри присяжных оказалось под чрезмерным впечатлением от мистики математических терминов и расчетов и не сумело оценить их значимость и связь с делом. Верховный суд отменил приговор, подвергнув сомнению статистические выкладки и способ их представления присяжным. В частности, расчеты имели два существенных недостатка. Во-первых, следствие не привело никаких доказательств надежности исходных данных. Во-вторых, существенным недостатком этих расчетов было отсутствие уверенности во взаимной независимости частных вероятностей (так, например, мужчины с бородой, как правило, носят и усы).

Еще более важно то, что прокурор неправильно сформулировал проблему. Даже если допустить, что сами расчеты выполнены корректно, из них не следует, что Коллинзы виновны, поскольку они не дают ответа на вопрос о том, что если в мире найдется несколько пар с такими характерными особенностями, то какая из них действительно виновна в преступлении?

Но самое главное – это тот факт, что расчеты отвечают вовсе не на тот вопрос, который ставило обвинение, а именно какова вероятность того, что подозреваемые случайно подошли под описание преступников. На самом деле расчеты отвечают на вопрос, какова вероятность существования других пар с аналогичными характерными особенностями при том, что обвиняемые тоже подходят под описание. В зависимости от того, сколько всего пар в Лос-Анджелесе, вероятность существования хотя бы одной пары с такими же характерными особенностями может достигать 40 процентов (см. сайт книги). В этом случае об отсутствии обоснованных сомнений в виновности Коллинзов речь уже не идет; напротив, вероятность существования в Лос-Анджелесе более чем одной такой пары и того, что именно другую пару видели на месте преступления, становится весьма существенной.

После рассмотрения всех обстоятельств дела, в том числе свидетельских показаний, Верховный суд отменил обвинительный приговор. Некорректная формулировка проблемы привела к принятию неверного решения.

Глава 3Решение проблемы

Многие считают это словосочетание, по крайней мере в некоторых отношениях, главным в количественном анализе – ведь именно здесь проводятся аналитические процедуры и проблема получает решение. Конечно, все это очень важно. Но операции на этом этапе более структурированы и точнее определены, чем на предшествующей и последующей фазах. Если у вас нет математической и статистической подготовки, то, скорее всего, вы передадите выполнение этих операций людям с необходимыми навыками и знаниями (см. вставку «Как найти кванта»). Но вне зависимости от ваших личных познаний в математике полезно получить общее представление об основных этапах решения проблемы.

Как найти кванта

Если для решения вашей проблемы требуется количественный аналитик, то существует несколько способов отыскать его.

• Если вы работаете в большой компании, наверняка несколько квантов найдутся в штате. Загляните в отдел маркетинговых исследований, производственную лабораторию, отдел бизнес-аналитики.

• Если ни одного кванта среди сотрудников отыскать не удалось, то можно обратиться к целой армии независимых консультантов. Проведите интернет-исследование по запросу «консультанты по бизнес-аналитике».

• Если вы хотите привлечь кванта из-за рубежа, то лучше всего обратить внимание на Индию, в частности на компании Mu Sigma, Fractal Analytics и Genpact.

• Возможно, в местном университете удастся найти профессоров или студентов-старшекурсников, специализирующихся на количественном анализе; позвоните заведующему кафедрой статистики, к примеру.

• Если вы считаете необходимым взять кванта на постоянную работу, можно просмотреть объявления на сайтах вакансий, где, как правило, есть соответствующие предложения: например, на сайте Simply Hired есть страница с резюме количественных аналитиков, а на сайте analyticrecruiting.com – с резюме статистиков. Можно обратиться в специализированную рекрутинговую фирму.

Сначала ознакомимся с последовательностью выполняемых этапов. Мы ведь помним, что речь идет об аналитическом проекте, направленном на проверку гипотезы. Сначала мы формулируем проблему (глава 2), затем переходим к моделированию и выбору переменных (первый шаг на этом этапе решения проблемы), а в результате можно будет выдвинуть гипотезу, требующую подтверждения или опровержения. Затем аналитик собирает данные и решает проблему. На каждом из этих шагов необходимо понимать или хотя бы предполагать, как функционирует исследуемый мир, и тогда на основе анализа данных можно будет сделать вывод о том, была ли правильной исходная гипотеза. Однако есть несколько видов анализа, не требующих предварительного выдвижения гипотезы. В интеллектуальном поиске данных и машинном обучении (когда модели разрабатываются на основе закономерностей, выявленных в имеющихся данных, с помощью программного обеспечения давая быстрый и оптимальный результат) аналитик просто вводит в компьютер массив данных и запускает поиск закономерностей. Все гипотезы выдвигаются уже потом, на этапе интерпретации и распространения результатов.

Нам не слишком нравится этот подход: в основном потому, что зачастую он дает необъяснимые результаты. А поскольку ни один аналитик не пытался использовать анализ данных для подтверждения своих взглядов на происходящее вокруг, то и комментировать результаты анализа или убеждать в необходимости изменить решение на их основе никто не будет. Однако иногда случаются обстоятельства, в которых подход к анализу как к «черному ящику» может сэкономить немало времени и труда аналитикам. В среде больших данных, где постоянно генерируются колоссальные массивы информации, у аналитика не всегда есть возможность формулировать гипотезы до проведения анализа данных. Например, при размещении рекламы на сайтах издательств решения принимает автоматизированная система в тысячные доли секунды, а компании, занимающиеся этой работой, генерируют несколько тысяч статистических моделей каждую неделю. Очевидно, такой вид анализа не рассчитан на выдвижение гипотез и рассмотрение результатов людьми, поэтому машинная работа здесь абсолютно необходима. Но по большей части в дальнейшем изложении мы будем иметь дело с этапами и методикой анализа на основе проверки гипотез.

Шаг 3. Моделирование (выбор факторов)

Модель – это преднамеренно упрощенное представление определенного события или ситуации. Термин «преднамеренно» означает, что модель разрабатывается специально для решения конкретной проблемы. Термин «упрощенно» говорит о том, что следует исключить из рассмотрения все банальные и несущественные детали, выделив важные, полезные и ключевые особенности, определяющие специфику проблемы. Проиллюстрируем процедуру выбора факторов на примере.

3. Моделирование

Модель можно сравнить с карикатурой. Она заостряет внимание на некоторых чертах – носе, улыбке, кудрях, – и на их фоне другие черты теряют выразительность. Хорошая карикатура отличается тем, что отдельные черты выбираются обдуманно и эффективно. Точно так же модель акцентирует внимание на отдельных особенностях реального мира. При построении любой модели вам придется действовать избирательно. Нужно выбрать именно те особенности, которые имеют отношение к решению вашей проблемы, и пренебречь остальными. Модель носит схематичный характер, чтобы помочь пользователю сфокусироваться на исследуемой проблеме[26].

Отсюда следует, что модели не могут быть абсолютно корректными. Знаменитый статистик Джордж Бокс как-то заметил, что «…все модели некорректны, но некоторые при этом полезны»[27]. Ключевая проблема в том, чтобы определить, когда модель приносит пользу, а когда она некорректна настолько, что искажает реальность. В главе 5 мы подробнее поговорим об этом. А пока заметим, что одним из ключевых является вопрос о выборе факторов для включения в модель.

Предыдущая Стр. 11 из 40 Следующая

Глава 3Решение проблемы

Шаг 3. Моделирование (выбор факторов)

Оглавление