Пример аналитического мышления: подозрительный муж
В 1973 году в разделе «Советы читателям» газеты Dear Abby появилась такая заметка[46]:
Dear Abby, в вашей колонке написано, что женщина вынашивает ребенка 266 дней. Кто вам это сказал? Я вынашивала своего ребенка десять месяцев и пять дней; в этом не может быть сомнений, поскольку я точно знаю, когда он был зачат. Мой муж – флотский офицер, и ребенок не мог быть зачат в другой день, поскольку я видела своего мужа всего лишь в течение часа и в следующий раз мы встретились уже после рождения ребенка. Я не пью и не гуляю с мужчинами, поэтому отцом ребенка может быть только мой муж. Пожалуйста, напечатайте опровержение этой заметки насчет 266 дней, иначе у меня будут большие неприятности.
В ответной заметке газета постаралась ободрить читательницу, но о сроках беременности было написано немного.
Дорогая читательница! Средний период беременности действительно составляет 266 дней. В некоторых случаях дети рождаются недоношенными, а в некоторых – переношенными. В вашем случае ребенок родился переношенным.
Если бы газета уделила больше внимания количественной стороне вопроса, то в ответной заметке содержалось бы больше чисел. Последние всегда более убедительны, а в данном случае речь идет об относительно простой проблеме, связанной с теорией вероятности. Рассмотрим ее в рамках стандартного шестишагового подхода к проблеме количественного анализа.
Формулирование проблемы. В данном случае вопрос не в том, что ребенок родился переношенным, это и так понятно. Десять месяцев и пять дней – это примерно 310 дней, что существенно больше среднего срока беременности в 266 дней, о котором упоминала газета. Вопрос в том, насколько нетипичен этот случай (или какова его вероятность). Достаточно ли он нетипичен, чтобы заподозрить женщину во лжи?
Изучение предыдущих поисков решения. Мы можем с уверенностью предположить, что распределение продолжительности беременности является нормальным (то есть график распределения напоминает колокол). Вероятность того, что беременность будет продолжаться 310 дней, легко рассчитать с помощью Z-критерия (количество стандартных отклонений от среднего значения) для нормального распределения, что является азбукой статистических расчетов.
Моделирование (выбор переменных). Вероятность того, что беременность может длиться по крайней мере 310 дней.
Сбор данных (измерения). Имеющиеся данные позволяют сделать вывод о том, что среднее значение продолжительности беременности составляет 266 дней со стандартным отклонением 16 дней.
Анализ данных. Если средняя продолжительность беременности составляет 266 дней со стандартным отклонением 16 дней, то вероятность ее продолжительности в 10 месяцев и пять дней (300 и более дней) составляет 0,003 (если принять, что распределение нормальное).
Результаты и необходимые меры. Это значит, что три ребенка из тысячи рождаются более чем через 300 дней после зачатия. Казалось бы, вероятность очень невелика, но только не в случае больших чисел. В Америке ежегодно рождается около четырех миллионов детей. Соответственно, около двенадцати тысяч из них рождаются с таким большим опозданием. Видимо, Dear Abby стоило написать нечто вроде следующего: «Каждый год в США со столь большим запозданием рождаются примерно двенадцать тысяч детей, и одним из них стал ваш ребенок». Это успокоило бы не только читательницу, но и ее мужа.
В статистическом тестировании гипотез рассчитанное выше значение вероятности 0,003 называется р-значением, что равно вероятности получения данного значения критерия (в данном случае Z-значения, равного 2,75) в предположении, что нулевая гипотеза истинна. В данном случае нулевая гипотеза (Н0) звучит следующим образом: «Отцом ребенка является муж». В стандартной методике проверки гипотез нулевая гипотеза отбрасывается как ложная, если р-значение меньше уровня значимости. В данном случае р-значение равно 0,003, а это значит, что нулевая гипотеза будет отброшена, даже если уровень значимости составит 1 процент. Вообще говоря, мы должны были бы отбросить гипотезу об отцовстве мужа читательницы. Как можно объяснить этот ошибочный результат проверки гипотезы? Это типичный пример ошибки первого вида (или ошибки альфа), когда отклоняется нулевая гипотеза (Н0) при ее истинности. Этот пример показывает, что жизнь может не укладываться в рамки теории вероятности.
Глава 4Результаты и необходимые меры
Оформление результатов анализа и представление их всем, кто в них заинтересован, это последний этап в нашей модели количественного анализа из трех этапов и шести шагов. Он крайне важен. Если вы блестяще выполнили предыдущие этапы, но провалили этот, то ничего хорошего в итоге не выйдет. Аналитики, не желающие трудиться впустую, оставаться в стороне от принимаемых решений и предпринимаемых действий, очень серьезно относятся к этому этапу, не жалея сил и времени для его успешного завершения. Аналитики, которых не заботят такие вещи (на наш взгляд, это плохие аналитики!), думают, будто результаты говорят сами за себя, и не уделяют большого внимания этому этапу.
Сложность еще и в том, что вопросы оформления и обнародования результатов не рассматриваются в курсе обучения будущих аналитиков. В результате даже те из них, кто искренне увлечен исследованиями и учебой в своей области, традиционно сосредоточены на аналитических методах и не слишком заботятся о том, как лучше преподнести результат. К счастью, такое положение дел постепенно меняется. Вот как видит задачу воспитания специалистов, которые могут эффективно представить результаты статистических исследований, заведующий кафедрой статистики Гарвардского университета Сяо Лименг (недавно назначенный деканом Гарвардской школы науки и искусств):
В последние годы возобладал более широкий взгляд на подготовку статистиков в Гарвардском университете. Упор нужно перенести с подготовки нескольких блестящих студентов к получению степени PhD по количественному анализу на обучение всех первокурсников основам статистических исследований как неотъемлемой составляющей критического образа мышления в гуманитарных науках. Как ни странно, мысль о том, что можно стать экспертом по вину, не имея представления о том, как это вино производится, позволила нам подготовить множество будущих виноделов вместо того чтобы пытаться самостоятельно вырастить урожай винограда[47].
Исходя из этой мысли, Менг и его коллеги разработали для студентов младших курсов учебный цикл под названием «Статистика в реальной жизни: ваш шанс на счастье (или несчастье)». В нем через призму статистики рассматриваются темы «Романы», «Вино и шоколад», «Финансы», «Медицина» (включая статистические аспекты клинических испытаний виагры), «Фондовый рынок» и т. п. Менг старается сделать статистику «не просто вкусным блюдом, а деликатесом»[48].
Материал этой главы пригодится и аналитикам, и адресатам их труда (или, в соответствии с аналогией Менга, и виноделам, и ценителям вина). Аналитики смогут сделать результаты своих исследований более интересными и привлекающими внимание, что позволит работать эффективнее. Те же, кто пользуется результатами их исследований, например менеджеры, давшие добро на аналитический проект, часто настаивают на том, чтобы эти результаты были представлены в интересной и современной форме. Если аналитики заставляют слушателей скучать или путаться в специальной терминологии, то, наверно, это их вина. Заказчики должны вместе с аналитиками работать над тем, чтобы сделать результаты анализа понятными и легкими в использовании. И конечно, именно они обычно принимают решения и принимают меры, основываясь на результатах анализа.
Суть этого этапа состоит в том, чтобы описать проблему и пути ее решения, разработанную модель, необходимые данные и взаимосвязи между переменными. Если эти связи выявлены, то их нужно интерпретировать применительно к поставленной проблеме. Чем яснее представлены результаты, тем больше вероятность того, что они приведут к обоснованным решениям и действиям – в конечном счете именно это первоочередная цель аналитического проекта.
Сообщая результаты, обязательно опишите процесс исследования, выводы, дайте рекомендации по поводу решения исходной проблемы, хотя, возможно, и не в таком порядке. Как правило, лучше начинать с описания результатов и рекомендаций. Существует два отличных способа демонстрации результатов: можно организовать совещание, пригласив всех заинтересованных и проведя для них сессию вопросов и ответов, а можно подготовить формальный отчет о результатах проекта. Если исходная проблема и результаты анализа имеют некоторую академическую ценность, можно написать статью и опубликовать ее в журнале соответствующего профиля.
Как мы уже говорили в главе 2, оформление данных в виде черно-белых таблиц – это прекрасный способ заставить людей проигнорировать их, даже если это результаты совсем простого описательного анализа. Результаты легко представить в простой графической форме (гистограммы, диаграммы, графики), а можно выбрать более затейливый вариант: например, интерактивный дисплей. Кое-кто предпочитает простую табличную форму более наглядным графическим способам представления информации, но таких людей не так уж много. Если можно использовать цвет и анимацию, чтобы оживить презентацию и сделать ее более доходчивой, – что ж, тем лучше!
О чем говорят данные
Наиболее успешными аналитиками становятся те, кто способен понять, о чем рассказывают данные. В