Бросайте вызов статистике
Кент Брокман: Мистер Симпсон, как вы ответите на обвинения в том, что мелкого вандализма вроде граффити стало меньше на 80 %, в то время как количество случаев избиения тяжелыми мешками выросло на шокирующие 900 %?
Гомер: О, люди могут придумать любую статистику, чтобы доказать что угодно, Кент. Сорок процентов людей знают это.
Вы когда-нибудь сталкивались со статистическим утверждением в новостях или на рабочем месте, которое вы хотели бы понять, оценить и, возможно, даже подвергнуть сомнению? Данная глава научит вас именно этому. В ней мы поговорим о статистическом выводе, о том, как пользоваться индуктивной статистикой и оспаривать ее результаты, а также перечислим вопросы, которые вам следует задать для полного понимания сделанных выводов.
Краткие уроки по статистическому выводу
Как было сказано в главе 3 «Готовьтесь мыслить статистически», индуктивная статистика позволяет нам собирать данные о мире, в котором мы живем, и делать на их основании предположения об этом мире.
В данном разделе мы разберем ряд примеров, чтобы показать, насколько интуитивным может быть процесс построения статистического вывода при постепенном введении формальных статистических терминов (часть из них вы узнали ранее в книге, но напоминание никогда не бывает лишним). Хорошая новость – вы без проблем сможете проследить представленную далее логику статистического вывода вне зависимости от ваших знаний в области статистики.
Обеспечьте себе простор для маневра
Один из самых распространенных и важных примеров применения индуктивной статистики – проведение опросов. Вы не можете опросить всех – только участников выборки, к которым у вас есть доступ. С ее помощью мы пытаемся лучше понять окружающий мир. Иначе говоря, эта выборка помогает нам больше узнать о популяции.
Рассмотрим пример опроса. Случайной выборке, состоящей из 1000 студентов вводных курсов по статистике, проводящихся по всей стране, задают вопрос: «Вам уже надоело то, что статистики используют примеры опросов для объяснения основных статистических концепций?»
Результаты данного опроса таковы: 655 студентов сказали «да». (А как бы проголосовали вы?)
Стали бы вы, основываясь лишь на одной выборке из 1000 студентов, заявлять о том, что истинный процент всех студентов вводных курсов по статистике (популяция), которым надоели примеры с опросами, составляет ровно 65,5? Или вы хотите иметь некоторое пространство для маневра, делая свое предположение?
Скорее всего, второе. Это хорошо, потому что неделю спустя при опросе еще 1000 студентов утвердительный ответ дали 670 человек. Разумеется, 655 и 670 – это весьма близкие значения, и, возможно, вы полагаете, что проведение этих опросов позволило вам приблизиться к истинной доле студентов, готовых утвердительно ответить на задаваемый вопрос. Однако, если бы вы провели этот опрос еще раз, вы получили бы разные ответы вследствие вариации выборки. И с этим ничего нельзя сделать, кроме как представить полученные результаты в контексте. Опросные агентства понимают это и указывают «погрешность» результатов опроса в пределах +/– 3 %, которая отражает неопределенность, обусловленную вариацией и случайностью.
В случае с первым опросом значение 65,5 % – точечная оценка, и мы могли бы представить результаты как 65,5 % +/– 3 %, или (62,5 %, 68,5 %). Интервал (62,5 %, 68,5 %) называется доверительным и является примером индуктивной статистики. Он позволяет получить некоторые сведения об окружающем мире на основе информации, предоставленной выборкой. Мы надеемся, что этот доверительный интервал отражает истинный процент всех студентов вводных курсов по статистике, которые устали от примеров с опросами.
Мораль: при использовании выборок наблюдаются вариации, делающие неопределенной вашу оценку количества студентов вводных курсов по статистике, уставших от примеров с опросами. К счастью, доверительные интервалы определяют диапазон правдоподобных значений, в которых может лежать их истинная доля, то есть дают вам некоторое пространство для маневра.
Больше данных – больше доказательств
Если в процессе совершения покупок в Интернете вы видите продукт на сайте Amazon с рейтингом в 1 звезду, основанном на единственном обзоре, вы можете проигнорировать этот обзор – мнение одного человека. Однако если вы увидите продукт с низким рейтингом, основанным на сотнях отзывов (скажем, на 300), ваше мнение будет иным. Существует консенсус, согласно которому данный продукт является некачественным. Поэтому вы выбираете другой продукт – с рейтингом 4,9 звезды, основанном на 200 отзывах[58].
Это говорит о том, что вы уже понимаете, как количество точек данных, лежащих в основе рейтинга товара на Amazon, влияет на ваше доверие к нему. Размер выборки мы будем обозначать буквой N. Вы не испытываете доверия к рейтингу, основанному на одном обзоре (N = 1), но вас способны убедить рейтинги, основанные на выборках размером N = 300 и N = 200. Как вы уже догадались, размер выборки играет огромную роль в статистическом выводе. В самом деле, кажется маловероятным, хотя и не невозможным, чтобы продукт с рейтингом 4,9 звезды и N = 200 оказался полным хламом. А как насчет продукта с N = 1? Его обзор мог быть написан случайным интернет-троллем.
Мораль: размер выборки имеет значение. Больше данных – больше доказательств. (Мы же говорили, что это интуитивно понятно.)
Бросьте вызов статус-кво
По сути, наука и создание новых знаний предполагает бросание вызова статусу-кво. Когда накапливается достаточно доказательств в пользу того, что прежний образ мышления ошибочен, мы его адаптируем. Это же верно и для статистического вывода.
Простейшая аналогия – презумпция невиновности в американской системе уголовного права. Обвиняемые «невиновны до тех пор, пока их вина не будет доказана» (статус-кво). Подсудимый объявляется «виновным» лишь тогда, когда доказательства вне всяких обоснованных сомнений указывают на ошибочность статус-кво. Бремя доказывания того, что первоначальное предположение о невиновности подсудимого неверно, возлагается на сторону обвинения.
Табл. 7.1. Вопросы, нулевые гипотезы (H0) и альтернативные гипотезы (Ha)
Исследователи, ученые и компании используют эту логику для создания новых знаний, направленных на улучшение общества или бизнеса. Вот как это работает. Они начинают с постановки вопроса[59], подобного тем, которые перечислены в табл. 7.1, и используют его для так называемой проверки гипотезы.
Статус-кво называется нулевой гипотезой, которая обычно обозначается как H0. Как правило, ее выбирают в надежде впоследствии отбросить в пользу нового знания, называемого альтернативной гипотезой, обозначаемой как Ha. Разумеется, нулевая и альтернативная гипотеза зависят от заданного вопроса. В табл. 7.1 показано, как общие вопросы могут быть преобразованы в соответствующие гипотезы. Исследователи стремятся найти доказательства, позволяющие отвергнуть нулевую гипотезу в пользу альтернативной.
Обратите особое внимание на логику проверки гипотез, представленную в табл. 7.1. Какой бы правдоподобной ни казалась гипотеза, изначально вы предполагаете, что она неверна (то есть отталкиваетесь от статус-кво). При наличии достаточного количества доказательств, говорящих о том, что нулевая гипотеза (H0) очень маловероятна, вы отклоняете ее в пользу альтернативной (Ha).
Мораль: проверка гипотезы – отличительная черта научных экспериментов. Чтобы бросить вызов статус-кво, допустите его истинность в рамках нулевой гипотезы. При наличии достаточного количества доказательств (данных), говорящих о том, что нулевая гипотеза маловероятна, отклоните ее в пользу нового знания, содержащегося в альтернативной гипотезе.
Доказательства обратного
Предположим, вы играете в баскетбол с коллегами, и стажер просится в вашу команду, заявляя о том, что он попадает минимум в 50 % случаев. «Потрясающе», – думаете вы. Вашей команде нужен хороший бомбардир[60].
Перед игрой вы мысленно отмечаете (то есть формулируете нулевую гипотезу): процент реализации бросков стажера ≥ 50 %.
Игра начинается, и вы передаете ему мяч для выполнения открытого броска. Промах. «Ничего страшного», – думаете вы. Но затем он не попадает снова. Потом промахивается еще раз. И… еще. Четыре промаха подряд. Ну и ну. Это просто ужасно.
Ваша вера в него начинает колебаться. Этот парень действительно умеет играть или просто дурачится? Тем не менее даже у профессионалов бывают неудачные дни, и иногда они промахиваются четыре раза подряд. И вы продолжаете давать ему новые шансы. А он продолжает промахиваться. За всю игру стажер промахнулся 10 раз подряд, и ваша команда проиграла. Вы разочарованы и считаете этого парня лжецом.
Вы возвращаетесь за свой стол и решаете количественно оценить то жалкое выступление, свидетелем которого вы только что стали.
Итак, какова вероятность того, что игрок, реализующий 50 % своих бросков, промахнется 10 раз подряд?
Отталкиваясь от базовой вероятности, вы выполняете некоторые расчеты. Вероятность того, что он промахнется один раз, составляет 50 %. Вероятность двух промахов подряд составляет 50 % × 50 % = 25 % (при условии, что результаты бросков не зависят друг от друга, как говорилось в предыдущей главе). Продолжая эту логику, вы умножаете показатель 50 % сам на себя 10 раз: 0,5^10 = 0,00098, то есть 0,1 %, или примерно 1 из 1000.
Таким образом, вероятность данного конкретного результата, то есть 10 промахов подряд, при условии, что стажер, по его словам, способен реализовать 50 % бросков, составляет 1 из 1000.
Эта вероятность, равная 1 из 1000 или 0,001, называется p-значением (p означает probability – «вероятность»). Теперь вы должны решить, был ли у стажера просто неудачный день или ваша нулевая гипотеза, согласно которой процент реализации бросков стажера составляет 50 %, ошибочна?
Десять пропущенных бросков лишь подрывают доверие. Однако то, что вероятность неудачного дня составляет 1 из 1000, довольно убедительно доказывает то, что первоначальное утверждение стажера вряд ли было истинным. Скорее всего, вы отвергли нулевую гипотезу на более ранних этапах игры в пользу альтернативной гипотезы, Ha: процент реализации бросков стажера < 50 %.
Остановитесь на мгновение и спросите себя: когда вы начали сомневаться в способностях стажера вместо того, чтобы оправдывать его? Каким было пороговое число промахов, заставившее вас отвергнуть нулевую гипотезу?
Для примера предположим, что это пороговое значение составляло 5 промахов. Если бы стажер промахнулся только 4 раза подряд, вероятность чего составляет 50 % × 50 % × 50 % × 50 %[61] = 6,25 %, или 1 из 16, вы бы еще могли продолжать верить в то, что он хороший бомбардир. Однако после пятого промаха доказательств обратного стало слишком много. Этот порог в 5 промахов подряд называется уровнем значимости, после превышения которого полученные данные больше не соответствуют исходному утверждению.
Поскольку Вселенная полна вариаций, вы должны смириться с некоторым уровнем случайности (и количеством промахов). Иногда человек может плохо играть без всяких причин. Таким образом, уровень значимости – это некий условный установленный вами предел, до которого вы можете мириться со случайностью и необъяснимыми вариациями, продолжая считать нулевую гипотезу верной. Если p-значение меньше уровня значимости, вы отбрасываете нулевую гипотезу и говорите, что результат статистически значим.
Урок: проверка того, что p-значение не превышает уровня значимости, с целью отбрасывания нулевой гипотезы – ключевая часть процесса построения статистического вывода. Разумеется, наличие вариаций и произвольный выбор уровня значимости чреваты ошибками при принятии решений.
Сбалансируйте ошибки, допускаемые при принятии решений
Когда вариация приводит к неправильному выводу, это называется ошибкой при принятии решения.
Существуют два типа подобных ошибок, названия которых мало о чем говорят: ошибка первого рода (ложноположительное заключение) и ошибка второго рода (ложноотрицательное заключение). Поскольку описательность названия имеет большое значение, мы предпочитаем называть ошибки первого и второго рода именно ложноположительными и ложноотрицательными заключениями.
Ложноположительное заключение возникает тогда, когда доказательства подтверждают альтернативную гипотезу, которую следовало бы отвергнуть (например, у мужчины оказывается положительный тест на беременность). С другой стороны, ложноотрицательное заключение имеет место тогда, когда вы принимаете ложную нулевую гипотезу (например, у беременной женщины оказывается отрицательный тест на беременность). В табл. 7.2 приведены дополнительные примеры ошибок первого и второго родов.
Вы как лицо, принимающее решения, выбираете вероятность ложноположительного заключения, устанавливая уровень значимости. Со статистической значимостью тесно связано такое понятие, как мощность – вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Чем выше мощность теста, тем ниже вероятность ложноотрицательного заключения.
Табл. 7.2. Ложноположительные и ложноотрицательные заключения при принятии решения
Балансирование ошибок первого и второго родов предполагает компромисс, и, если вы не соберете больше данных, то не сможете уменьшить вероятность одного, не увеличив вероятность другого. Например, вы хотите обеспечить низкий уровень ложноположительных заключений в случае спама. Нулевая гипотеза заключается в том, что «электронное письмо не является спамом». В связи с этим ложноположительное заключение может привести к тому, что электронное письмо от вашей матери окажется в папке со спамом. Обратная сторона этого – большее количество спама в вашем почтовом ящике (больше ложноотрицательных заключений), но вы готовы мириться с этим ради того, чтобы получать большую часть своей личной электронной почты. Однако в случае скрининга заболеваний медицинское сообщество может допустить больше ложноположительных заключений, чтобы уменьшить количество ложноотрицательных (пропущенный диагноз). Если у кого-то есть заболевание, медики хотят его обнаружить.
Мораль: вариации усложняют процесс принятия решений. Иногда вам будет казаться, что ваша альтернативная гипотеза верна, хотя это не так (ложноположительное заключение), а иногда будете ошибочно думать, что верна нулевая гипотеза (ложноотрицательное заключение).
Процесс построения статистического вывода
В предыдущих пяти кратких уроках мы рассмотрели несколько компонентов процесса статистического вывода. Пришло время понять, как эти компоненты сочетаются друг с другом. Давайте попробуем обобщить их, чтобы вы как главный по данным могли понять и четко объяснить весь процесс построения статистического вывода.
Если вкратце, то в ходе этого процесса вы должны выполнить следующие действия:
1. Задайте осмысленный вопрос.
2. Сформулируйте гипотезы для проверки, используя статус-кво в качестве нулевой гипотезы, а свое предположение – в качестве альтернативной.
3. Задайте уровень значимости. (Чаще всего используется произвольное значение в 5 % или 0,05.)
4. Вычислите p-значение на основе результата статистического теста.
5. Вычислите соответствующие доверительные интервалы.
6. Отклоните нулевую гипотезу в пользу альтернативной, если p-значение оказалось меньше уровня значимости; в противном случае не отклоняйте нулевую гипотезу.
Остановитесь на мгновение и подумайте о перечисленных выше шагах. Если вы можете прочитать и понять все шесть шагов – поздравляем! Вы делаете успехи в изучении языка статистики. Единственное, что мы до этого упускали из виду, – это идея статистического теста, механизма вычисления p-значения. Мы использовали его при определении базовой вероятности в примере со стажером-баскетболистом (возведя 50 % в 10-ю степень). Однако существуют сотни статистических тестов, используемых для описания, сравнения, оценки рисков и взаимосвязей в данных. Именно этим инструментам уделяется основное внимание в учебниках по статистике. Мы не стали сосредоточиваться на статистических тестах здесь, поскольку вы можете и должны понимать логику, лежащую в основе статистики, независимо от метода расчета p-значения.
Возвращаясь к поставленной задаче, мы признаем, что главные по данным чаще всего будут потребителями статистических результатов, а не их создателями. Поэтому в следующем разделе мы перечислим вопросы, которые вам следует задать, чтобы бросить вызов тем статистическим показателям, с которыми вы сталкиваетесь. Если вы хорошо усвоили материал, изложенный в предыдущих разделах, вы уже должны быть готовы задавать эти вопросы.
Вопросы, позволяющие бросить вызов статистическим показателям
Мы составили список вопросов, которые вы можете задать своим товарищам по команде с целью критической оценки представленных статистических показателей:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Давайте рассмотрим каждый из этих вопросов и разберемся в том, почему они важны.
Каков контекст этой статистики?
Контекст статистики не менее важен, чем сами показатели. Услышав фразу: «Продажи выросли на 10 %!» – вы должны спросить: «По сравнению с чем?»
Рассмотрим следующий пример. Маркетолог-аналитик сообщает своему начальнику о том, что продажи выросли на 10 % по сравнению с прошлым кварталом, но не говорит о том, что объем продаж его крупнейшего конкурента увеличился на 15 %. Начальник наверняка предпочел бы знать этот дополнительный контекст. Однако попытки обобщить информацию могут привести к путанице. Главные по данным должны выяснять контекст и базовые показатели для проведения сравнения.
Рассмотрим другой пример. Предположим, новая реклама на YouTube повышает вероятность клика по объявлению на 50 %. Без знания контекста это звучит весьма впечатляюще. Однако если рассматривать данный статистический показатель в контексте, становится ясно, что кликабельность рекламы (отношение числа людей, щелкнувших по объявлению, к числу людей, просмотревших рекламу) улучшился с 0,1 до 0,15 % (то есть с 10 из 10 000 до 15 из 10 000) или на 0,05 % в абсолютных величинах. Данный результат следует преподносить именно так. Указание относительного процентного изменения (0,0015–0,0001)/0,0001 × 100 = 50 % создает неверное представление о нем.
Вероятно, в своей работе вы уже сталкивались с подобными примерами, когда вы видите точный, однозначный и впечатляющий статистический показатель, но не знаете, что он на самом деле означает. В таких случаях смело спрашивайте: «Каков контекст этой статистики?»
Каков размер выборки?
К этому моменту вы уже должны понимать важность размера выборки. Небольшое значение N, как правило, сопровождается большим количеством вариаций. Нет проблем: вы просто добавляете дополнительные данные. При достаточном количестве данных результаты будут менее вариативными, верно? В эпоху «больших данных» у вас может возникнуть соблазн просто сделать значение N настолько огромным, чтобы выборка учитывала все вероятности.
Однако в тех случаях, когда значение N очень велико, легко подумать, что N = ВСЕ, то есть в вашем распоряжении имеются все возможные точки данных. Однако подобное допущение не освобождает вас от необходимости задумываться о качестве данных и предвзятости. (Вспомните уроки из главы 4.) Действительно ли ваша выборка охватывает людей, относящихся к интересующей вас категории?
Как отмечается в книге «Data Science. Инсайдерская информация для новичков»:[62]
Мы утверждаем, что предположение о том, что N=ВСЕ, – одна из самых больших проблем, с которыми мы сталкиваемся в эпоху больших данных. Прежде всего это способ исключения голосов людей, у которых нет времени, энергии или возможностей для участия во всех неформальных (возможно, даже необъявленных) выборах.
Исключение голосов относится не только к выборам. Нуждающиеся могут быть по ошибке лишены права на получение скидок на еду или одежду; на участие в опросах, касающихся государственной политики; или их голоса просто не будут учтены. Может показаться, что достаточно большой набор точно отражает характеристики популяции, однако размер выборки – это еще не все. Хуже того, в «больших данных» можно очень легко обнаружить ложные зависимости. Если препарировать данные определенным образом, в них всегда можно найти что-то интересное.
В тех редких случаях, когда N действительно равно ВСЕЙ популяции (перепись), можете считать, что вам повезло. Вам не придется заниматься построением статистического вывода, потому что в показателях описательной статистики не будет неопределенности при условии корректного сбора данных.
Что вы тестируете?
В основе любого статистического вывода, с которым вы сталкиваетесь на рабочем месте или в новостях, лежит (как мы надеемся) конкретный вопрос, который можно проверить с помощью данных. Не позволяйте специалисту по работе с данными предоставлять статистический показатель, не озвучивая при этом лежащий в его основе вопрос. Убедитесь в том, что ваша команда знает о причинах, по которым та или иная статистика вообще создается. Задайте вопрос: «Что вы тестируете?» – и попросите предоставить на него четкий ответ, сформулированный в нестатистических терминах[63].
Какова нулевая гипотеза?
В этом квартале ваш стажер в MegaCorp тесно сотрудничал с отделом обслуживания клиентов, предлагая идеи для повышения уровня их удовлетворенности. Вы хотите оценить эффективность его идей с помощью простого опроса клиентов MegaCorp, состоящего из единственного вопроса: «Вы бы порекомендовали нас другу?»
Стажер формализует тест и выдвигает нулевую гипотезу: «Уровень рекомендаций в этом квартале не ниже, чем в прошлом». Таким образом:
– H0: Уровень рекомендаций в этом квартале ≥ Уровню рекомендаций в прошлом квартале.
В случае отвержения нулевой гипотезы будет принята альтернативная гипотеза, которая в данном случае такова: «Уровень рекомендаций в этом квартале ниже, чем в прошлом квартале». Используя статистическую нотацию, альтернативную гипотезу можно записать так:
– Ha: Уровень рекомендаций в этом квартале < Уровня рекомендаций в прошлом квартале.
Остановитесь на мгновение и подумайте о сделанном допущении. Вы не видели никаких данных и статистических показателей, но можете оспорить саму логику подхода вашего стажера. Выдвигая нулевую гипотезу, он изначально настроил себя на победу. Если результаты опросов за два квартала практически не различаются или основаны на небольшой выборке клиентов, то доказательств в пользу отвержения исходного допущения может оказаться недостаточно. Именно поэтому главный по данным должен спросить: «Какова нулевая гипотеза?» Плохо сформулированная нулевая гипотеза может создать обманчивое впечатление истинности некоего утверждения просто в силу отсутствия доказательств обратного.
Помните, что цель науки – бросить вызов существующему положению вещей. Статус-кво соответствует нулевой гипотезе, а альтернативная гипотеза отражает то, во что верите вы. И с помощью собранных данных вы должны доказать, что нулевая гипотеза является маловероятной.
Чтобы доказать эффективность своей работы по повышению уровня удовлетворенности клиентов, ваш стажер должен проверить свою гипотезу следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
(Мы вернемся к этому примеру чуть позже.)
Допущение эквивалентности
Предположим, вы заменяете ключевой ингредиент в пищевом продукте, чтобы сократить расходы. Ваша команда проводит опрос клиентов, предлагая им оценить вкус по 10-балльной шкале, чтобы выяснить, замечают ли они изменение. При использовании предыдущей рецептуры 18 из 20 человек говорили о своей готовности купить продукт. В ходе нового опроса о готовности купить продукт, приготовленный по новому рецепту, заявили 12 из 20 человек.
При использовании нулевой гипотезы: «Коэффициент покупок нового продукта = Коэффициент покупок прежнего продукта» и уровня значимости 0,05 p-значение[64], вычисленное с помощью статистического теста, равно 0,064. Поскольку p-значение превышает 0,05, нулевая гипотеза не отклоняется. Ваш начальник Джордж воспринимает это так: «Моя команда аналитиков показала, что между старым и новым более дешевым рецептом нет никакой статистически значимой разницы. Можно сократить расходы».
Джордж считает старый и новый рецепты эквивалентными, но у него просто может не быть достаточного количества данных, доказывающих обратное. Мораль здесь такова: не суметь опровергнуть статус-кво – это не то же самое, что подтвердить его[65].
Каков уровень значимости?
Как вы помните, уровень значимости – это пороговое значение, до достижения которого мы готовы мириться с тем, что данные не согласуются с нулевой гипотезой, продолжая при этом считать ее верной.
По традиции уровень значимости задается в 5 % или 0,05. В некоторых отраслях может использоваться 1 % или 0,01. Некоторые исследователи используют еще более низкое значение. Например, сотрудники Европейской организации по ядерным исследованиям (ЦЕРН) применяли невероятно низкий уровень значимости в процессе поиска крошечной физической частицы, известной как бозон Хиггса[66]. Чем меньше уровень значимости, тем меньше вероятность ложноположительного заключения.
Скорее всего, вы начнете с уровня значимости в 5 %, однако имейте в виду, что при таком значении вы можете ошибочно отклонять нулевую гипотезу (то есть делать ложноположительное заключение) в 1 случае из 20. Это приемлемо для вас?
Очень легко выбрать уровень значимости, при котором ваши результаты всегда будут статистически значимыми. Во многих инструментах по умолчанию задано значение в 5 %. Однако этот уровень может не соответствовать особенностям вашей отрасли. Кроме того, этот уровень может быть установлен вашим специалистом по работе с данными, который умолчал об этом изменении, сообщив вам лишь о том, что результат оказался статистически значимым. В худшем случае кто-то может провести тест и выбрать уровень значимости задним числом, – это все равно что бросить дротик, а затем передвинуть в нужное место мишень. Например, кто-то может провести статистический тест, получить p-значение 0,11, а затем задать уровень значимости 0,15, чтобы результат оказался статистически значимым.
Вот почему всегда важно спрашивать: «Каков уровень значимости?»
С практической точки зрения понижение уровня значимости, скажем, с 5 до 1 % сокращает количество ложноположительных заключений. Это задает более высокую планку для отклонения нулевой гипотезы. В этом случае данные должны быть более экстремальными (или, по крайней мере, убедительными), чтобы вы отвергли нулевую гипотезу. Звучит не так уж и плохо, правда? Однако обратная сторона этого – увеличение числа ложноотрицательных заключений. Достичь компромисса в данном случае непросто, и какой-то универсальной рекомендации дать нельзя. Достижение правильного баланса зависит от конкретной проблемы и вашей способности справляться с последствиями ошибок, связанных с ложноотрицательными и ложноположительными заключениями.
Сколько тестов вы проводите?
После выяснения уровня значимости спросите своих специалистов по работе с данными, сколько тестов они проводят. Поскольку они смотрят на данные по-разному, они могут провести десятки, а то и сотни неформальных статистических тестов с уровнем значимости в 5 %. Например, предположим, что исследователь тестирует большой набор данных о больных раком и типах пищевых продуктов, которые они едят, пытаясь выявить те продукты, которые могут быть связаны с более высокими показателями выживаемости. При наличии в базе данных 100 различных видов продуктов питания и использовании уровня значимости в 5 %, 5 продуктов покажутся статистически значимыми в борьбе с раком, даже если ни один из них не оказывает реального эффекта[67].
Каковы доверительные интервалы?
Ранее мы уже немного поговорили о доверительных интервалах и некоторых их компонентах. Пришло время собрать все фрагменты вместе.
Что мы подразумеваем под словом «доверие»? Как и в случае с понятием «значимость», смысл этого слова в статистике несколько отличается от повседневного. В статистике значимость и доверие неразрывно связаны. На самом деле между уровнем значимости и уровнем доверия существует симметрия – уровень значимости в 5 % соответствует уровню доверия в 95 %. Если более формально, то уровень доверия = 1 – уровень значимости. Поэтому вместо фразы «Мы отвергли нулевую гипотезу на уровне значимости 5 %» вы можете услышать фразу: «Мы отвергли нулевую гипотезу на уровне доверия 95 %».
Теперь давайте разберемся, почему человеку, анализирующему статистические результаты, следует запрашивать доверительные интервалы. Как говорилось ранее, доверительный интервал должен содержат истинное значение интересующего вас параметра популяции. В примере с опросом, который рассматривался ранее в главе, 95 % доверительный интервал при размере выборки N = 1000 составлял (62,5 %, 68,5 %). Предположим, что вместо 1000 студентов нам удалось опросить только 100, и 65 % из них сказали «да». В данном случае 95 % доверительный интервал составляет (54,8 %, 74,2 %). Данный интервал намного шире исходного из-за гораздо меньшего размера выборки. В связи с этим мы допускаем больший диапазон значений, которому, по нашему мнению, должна принадлежать интересующая нас доля популяции. Однако по мере увеличения размера выборки N доверительный интервал сокращается. Больше данных – больше доказательств и меньше неопределенности. Логично, не правда ли? Если вам удастся собрать данные обо всей популяции, то необходимость в доверительном интервале отпадет: вы найдете истинное значение интересующего вас параметра популяции.
Доверительные интервалы также позволяют оценить размер эффекта в статистическом тесте[68]. Предположим, вы хотите узнать, совпадает ли рост у баскетболисток из США и Европы. Первым делом вы формулируете нулевую и альтернативную гипотезы:
– H0: Средний рост американских баскетболисток = Среднему росту европейских баскетболисток.
– Ha: Средний рост американских баскетболисток ≠ Среднему росту европейских баскетболисток.
Теперь представьте, что ваш аналитик собирает данные и вычисляет p-значение для сравнения с уровнем значимости в 5 %. Согласно результатам этого сравнения p-значение меньше уровня значимости. У баскетболисток из США и Европы разный рост, и результаты являются статистически значимыми[69].
Однако не кажется ли вам, что вы что-то упускаете? Иногда мы рассматриваем статистическую значимость как некое подтверждение. О, ваши результаты статистически значимы? Это означает, что они на 100 % верны. Однако статистические тесты проводятся для обнаружения любой разницы, независимо от степени ее важности. Вот почему вам никогда не стоит довольствоваться p-значениями. Вернемся к примеру с баскетболистками и предположим, что средний рост игроков из США и Европы составляет 72 дюйма (183 см) и 71,5 дюйм (182 см) соответственно, а 95 % доверительный интервал для этой разницы составляет 0,5 +/– 0,4 дюйма (1 см).
Имеет ли размер эффекта в полдюйма (1 см) практическое значение и представляет ли он вообще какой-либо интерес?
Имеет ли это практическое значение?
Крайне небольшие эффекты могут быть обнаружены при исследовании большой выборки. Если вы видите только p-значения, а не доверительные интервалы, то можете подумать, что обнаружили большой эффект, хотя на самом деле выявили лишь незначительное различие, не имеющее практической ценности. Итак, глядя на доверительные интервалы, спросите себя, является ли то, что вы видите, практически значимым эффектом.
Предполагаете ли вы наличие причинно-следственной связи?
Вы уже почти забыли о стажере. Вам интересно, привела ли его работа к повышению уровня удовлетворенности клиентов в этом квартале по сравнению с предыдущим. Чтобы представить вам доказательства улучшения, стажер сформулировал нулевую и альтернативную гипотезы следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
В конце каждого квартала проводился опрос с использованием выборки, состоящей из 100 клиентов. В предыдущем квартале о своей готовности рекомендовать компанию сообщили 50/100 клиентов, а в этом квартале – 65/100. Являются ли результаты статистически значимыми при уровне 5 %?
С помощью статистического теста[70] стажер вычисляет p-значение. Оно равно 0,02, то есть меньше 0,05, что позволяет вам отклонить нулевую гипотезу и признать то, что разница в результатах двух кварталов является статистически значимой. Стажер очень радуется и чувствует, что ему удалось компенсировать свое плохое выступление на баскетбольной площадке. «Похоже, мне удалось повысить уровень удовлетворенности клиентов».
Но так ли это? Корреляция не доказывает наличие причинно-следственной связи. Уровень удовлетворенности клиентов мог повыситься благодаря целому ряду факторов, и если только не был проведен спланированный эксперимент и не были тщательно измерены различия между старым подходом и идеями стажера, то у вас нет оснований предполагать наличие причинно-следственной связи.
Подведение итогов
В этой главе вы узнали о статистическом выводе и о том, как можно оспаривать предоставляемые вам статистические данные. В частности, вы познакомились с вопросами, которые стоит задавать по поводу тех или иных статистических утверждений, а также узнали, почему это важно. Вот эти вопросы:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Вооружившись этим списком, вы сможете эффективно оспаривать, понимать и оценивать статистические показатели, с которыми сталкиваетесь.