Как измерить все, что угодно — страница 10 из 16

Если вы хотите знать наверняка, каков процент брака в партии кирпичей, вам придется проверить каждый. А поскольку при испытаниях кирпичи подвергнутся нагрузке вплоть до разрушения, после нее не останется ни одного целого. Стремясь сохранить партию кирпичей для продажи или иного использования, мы должны проверить лишь несколько изделий — это даст информацию о всех.

Группа, сведения о которой необходимо получить (в данном случае это партия кирпичей), называется генеральной совокупностью. Изучение всех элементов группы (то есть проверка каждого произведенного кирпича) называется полным обследованием. Очевидно, что проведение полного обследования партии нецелесообразно, так как по его завершении не останется ни одного неповрежденного кирпича. Вместе с тем в других условиях полное обследование весьма обоснованно. Ежемесячная инвентаризация — это обычно именно тот случай, балансовый отчет — тоже результат полного обследования всех активов и обязательств. Бюро переписей населения США (U. S. Census Bureau) старается пересчитать всех проживающих в стране людей, хотя на практике это не вполне удается.

Но многие вещи скорее напоминают кирпичи, чем бухгалтерские операции. Существуют причины, по которым проверять, измерять, взвешивать или даже подсчитывать все элементы генеральной совокупности бывает нецелесообразно. Но мы все же можем снизить неопределенность, изучив несколько элементов этой совокупности. Любое обследование, не являющееся полным, называется выборочным. В сущности, выборка — это несколько объектов из генеральной совокупности, которые подвергаются наблюдению с целью получить информацию обо всех ее элементах.

Кого-то может удивить, что, исследуя одни объекты, мы получаем информацию о других, даже не рассматриваемых в данный момент, но ведь этим, в сущности, и занимается наука. Проводя эксперименты, мы изучаем отдельные эффекты Вселенной, изобилующей самыми разнообразными явлениями. Однако, открывая «закон», наука говорит, что он относится ко всем элементам исследуемой совокупности, а не только к тем, за которыми велось наблюдение.

Так, скорость света была определена путем выборочного обследования. И какой бы метод при этом ни применялся, он давал погрешность. Поэтому ученые измеряли скорость света неоднократно, и каждое измерение — новая выборка. Тем не менее скорость света — абсолютная константа, характеризующая и свет, отражающийся от этой страницы и попадающий вам в глаза, и свет, изучавшийся в лабораторных условиях. Полное обследование тоже может считаться выборочным, если со временем генеральная совокупность расширилась. Ведь данные полной инвентаризации, как и балансовый отчет, — всего лишь моментальная фотография.

Следующая фраза может огорчить тех, кто хочет, чтобы в мире было больше определенности: все, что мы знаем «по опыту», — не более чем выборка. Ведь на своем опыте мы испытываем не все, а только кое-что, а затем делаем обобщение. Все, что нам доступно, — лишь мимолетные образы по большей части невидимого нами мира, по которым мы и судим о том, что не можем наблюдать. Но люди уверены в выводах, которые делают на основе изучения ограниченных выборок, потому что опыт подсказывает: выборки работают! (Конечно, этот вывод сделан на основе таких же ограниченных наблюдений.)

Иногда полезные выводы обо всей обследуемой совокупности можно сделать лишь по нескольким образцам. Если мы отбираем их, чтобы установить состав однородного объекта, например делаем анализ крови на ДНК или определяем октановое число бензина, то достаточно одного образца крови или одной партии бензина. Но если элементы генеральной совокупности разнородны, как, например, рыбы в озере по размеру или затраты времени разных специалистов на ремонт компьютеров, то выборка должна быть больше — иногда существенно, хотя все же не настолько, как думают многие.

Как изучение нескольких элементов может рассказать о всей генеральной совокупности? Можно ли, отобрав 12 жителей города и спросив, как часто они ходят в кино или доверяют ли мэру, узнать что-либо о тех, кто не был опрошен? Да, можно. И такая малая выборка порой дает на удивление много информации, хотя отчасти это зависит и от того, как проведено исследование. Если мы просто опросим своих друзей или всех мужчин — клиентов парикмахерской, то данная группа, вероятно, не будет репрезентативной для всего населения и наши общие выводы окажутся ошибочными. Необходим метод, гарантирующий нас от систематического выделения однотипных выборок.

Решением этой проблемы является проведение действительно случайной выборки из интересующей нас генеральной совокупности. Осуществляя выбор случайным образом, мы обязательно получим погрешность, но погрешность, подчиняющуюся законам вероятности. Тогда можно рассчитать, например, вероятность того, что случайно выбрали демократов, проводя опрос в районе, где на самом деле преобладают республиканцы. И чем больше людей мы отберем таким случайным образом, тем меньше вероятность нерепрезентативности группы.

Если вам доводилось читать отчеты об опросах общественного мнения или научные статьи, авторы которых проводили выборку, значит, вы уже встречались с понятием «статистическая значимость». Статистическая значимость просто говорит: вы наблюдаете нечто реальное, а не произошедшее по чистой случайности. Насколько крупной должна быть выборка, чтобы получить статистически значимый результат? Достаточно ли нам опросить 1000 потребителей? Будет ли результат статистически значимым, если выборочно проверить сварку на шасси 50 автомашин или испытать действие нового лекарства на 100 пациентах?

Мне не раз доводилось слышать на первый взгляд авторитетные суждения по этому поводу. Кто-то утверждает, что получить статистически значимые результаты позволяет только выборка определенного размера. Однако спроси такого человека, как он определил это число, — он в лучшем случае сошлется на какое-нибудь правило из учебника по статистике, но объяснить, как оно рассчитано, скорее всего, не сможет.

Короче говоря, термином «статистическая значимость» часто злоупотребляют те, кто не вполне понимает, что он означает. Неужели эти люди действительно думают, что снижение неопределенности происходит только при выборке, достигшей этого порогового значения? Или же они считают, что экономическая стоимость информации, полученной при изучении малой выборки, всегда меньше затрат на проведение измерений? По своему опыту могу сказать: когда в любой компании проводится случайная выборка, всегда найдется «эксперт», точно знающий, что можно, а чего нельзя делать в статистике. Но я обнаружил, что процент ошибок в туманных воспоминаниях таких экспертов о статистике, которую они учили когда-то давно, на первом курсе университета, бывает намного выше ошибки при малой выборке.

Кто действительно разбирается в статистической значимости, так это Барри Нассбаум, главный статистик Службы статистической поддержки Агентства по защите окружающей среды (Statistical Support Services at the Environmental Protection Agency). Мы вместе занимались внедрением некоторых моих методов в EPA. Он отвечает на самые неожиданные вопросы, поступающие от сотрудников Агентства, связанные с проведением статистических анализов при решении проблем разных типов. Как-то он сказал мне: «Обращаясь за помощью к статистикам, люди всегда спрашивают, каким должен быть размер выборки. Это неправильный вопрос, но именно его и задают в первую очередь». Естественно, прежде всего надо выяснить, что они измеряют и зачем, и в этом с Нассбаумом нельзя не согласиться.

На самом деле небольшая выборка может рассказать намного больше, чем вы думаете. Когда исходная неопределенность высока, даже малая выборка позволяет значительно снизить ее. А если вы уже знаете тот узкий интервал значений, в котором находится интересующий вас показатель (например, новой услугой довольны 80–85 % потребителей), то уточнить эту цифру вам поможет только крупная выборка (придется опросить более 1000 человек). Но в этой книге мы говорим о том, что считается не поддающимся измерению. В таких случаях неопределенность обычно особенно высока и полезную информацию могут дать уже первые наблюдения.

Для тех, кто хотел бы освежить свои знания статистики, полученные еще на первом курсе, существуют многочисленные учебники. Повторюсь: на освещение этой тематики полностью книга не претендует. Наша задача — описать самые простые и полезные методы и рассказать то, о чем умалчивают обычные учебники по статистике или, по крайней мере, чему они не уделяют особого внимания. Ограниченность подобной литературы — вот часть проблемы измерения, с которой сталкиваются менеджеры компаний, пытаясь решить возникшие перед ними задачи. Дело в том, что специалистов по статистическому анализу вопросы практического измерения «неизмеряе-мого», похоже, не очень интересуют. Нассбаум подметил эту общую тенденцию у авторов публикаций в «Journal of American Statistical Association» (JASA): «Даже то, что авторы JASA называют „практическими приложениями“, — сплошная теория».

В этой главе мы обсудим некоторые простые способы извлечения важной информации из малой выборки. Но, в отличие от большинства работ по статистике, вначале мы постараемся обойтись без математики и лишь потом приведем кое-какие формулы, да и то немного. А когда перейдем к конкретным расчетам, покажем, что способы быстрой оценки и простые таблицы и графики нередко бывают полезнее сложных уравнений.

Все приводимые примеры можно скачать со вспомогательного сайта www.howtomeasureanything.com Воспользуйтесь возможностями этого ресурса.

СКОЛЬКО МАШИН ЕЗДИТ НЕ НА ТОМ ТОПЛИВЕ?

Государственное агентство принимает подход «просто сделай это»

В 1970-е годы некоторые действия Агентства по защите окружающей среды вызвали негативную реакцию общественности. В 1975 г. начался выпуск автомобилей с каталитическими конвертерами, позволяющими использовать неэтилированный, то есть не содержащий тетраэтилсвинец, бензин. Но этилированный бензин был гораздо дешевле, и водители предпочитали использовать именно его в машинах, оборудованных новыми конвертерами. Известный всем сегодня устанавливаемый на горловину бензобака рестриктор был рекомендован Агентством специально для того, чтобы люди не заправляли новые автомашины этилированным бензином (на заправках такой бензин поступал из пистолетов большего диаметра). Однако водитель мог просто снять этот рестриктор и использовать бензин, содержащий свинец. Главный статистик EPA Барри Нассбаум сказал: «Мы знали, что люди заправляли новые машины этилированным бензином, потому что когда представители Управления автомобильного транспорта (Department of Motor Vehicle, DMV) проводили проверки, они смотрели, не снят ли рестриктор». Использование свинецсодержащего топлива в новых автомобилях могло привести к еще большему загрязнению воздуха, а не к улучшению экологической обстановки, что было целью программы. Какое-то время специалисты EPA просто не знали, что им предпринять. Разве можно определить, сколько людей заправляют свои новые машины старым бензином? Но, в конце концов, они решили «просто сделать это» — понаблюдать за автозаправками. Сначала в округе случайным образом были выбраны несколько заправок. Затем, вооружившись биноклями, представители Агентства принялись следить за машинами, отмечать, каким топливом их заправляли, и сравнивать номера этих автомобилей со списком типов машин, представленным Управлением автотранспорта. Этот метод вызвал всеобщее недовольство — карикатуристы из «Atlanta Constitution» даже изобразили сотрудников EPA в виде фашистов, арестовывающих автовладельцев, пользующихся не тем бензином, хотя за людьми только следили и никого не задерживали. И все же, как сказал Нассбаум, у Агентства возникли проблемы с несколькими отделениями полиции. Правда, полицейским пришлось в конечном счете согласиться, что любой имеет право наблюдать за кем-то из-за угла. Но самое главное — специалисты EPA установили желаемое: 8 % машин, которые должны были работать на неэтилированном бензине, заправляли горючим с тетраэтилсвинцом. Несмотря на всю сложность стоящей задачи, сотрудники Агентства поняли, что простые наблюдения и выборка помогут им снизить исходную неопределенность.

Развиваем интуитивное понимание случайных выборок: пример с леденцами

Попробуйте выполнить небольшое задание. Укажите 90-процентный доверительный интервал для среднего веса одного леденца в граммах, то есть вы должны назвать всего два числа (нижнюю и верхнюю границы интервала), отстоящих друг от друга ровно настолько, чтобы вы были на 90 % уверены в том, что средний вес леденца попадет в этот диапазон. Как всегда, делая калиброванную оценку вероятности, вы, конечно, имеете какое-то представление о неизвестном показателе, каким бы сомнительным оно ни было. Между прочим, один грамм — вес одного кубического сантиметра воды. Запишите предполагаемый CI, прежде чем двигаться дальше. Проверьте его, следуя указаниям из главы 5, сделав эквивалентную ставку, рассмотрев все «за» и «против» того, что диапазон значений обоснован, и испытав границы интервала на соответствие практике.

Предположим теперь, что у меня есть обычный пакетик с леденцами, который можно купить в любой кондитерской. Открыв этот пакетик, я вынимаю наугад несколько конфет и взвешиваю их по очереди на весах. Обратите внимание на вопросы, которые изложены далее. Ответьте на каждый, прежде чем перейти к следующему этапу.

1. Допустим, я скажу, что вес первого отобранного мной леденца — 1,4 грамма. Отвечает ли это вашему 90-процентному доверительному интервалу? Если нет, то каким будет ваш новый 90-процентный CI? Запишите измененный интервал, прежде чем двигаться дальше.

2. Теперь я сообщаю результаты взвешивания остальных четырех из пяти наугад отобранных леденцов: 1,4; 1,5; 1,6 и 1,1 грамма. Как теперь изменится 90-процентный CI? Запишите и его.

3. Наконец, я говорю о результатах взвешивания еще трех леденцов (так что всего их стало восемь): 1,5; 0,9 и 1,7 грамма. Каков теперь ваш 90-процентный CI? Запишите окончательный вариант.

Всякий раз при поступлении новой информации ваш доверительный интервал должен сужаться. Если сначала (до взвешивания) он был очень широк, то уже после первого взвешивания должно произойти его существенное сокращение.

Я дал этот тест девяти калиброванным экспертам и получил практически одинаковые результаты. Главное различие между ними состояло в степени неуверенности специалистов в своей первоначальной оценке. Самый узкий интервал составлял 1–3 грамма, а самый широкий — 0,5–50 граммов, однако чаще всего диапазоны выглядели, скорее, узкими. Получив дополнительную информацию, эксперты в большинстве своем (особенно начинавшие с очень широкого интервала) быстро сузили свои диапазоны. Эксперт, указавший интервал 1–3 грамма, не сократил его после первого взвешивания, а тот, кто предложил 0,5–50 граммов, сильно опустил верхнюю границу и в конце концов пришел к интервалу 0,5–6 граммов.

На самом деле один леденец из этого пакетика весил в среднем около 1,45 грамма. Интересно, что эксперты довольно быстро сузили свои интервалы на основании дополнительной информации всего о нескольких конфетах.

Подобные упражнения помогают развить интуитивное понимание сути случайной выборки и интервала. Как мы вскоре увидим, выяснение субъективного мнения калиброванных экспертов без применения того, что кто-то назвал бы «настоящей статистикой», весьма полезно и даже имеет ряд преимуществ перед традиционными статистическими методами. Но давайте сначала узнаем, что говорится о малых выборках в большинстве работ по статистике.

Кое-что о малых выборках: подход пивовара

Точно рассчитать 90-процентный CI для среднего веса одного леденца, а не полагаться на мнение калиброванных экспертов позволяет метод, разработанный одним пивоваром. Он преподается в базовом курсе статистики и часто используется для определения погрешности выборки, состоящей всего из двух объектов. В самом начале XX века Уильяму Сили Госсету, химику и статистику ирландской пивоваренной компании Guinness, потребовалось установить, какой из двух сортов ячменя дает лучшее пиво с большим выходом. Ранее был разработан метод z-значения (z-score), или статистики нормальных распределений, позволяющий находить доверительный интервал на основе случайной выборки, состоящей из не менее чем 30 объектов. Метод дает распределения, не отличающиеся по форме от обсуждавшегося выше нормального. К сожалению, у Госсета не было возможности протестировать большое число партий пива, изготовленных из каждого сорта ячменя. Однако он не отказался от своей затеи измерить то, что как будто не поддавалось оценке, и решил вывести новый вид распределения для крайне малых выборок. К 1908 г. Госсет разработал новый эффективный метод, который назвал t-статистикой, и захотел опубликовать результаты своей работы.

Однако у Guinness уже были проблемы с разглашением коммерческой тайны, и служащим компании было запрещено публиковать любую информацию о бизнес-процессах. Госсет понимал значение своей работы, но ему сильнее хотелось рассказать о своей идее, чем добиться немедленного признания. Поэтому он опубликовал статью под псевдонимом «Стьюдент». И хотя истинный автор давно известен, практически во всех работах по статистике метод называется t-статистикой Стьюдента.

Вид распределения Стьюдента напоминает обсуждавшееся нами ранее нормальное распределение. Но в случае очень малых выборок его форма становится намного уплощеннее и шире. Рассчитанный с помощью t-статистики 90-процентный CI намного шире (то есть неопределеннее), чем в случае нормального распределения. Если размер выборки больше 30, то график t-распределения практически совпадает с нормальным распределением.

И для одного, и для другого типа распределения существует сравнительно простой (по сравнению со многими другими статистическими методами) способ расчета 90-процентного доверительного интервала для среднего значения генеральной совокупности. Кому-то наши расчеты могут показаться слишком сложными, а те, кто уже знаком с данным методом, скажут, что мы просто пересказываем содержание учебников по статистике. Пусть первые подождут, пока мы не рассмотрим в следующей главе намного более простое решение, а вторые просто пропустят этот материал. Адресуя свои пояснения читателям, которые отнесут себя к средней категории, я старался сделать их как можно более простыми для восприятия. Вот как мы могли рассчитать 90-процентный CI в предыдущем примере, отобрав всего пять леденцов.

1. Рассчитаем сначала дисперсию выборки (этим понятием мы позднее будем часто пользоваться):

а) рассчитаем средний вес отобранных леденцов: (1,4 + 1,4 + 1,5 + 1,6 + 1,1)/5 = 1,4;

б) вычтем это среднее из каждого значения в выборке и возведем полученные результаты в квадрат: (1,4–1,4)2 = 0; (1,5–1,4)2 = 0,012 и т. д.;

в) суммируем все квадраты и разделим на размер выборки минус единица: (0 + 0 + 0,01 + 0,04 + 0,09)/(5–1) = 0,035.

2. Разделим дисперсию выборки на ее размер и извлечем из полученного результата квадратный корень. В электронной таблице мы записали бы «=SQRT (0,035/5)» и получили 0,0837.

(В работах по статистике это называется средним квадратичным отклонением.)

3. Найдем в таблице 9.1 (таблице упрощенных значений t-статистики) значение t, соответствующее размеру выборки: для выборки, состоящей из пяти объектов, t = 2,13. Обратите внимание, что для очень больших выборок t близко к z-значению (нормальное распределение) 1,645.

4. Умножим найденное t-значение на результат этапа 2: 2,13 × 0,0837 = 0,178. Это ошибка выборки в граммах.

5. Суммируем ошибку выборки и средний вес леденца, чтобы получить верхнюю границу 90-процентного CI, а затем вычтем ее из среднего веса, чтобы получить нижнюю границу: верхняя граница = 1,4 + 0,178 = 1,578; нижняя граница = 1,4–0,178 = 1,222.



Итак, выбрав всего пять леденцов, мы получили 90-процентный CI, составляющий 1,222–1,578. Аналогично рассчитывают доверительный интервал и для более крупных выборок. Единственная разница заключается в том, что z-значение, необходимое для этого, всегда будет составлять 1,645 (с ростом размера выборки оно не увеличится).

На рисунке 9.1 представлен общий результат решения другой гипотетической задачи с использованием t-статистики. Это могло быть определение средней партии пива, сваренного в компании Guinness, среднего времени, проводимого покупателями в очередях, или среднего размера обуви жителей штата Небраска. В любом случае необходимо определить 90-процентный CI для среднего значения генеральной совокупности, хотя по каким-то причинам (экономические факторы, ограниченность во времени или несогласие жителей штата Небраска на измерение размеров их ног) размер выборки из подобных совокупностей составлял бы не десятки и сотни, а всего несколько образцов.



На этом рисунке нижняя ломаная линия — график значений выборки, пунктир — истинное среднее значение генеральной совокупности. Одни значения выборки выше этого среднего, другие ниже. Фактических значений на рисунке нет, но для наших целей смысл понятен. В верхней части рисунка вы видите три кривые, левые края которых образуют своеобразную «воронку торнадо». Средняя линия — график скользящей средней выборки (сначала среднее из первых трех значений, затем среднее из первых четырех значений и т. д.), которая сравнивается с истинным средним генеральной совокупности, представленным прямой пунктирной линией. Две внешние кривые — графики верхней и нижней границ 90-процентного доверительного интервала, пересчитываемого после каждого нового пополнения выборки.

Обратите внимание, что пока выборка невелика, 90-процентный CI достаточно широк, быстро сужаясь всякий раз, как она пополняется. Разброс значений в выборке по-прежнему велик, но скользящее среднее значение все больше приближается к истинному среднему. Заметьте и то, что при 30 членах выборки 90-процентный CI намного уже, но ненамного уже, чем при 20 или 10 членах. Когда выборка насчитывает 30 объектов, снижение ошибки вдвое требует увеличения ее размера в четыре раза (120 объектов). Чтобы сократить ошибку в четыре раза, нужно увеличить размер выборки в 16 раз (480 объектов). Короче говоря, каждое уменьшение ошибки выборки вдвое требует умножения ее размера на четыре.

И t-статистика, и нормальная z-статистика — разновидности так называемой параметрической статистики. Она предполагает конкретную форму распределения. Во многих случаях можно смело допустить, что распределение переменных является нормальным, но это не всегда так. Поэтому хотя параметрическая статистика и не опирается на субъективные оценки калиброванных экспертов, она все равно начинается с достаточно произвольного допущения о типе распределения.

В конечном счете разница между субъективным и объективным может не иметь большого значения, во всяком случае, на эффективность этих методов она не влияет. Единственное, что должно нас беспокоить, — как они работают на практике. Какая оценка интервала на основе малой выборки точнее — сделанная калиброванными экспертами или полученная с помощью параметрической статистики? Не ошибаются ли эксперты чаще, чем параметрическая статистика?

В эксперименте с калиброванными экспертами и леденцами специалисты постоянно давали более широкие (хотя и ненамного) интервалы значений, чем t-статистика. Это означает, что дополнительные несложные расчеты позволяют уточнить оценки калиброванных экспертов. Когда мы выбрали восемь леденцов, интервалы, предложенные самым осторожным и самым уверенным в себе экспертом, составляли 0,5–2,4 и 1–1,7 грамма соответственно. При выборке такого же размера t-статистика дала бы 90-процентный CI для среднего веса конфеты 1,21–1,57 грамма. Мы видим, что последний гораздо уже, чем самый узкий из интервалов, предложенных специалистами. Но хотя снижение неопределенности в нашем эксперименте и не было таким заметным, как можно ожидать, оно все равно оказалось значительным по сравнению с исходным состоянием. И как мы еще увидим в главе 10, дальнейшие исследования подтверждают эти выводы.

Итак, мы установили, что:

• когда исходная неопределенность высока, для ее существенного снижения достаточно изучить несколько объектов из генеральной совокупности;

• калиброванные эксперты сумели снизить неопределенность, отобрав из генеральной совокупности всего один объект, чего не может традиционная параметрическая статистика;

• оценки калиброванных экспертов обоснованны, но осторожны. Чтобы снизить неопределенность еще больше, нужно провести дополнительные расчеты.

Простейшие статистические методы получения выборок

Ясно, что эксперты могут сильно снизить исходную неопределенность, сделав всего нескольких наблюдений, а параметрический метод позволяет сократить ее еще больше. Но всегда ли калиброванные оценки уступают результатам, полученным с помощью параметрической статистики? Нет, не всегда. И t-статистика, и нормальная статистика учитывают только значения в выборочной совокупности, не принимая во внимание условия выборки, предварительную информацию, имевшуюся у эксперта перед проведением оценки, или наличие иных факторов. Другими словами, параметрические методы не позволяют воспользоваться многим из того, что мы называем здравым смыслом, так как не принимают во внимание информацию, интуитивно учитываемую калиброванными экспертами.

Предположим, что вместо взвешивания леденцов мы спросили у руководителей отделов продаж, сколько времени у них отнимает работа с отстающими торговыми представителями. Допустим, мы выбрали всего пять руководителей и они сказали, что тратят на эти цели 1, 6, 12, 12 и 7 часов в неделю. Применив t-статистику, получаем 90-процентный CI, составляющий 3,8–13 часов. Однако в статистическом уравнении не учтен тот факт, что 1 час — это временные затраты Боба, у которого, как всем известно, больше проблем с персоналом, чем у кого-либо другого, и который наверняка намеренно занизил этот показатель. А калиброванный эксперт, напротив, обязательно использовал бы эту дополнительную информацию. Оценка эксперта субъективна и поэтому кажется ненадежной, но в среднем она почти не уступает, а иногда и превосходит по точности оценку «объективной» статистики.

Более того, при очень малых выборках t-статистика часто дает доверительный интервал, который не имеет смысла с учетом известных ограничений. Предположим, что вы проанализировали ведомости учета рабочего времени и увидели, что ни один руководитель отдела продаж не тратит на общение со своими торговыми представителями более 12 часов в неделю, а затраты времени на общение с отстающими работниками еще меньше. И торговые представители, имеющие неважные показатели, утверждают, что общаются с руководителями не более 12 часов в неделю. Тогда верхняя граница нашего 90-процентного CI (13 часов) выглядит нереалистичной, но это лучший расчет t-статистики.

Я придумал другой, более простой подход, позволяющий не привлекать калиброванных экспертов и использующий только значения выборки. Вместе с тем он свободен от недостатков t-статистики. В главе 3 мы вскользь обсуждали Правило пяти. Как вы помните, оно гласит, что если выбрать случайным образом пять объектов из любой генеральной совокупности, то существует вероятность 93,8 % того, что медиана этой совокупности окажется в интервале между наибольшим и наименьшим значениями выборки. Но это лишь одно из правил, касающихся малых выборок. Если бы мы нашли метод определения 90-процентного CI непосредственно по значениям выборки, то быстро находили бы его без всяких расчетов.

Если выбрать восемь объектов, то наибольшее и наименьшее их значения зададут CI, гораздо более широкий, чем 90-процентный (в действительности, это был бы примерно 99,2-процентный CI). Но оказывается, что если взять вторые наибольшее и наименьшее значения в этой выборке, то получим интервал, гораздо более близкий к 90-процентному (примерно 93 %). При выборке из 11 объектов интервал окажется еще ближе к 90-процентному для третьих наибольшего и наименьшего значений.



Таблица 9.2 показывает, выборки какого размера позволяют получить CI, близкий к 90-процентному, просто взяв одно из самых высоких и одно из самых низких значений из нее. Например, при выборке 18 объектов верхняя и нижняя границы CI, близкого к 90-процентному, будут примерно равны шестым наибольшему и наименьшему значениям. Осторожности ради я специально выбирал размеры выборки, позволяющие получить не 90-процентный, а несколько более широкий CI. Третий столбец «Фактическая степень уверенности» показывает вероятность того, что медиана окажется в интервале, границами которого служат я-ное наибольшее и я-ное наименьшее значения. Не беспокойтесь о том, как использовать этот столбец. Достаточно знать, что получаемый CI максимально близок к истинному 90-процентному и не слишком узок (то есть является довольно осторожной оценкой).

Я называю этот 90-процентный CI определяемым без математических расчетов, так как все, что от нас требуется, — это записать несколько цифр, касающихся наибольшего и наименьшего значений выборки. Вам не придется рассчитывать ее дисперсию, извлекать квадратные корни или использовать таблицы t-значений. Составляя данную таблицу, я пользовался некоторыми непараметрическими методами и проверил полученные результаты методом Монте-Карло для малых выборок. Не стану утруждать вас подробностями, но ее использование существенно упрощает определение 90-процентного CI на основе малых выборок. Постарайтесь запомнить, что имея выборку из 5, 8, 11 или 13 объектов, для определения на ее основе границ 90-процентного CI нужно взять, соответственно, ее первое, второе, третье или четвертое наибольшее и наименьшее значения. Теперь можно быстро оценить 90-процентный CI, отобрав лишь несколько объектов для наблюдения, не доставая из кармана калькулятор.

Если говорить коротко, данный прием работает потому, что при расчете 90-процентного CI «середина» ряда значений особой роли не играет. Чтобы объяснить почему, нам придется еще раз вернуться к параметрическим методам. Они, как мы видели на примере параметрической t-статистики, требуют расчета дисперсии выборки. Из каждого значения в выборке вычитается среднее по выборке, а полученный результат возводится в квадрат. Сумма всех этих квадратов и есть дисперсия. Выполнив эти простые расчеты, вы обнаружите, что величина дисперсии почти целиком зависит от значений, намного отличающихся от среднего. Даже у больших выборок дисперсия обычно лишь на 2 % зависит от средней трети значений и на 98 % — от других двух третей наибольших и наименьших значений выборки. Когда размер выборки не превышает 12 объектов, дисперсия определяется всего двумя экстремальными точками — наибольшим и наименьшим значениями выборки.

Данный не требующий расчетов метод позволяет получить 90-процентный CI, лишь чуть-чуть более широкий, чем при использовании t-статистики, без связанных с ней проблем. Вспомним пример, в котором пять руководителей отделов продаж указали, что тратят на общение с отстающими торговыми представителями 1, 6, 12, 12 и 7 часов в неделю. С помощью t-статистики мы установили, что верхняя граница интервала — 13, но знаем, что по другим соображениям она должна быть ниже, и с помощью нашего не требующего расчетов метода получим интервал 1–12. Мы знаем, что 12 — вполне возможное значение верхней границы интервала, так как это одно из значений нашей выборки. Если отобрать еще шесть руководителей с затратами времени 4, 5, 10, 7, 9 и 10 часов в неделю, то выборка составит 11 объектов. Таблица показывает, что при таком размере выборки границами CI, близкого к 90-процентному, служат третьи наибольшее и наименьшее ее значения. С учетом этого получаем 90-процентный CI, составляющий 5–11 часов в неделю. А t-статистика в этом (довольно редком) случае даст нам несколько более широкий интервал 4,5–11,3 часа в неделю.

Важно отметить, что использованный мной непараметрический метод в отличие от t-статистики определяет 90-процентный CI для медианы, а не для среднего значения. Медианой генеральной совокупности называют такое значение, выше которого располагается ровно одна половина ее значений, а ниже — другая. Среднее генеральной совокупности — это сумма всех ее значений, деленная на размер. При смещенном (асимметричном) распределении генеральной совокупности медиана не совпадает со средним значением. Однако если допустить, что распределение близко к симметричному, то медиана и среднее совпадут. В этом случае наша таблица позволит определить 90-процентный CI и для медианы, и для среднего значения.

В некоторых случаях данное допущение оказывается натяжкой, но вообще-то в параметрической статистике мы делаем гораздо более сомнительные допущения. В параметрической статистике мы обязаны придать графику нашего распределения вполне определенную форму. А оценивая медиану по таблице 9.2, мы не делаем никаких допущений о распределении значений генеральной совокупности. Оно может быть и нерегулярным — горбатым (camel-back) (как график распределения населения США по возрасту, форма которого объясняется произошедшим после войны демографическим взрывом), и равномерным (как график распределения выигрышей при игре в рулетку). Таблица 9.2 позволяет определить диапазон значений медианы и в том, и в другом случаях. Но если распределение к тому же симметрично, неважно, равномерное оно, нормальное, горбатое или типа «бабочка» (bow-tie), то таблица годится и для определения диапазона среднего значения.

Пристрастный отбор методов выборочного обследования

Как обычный работник измерил бы популяцию рыб, обитающих в озере? Этот вопрос я всегда задаю участникам своих семинаров. Обычно в ответ слышу: «Осушил бы озеро». По мнению, например, среднего бухгалтера или даже менеджера среднего звена по ИТ, «измерить» означает «пересчитать». Поэтому когда речь заходит о численности (популяции) рыб, такие люди полагают, что их просят назвать точный итог, а не просто уменьшить неопределенность. С этой мыслью они и предлагают осушить озеро и, несомненно, сумели бы организовать дело так, чтобы каждая мертвая рыбешка была подобрана, брошена в кузов грузовика и сосчитана вручную. Возможно, кто-то пересчитал бы рыбу в грузовике еще раз и осмотрел бы дно осушенного озера, чтобы убедиться в точности подсчетов. Затем они сообщили бы, что всего в озере обитали ровно 22 573 рыбы, так что прошлогодние усилия по пополнению рыбных запасов озера не пропали даром. Правда, теперь вся эта рыба погибла.

А вот если поручить биологам измерить численность рыбной популяции в озере, то уж они не спутают слова «измерить» и «пересчитать». Взамен они, скорее всего, воспользуются методом, состоящим в выпуске пойманной рыбы и повторной ловле. Сначала биологи поймают и пометят некое число, скажем 1000, особей и снова выпустят их в озеро. После того как меченая рыба перемешается с немеченой, они отлавливают еще некое число особей. Допустим, поймали опять 1000 рыб, из которых 50 меченых. Это означает, что помечено 5 % всех имеющихся в озере рыб. Зная число первоначально меченых рыб — 1000, биологи делают вывод: в озере около 20 тыс. рыбин (1000 — это 5 % от 20 000).

Такого рода выборка подчиняется так называемому биномиальному распределению, но для больших чисел можно считать такое распределение нормальным. Ошибку оценки рассчитывают практически так же, как и ранее. Все, что нужно сделать, — это изменить порядок расчета дисперсии выборки, остальное не меняется. В данном случае дисперсию определяют как долю объектов в группе, численность которой мы пытаемся узнать, умноженную на долю объектов вне группы. Иными словами, берем долю меченой рыбы (0,05), умножаем ее на долю немеченой рыбы (0,95) и в результате получаем 0,0475.

Дальнейший порядок расчетов тот же. Делим дисперсию выборки на размер выборки и извлекаем квадратный корень из суммы: SQRT(0,0475:1000) = 0,007. Чтобы получить 90-процентный CI для доли меченых рыб в озере, к этой доле (0,05) прибавляем и вычитаем из нее 0,007, умноженные на 1,645 (z-значение 90-процентного CI). Результат: помечено 3,8–6,8 % всех рыб в озере. Мы знаем, что пометили 1000 рыб, тогда всего в озере от 1000/0,062 = 16 256 до 1000/0,032 = 25 984 особей.

Кому-то такой интервал покажется широким. Но предположим, что первоначально он выглядел как 2000—50 000 особей. Допустим также, что цель состояла только в том, чтобы определить, растет популяция или вымирает, и что ранее в озеро запустили 5000 мальков. Любое число свыше 6000 скажет нам о том, что популяция, как минимум, растет, а цифра свыше 10 000 — что запускать новых мальков больше не нужно. С учетом первоначального интервала значений и соответствующего порога полученная новая степень неопределенности — явный шаг вперед, а погрешность в данном случае вполне приемлема. На самом деле, и в первый, и во второй раз улов мог состоять не из 1000, а только из 250 рыб, но все равно мы были бы уверены, что популяция увеличилась так, что ее численность превысила 6000 особей.

Приведенный пример наглядно показывает, что выборочное обследование позволяет получить информацию даже о том, что никто не видит. Метод дает возможность определять, например, сколько человек остались не учтенными Бюро переписи населения США, сколько видов бабочек до сих пор не открыто в бассейне Амазонки, сколько несанкционированных попыток доступа в информационную систему было предпринято за прошедший период, а также сколько потенциальных клиентов не сумели выявить менеджеры компании. Если нельзя увидеть целиком какую-то группу объектов, это еще не означает, что измерить их численность тоже невозможно.

Метод выпуска пойманной рыбы и повторной ловли — лишь один из многочисленных приемов выборочного обследования. Несомненно, новые, более эффективные способы еще будут разработаны. Однако даже поверхностное знакомство с основными методами выборки позволяет правильно оценивать наблюдения и получать информацию, необходимую для решения самых разнообразных проблем.

ПРЕДНАМЕРЕННАЯ ВЫБОРКА

Преднамеренную (разовую) выборку можно сравнить со случайной моментальной фотографией людей, процессов или предметов в отличие от постоянного наблюдения за ними в течение некоего периода времени. Например, желая узнать, какую часть своего рабочего времени сотрудники тратят на данный вид деятельности, вы проверяете в один из дней, чем наугад выбранные люди заняты в настоящий момент. Окажись, что в 12 случаях из 100 работники участвовали в селекторном совещании, вы сделаете вывод: 12 % своего времени они тратят на селекторные совещания (90-процентный CI составляет 8–18 %). В этом примере, как и в случае с измерением численности рыбной популяции, мы имеем дело с биномиальным распределением. В каждый конкретный момент времени люди либо занимаются данным видом деятельности, либо нет, а вы просто спрашиваете, какую часть своего времени они на это тратят. И здесь размер выборки позволяет, как и ранее, считать распределение нормальным.

Но что, если удалось разово отобрать только 30 человек, из которых лишь пятеро занимаются интересующим вас видом деятельности? Достаточно ли этой информации? И вновь все зависит от степени исходной неопределенности до проведения выборочного обследования. Для ее снижения, возможно, этих данных и хватит. Рисунок 9.2 предоставляет способ быстрого определения 90-процентного CI для доли генеральной совокупности на базе малой выборки. Следуя указаниям на данном рисунке, вы получите такие результаты: нижняя граница 90-процентного CI — примерно 9 %, а верхняя — около 31 %. Предположим, что предыдущая оценка интервала дала итог 5–50 %, а порог, начиная с которого на базе той же информации придется принимать другое решение, — 40 %. Выборка такого размера вполне достаточна для принятия подобного решения.

КЛАСТЕРНАЯ ВЫБОРКА

Кластерное выборочное обследование — это случайная выборка из групп, проведение полного наблюдения или осуществление более концентрированной выборки в полученной группе. Например, если вы хотите узнать, какой процент семей имеет спутниковые тарелки или отделяет пластмассу от других бытовых отходов, иногда проще всего выбрать случайным образом в городе несколько кварталов, а затем провести сплошное обследование семей, проживающих в каждом из этих кварталов (на обследование семей, проживающих в разных концах города, ушло бы слишком много времени). В подобных случаях мы не можем исходить из того, что число объектов в случайной выборке должно равняться числу объектов в группах (в данном случае числу семей). Семьи, проживающие в одном квартале, могут быть очень похожими, поэтому нельзя считать, что размер случайной выборки определяется их числом. Когда семьи в квартале практически одинаковы, за размер выборки лучше принять число кварталов.



СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ

При стратифицированном отборе разные методы и (или) размеры выборки применяются к разным группам в составе одной генеральной совокупности. Этот подход имеет смысл, когда генеральная совокупность состоит из нескольких сильно отличающихся друг от друга, но внутренне однородных групп. Если вы владеете рестораном быстрого питания и хотите определить демографический состав своих клиентов, то, возможно, следует применять разные методы выборочного обследования к клиентам за столиками и к тем, кто берет еду на вынос. Если вы директор завода и хотите проверить, как соблюдается техника безопасности, то, возможно, методы наблюдения за сварщиками, мастерами и уборщицами должны различаться.

СЕРИЙНАЯ ВЫБОРКА

В учебниках по статистике метод серийной выборки обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации[25]. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Mark V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?

Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпущено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.



Таблица 9.3 демонстрирует данные о выпуске танков «Mark V» по сведениям разведки и расчетам статистиков в сравнении с фактическим производством (сведения из захваченных после войны документов). Сравнение подтверждает эффективность статистического метода, основанного на анализе серийных номеров захваченных машин.

Более того, дать оценку, значительно более точную, чем исходные данные разведки, наверное, можно было по номерам нескольких танков. Рисунок 9.3 показывает, как по случайной выборке предметов с серийными номерами определяют размер всей генеральной совокупности. Следуя указаниям рисунка, рассмотрим пример, когда число трофеев составляет восемь объектов (которыми могут быть товары конкурирующей фирмы, найденные в мусоре страницы ее отчета и т. д.). Самый большой серийный номер — 100 220, а самый маленький — 100 070, так что в результате этапа 1 мы получаем 150. Результат этапа 2 — около 1,0 (в этой точке кривая верхней границы пересекает вертикальную линию для нашего размера выборки — 8). На этапе 3 мы производим простые вычисления (1+1,0) × 150 = 300 и получим значение верхней границы CI. Повторив эти шаги для нижней границы и среднего значения, получаем 90-процентный доверительный интервал 156–300 со средним значением 195 (обратите внимание, что среднее — это не середина диапазона, поскольку распределение асимметрично). Так что статистики могли сделать свои выводы, располагая всего восемью номерами захваченных танков.



Два предостережения: если захвачены машины одной бронетанковой части, ни одна из них не может считаться отобранной случайно, поскольку у них могут быть близкие номера. Однако обычно это сразу видно по самим номерам. Кроме того, когда на самом деле нумерация серии не совсем последовательная (то есть каждый следующий номер присваивался не следующему танку) и какие-то номера пропущены, данный метод требует определенной модификации. Отметим: необходимо, чтобы распределение используемых номеров легко обнаруживалось. Например, если используются только четные номера или номера, отличающиеся друг от друга на пять, то это должно быть очевидным из выборки.

Как это можно применить в бизнесе? «Серийные номера» (то есть последовательные серии) можно найти в современном мире где угодно. Так, компании бесплатно предоставляют конкурентам информацию о своем объеме производства, просто указывая на товарах серийные номера, которые может увидеть любой покупатель. (Однако, чтобы быть случайной, такая выборочная совокупность должна состоять из товаров, купленных в разных магазинах.) Аналогичным образом несколько страниц из выброшенного отчета конкурента или цифр из квитанции могут многое рассказать об остальных страницах отчета или обо всех квитанциях за данный день. Я вовсе не призываю вас копаться в отбросах, но исследование содержимого мусорных контейнеров нередко позволяет решить интересные задачи по измерению.

Определите порог

Обычно мы хотим что-то измерить, так как требуется обосновать какое-то решение. И для всех решений обычно имеется некое пороговое значение: если интересующий нас показатель окажется выше его, то мы примем одно решение, а если ниже, то другое. Но статистические методы в большинстве своем не занимаются выяснением, при каком значении X следует принять то или иное решение. Я хочу познакомить вас с таким статистическим методом, который позволяет не только снизить неопределенность в целом, но и сравнить интересующий показатель с важным пороговым значением.

Предположим, требуется определить средние затраты времени сотрудников на совещания, которые в наш век Интернета могли бы проводиться и дистанционно. Работники не теряли бы время на дорогу, а совещания не срывались бы из-за проблем с транспортом. Чтобы решить, следует ли проводить данное совещание дистанционно, нужно выяснить, что на нем происходит. Если сотрудники, которые и так постоянно общаются друг с другом, обсуждают рутинные вопросы, но ради этого кому-то приходится ехать издалека, то подобное мероприятие, наверное, лучше проводить дистанционно. Начнем с калиброванной оценки времени, необходимого среднему сотруднику на то, чтобы попасть на совещание, которое могло бы проводиться дистанционно (3–15 %). Далее определяем, что если этот показатель превысит 7 %, то инвестировать немалые средства в подобные виртуальные мероприятия стоит. Расчет ожидаемой стоимости полной информации показывает, что необходимо израсходовать не больше 15 000 дол. на исследования по этому вопросу. Согласно нашему правилу определения затрат на проведение измерений, можно потратить на эти цели примерно 1500 дол., так что если в компании тысячи сотрудников, то сплошной опрос всех участников совещаний абсолютно исключен.

Предположим, что мы выбрали 10 человек и после подробного анализа времени, которое они тратят на дорогу и проводившиеся в последнее время совещания, выяснилось, что только один сотрудник расходует менее 7 % своего времени на эти виды деятельности. Какова, с учетом этой информации, вероятность того, что интересующий нас средний показатель действительно меньше 7 % и подобные инвестиции совершенно неоправданны? Ответ на уровне здравого смысла — один к десяти, или 10 %. Но это как раз тот случай, когда здравый смысл совсем не так полезен, как немного математики. На самом деле эта вероятность намного меньше.

Рисунок 9.4 показывает, как можно оценить вероятность того, что медиана генеральной совокупности находится по одну сторону порога при условии, что половина или большинство значений малой выборки — по другую сторону.



Попрактикуйтесь в обращении с рисунком 9.4.

1. Найдите в верхней части диаграммы, где указаны размеры выборок, цифру 10. Проследите, куда ведет сплошная кривая, соединяющая эту цифру с вертикальной осью координат.

2. Найдите в нижней части рисунка, где указано число объектов выборки ниже порогового, цифру 1. Проследите, куда ведет соответствующая этой цифре вертикальная пунктирная линия.

3. Найдите точку пересечения кривой и пунктирной линий.

4. Соответствующий этой точке процентный показатель на вертикальной оси координат (0,6 %) показывает вероятность того, что медиана такой выборки меньше порогового значения.

Данная малая выборка сигнализирует: вероятность того, что среднее значение совокупности окажется ниже порога, заметно меньше 1 %. Хоть эта статистика и кажется контринтуитивной[26], но факт остается фактом: неопределенность положения медианы (или даже среднего значения) генеральной совокупности относительно порога можно снизить очень быстро. Предположим, что мы отобрали из генеральной совокупности всего четыре объекта и ни один из них не оказался ниже порогового. Обратившись снова к рисунку 9.4, мы обнаружим, что вероятность нахождения медианы ниже порога составляет чуть менее 4 %, а вероятность ее положения выше него — соответственно 96 %. То, что выборочная совокупность всего из четырех объектов настолько снижает неопределенность, может показаться удивительным, но несложные расчеты или моделирование методом Монте-Карло это подтверждают.

Обратите внимание, что неопределенность, связанная с порогом, может снижаться гораздо быстрее, чем неопределенность по поводу самого интересного для нас показателя. Бывает, после нескольких выборок остается довольно широкий диапазон, однако когда порог находится за его пределами, неопределенность, связанная с ним, снижается буквально до нуля.

Серьезным ограничением данного подхода является предположение о максимальной неопределенности порогового значения. Метод исходит из допущения, что изначально у нас нет никакой информации о том, по какую сторону порога может находиться медиана генеральной совокупности. Это означает, что придется начинать с 50-процентной вероятности того, что медиана находится по ту или иную сторону порога. Знай мы заранее, что медиана, скорее всего, ниже порога, наша диаграмма, хотя и неточная, все же дала бы полезный результат. Если же вероятность того, что значение медианы ниже порогового будет меньше вероятности ее положения выше порога, то диаграмма завысит вероятность того, что в действительности медиана ниже порога. В нашем примере диапазон 3–15 % указывает на то, что медиана, скорее всего, больше порогового значения 7 %. Диаграмма указывает, что вероятность обратного — 0,6 %, но, обладая информацией о нашем диапазоне, мы можем сказать, что эта вероятность даже меньше.

Если бы, однако, диапазон составлял 1–8 %, то с самого начала было бы понятно, что интересующий нас показатель расположен ниже порогового значения 7 %. В данном случае рисунок 9.4 занижает вероятность того, что этот показатель ниже порога. Попытаемся использовать другой ориентир для уточнения искомой величины. Найдем фактическое среднее значение исходного диапазона и рассчитаем вероятность его нахождения по ту или иную сторону порога. При данном диапазоне можно утверждать, что существует 50-процентная вероятность того, что это значение меньше 4,5 %. Допустим, что из 10 отобранных нами служащих ни у одного затраты времени не оказались меньше 4,5 %. Рисунок 9.4 свидетельсвует: в этой ситуации вероятность того, что истинное значение на самом деле меньше 4,5 %, составляет менее 0,1 %. Хотя эта информация и не дает точных данных о том, насколько маловероятно, что искомое значение меньше 7 %, все же становится очевидно, что этот вариант практически невозможен.

Итак, как правило, если выборочное обследование убедительно подтверждает имевшуюся ранее информацию (например, лишь одно из 10 значений выборки оказывается ниже порога, а вы уже знаете, что медиана вряд ли может быть ниже порога), то неопределенность снижается даже быстрее. Когда же исследование опровергает имевшиеся ранее сведения, для аналогичного снижения неопределенности придется увеличить размер выборки. Не забывайте и о том, что рисунок 9.4 позволяет оценить вероятность того, что медиана (но не среднее значение диапазона) ниже или выше порога. Конечно, вы можете проделать дополнительные расчеты и еще больше снизить неопределенность. Если четыре значения в выборке окажутся намного больше порогового, то это даст вам большую уверенность, чем если бы они едва превысили его.

Эксперимент

Мой первый опыт покупки по Интернету относится примерно к середине 1990-х годов. В моей библиотеке было несколько работ по эмпирическим методам, применяемым в различных областях, но мне нужна была книга по общим основам научных измерений — такая, которую можно порекомендовать своим клиентам — менеджерам компаний. Я прочитал всех философов (Куна, Поппера и др.), но не нашел того, что искал. И тогда я увидел на сайте www.amazon.com книжку под названием «How to Think like a Scientist» («Мыслить, как ученый»)[27]. Отзывы были прекрасные, и казалось, что именно ее я смогу порекомендовать типичному руководителю. Оплатив покупку, через пару недель я получил по почте совсем не то, что ожидал. Книжка оказалась детской — для читателей от восьми лет. Я понял, что попал в глупое положение, и зарекся делать покупки по Интернету, пока электронная торговля не вышла из зачаточного состояния. Ведь в книжном магазине я, не имея в то время детей, просто проигнорировал бы секцию детской литературы. А заметь я эту книгу на книжном развале, ее обложка[28] подсказала бы, что это вовсе не то серьезное издание из серии «Наука для бизнеса», которое мне нужно. Повозмущавшись, я начал просматривать книгу. И оказалось, что хотя она на две трети состояла из картинок, в ней освещались все основные понятия и каждому давалось как нельзя более простое объяснение. Например, авторы очень доступно говорили о том, что такое проверка гипотезы и проведение наблюдений. Я изменил свое мнение, теперь покупка книги уже не казалась ошибкой. Я понял, что нашел в Интернете эту жемчужину именно потому, что принял ее за издание для взрослых. Стало ясно: главная идея книги была сформулирована на обложке — научные методы годятся для всех, кому уже исполнилось восемь.

Мысль провести эксперимент, чтобы определить какой-либо важный бизнес-показатель, к сожалению, приходит в голову менеджерам нечасто. А ведь эксперименты (что мы видели на примере Эмили Роза) могут быть очень простыми. При правильном подходе даже горсть конфетти, как показал Энрико Ферми, позволяет выяснить такой параметр, как мощность атомной бомбы. Сама идея очень проста. Как говорится в главе 3 о выборе инструментов измерения, когда вам нужно узнать то, что еще никем не измерено и что нельзя наблюдать без явного вмешательства, постарайтесь создать условия для наблюдения с помощью эксперимента.

Используемое в широком смысле слово «эксперимент» означает любое явление, созданное специально для цели наблюдения. Вы «экспериментируете», когда проверяете систему безопасности, чтобы понять, как быстро она отреагирует на угрозу. Но главной особенностью управляемого эксперимента является то, что у вас обычно не один, а два объекта изучения. Вы наблюдаете за тем, что испытываете (группа испытуемых), и за тем, с чем результаты испытания можно будет сравнить потом (контрольная группа). Это идеальный подход к ситуации, когда слишком сложно проследить за существующим явлением или когда объект, требующий измерения, еще не возник (например, необходимость оценки эффекта от изменения композиции продукта или внедрения новой информационной технологии).

Можно запустить новый опытный продукт или новую технологию и без оценки последствий. Но как узнать, понравилась ли потребителям ваша новая продукция, действительно ли повысилась производительность труда? Доходы могут вырасти вовсе не из-за изменения композиции продукта, а производительность труда — измениться совсем по другим причинам. На самом деле, если положение компании в какой-то момент зависит только от одного фактора, то отпадает необходимость в контрольных группах. Тогда можно менять этот фактор, исследовать положение компании и приписать возникшие сдвиги исключительно этой причине. Но, конечно, нужно уметь оценивать одновременное влияние разных сил и тогда, когда на сложные системы влияют многочисленные факторы, в том числе и такие, которые даже нельзя выявить и определить.

Изменяя какое-либо свойство своего продукта и желая понять, как это изменение повлияет на мнение потребителей, мы, возможно, должны будем провести эксперимент. Удовлетворенность потребителей, а следовательно, и число повторных заказов зависят от целого ряда причин. Но когда необходимо узнать, оправдано ли экономически это новое свойство продукта, приходится оценивать роль только этого фактора, а не совокупности разных причин. Сравнивая мнения потребителей, купивших усовершенствованный продукт, и тех, кто остался верен старому варианту, мы сможем количественно определить эффект именно нового свойства.

Для интерпретации результатов экспериментов используются в основном уже обсуждавшиеся нами методы: проведение разных выборочных обследований, возможно, испытаний вслепую и т. д. Но особенно важно уметь рассчитывать разницу результатов, полученных в группе испытуемых и контрольной группе. Если мы уверены, что группа испытуемых действительно отличается от контрольной, то должны быть убеждены и в том, что разница в результатах возникает не случайно. На самом деле, сравнение откликов двух групп очень похоже на расчет среднего квадратичного отклонения оценки, с которым мы уже знакомы, но с одним небольшим изменением. В данном случае среднее квадратичное отклонение, которое надо определить, — это отклонение различия результатов групп. Рассмотрим следующий пример.

Предположим, что одна компания решила оценить воздействие тренинга «Управление взаимоотношениями с клиентами» на качество работы службы поддержки потребителей. Сотрудники этой службы обычно отвечают на звонки покупателей, у которых появились вопросы или возникли проблемы с новым продуктом. Есть мнение, что плохая работа данной службы приводит не столько к снижению объемов продаж именно этим покупателям, сколько к той устной антирекламе, которую компания получает в результате. Как обычно, эта компания, прежде всего, оценила существующую неопределенность эффекта от проведения тренинга, затем определила соответствующий порог и рассчитала стоимость информации.

Изучив несколько возможных инструментов измерения, менеджеры решили, что лучше всего провести опрос позвонивших в службу поддержки покупателей и поинтересоваться не только их впечатлениями, но и вероятностью того, что они порекомендуют компанию своим друзьям. Используя ранее собранную маркетинговую информацию, калиброванные менеджеры определили, что новый тренинг в области управления взаимоотношениями с клиентами может увеличить объем продаж на 0–12 %, но расходы на его проведение окупятся даже в случае, если рост продаж составит лишь 2 %.

К проведению опроса приступили еще до начала тренинга, чтобы представить себе исходное положение дел. Из клиентов каждого сотрудника службы отбирали только одного. Главный вопрос был сформулирован так: «Какова вероятность, что вы порекомендуете нас своим друзьям, учитывая свой опыт обращения в службу поддержки?» В случае высокой вероятности такого поступка респонденты должны были выбрать цифру 1, если мнение о работе службы не изменилось — цифру 2, а в случае малой вероятности — 3. Каждому ответу присваивался соответствующий балл (1, 2, 3). Зная результаты некоторых предыдущих исследований роста продаж в результате повышения удовлетворенности потребителей, отдел маркетинга определил, что улучшение среднего балла ответов на этот вопрос на 0,1 пункта приведет к повышению объема реализации на 2 %.

Тренинг, о котором идет речь, был не из дешевых, поэтому сначала руководство решило послать на обучение 30 случайным образом выбранных сотрудников службы поддержки потребителей в качестве группы испытуемых. Тем не менее затраты на обучение этой группы оказались существенно меньше рассчитанной стоимости информации. В контрольную группу вошли все остальные сотрудники службы. После того, как тест-группа прошла программу тренинга, менеджеры продолжили опрос покупателей, осуществив выборочное обследование по принципу, описанному выше. Были рассчитаны среднее значение и дисперсия исходных данных по группе испытуемых и контрольной группе (как это показано в примере с леденцами в начале главы). Результаты расчетов представлены в таблице 9.4.

Ответы респондентов вроде бы продемонстрировали, что обучение дало эффект; но не является ли эта картина просто случайностью? Может быть, 30 случайным образом выбранных сотрудников уже работали лучше, чем персонал в среднем, или этим 30 случайно пришлось иметь дело с менее «трудными» покупателями? Пересчитаем полученные результаты обеих групп следующим образом:

1. Разделим дисперсию выборки каждой группы на размер выборки. Получим: 0,392 / 30 = 0,0131 для группы испытуемых и 0,682 / 85= 0,008 для контрольной группы.

2. Сложим полученные для каждой группы результаты: 0,0131 + 0,008 = 0,021.



3. Извлечем из полученного числа квадратный корень. Так мы получим среднее квадратичное отклонение разницы между группами. В данном случае она составит 0,15.

4. Рассчитаем разницу между средними значениями двух сравниваемых групп: 2,433–2,094 = 0,339.

5. Рассчитаем теперь вероятность того, что разница между группой испытуемых и контрольной группой больше 0, то есть группа испытуемых показала действительно, а не случайно, лучшие результаты, чем контрольная группа. Используем для этого расчета формулу normdist в Excel:

=normdist(0, 0,339, 0,15, 1)

и получим вероятность, равную 0,01.

Таким образом, существует вероятность всего 1 % того, что сравниваемые группы одинаково хороши или плохи. Значит, мы можем быть на 99 % уверены, что люди, прошедшие тренинг, действительно работают лучше остальных сотрудников службы.

Аналогично можно сравнить контрольную группу с исходным состоянием. Разница между ними составляет всего 0,007. Применив метод, только что использованный нами для сравнения тест-группы и контрольной группы, найдем, что есть 48-процентная вероятность того, что контрольная группа работает хуже исходного состояния, или 52-процентная вероятность того, что лучше. Таким образом, различие между этими группами пренебрежимо мало, а для всех практических целей его вообще не существует.

Мы определили с высокой степенью уверенности, что тренинг способствует повышению удовлетворенности потребителей. Поскольку разница между группой испытуемых и контрольной группой составляет около 0,4, отдел маркетинга пришел к выводу: обучение приведет к росту продаж примерно на 8 %. Это означает, что затраты на обучение всего персонала экономически целесообразны. Вспомним, что мы вполне могли бы взять и меньшую выборку, воспользовавшись t-распределением Стьюдента для выборок размером до 30.

Выявление взаимозависимости параметров: введение в регрессионное моделирование

На семинарах мне часто задают примерно такой вопрос: «Если благодаря внедрению новой информационной системы продажи увеличатся, то откуда мы будем знать, что это произошло благодаря именно этой системе?» Просто удивительно, как часто этот вопрос возникает при том, что последние несколько столетий специалисты по научным измерениям только и делают, что пытаются выделить эффект одной переменной. Могу лишь предположить, что эти люди незнакомы с основными понятиями научного измерения. Приведенный ранее в этой главе пример эксперимента ясно показывает: то, что объясняется многими причинами, вполне можно проследить до одного-единственного фактора влияния, сравнивая тест-группу с контрольной группой. На самом деле использование этих групп — лишь один из имеющихся способов выделения эффекта одной переменной из всей массы информации, существующей в любой компании. Другой способ — рассмотреть, насколько одна переменная коррелирует с другой.

Корреляция между двумя наборами данных обычно характеризуется числом, варьирующим от +1 до —1. Корреляция, равная +1, означает, что две переменные меняются совершенно одинаково: с ростом одной увеличивается и другая. Корреляция —1 также указывает на тесную связь между переменными, но когда одна из них увеличивается, другая уменьшается. Нулевая корреляция означает отсутствие всякой связи.



Чтобы понять, как выглядят коррелирующие друг с другом показатели, рассмотрим четыре примера, приведенных на рисунке 9.5. По горизонтальной оси отложены баллы теста на профессиональную пригодность или объем телевизионной рекламы за месяц, а по вертикальной — производительность труда или объемы продаж за месяц. Иными словами, на осях могут быть отложены любые критерии. Но из рисунка видно, что на одних диаграммах между параметрами существует более тесная связь, чем на других. В верхнем левом углу — график изменения двух переменных, никак не связанных друг с другом, между которыми нет корреляции, что видно из отсутствия наклона. Плоской и вытянутой в длину совокупность точек кажется потому, что изменчивость переменной по горизонтали больше таковой по вертикали. Будь их изменчивость одинаковой, точки разместились бы по кругу, но наклона все равно мы не наблюдали бы. График в нижнем правом углу указывает на сильную взаимозависимость двух переменных.

Прежде чем приступить к расчетам, необходимо построить график, чтобы убедиться в наличии или отсутствии заметной корреляции. Если при сравнении ожидаемых затрат на реализацию проекта с фактическими издержками ваш график оказался аналогичен изображенному в нижнем правом углу рисунка 9.5, значит, оценка была необыкновенно точной. А если он похож на набор точек в верхнем левом углу, то можно сказать, что игрок в кости оценил бы эти затраты не хуже.

Использование регрессионных моделей и данных за прошедшие периоды освобождает нас от необходимости проведения управляемого эксперимента. Допустим, что нам трудно увязать реализацию проекта в области информационных технологий и рост продаж. Однако имеется много данных о том, как влияет на продажи что-то еще, например более быстрый выход нового продукта на рынок. Если знать, что автоматизация некоторых процессов позволит сократить время от разработки до выхода продукта на рынок, то можно найти интересующую нас зависимость.

Однажды по просьбе одной крупной компании кабельного телевидения я анализировал ее проект инвестирования в новое программное обеспечение. Компания собиралась автоматизировать выполнение ряда административных задач, связанных с выпуском новых телешоу. Она надеялась, что это, в частности, приведет к повышению рейтингов подобных передач, а следовательно, и к росту доходов от рекламы. Но как компания могла оценить влияние проекта на рейтинги, зависящие от столь многих факторов?

По идее система автоматизации производства должна была ускорить выполнение определенных административных задач. Если они станут выполняться быстрее, компания сможет раньше начинать раскручивать новые шоу. У телекомпании были данные о рейтингах в прошлые периоды, и изучив старые производственные графики, мы смогли определить, сколько недель каждое новое шоу рекламировалось до выхода в эфир (ранее мы рассчитали стоимость этой информации и определили, что затраты на ее оценку полностью себя оправдают). Рисунок 9.6 представляет собой график роста рейтинга с увеличением продолжительности раскрутки (в неделях). Он построен не на основе реальных данных моего клиента, но иллюстрирует примерно ту же корреляцию.

Можем ли мы сразу, еще до анализа имеющихся данных, сказать, что между двумя переменными существует корреляция? Если да, то на какой график рисунка 9.5 больше всего будет похожа эта корреляция? Построение такой зависимости — всегда мой первый шаг при регрессионном анализе, поскольку чаще всего корреляция (если она существует) бывает очевидной. В Excel это очень просто сделать: заполните два столбца числами (в данном случае — недели раскрутки шоу и пункты рейтинга), каждая пара данных соответствует одному ТВ-шоу. Просто выберите весь набор данных, щелкните в меню программы Excel по кнопке «график», выберите опцию «XY (Scatter)» («график разброса»), выполните остальные указания, и вы увидите такой же график, как на рисунке 9.6.



Похоже, что корреляция имеется, но насколько она тесная? Ответ на этот вопрос требует знания некоторых тонкостей. Но я не стану здесь объяснять, на чем основано регрессивное моделирование, а взамен просто расскажу, что нужно сделать в Excel.

В программе Excel для расчета корреляции можно просто использовать функцию «=correl()». Предположим, что данные о продолжительности рекламы и рейтингах содержатся соответственно в первых 28 строках столбцов А и В электронной таблицы. Вы написали бы: =correl(A1:A28, В1:В28). С нашими данными мы получим коэффициент корреляции примерно 0,7. Поэтому можно с уверенностью считать, что увеличение продолжительности рекламы нового шоу повысит его рейтинг. Теперь пора сосредоточиться на упрощении процесса производства шоу и увеличении времени, которое можно потратить на рекламу.

Другой способ проделать это в Excel — воспользоваться опцией «Regression Wizard» («Мастер регрессии») из «Data Analysis Toolpack» («Набор инструментов для анализа данных») (перемещение к этой опции в разных версиях Excel разное, поэтому воспользуйтесь опцией «Справка»). Мастер регрессии подскажет вам выбрать «Y range» («интервал Y») и «X range» («интервал X»). В нашем примере это, соответственно, рейтинг и реклама (в неделях). Мастер создаст таблицу с результатами регрессионного анализа. Некоторые из них поясняются в таблице 9.5.

На основе приведенной информации можно вывести формулу наилучшего приближения для связи между продолжительностью раскрутки и рейтингом шоу. Далее мы рассчитаем прогнозируемый рейтинг по числу недель рекламы. Удобно называть это значение (в данном случае прогнозируемый рейтинг) «зависимой» переменной, а величину, по которой она определяется, — «независимой».

Прогнозируемый рейтинг (пункты) = Переменная X 1 × Продолжительность раскрутки (недели) + Отрезок, отсекаемый на оси координат.

Если мы построим кривую, которую дает нам эта простая формула, на уже построенном нами графике, то он приобретет вид, представленный на рисунке 9.7.




Согласно рисунку 9.7, хотя корреляция и имеется, рейтинг зависит не только от продолжительности рекламы. Эта информация вместе с итогами управляемого эксперимента позволяет нам ответить на пресловутый вопрос: «Откуда мы это знаем, если есть и другие факторы?» Ясно, что длительность раскрутки имеет значение для рейтинга, и неважно, определены ли количественно эффекты от действия других факторов и даже выявлены ли они вообще.

Преимущество инструмента «Regression» («Регрессия») программы Excel над такими более простыми функциями, как =correl(), заключается в том, что он позволяет выполнять так называемую множественную регрессию. Таким образом, возникает возможность одновременно рассчитывать коэффициенты для нескольких независимых переменных. При желании мы могли бы создать модель, связывающую рейтинг не только с продолжительностью рекламы, но и со временем года, категорией шоу, откликами фокус-группы и несколькими другими факторами. В таблице 9.5 каждая из этих дополнительных переменных имела бы свой коэффициент «Переменная X2», «Переменная X 3» и т. д. В итоге мы получили бы следующую формулу:

Прогнозируемый рейтинг (пункты) = Переменная X 1 × Продолжительность раскрутки (недели) + Переменная X2 × Результаты фокус-группы +… + Отрезок, отсекаемый на оси координат.

Сказав все это, необходимо также сделать ряд предостережений. Во-первых, корреляция не означает причину. То, что одна переменная коррелирует с другой, не обязательно означает, что одна их них обусловливает другую. Церковные пожертвования и продажа алкоголя между собой коррелируют, но вовсе не потому, что между производителями алкоголя и духовенством есть какой-то сговор, а потому, что и то и другое зависит от состояния экономики. Как правило, чтобы утверждать, что между какими-то явлениями существует причинно-следственная связь, помимо наличия корреляции нужны дополнительные основания. В случае соотношения рейтинга и длительности рекламы такие основания у нас действительно есть.

Во-вторых, не забывайте о том, что это простые линейные регрессии. Взяв не саму переменную, а какую-нибудь ее функцию (например, ее квадрат, инверсию, произведение двух переменных и т. д.), можно рассчитать корреляцию еще точнее. При желании читатели могут с этим поэкспериментировать. Наконец, в моделях множественной регрессии вы должны следить за тем, чтобы независимые переменные не коррелировали друг с другом. В идеале между независимыми переменными не должно быть никакой связи.

Я лишь коснулся основ множественного регрессионного моделирования. Этот инструмент очень полезен, но пользоваться им необходимо с осторожностью.

Гла