Рис. 7.2
Исходная выборка из 50 наблюдений и три «бутстрэп-выборки»[154], каждая из которых состоит из 50 наблюдений, извлеченных случайным образом из исходного набора, каждый раз с возвратом. Например, наблюдение в 25 партнеров в первоначальной выборке встречается один раз (справа). В первой и второй бутстрэп-выборках его не оказалось вовсе, а в третьей встретилось дважды
В результате мы получаем представление, как при перевыборках изменяется наша оценка. Процесс известен под названием бутстрэппинг – волшебная идея вытягивания себя за ремешки на обуви сопоставляется со способностью извлекать информацию из самой выборки без предположения о форме распределения всей генеральной совокупности[155].
Если мы повторим эту процедуру, скажем, 1000 раз, то получим 1000 возможных оценок среднего. Они представлены в виде гистограммы на второй панели на рис. 7.3. Остальные гистограммы отражают бутстрэппинг для других выборок на рис. 7.1, при этом каждая гистограмма показывает разброс бутстрэп-оценок вокруг среднего в исходной выборке. Это выборочные распределения оценок, поскольку они отражают разброс оценок, появляющийся вследствие повторных составлений выборок.
Рис. 7.3
Распределение средних значений для 1000 бутстрэп-выборок, построенных для размеров 10, 50, 200 и 760, отображенных на рис. 7.1. Разброс значений для среднего уменьшается по мере роста размера выборки
Рис. 7.3 отражает некоторые очевидные особенности. Первая и, возможно, самая примечательная – исчезновение практически всех следов асимметрии исходных выборок: распределения для оценок, основанных на данных из повторных выборок, почти симметричны относительно среднего в исходных данных. Это следствие центральной предельной теоремы, которая гласит, что распределение выборочных средних по мере увеличения размера выборки сходится к нормальному распределению – практически вне зависимости от формы исходного распределения данных. Этот важнейший результат мы рассмотрим в главе 9.
Важно отметить, что эти бутстрэп-распределения позволяют количественно выразить нашу неопределенность в оценках, показанных в табл. 7.1. Например, мы можем найти диапазон, который будет содержать 95 % средних в бутстрэп-выборках, и назвать его 95-процентным интервалом неопределенности для исходных характеристик, или погрешностью. Соответствующие интервалы показаны в табл. 7.2 – симметрия бутстрэп-распределений означает, что интервалы неопределенности расположены примерно симметрично вокруг исходной оценки.
Таблица 7.2
Выборочные средние для числа сексуальных партнеров за всю жизнь, указанного мужчинами в возрасте 35–44 лет в исследовании Natsal 3, для вложенных выборок размера 10, 50, 200 и полных данных о 760 мужчинах, с 95-процентными интервалами неопределенности, также называемыми погрешностями
Вторая важная особенность рис. 7.3 – сужение бутстрэп-распределений по мере роста выборки, что отражено в постепенном уменьшении размера 95-процентных интервалов неопределенности.
В этом разделе вы познакомились с некоторыми сложными, но важными идеями:
• разброс в статистиках, основанных на выборках;
• бутстрэппинг данных, когда мы не хотим делать предположения о форме распределения в генеральной совокупности;
• тот факт, что форма распределения статистики не зависит от формы исходного распределения, из которого взяты наблюдения.
Весьма примечательно, что всего это мы достигли без помощи математики, за исключением идеи брать наблюдения случайным образом.
Теперь я покажу, что бутстрэппинг можно применять и в более сложных ситуациях.
В главе 5 мы проводили линии регрессии для данных Гальтона о росте, что позволяло предсказывать, например, рост дочерей на основе роста их матерей с помощью регрессионной прямой с угловым коэффициентом 0,33 (см. табл. 5.2). Но насколько мы можем быть уверены в положении такой прямой? Бутстрэппинг предоставляет интуитивно понятный способ ответить на этот вопрос, не делая никаких предположений о генеральной совокупности, из которой взяты наблюдения.
Составим из 433 пар дочь/мать (рис. 7.4) повторную выборку из 433 элементов (с возвратом) и построим для нее прямую наилучшего соответствия по методу наименьших квадратов. Повторим процедуру столько раз, сколько считаем нужным: рис. 7.4 показывает построенные всего по 20 таким перевыборкам линии наилучшего соответствия, чтобы продемонстрировать их разброс. Поскольку исходный набор данных велик, разброс у этих прямых относительно небольшой – при 1000 бутстрэп-выборках угловой коэффициент с вероятностью 95 % лежит в интервале от 0,22 до 0,44.
Рис. 7.4
Регрессионные прямые для 20 перевыборок из данных Гальтона о росте матерей и дочерей, наложенные на исходные данные. Из-за большого размера выборки угловой коэффициент прямых изменяется относительно слабо
Бутстрэппинг обеспечивает интуитивно понятный, удобный для использования компьютера способ выразить неопределенность в оценках, не делая сильных предположений и не используя теорию вероятностей. Однако этот метод неэффективен, когда нужно найти, например, погрешность в опросе 100 тысяч человек о безработице. Хотя бутстрэппинг – простая, блестящая и крайне эффективная идея, перерабатывать с его помощью такие огромные объемы данных неудобно, особенно при наличии теории, которая может предоставить готовые формулы для величины интервалов неопределенности. Но прежде чем мы ее рассмотрим в главе 9, познакомимся с восхитительной, хотя и непростой теорией вероятностей.
Выводы
• Интервалы неопределенности – важная часть информации о характеристиках выборки.
• Бутстрэппинг – это метод создания из первоначальной выборки новых наборов данных одинакового размера посредством перевыборок с возвратом.
• Выборочные характеристики, вычисленные с помощью бутстрэп-выборок, для больших наборов данных близки к нормальному распределению – независимо от формы исходного распределения данных.
• Интервалы неопределенности, построенные с помощью бутстрэппинга, используют вычислительные мощности современных компьютеров, не требуют предположений о математическом виде генеральной совокупности и сложной теории вероятностей.
Глава 8. Вероятность – язык неопределенности и случайности
В 1650-х годах самозваный шевалье[156] де Мере столкнулся во время игры с дилеммой. Не то чтобы он был уж слишком азартным игроком (хотя играл довольно увлеченно), но тем не менее хотел знать, в какой из двух игр у него больше шансов на победу.
Вариант 1. Правильная игральная кость бросается четыре раза, игрок побеждает, если хотя бы раз выпадает шестерка.
Вариант 2. Пара правильных игральных костей бросается 24 раза, игрок побеждает, если хотя бы раз выпадает пара шестерок.
На что выгоднее поставить?
В соответствии с эмпирическими статистическими принципами шевалье де Мере решил сыграть в обе игры много раз и посмотреть, насколько часто он выигрывает. Это потребовало немало времени и усилий, но в причудливой параллельной вселенной, где были компьютеры, но не было теории вероятностей, шевалье не потратил бы столько времени на сбор данных, а просто смоделировал бы тысячи игр.
На рис. 8.1 представлены результаты такого моделирования – доля побед по мере увеличения количества прохождений игр. Хотя какое-то время Вариант 2 кажется выгоднее, примерно после 400 игр становится ясно, что Вариант 1 лучше и что в (очень) долгосрочной перспективе шевалье может рассчитывать на победу примерно в 52 % игр для Варианта 1 и только 49 % игр для Варианта 2.
Рис. 8.1
Компьютерное моделирование 10 тысяч повторений двух вариантов игр. В Варианте 1 вы выигрываете, если шестерка выпадает хотя бы раз при четырех бросаниях кости, а в Варианте 2 – если пара шестерок выпадет хотя бы раз при 24 бросаниях пары костей. После первых 100 подбрасываний в каждом из вариантов (верхняя диаграмма) вроде бы выгоднее кажется Вариант 2, однако после тысяч игр (нижняя диаграмма) становится ясно, что Вариант 1 несколько лучше
Примечательно, что де Мере играл достаточно часто, чтобы прийти к аналогичному выводу: Вариант 1 немного лучше. Это шло вразрез с его (ошибочными) попытками вычислить шансы на победу[157], поэтому он обратился за помощью в модный парижский салон Мерсенна[158]. К счастью, его частым посетителем был философ Блез Паскаль, который, познакомившись с задачей, написал о ней своему другу Пьеру де Ферма (да-да, автору той самой Великой теоремы!). Вместе в последующей переписке они сделали первые шаги на пути к созданию теории вероятностей.
Несмотря на то что люди тысячелетиями играли в азартные игры и делали ставки на то, какой стороной упадут игральные кости, формальная теория вероятностей – сравнительно недавняя идея. В течение следующих пятидесяти лет после работ Паскаля и Ферма в 1650-х годах были заложены математические основы, и сегодня вероятность используется в физике, страховании, пенсионных расчетах, торговле на финансовых рынках, прогнозировании и, конечно же, в азартных играх. Но почему нужно использовать теорию вероятностей при статистических расчетах?
Мы уже встречались с концепцией «случайного выбора» из общего распределения в совокупности – ваша подруга из главы 3, родившая ребенка с низким весом, была нашим первым примером знакомства с вероятностью. Мы должны предположить, что любой элемент генеральной совокупности с равными шансами может попасть в нашу выборку: вспомните