Таблица 5.1
Характеристики выборки роста (в дюймах) 197 родительских пар и их взрослых детей, по данным Гальтона 1886 года. Для справки: 64 дюйма = 163 см, 69 дюймов = 175 см. Даже без построения диаграммы близость выборочных средних и медианы позволяет предположить, что распределение симметрично
Рис. 5.1 – это точечная диаграмма, где отображен рост 465 сыновей в зависимости от роста их отцов. Между ростом отцов и сыновей четко прослеживается корреляция, при этом коэффициент корреляции Пирсона равен 0,39. Как нам поступить, если мы хотим предсказать рост сына по росту его отца? Начать можно с построения прямой линии для прогноза: она позволит указать рост сына по росту отца. Первая мысль – провести линию точно «по диагонали», то есть при таком прогнозе рост сына будет точно таким же, как и у отца. Однако, оказывается, есть способ лучше.
Рис. 5.1
Точки отображают рост отцов и их сыновей, по данным Гальтона (многие отцы повторяются, потому что у них несколько сыновей). Для разделения точек добавлен случайный разброс, а диагональная пунктирная линия демонстрирует точное равенство между ростом отцов и сыновей. Сплошная линия – стандартная «прямая наилучшего соответствия» (регрессионная прямая). У каждой точки есть «остаток» (вертикальные пунктирные линии) – разность между наблюдаемым значением и значением, которое предсказывает регрессионная модель
Какую бы прямую мы ни выбрали, у любой точки данных будет остаток (вертикальные пунктирные линии на диаграмме), который представляет собой величину допускаемой ошибки при использовании для прогноза этой линии. Нам нужна линия, которая делает эти остатки маленькими, и стандартный способ ее провести – это выбор прямой по методу наименьших квадратов, то есть прямой, для которой сумма квадратов всех остатков будет наименьшей[113]. Уравнение для такой прямой получить несложно (см. глоссарий); этот метод разработан одновременно, но независимо друг от друга французскими математиками Адриеном-Мари Лежандром и Карлом Фридрихом Гауссом в конце XVIII века. Прямую часто называют прямой наилучшего соответствия, и с ее помощью определяется лучший прогноз, который мы можем сделать для роста сына, зная рост его отца.
Линия, построенная по методу наименьших квадратов на рис. 5.1, проходит через середину облака точек, отражая средние значения роста для отцов и сыновей, но не совпадая с диагональю, отображающей «равенство». Она ниже диагонали у отцов выше среднего и выше диагонали у отцов ниже среднего роста. Это означает, что у высоких отцов сыновья в среднем ниже их, а у низкорослых – в среднем выше их. Гальтон назвал это явление «регрессией[114] к посредственности», а позднее оно стало именоваться «регрессией к среднему значению», или «регрессом к среднему». Аналогичный феномен отмечается и для матерей и дочерей: дочери более высоких матерей в среднем ниже их, а низкорослых – в среднем выше. Это объясняет происхождение термина в названии главы: со временем любая стохастическая зависимость, определяемая по данным, стала называться регрессией.
В регрессионном анализе зависимой переменной (или переменной отклика) называется величина, которую мы хотим предсказать или объяснить; обычно ее откладывают по вертикальной оси y. Независимая переменная (или объясняющая переменная) – это величина, которую мы используем для прогноза или объяснения; обычно она откладывается по горизонтальной оси x. Наклон (точнее, угловой коэффициент) регрессионной прямой называется коэффициентом регрессии.
Табл. 5.2 показывает корреляцию между ростом родителей и потомков, а также наклон для регрессионных прямых[115]. Существует простая зависимость между угловыми коэффициентами, коэффициентом корреляции Пирсона и стандартными отклонениями и переменными[116]. В реальности если у зависимой и независимой переменной среднеквадратичные отклонения одинаковы, то угловой коэффициент просто совпадает с коэффициентом корреляции Пирсона, что и объясняет их сходство в табл. 5.2.
Таблица 5.2
Коэффициенты корреляции между ростом взрослых детей и родителей того же пола, а также коэффициенты регрессии для роста детей по отношению к росту родителей
Смысл углового коэффициента полностью зависит от наших предположений о взаимосвязи между изучаемыми переменными. Для корреляционных данных угловой коэффициент показывает, какое среднее изменение зависимой переменной можно ожидать, если значение независимой переменной изменится на единицу. Например, если Алиса на 1 дюйм выше Бетти, то мы можем предсказать, что взрослая дочь Алисы будет на 0,33 дюйма выше, чем взрослая дочь Бетти. Конечно, мы не ожидаем, что этот прогноз будет соответствовать их истинной разнице в росте, но это наилучшее предположение, которое мы можем сделать исходя из имеющихся данных.
Однако если мы предполагаем причинно-следственную связь, то у углового коэффициента будет совершенно иная интерпретация: это изменение, которого мы можем ожидать в зависимой переменной, если вмешаемся и изменим значение независимой переменной на единицу. Это точно не относится к примеру с ростом, так как рост нельзя изменить экспериментальным путем (по крайней мере, для взрослых). Даже с учетом описанных выше критериев Брэдфорда Хилла статистики, как правило, неохотно признают причинно-следственную связь без проведения эксперимента. Впрочем, некоторые исследователи, включая Джуда Перла, добились значительного прогресса в построении моделей причинной регрессии для наблюдательных данных[117].
Линия регрессии для роста отцов и сыновей – очень простой пример статистической модели. Федеральная резервная система США определяет модель как «представление некоторого аспекта мира, основанное на упрощающих предположениях»: по сути, какое-нибудь явление представляется в математической форме, встраивается в программное обеспечение, а затем создается упрощенная «воображаемая» версия реальности[118].
У статистических моделей есть два основных компонента. Первый – это математическая формула, которая выражает детерминистский, предсказуемый компонент, например формула прямой линии, позволяющая нам делать прогноз о росте сына, зная рост его отца. Однако такая детерминистская часть модели не будет идеальным отображением реального мира. Как мы видели на рис. 5.1, рост весьма сильно рассеян вокруг регрессионной прямой. Разница между тем, что предсказывает модель, и тем, что происходит на самом деле, – второй компонент модели, известный как остаточная ошибка, хотя важно помнить, что в статистическом моделировании термин «ошибка» означает не какой-то просчет, а неизбежную неспособность модели точно представить наблюдаемый мир. Поэтому в целом мы можем считать, что
наблюдение = детерминистская модель + остаточная ошибка.
Эта формула может быть истолкована как утверждение, что в статистическом мире то, что мы видим и измеряем, можно рассматривать как сумму систематической математической идеализированной формы и некоего случайного компонента, который пока нельзя объяснить. Классическая идея сигнала и шума.
Уменьшают ли камеры контроля скорости количество ДТП?
Этот раздел содержит простой урок: тот факт, что мы что-то делаем и что-то меняется, сам по себе не означает, что мы несем ответственность за результат. Похоже, людям трудно уловить эту простую истину, мы всегда стараемся придумать какое-то объяснение, причем гораздо охотнее, если лично находимся в центре ситуации. Конечно, иногда такая интерпретация верна: если вы щелкнете выключателем и зажжется свет, то обычно ответственны вы. Но иногда ваши действия определенно не отвечают за результат: если вы не взяли зонтик, а пошел дождь, в том нет вашей вины (хотя может показаться, что это так). Однако порой последствия наших действий менее ясны. Предположим, у вас болит голова, вы приняли аспирин, и боль прошла. Но откуда вам знать, что она не прекратилась бы, если бы вы не принимали таблетку?
У нас сильная психологическая склонность приписывать перемены какому-нибудь вмешательству, и это делает сравнения «до и после» ненадежными. Классический пример относится к камерам контроля скорости, которые обычно размещают в местах повышенной аварийности. Последующее снижение аварийности приписывают наличию камер. Но разве не понизился бы этот уровень в любом случае?
Полосы удач и неудач не бесконечны, и в конце концов все возвращается на круги своя – это тоже можно воспринимать как регресс к среднему, как у высоких отцов, имеющих более низких в среднем сыновей. Но когда мы убеждены, что полосы везения-невезения отражают постоянное состояние дел, мы ошибочно будем рассматривать возврат к нормальному состоянию как следствие какого-либо нашего вмешательства. Возможно, все это кажется вам очевидным, но эта простая идея имеет примечательные последствия:
• Преемникам футбольных тренеров, уволенных после череды неудач, лавры достаются всего лишь за возврат к нормальному состоянию.
• Управляющие фондами ухудшают показатели эффективности работы после нескольких успешных лет (и вероятного получения хороших бонусов).
• «Проклятие обложки Sport Illustrated»: как только спортсмены за свои достижения попадают на обложку этого известного журнала, их результаты резко ухудшаются.
Удача играет немалую роль в положении спортивных команд в турнирной таблице, а регресс к среднему означает, что можно ожидать того, что команды, преуспевающие в этом году, ухудшат игру в следующем, а плохо играющие сегодня улучшат ситуацию в будущем, особенно если команды примерно равны по силам. Напротив, видя такие изменения, мы можем подозревать, что работает регресс к среднему, и не стоит слишком обращать внимание на заявления о влиянии, скажем, новых методов тренировок.