Де Муавр знал о таком распределении вероятностей (сейчас оно называется биномиальным распределением), но он также понимал, насколько непрактично применять этот способ, когда n – большое число. Чтобы решить аналогичную задачу для n = 3600 подбрасываний монеты, понадобится возвести двойку в степень 3600 и вычислить 3600 ∙ 3599 ∙ … ∙ 2 ∙ 1. Попробуйте это посчитать. Такое невозможно осуществить вручную и трудно даже на компьютере.
Трюк, который проделал де Муавр, – отказ от непосредственного умножения и изучение математической формы биномиального распределения. Он вывел формулу для приближения факториалов больших чисел, а его друг, шотландский математик Джеймс Стирлинг, нашел точное значение константы в ней[43], и де Муавр доказал, что при достаточно больших n вышеприведенное выражение для вероятности получить k орлов при n бросках монеты приблизительно равно
На первый взгляд кажется, что это выражение сложнее, чем исходная формула вероятности для биномиального распределения, поскольку тут есть квадратные корни, константа π = 3,14… и экспонента. Но здесь нет многочисленных умножений, необходимых для вычисления факториалов, и это главное в результате де Муавра. Можно вычислять значения для 3600 или даже миллиона бросаний, просто подставляя нужные значения k и n. Теперь де Муавр мог для вычисления использовать таблицы логарифмов или логарифмическую линейку. Технологии XVIII века способны были вести расчеты для миллиона бросаний.
Де Муавр построил первый доверительный интервал для такого события. Он показал, что шансы получить при 3600 бросаниях меньше 1740 или больше 1860 орлов составляют примерно 21 к 1, то есть вероятность получить от 1740 до 1860 орлов примерно равна 95,4 %[44].
В общем случае функция
с параметрами μ и σ2 называется плотностью нормального (гауссовского) распределения, и это одна из самых важных функций в математике. Де Муавр, видимо, не осознавал всей важности своей формулы, и только в 1810-х Пьер-Симон, маркиз де Лаплас, понял весь ее потенциал. Лаплас изучал так называемую производящую функцию моментов, которая позволяет однозначно определить распределение через его моменты[45]. Производящие функции моментов позволили Лапласу исследовать, как меняется форма распределения при сложении множества случайных результатов (например, выпадения чисел на колесе рулетки или бросания костей). Лаплас продемонстрировал замечательную вещь: независимо от того, что суммировать, по мере увеличения числа слагаемых моменты суммы всегда становятся всё ближе к моментам нормального распределения.
Потребовалось несколько лет, чтобы справиться с некоторыми хитрыми исключениями в результате Лапласа (к некоторым из них мы вернемся в главе 6). Над теми же вопросами работали в XX веке русский математик Александр Ляпунов и финский математик Ярл Вальдемар Линдеберг. Результат, доказанный Линдебергом в 1920 году, известен сегодня под названием «центральная предельная теорема»[46]. Она говорит, что если мы складываем много независимых случайных величин (например, измерений) со средним значением h и среднеквадратичным отклонением σ, то распределение суммы этих величин будет близко к нормальному со средним значением h ∙ n и среднеквадратичным отклонением σ√n.
Чтобы оценить масштабность этого результата, рассмотрим несколько примеров. Суммируя результаты бросания игральной кости, мы получим нормальное распределение. Суммируя результаты последовательных результатов в карточных играх, рулетке или онлайн-казино, – получим также нормальное распределение. И общее количество очков в играх сезона Национальной баскетбольной ассоциации имеет нормальное распределение (см. нижнюю диаграмму на рис. 3)[47]. И урожайность имеет нормальное распределение[48]. Скорость движения по автостраде тоже. Как и рост людей, их IQ и результаты личностных тестов[49].
Везде, где результат обусловлен различными случайными факторами, можно найти нормальное распределение, поэтому уравнение 3 используют для построения доверительного интервала в любой области, где раз за разом происходит повторение одного типа действий или наблюдений.
В главе 1 я показал, как игрок с преимуществом в 3 % может всего за один год превратить стартовый капитал в 1000 фунтов в сумму 57 миллионов. Если делать ставки и использовать выигрыши в дальнейшей игре, то капитал растет экспоненциально. И здесь я подошел к неизбежной ловушке для моего гипотетического игрока. Я назову этого человека Лизой. Как Лиза узнает, что ее преимущество составляет 3 %?
Нейт Сильвер, создатель и редактор сайта спортивных и политических прогнозов FiveThirtyEight, для объяснения таких ситуаций использует термины «сигнал» и «шум»[50]. В спортивных ставках значение средней прибыли (или потери) при одной ставке (величина h в уравнении 3) – это сигнал. Если у Лизы есть преимущество в 3 %, то в среднем на каждую ставку в 1 фунт она выиграет 3 пенса. Шум при ставке измеряется величиной среднеквадратичного (стандартного) отклонения σ. Как и в случае рулетки, шум в спортивных ставках гораздо больше, чем сигнал. Например, если Лиза ставит 1 фунт на какую-то команду с шансами 1/2, то она либо проиграет 1 фунт, либо выиграет 50 пенсов. С помощью формулы выше можно показать, что стандартное отклонение в этом случае равно 0,71[51]. Таким образом, шум, измеряемый стандартным отклонением (σ = 0,71), при одной ставке гораздо больше, чем сигнал (h = 0,03). Мы скажем, что отношение сигнала к шуму в нашем случае h/σ = 0,03/0,71 ≈ 1/24.
Казино знает, что у него есть преимущество, поскольку поставило рулетки, его обеспечивающие, и отношение сигнала к шуму равно 1/37. Лиза вынуждена при определении того, есть ли у нее преимущество, опираться на свой прошлый опыт. Именно здесь уравнение уверенности важнее всего для профессионального игрока. Если Лиза получила прибыль в h фунтов на ставку, а стандартное отклонение для ставки равно σ, то доверительный интервал для оценки преимущества h можно найти, поделив части уравнения 3 на n:
Например, если Лиза сделала 100 ставок и получила в среднем 3 пенса на каждую, этот доверительный интервал выглядит так:
Ее преимущество может составлять 17 пенсов (0,03 + 0,14 = 0,17), но оно иногда оборачивается потерей 11 пенсов в среднем. Все возможные величины для преимущества между –0,11 и +0,17 лежат в этом 95 %-м интервале[52]. Сделанные ею 100 ставок говорят слишком мало о том, работает ее стратегия или нет.
Поскольку доверительный интервал содержит 0, Лиза не может быть вполне уверена, что ее сигнал h положителен и ее игровая стратегия работает. Есть простое эмпирическое правило, которое она может использовать, чтобы узнать, сколько наблюдений нужно, чтобы надежно определить сигнал. Прежде всего округлим 1,96 до 2: для эмпирического правила разница между этими числами мала. Перепишем уравнение уверенности, чтобы определить условие, при котором доверительный интервал не включает ноль[53]:
Таким образом, если мы возьмем n наблюдений, то сможем обнаружить отношение сигнала к шуму, превосходящее 2/√n.
Ниже дана таблица некоторых значений, чтобы вы представляли, как работает это правило.
Преимущество на ставках или в финансовой сфере, как правило, имеет отношение сигнала к шуму примерно 1/20 или даже 1/50; поэтому, чтобы его обнаружить, нужны тысячи и даже десятки тысяч наблюдений. Для отношения сигнала к шуму h/σ = 1/24, как на спортивных ставках у Лизы, потребуется n> 2304 наблюдений. Больше двух тысяч наблюдений – это очень много футбольных матчей. Если Лиза считает, что ее преимущество на рынке английской Премьер-лиги составляет 3 %, то ей придется для уверенности прождать шесть сезонов.
За эти шесть лет другие игроки могут наткнуться на такое преимущество и нивелировать его. Обширные операции Мэттью Бенхэма и Тони Блума постоянно направлены на поиск возможностей. Как только два этих больших Б оказываются в игре, букмекеры корректируют свои коэффициенты и преимущество исчезает. Лиза рискует, поскольку не осознает, что ее преимущество исчезло. Чтобы убедиться, что преимущество существует, требуется больше 1000 матчей. Чтобы понять, что оно исчезло, может потребоваться столько же больших убытков. Прибыль, которая экспоненциально росла, превратилась в такой же экспоненциальный ущерб.
Большинство инвесторов-любителей представляют, что им нужно отделить сигнал от шума, но мало кто понимает важность извлечения квадратного корня в полученном нами правиле. Например, для обнаружения сигнала вдвое меньшей мощности требуется вчетверо больше наблюдений, и, наоборот, увеличив число наблюдений с 400 до 1600, вы сможете заметить всего вдвое большее преимущество. Очень легко недооценить объем данных, необходимых для обнаружения крошечных преимуществ на рынках.
Я позвонил Яну в Берлин, чтобы спросить, как дела у него с Мариусом. Все шло хорошо – Мариус даже предупреждал Яна, что мне следует говорить. Однако Ян, как обычно, хотел беседовать о цифрах.