нормированное нормальное (standardized normal). Это нормальное распределение со средним, равным 0, и дисперсией, равной 1. Теперь N'(Z) даст нам значение на оси Y (высота кривой) для любого значения Z:
U = среднее значение данных;
S = стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР() = экспоненциальная функция.
Уравнение (3.16) дает нам число стандартных единиц, которым соответствует точка данных; другими словами, число стандартных отклонений, на которое точка данных смещена от среднего. Когда уравнение (3.16) равно 1, оно называется стандартным нормальным отклонением (standard normal deviate) от среднего значения. Стандартное отклонение, или стандартная единица, иногда называется сигмой (sigma). Таким образом, когда говорят о событии, которое было «событием пяти сигма», то речь идет о событии, вероятность которого находится за пределами пяти стандартных отклонений.
Рисунок 3-7 показывает нормальную кривую, заданную предедущим уравнением. Отметьте, что высота стандартной нормальной кривой составляет 0,39894, поскольку из уравнения (3.15а) мы получаем:
Отметьте, что кривая непрерывна (в ней нет «разрывов»), когда она переходит из отрицательной области слева в положительную область справа. Отметьте также, что кривая симметрична: сторона справа от пика является зеркальным отражением стороны слева. Предположим, у нас есть группа данных, где среднее равно 11, а стандартное отклонение равно 20. Чтобы увидеть, где точка данных будет отображена на кривой, рассчитаем ее в стандартных единицах. Предположим, что рассматриваемая точка данных имеет значение -9. Чтобы рассчитать число стандартных единиц, мы сначала должны вычесть среднее из этой точки данных: -9- 11 =-20
Затем надо разделить полученный результат на стандартное отклонение:
-20/20=-1
Теперь мы можем сказать, что, когда точка данных равна -9, среднее равно 11, а стандартное отклонение составляет 20, число стандартных единиц равно -1. Другими словами, мы находимся на одно стандартное отклонение от пика кривой, и, так как это значение отрицательно, оно находится слева от пика. Чтобы увидеть, где это будет на самой кривой (то есть насколько высока кривая при одном стандартном отклонении слева от центра, или чему равно значение кривой на оси Y для значения -1 на оси X), надо подставить полученное значение в уравнение (3.15а):
Таким образом, высота кривой при Х=-1 составляет 0,2419705705. Функция N'(Z) также часто выражается как:
и ATN() = функция арктангенса;
U = среднее значение данных;
S = стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР() = экспоненциальная функция.
Не искушенные в статистике люди часто находят концепцию стандартного отклонения (или квадрата ее величины, дисперсии) трудной для представления. Среднее абсолютное отклонение (mean absolute deviation), которое можно преобразовать в стандартное отклонение, гораздо проще для понимания. Среднее абсолютное отклонение полностью отвечает своему названию: среднее данных вычитается из каждой точки данных, затем абсолютные значения каждой из этих разностей суммируются, и данная сумма делится на число точек данных. В результате у вас получается среднее расстояние каждой точки данных до среднего значения. Преобразование среднего абсолютного отклонения в стандартное отклонение, и наоборот, представлены далее:
где М = среднее абсолютное отклонение;
S = стандартное отклонение.
Можно сказать, что при нормальном распределении среднее абсолютное отклонение равно стандартному отклонению, умноженному на 0,7979.
(3.18) S = М * 1 / 0,7978845609
=М* 1,253314137, где S = стандартное отклонение;
М = среднее абсолютное отклонение.
Мы можем также сказать, что при нормальном распределении стандартное отклонение равно среднему абсолютному отклонению, умноженному на 1,2533. Так как дисперсия всегда является стандартным отклонением в квадрате (а стандартное отклонение является квадратным корнем дисперсии), мы можем задать преобразование между дисперсией и средним абсолютным отклонением.
(3.19) М = V ^ (1/2) * ((2 / 3,1415926536)^ (1/2))
= V ^ (1/2)* 0,7978845609,
где М = среднее абсолютное отклонение;
V = дисперсия.
(3.20) V = (М * 1,253314137)^ 2,
где V =дисперсия;
М = среднее абсолютное отклонение.
Так как стандартное отклонение в стандартной нормальной кривой равно 1, мы можем сказать, что среднее абсолютное отклонение в стандартной нормальной кривой равно 0,7979. Более того, в колоколообразной кривой, подобной нормальной, семи-интер-квартильная широта равна приблизительно 2/3 стандартного отклонения, и поэтому стандартное отклонение примерно в 1,5 раза больше семи-интерквартильной широты. Это справедливо для большинства колоколообразных распределений, а не только для нормальных, как и в случае с преобразованием среднего абсолютного отклонения в стандартное отклонение.
Нормальные вероятности
Теперь мы знаем, как преобразовывать наши необработанные данные в стандартные единицы и как построить кривую N'(Z) (т.е. как найти высоту кривой, или координату Y, для данной стандартной единицы), а также N'(X) (из уравнения (3.14), т.е. саму кривую без первоначального преобразования в стандартные единицы). Для практического использования нормального распределения вероятности нам надо знать вероятность определенного результата. Это определяется не высотой кривой, а площадью под кривой. Эта площадь задается интегралом функции N'(Z), которую мы до настоящего момента изучали. Теперь мы займемся N(Z), интегралом N'(Z), чтобы найти площадь под кривой (т.е. вероятности)[12].
где Y=1/(1+2316419*ABS(Z))
и ABSQ = функция абсолютного значения;
ЕХР() = экспоненциальная функция.
При расчете вероятности мы всегда будем преобразовывать данные в стандартные единицы. То есть вместо функции N(X) мы будем использовать функцию
N(Z), где:
(3.16) Z=(X-U)/S,
где U = среднее значение данных;
S = стандартное отклонение данных;
Х = наблюдаемая точка данных.
Теперь обратимся к уравнению (3.21). Допустим, нам надо знать, какова вероятность события, не превышающего +2 стандартных единицы (Z = +2).
Y= 1/(1 +2316419*ABS(+2)) =1/1,4632838 =0,68339443311
(3.15a) N'(Z) = 0,398942 * ЕХР(-(+2^2/2))
= 0,398942 *ЕХР (-2)=0,398942*0,1353353=0,05399093525
Заметьте, мы можем найти высоту кривой при +2 стандартных единицах. Подставляя полученные значения вместо Y и N'(Z) в уравнение (3.21), мы можем получить вероятность события, не превышающего +2 стандартных единицы:
N(Z) = 1 - N'(Z) * ((1,330274429 * Y^ 5) -
- (1,821255978 * Y^4) + (1,781477937 * Y^ 3) -
- (0,356563782 * Y ^ 2) + (0,31938153 * Y))
= 1-0,05399093525* ((1,330274429* 0,68339443311^5)-
- (1,821255978 * 0,68339443311 ^ 4 + 1,781477937 * 0,68339443311^ 3) - - (0,356563782 * 0,68339443311 ^2) + 0,31938153 * 0,68339443311))
= 1 - 0,05399093525 * (1,330274429 * 0,1490587) -
- (1,821255978 * 0,2181151 + (1,781477937 * 0,3191643)-
- (0,356563782 * 0,467028 + 0,31938153 - 0,68339443311))
1- 0,05399093525 * (0,198288977 - 0,3972434298 + 0,5685841587 -
-0,16652527+0,2182635596)
= 1 - 0,05399093525 * 0,4213679955 = 1 - 0,02275005216= 0,9772499478
Таким образом, можно ожидать, что 97,72% результатов в нормально распределенном случайном процессе не попадают за +2 стандартные единицы. Это изображено на рисунке 3-8.
Чтобы узнать, какова вероятность события, равного или превышающего заданное число стандартных единиц (в нашем случае +2), надо просто изменить уравнение (3.21) и не использовать условие «Если Z < 0, то N(Z) = 1 - N(Z)». Поэтому вторая с конца строка в последнем расчете изменится с
= 1 - 0,02275005216 на 0,02275005216
Таким образом, с вероятностью 2,275% событие в нормально распределенном случайном процессе будет равно или превышать +2 стандартные единицы. Это показано на рисунке 3-9.
Рисунок 3-8Уравнение (3.21) для вероятности Z=+2
Рисунок 3-9 Устранение оговорки «Если Z < 0, то N(Z) = 1 - N(Z)» в уравнении (3.21)
До сих пор мы рассматривали площади под кривой 1-хвостых распределений вероятности. То есть до настоящего момента мы отвечали на вопрос: «Какова вероятность события, которое меньше (больше) заданного количества стандартных единиц от среднего?» Предположим, теперь нам надо ответить на такой вопрос: «Какова вероятность события, которое находится в интервале между определенным количеством стандартных единиц от среднего?» Другими словами, мы хотим знать, как подсчитать 2-хвостые вероятности. Посмотрим на рисунок 3-10. Он представляет вероятности события в интервале двух стандартных единиц от среднего. В отличие от рисунка 3-8 этот расчет вероятности не включает крайнюю область левого хвоста, область меньше -2 стандартных единиц. Для расчета вероятности нахождения в диапазоне Z стандартных единиц от среднего вы должны сначала рассчитать 1-хвостую вероятность абсолютного значения Z с помощью уравнения (3.21), а затем полученное значение подставить в уравнение (3.22), которое дает 2-хвостые вероятности (то есть вероятности нахождения в диапазоне ABS(Z) стандартных единиц от среднего):
(3.22) 2-хвостая вероятность =1-((1- N(ABS(Z))) * 2)
Если мы рассматриваем вероятности наступления события в диапазоне 2 стандартных отклонений (Z = 2), то из уравнения (3.21) найдем, что N(2) = 0,9772499478 и можно использовать полученное значение для уравнения (3.22):
2-хвостая вероятность =1-((1- 0,9772499478) * 2) =1-(0,02275005216*2) = 1 - 0,04550010432 = 0,9544998957
Таким образом, из этого уравнения следует, что при нормально распределенном случайном процессе вероятность события, попадающего в интервал 2 стандартных единиц от среднего, составляет примерно 95,45%.