Приложение А. Избранные распределения вероятности
Рис. А.1. Треугольное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел);
• мода – это может быть любое значение между ВП и НП.
Обратите внимание, что ВП и НП – это абсолютные внешние пределы 100 %-ного ДИ.
В треугольном распределении ВП и НП представляют собой абсолютные пределы, т. е. сгенерированное значение не может оказаться вне их границ. Помимо ВП и НП, у распределения также есть мода, которая может принимать любое значение между ВП и НП. Данное распределение иногда полезно использовать как замену логнормального распределения, скажем, когда нужно задать абсолютные ограничения для возможных значений, но при этом чтобы результат вычислений был близок к логнормальному. Треугольное распределение удобно в любой ситуации, когда вам известны абсолютные пределы, но наиболее вероятное значение может находиться не посередине, как в нормальном распределении.
• Ситуация применения: когда нужен контроль над тем, где находится наиболее вероятное значение относительно диапазона, и когда диапазон имеет абсолютные пределы.
• Примеры: количество потерянных записей, если вы считаете, что наиболее вероятное число находится вблизи верхнего предела диапазона, но общее количество записей ограничено, а значит, этот предел невозможно превысить.
• Формула Excel: = ЕСЛИ(СЛЧИС()<=Мода;1;0)*((Мода-НП)^2)/((ВП-НП)*(Мода-НП)) +ЕСЛИ(СЛЧИС()>Мода;1;0)*(1-((ВП-Мода)^2)/((ВП-НП)*(ВП-Мода))).
• Среднее значение: = (НП+Мода+ВП)/3.
Рис. А.2. Бинарное распределение
Параметры:
• P (вероятность события).
Обратите внимание, что P находится в диапазоне от 0 до 1. Она показывает, как часто симуляция случайным образом выдает событие.
В отличие от других упомянутых здесь распределений дискретное бинарное распределение (также известное как распределение Бернулли) генерирует только два возможных исхода: успех или неудача. Вероятность успеха равна p, а вероятность неудачи – q = (1 – p). Например, если успех означает, что при броске монеты выпадет орел, то вероятность успеха составляет p = 0,5, а вероятность неудачи – q = (1–0,5) = 0,5.
• Ситуация применения: используется в ситуациях «или/или», т. е. событие или происходит, или нет.
• Пример: возникновение утечки данных за определенный период времени.
• Формула Excel: = ЕСЛИ(СЛЧИС() < P;1;0).
• Среднее значение: = P.
Рис. А.3. Нормальное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел).
Обратите внимание, что НП и ВП в приведенной ниже формуле Excel представляют собой 90 %-ный ДИ. Существует вероятность 5 %, что значение окажется выше ВП, и вероятность 5 %, что значение окажется ниже НП.
Нормальное (или гауссово) распределение представляет собой колоколообразную кривую, которая симметрично распределена относительно среднего значения.
1. Это распределение соответствует многим природным явлениям, но в некоторых случаях его применения оно будет недооценивать вероятность экстремальных событий.
2. Эмпирическое правило: почти все точки данных (99,7 %) будут лежать в пределах трех стандартных отклонений от среднего значения.
• Ситуация применения: когда существует равная вероятность наблюдения результата выше или ниже среднего значения.
• Примеры: результаты тестирования, время в пути.
• Формула Excel: = НОРМ.ОБР(СЛЧИС();(ВП+НП)/2;(ВП-НП)/3,29).
• Среднее значение: = ((ВП + НП)/2).
Рис. А.4. Логнормальное распределение
Параметры:
• ВП (верхний предел);
• НП (нижний предел).
Обратите внимание, что НП и ВП в приведенной ниже формуле Excel представляют собой 90 %-ный ДИ. Существует вероятность 5 %, что значение окажется выше ВП, и вероятность 5 %, что значение окажется ниже НП.
Если выборка может принимать только положительные значения, логнормальное распределение часто оказывается предпочтительнее нормального. Возьмем для примера ожидаемую стоимость акций в будущем. В уравнении S1 = S0 × e(r), S1 – будущая цена акций, S0 – текущая цена акций, а r – это ожидаемая норма рентабельности. Ожидаемая норма рентабельности соответствует нормальному распределению и вполне может принять отрицательное значение. А вот будущая цена акции ограничена нулем. Взяв экспоненту нормально распределенной ожидаемой нормы прибыли, мы получим логнормальное распределение, при котором отрицательная норма прибыли может оказать негативное влияние на будущую цену акций, но цена акций никогда не опустится ниже нуля. Распределение также допускает возможность экстремальных значений верхнего предела и, следовательно, подходит для некоторых явлений лучше, чем нормальное распределение.
• Ситуация применения: моделирование положительных значений, которые в основном находятся в диапазоне умеренных значений, но потенциально могут в редких случаях показывать экстремальные величины.
• Примеры: убытки, понесенные в результате кибератаки, стоимость проекта.
• Формула Excel: = ЛОГНОРМОБР(СЛЧИС();(ln(ВП) + ln(НП))/2; (ln(ВП)-ln(НП))/3,29).
• Среднее значение: = ((ln(ВП)+ln(НП))/2).
Рис. А.5. Бета-распределение
Параметры:
• альфа (1 + количество попаданий);
• бета (1 + количество промахов).
Бета-распределения чрезвычайно разнообразны. Их можно применять для генерации значений между 0 и 1 в случаях, когда одни значения более вероятны, чем другие. А полученные результаты можно использовать в других формулах для создания любого понравившегося диапазона значений. Бета-распределения очень полезны при моделировании частоты возникновения события, особенно когда частота оценивается на основе случайной выборки из совокупности или полученных ранее данных. В отличие от других распределений, здесь не так просто определить параметры, опираясь только на верхний и нижний пределы. Единственным решением является последовательный перебор различных значений альфа (α) и бета (β), до тех пор пока не получится желаемый 90 %-ный ДИ. Если α и β больше 1 и равны друг другу, то распределение будет симметричным. При этом значения вблизи 0,5 наиболее вероятны, а менее вероятные значения находятся дальше от 0,5. Чем больше значения α и β, тем ýже распределение. Если сделать α больше β, распределение окажется перекошенным влево, а если сделать β больше, оно перекосится вправо.
Чтобы проверить параметры α и β, уточните ВП и НП заявленного 90 %-ного ДИ, вычислив пятый и 95-й процентили: БЕТА.ОБР(0,05; альфа; бета) и БЕТА ОБР(0,95; альфа; бета). Проверить, соответствуют ли среднее значение и мода вашим ожиданиям, можно, вычислив: среднее = α / (α + β), мода (наиболее вероятное значение) = (α – 1) / (α + β – 2). Или можно просто воспользоваться электронной таблицей на сайте www.howtomeasureanything.com/cybersecurity, чтобы проверить все перечисленное и получить значения, близкие к тем, что получатся в результате вычислений.
• Ситуация применения: любая ситуация, которую можно охарактеризовать как набор «попаданий» и «промахов». Каждое попадание увеличивает α на 1, каждый промах увеличивает β на 1.
• Примеры: частота события (например, утечки данных), когда частота менее 1 в единицу времени (например, в год), доля сотрудников, соблюдающих меры безопасности.
• Формула Excel: = БЕТА.ОБР(СЛЧИС();альфа; бета).
• Среднее значение: = (альфа / (альфа + бета)).
Рис. A.6. Степенное распределение
Параметры:
• альфа (параметр формы);
• тета (параметр местоположения).
Степенное распределение удобно использовать для описания явлений с экстремальными, катастрофическими возможными значениями. Даже удобнее, чем логнормальное. Скажем, в подавляющем большинстве случаев площадь лесных пожаров ограничена менее чем одним гектаром. В редких случаях, однако, лесной пожар может распространиться на десятки гектаров. Толстый хвост степенного распределения позволяет делать выводы об обычных незначительных событиях, но при этом учитывать и возможные экстремальные варианты.
• Ситуация применения: когда нужно убедиться, что катастрофическим событиям, несмотря на то что они редко случаются, будет присвоена ненулевая вероятность.
• Примеры: такие явления, как землетрясения, отключения электроэнергии, эпидемии и другие типы каскадных отказов.
• Формула Excel: = (тета/x)^альфа.
• Среднее значение: = (альфа*тета/(альфа-1)).
Рис. A.7. Усеченное степенное распределение
Параметры:
• альфа (параметр формы);
• тета (параметр местоположения);
• T (усеченный предел).
Усеченное степенное распределение повторяет степенное распределение, но имеет верхний предел, накладываемый пользователем. Тяжелый хвост степенного распределения позволяет нам учитывать редкие катастрофические события, но для величины такого события может существовать теоретический предел. Если не учитывать в модели верхний предел, можно получить вводящий в заблуждение и неоправданно мрачный прогноз.
• Ситуация применения: степенное распределение должно быть усеченным, если известна верхняя граница серьезности события.
• Пример: потерю записей можно отразить с помощью степенного распределения, но вы знаете, что можете потерять лишь конечное количество записей.
• Формула Excel: = (альфа*тета^альфа/(x^(альфа+1)))/(1-(тета/T)^альфа).
• Среднее значение: = (альфа*тета/(альфа-1)).