Самые важные вопросы в жизни по большей части являются лишь задачами вероятности.
Описанный ранее метод требует субъективной оценки количественных вероятностей. Например, эксперту в области кибербезопасности надо оценить вероятность наступления события или размер убытков в случае его наступления. И здесь приходится столкнуться с определенным сопротивлением. Некоторые эксперты по кибербезопасности, которых, похоже, не смущает оценка вероятности как «средняя» или «2», часто недоумевают, как можно субъективно оценивать количественную вероятность события.
Безусловно, вопрос о достоверности субъективных вероятностей вполне правомерен. К счастью, как упоминалось в главе 5, уже проведено немало исследований на данную тему, и очевидны два вывода: 1) большинство людей плохо умеют распределять вероятности, но 2) их можно научить делать это очень хорошо.
Поэтому, да, достоверность субъективных оценок вероятности объективно измерима, и ее уже измеряли (как ни парадоксально). Отрицать это – значит отвергать научно подтвержденные факты. Эксперт в области кибербезопасности способен научиться выражать свою неуверенность с помощью субъективного и одновременно количественного показателя неопределенности. В этой главе вы познакомитесь с азами использования субъективных оценок вероятностей, а также способами измерения навыков такой оценки и улучшения их с практикой.
Данная глава во многом дублирует главу о калибровке из первой книги «Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе». Если читатель уже знаком с обсуждением калиброванных оценок вероятности из той книги, эту главу можно пропустить или бегло просмотреть.
Введение в субъективную вероятность
В самом простом методе, описанном ранее, имеются два типа распределения вероятностей. Один применяется к дискретным событиям типа «или-или», например произойдет ли крупная утечка данных платежных карт клиентов компании розничной торговли. Другой применяется к диапазонам значений, скажем, какова будет величина убытков в секторе продаж в случае крупной утечки данных платежных карт клиентов. Суть двух типов распределения вероятностей кратко представлена в табл. 7.1.
В главе 3 оба метода применялись для выражения неопределенности относительно наступления события, касающегося кибербезопасности. К типу дискретного события относилось определение самого факта наступления события. Нами присваивалась вероятность (1 %, 15 % и т. д.), что событие произойдет в течение определенного периода времени. А его финансовое воздействие выражалось уже в виде диапазона.
Конечно, из этих двух форм распределений можно создать множество комбинаций. Могут быть дискретные события с более чем двумя исходами или сочетания дискретных и непрерывных распределений. Из нескольких бинарных распределений можно даже построить непрерывное распределение. На практике, однако, такое разграничение полезно.
Выразить неопределенность относительно непрерывных величин можно через представление их в виде диапазона вероятных значений. Как отмечалось в главе 3, диапазон, с определенной вероятностью содержащий правильный ответ, называется в статистике доверительным интервалом[7]. 90 %-ный ДИ – диапазон, который с вероятностью 90 % может содержать правильный ответ (существует некоторая полемика по поводу использования термина и субъективных вероятностей в целом, о чем мы поговорим далее в этой главе). Напомним, что в главе 3 нам нужен был диапазон для обозначения неопределенности убытков в результате взлома или других нарушений кибербезопасности. Эти значения можно рассчитать с помощью всевозможных сложных методов статистического анализа или же задать, основываясь лишь на собственном опыте. В любом случае значения отражают вашу неуверенность в отношении данной величины.
Кроме того, вероятности позволяют описать неопределенность в отношении конкретного будущего события, например будет ли украдена информация о платежных картах клиентов, персональные медицинские или иные данные в результате взлома какой-либо системы. Скажем, можно предположить, что в ближайшие 12 месяцев существует 2 %-ная вероятность утечки данных, достаточно крупной, чтобы потребовалось публичное объявление (обратите внимание, что при определении вероятностей будущих событий всегда следует указывать период времени, иначе вероятность теряет смысл).
А если событие не произойдет, как узнать, была ли вероятность «верной»? Очевидно, что при вероятности намного меньше 50 % вряд ли кто-то всерьез ожидает наступления события. Однако единичное событие в любом случае не определяет, была ли заявленная вероятность верной или нет, а поэтому имеет смысл рассматривать ряд точек данных. Мы можем спросить: «Из большого числа событий, которым присвоили 5 %-ную вероятность наступления в течение года, действительно произошли около 5 %?» Аналогичным образом, если мы считали, что вероятность события составляет 20 или 1 % в тот же период времени, происходили ли события в 20 или 1 % случаев соответственно?
К сожалению, как вы можете помнить из главы 4, обширные исследования показали, что очень немногие люди от природы являются калиброванными оценщиками. В психологии принятия решений калиброванные оценки вероятности изучались с 1970-х и 1980-х годов вплоть до самого недавнего времени. Как уже отмечалось, ведущими исследователями в этой области стали Даниэль Канеман и его коллега Амос Тверски2. Психология принятия решений изучает, как люди на самом деле принимают решения, какими бы иррациональными они ни были. Этим она отличается от многих методов науки управления или количественного анализа, которым обучают в бизнес-школах и которые направлены на выработку «оптимальных» решений для конкретных, четко определенных проблем. Согласно исследованию Канемана и Тверски, почти все подвержены либо «чрезмерной уверенности», либо «недостаточной уверенности» в своих оценках. Хотя подавляющее большинство людей все же склонны к чрезмерной уверенности (см. вставку «Две крайности субъективной уверенности»). Определение шансов наступления неопределенных событий или диапазонов для неопределенных величин – навык, который не возникает автоматически на основе опыта и интуиции.
Две крайности субъективной уверенности
Чрезмерная уверенность проявляется, когда человек регулярно преувеличивает свои знания и оказывается правым реже, чем сам считает. Например, кого-то просят сделать оценку с 90 %-ным ДИ, и гораздо меньше 90 % ответов попадают в предполагаемые диапазоны.
Недостаточная уверенность проявляется, когда человек регулярно занижает свои знания и оказывается прав гораздо чаще, чем ожидает. Например, кого-то просят сделать оценку с 90 %-ным ДИ, и более 90 % ответов попадают в предполагаемые диапазоны.
К счастью, работы других исследователей показывают, что можно добиться более точных оценок, если научиться справляться с собственной необъективностью в оценке3. Выявлено, что составители прогнозов и букмекеры в целом точнее оценивали шансы наступления событий, чем, скажем, руководители. Кроме того, сделано несколько тревожных открытий о том, насколько неточны врачи в прогнозировании неизвестных вещей, например вероятности того, что опухоль окажется злокачественной или что боль в груди – сердечный приступ. Было выдвинуто предположение, что раз существует такая разница между различными профессиями, значит, оценивать шансы наступления неопределенных событий можно научиться.
Исследователи определили способ, как экспертам выяснить, проявляют ли они систематически недостаточную уверенность, чрезмерную уверенность или другие предубеждения в своих оценках. Проведя такую самооценку, они смогут освоить несколько техник улучшения оценок и измерения этих улучшений. Иными словами, исследователи выяснили, что оценка неопределенности является общим навыком, которому можно научиться и который можно измеримо совершенствовать. То есть, когда калиброванные эксперты в области кибербезопасности заявляют о своей уверенности на 95 % в том, что система не будет взломана, то действительно существует вероятность 95 %, что система не будет взломана.
Как упоминалось выше, существуют разные точки зрения на понятие вероятности, среди сторонников каждой из них немало известных имен в математике, статистике и естественных науках. Мы не будем вдаваться в подробности данной полемики, но если заинтересуетесь, смотрите книгу «Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе», особенно третье издание. Доводы, приводимые в ней Хаббардом, просто повторяют аргументы, которые уже озвучивали великие ученые и математики, такие как Л. Дж. Сэвидж, Э. Т. Джейнс и Г. Джеффрис. Суть их сводится к тому, что субъективистский взгляд на вероятность – фактически единственно применимый для принятия решений на практике. Для удобства основное содержание споров изложено в разделе «Исключительно философская интерлюдия» данной главы.
Упражнение в калибровке
С помощью небольшого опросника давайте проверим, насколько хорошо вы умеете количественно оценивать неопределенность. В табл. 7.2 приведены десять вопросов с 90 %-ным ДИ и десять бинарных вопросов (т. е. с ответами «верно/неверно»). Если вы не побеждали в викторине «Своя игра», то вряд ли сможете уверенно ответить на все вопросы из области общих знаний (хотя некоторые из них очень просты). Тем не менее о них всех у вас, скорее всего, имеется какое-то приблизительное представление. Похожее упражнение Хаббард выполняет со слушателями на мастер-классах и семинарах. Разница лишь в том, что тесты, проводимые им, содержат больше вопросов каждого типа, а после теста разбираются некоторые из работ и даются соответствующие пояснения. Подобное обучение калибровке обычно занимает полдня.
Но даже при такой небольшой выборке можно выявить значимые аспекты ваших навыков. Что еще важнее, упражнение поможет осознать, что ваше нынешнее состояние неопределенности само по себе поддается количественной оценке.
В табл. 7.2 представлено по 10 вопросов каждого из двух типов.
1. С 90 %-ным доверительным интервалом. Для каждого вопроса укажите верхний и нижний пределы. Помните, что диапазон должен быть достаточно широким, чтобы вы считали вероятность того, что ответ будет в него попадать, равной 90 %.
2. Бинарные. Ответьте, является ли каждое из утверждений верным или неверным, затем обведите вероятность, отражающую степень вашей уверенности в ответе. Если вы абсолютно уверены в своем ответе, следует указать, что ваши шансы на верный ответ составляют 100 %. Если вы понятия не имеете, верно ли утверждение, то шанс должен быть как при подбрасывании монетки (50 %). В остальных случаях выбирайте одно из значений между 50 и 100 %.
Конечно, можно просто найти ответы на все вопросы, но стоит помнить, что упражнение прежде всего направлено на понимание того, насколько хорошо вы умеете оценивать проблемы, ответы на которые нельзя нигде подсмотреть (например, как долго продлится отключение системы в следующем году, или произойдет ли утечка данных в одной из систем предприятия).
Важная подсказка: вопросы различаются по сложности. Некоторые покажутся простыми, а другие – слишком сложными. Но независимо от того, насколько сложным кажется вопрос, вы все равно что-нибудь да знаете по этой теме. Сосредоточьтесь на том, что знаете. В вопросах с диапазоном это могут быть определенные границы, за пределами которых ответ покажется абсурдным (например, вам, вероятно, известно, что Ньютон не жил ни в Древней Греции, ни в ХХ веке). Аналогично и с бинарными вопросами: даже если не уверены, у вас по крайней мере есть предположение, какой ответ более вероятен.
После завершения теста, но перед тем, как посмотреть ответы, попробуйте провести небольшой эксперимент, чтобы проверить, действительно ли указанные диапазоны отражают ваш 90 %-ный ДИ. Возьмем один из вопросов с ДИ, скажем, про публикацию Ньютоном закона всемирного тяготения. Предположим, вам предложили шанс выиграть 1000 долл. одним из двух способов.
A. Вы выиграете, если год публикации книги Ньютона окажется между датами, которые вы указали в качестве верхнего и нижнего пределов. Если нет, вы ничего не получаете.
Б. Вы вращаете барабан (рис. 7.1), разделенный на два неравных сектора, один из которых занимает 90 % поверхности, а другой – только 10 %. Если при остановке барабана стрелка окажется в большом секторе, вы выигрываете, если в маленьком – ничего не получаете (т. е. вероятность того, что вы выиграете 1000 долл., составляет 90 %).
Что предпочтете? На барабане уже определена вероятность 90 %, что вы выиграете 1000 долл., и 10 %, что ничего не выиграете. Если вы такие же, как большинство (около 80 %) людей, то предпочтете крутить барабан. Почему так? Единственное объяснение – вы считаете, что с барабаном больше шансов на выигрыш. Из чего придется сделать вывод, что 90 %-ный ДИ, указанный вами, на самом деле таковым не является. Возможно, это ваш 50 %-ный, 65 %-ный или 80 %-ный ДИ, но никак не равный 90 %. Таким образом, ваша первоначальная оценка, вероятно, была слишком самоуверенной. Стремясь показать, что вы более уверены, чем есть на самом деле, вы как раз и демонстрируете свою неуверенность.
Рис. 7.1. Вращайте и выигрывайте!
Столь же нежелательный исход – выбор варианта А, где вы выигрываете 1000 долл., если правильный ответ окажется в пределах названного вами диапазона. В этом случае вы явно уверены более чем на 90 %, что ваш диапазон содержит ответ, хотя и указываете, что уверены всего лишь на 90 %. Другими словами, такой выбор обычно характерен для недостаточно уверенного человека.
Единственный приемлемый ответ – задать диапазон так, чтобы для вас не было разницы между вариантами А и Б. Это означает, вы должны считать, что с шансом 90 % – не больше и не меньше – ответ находится в пределах вашего диапазона. Для человека с чрезмерной уверенностью (т. е. для большинства из нас) равнозначность вариантов А и Б достигается за счет увеличения ширины диапазона. А при недостаточной уверенности изначальный диапазон, наоборот, следует сужать.
Разумеется, такая же проверка применима и к бинарным вопросам. Скажем, вы на 80 % уверены в ответе на вопрос о месте рождения Наполеона. Опять же, можно выбрать между ставкой на правильность своего ответа или вращением барабана, только в этом случае выигрышный сектор барабана занимает 80 % поверхности. Если предпочтете крутить барабан, скорее всего, ваша уверенность в ответе меньше 80 %. Теперь предположим, что размер сектора на барабане изменен до 70 %. Если после этого вы решите, что шансы при вращении барабана такие же (не больше и не меньше), как и у вашего ответа, значит, можно говорить о том, что на самом деле вы уверены в правильности своего ответа на 70 %.
На занятиях по калибровке Хаббард называет это «тестом равноценной ставки» (иногда в примерах из литературы по психологии принятия решений его называют «равноценной урной», в этом случае ответы извлекаются из урны наугад). Как следует из названия, тест проверяет, действительно ли вы на 90 % уверены в диапазоне, сравнивая его со ставкой, которую вы должны посчитать равноценной. Согласно исследованиям, если притвориться, что на кону стоят деньги, то способность человека оценивать шансы значительно улучшается4. На самом деле настоящие ставки на деньги оказываются лишь немногим эффективнее, чем подобные притворные ставки.
Такие методы, как тест равноценной ставки, помогают экспертам давать более реалистичную оценку неопределенности. Людей, хорошо умеющих оценивать неопределенность (т. е. они правы в 80 % случаев, когда говорят, что уверены на 80 %, и т. д.), называют «калиброванными». Существует еще несколько простых способов совершенствования калибровки, но сначала посмотрим, как вы справились с тестом. Ответы приведены в конце главы после примечаний.
Чтобы узнать, насколько хорошо вы откалиброваны, нужно сравнить ожидаемые результаты с фактическими. Поскольку в вопросах с диапазоном требовался 90 %-ный ДИ, то, по сути, вы ожидали, что 9 из 10 правильных ответов окажутся в пределах указанных вами диапазонов. Остается только сравнить количество ответов, попавших в заявленные диапазоны, с ожидаемым количеством – 9. Если ожидания совпадут с результатами, возможно, вы хорошо откалиброваны. Выборка очень маленькая, и по ней, конечно, нельзя с полной уверенностью судить об одном человеке. Но поскольку подобные тесты прошли более 1000 человек, можно проследить закономерность даже при таком небольшом количестве вопросов.
На рис. 7.2 показаны фактическое и ожидаемое распределения ответов, попавших в заявленный ДИ в тесте из 10 вопросов (данные на рисунке на самом деле отражают результаты нескольких вариаций тестов из 10 вопросов, и результаты аналогичны для всех версий). Если бы все респонденты являлись идеально калиброванными, можно было бы ожидать, что у большинства из них (75 %) 8, 9 или 10 из 10 ответов окажутся в пределах заявленных 90 %-ных доверительных интервалов. Именно такое распределение мы бы ожидали получить, если бы бросили 10-гранный кубик 10 раз, подсчитали количество раз, когда результат был равен 9 или меньше, и повторили процесс тысячу раз. Вместо этого мы видим, что большинство людей предоставляют диапазоны, которые больше похожи на 40 %-ный или 60 %-ный ДИ, а не 90 %-ный. Те, кто случайно получил восемь или более ответов в пределах указанных диапазонов, математически согласуются с категорией некалиброванного, но удачливого «верхнего хвоста» некалиброванной популяции. То есть это не группа уже откалиброванных на момент первого теста людей.
Рис. 7.2. Распределение ответов в пределах 90 %-ных ДИ для калибровочного теста из 10 вопросов
Ожидаемый результат ответов на вопросы типа «верно/неверно» не является конкретным числом, так как степень вашей уверенности может быть разной для каждого ответа – от 50 до 100 %. Если для всех 10 вопросов вы указали 100 %, значит, ожидаете, что все 10 ответов будут верными. Если же вы были уверены в правильности каждого ответа только на 50 % (т. е. считали, что ваши шансы не лучше, чем при подбрасывании монетки), значит, ожидали, что примерно половина из них будет правильной. Чтобы вычислить ожидаемый результат, преобразуйте все обведенные процентные значения в десятичные дроби (т. е. 0,5; 0,6; 0,7; 0,8; 0,9; 1) и сложите их. Допустим, ваша уверенность в ответах была 1; 0,5; 0,9; 0,6; 0,7; 0,8; 0,8; 1; 0,9 и 0,7. Итого 7,9. Значит, «ожидаемое» число правильных ответов равнялось 7,9.
Если вы такие же, как большинство людей, то количество правильных ответов окажется меньше, чем ожидалось. Этого количества вопросов, опять же, недостаточно для измерения вашего умения оценивать неопределенность, но большинство людей настолько самоуверенны, что даже такое небольшое число вопросов может быть весьма показательным.
Одним из способов оценки результативности при прохождении подобного теста является определение вероятности, что действительно откалиброванный человек (т. е. тот, у которого каждый 90 %-ный ДИ с шансом 90 % содержит нужное значение) получит такой же результат, как у вас. Расчеты показывают, что существует лишь 1 шанс из 612, что калиброванному человеку сильно не повезет и только 5 из 10 (или еще меньше) 90 %-ных ДИ будут содержать правильные ответы. Образец электронной таблицы с расчетами и примеры более объемных тестов можно найти на сайте www.howtomeasureanything.com/cybersecurity. Но поскольку более половины респондентов, проходящих тесты, показывают настолько плохие результаты (56 %), можно смело делать вывод, что это систематическая чрезмерная уверенность, а не случайное невезение в сочетании с небольшим размером выборки. И дело не в том, что вопросы были слишком сложными, ведь результаты отражают выводы, сделанные на основе множества тестов с самыми разными вопросами за последние несколько лет. Даже при такой маленькой выборке, если в пределах вашего диапазона оказываются менее семи ответов, то вы, скорее всего, самоуверенны, а если в диапазон попадает менее пяти ответов, вы очень самоуверенны.
С тестами «верно/неверно» респонденты справляются немного лучше, но в среднем они все равно склонны к чрезмерной уверенности, настолько, что это выявляется, как правило, даже с помощью теста всего из 10 вопросов. Обычно люди ожидают правильно ответить на 74 % вопросов типа «верно/неверно», но на самом деле отвечают правильно только на 62 %. Почти треть участников предполагали, что из 10 вопросов в тестах данного типа дадут от 80 до 100 % верных ответов; но ответили правильно только на 64 % вопросов. Отчасти результаты в тесте «верно/неверно» лучше потому, что статистически он менее точен: больше шансов, что калиброванному человеку не повезет, а некалиброванный покажет результат как у калиброванного на такой небольшой выборке вопросов. Но все же, если фактическое число правильных ответов оказалось по меньшей мере на 2,5 ниже ожидаемого, скорее всего, вы слишком самоуверенны.
Дальнейшее совершенствование калибровки
Согласно научным исследованиям, на калибровку значительное влияние оказывает обучение. Выше уже упоминался тест равноценной ставки, создающий видимость связи личных последствий с результатами. Исследования доказывают, что еще одним ключевым методом калибровки способности оценивать неопределенности является повторение с обратной связью. В этом случае участникам задается несколько вопросов общей тематики вроде тех, которые были в только что пройденном вами тесте. Участники отвечают, затем им показывают правильные ответы и повторяют тест.
Однако отдельно взятый метод, похоже, не в силах полностью избавить большинство людей от природной самоуверенности. В попытке это исправить мы объединили несколько методов и выяснили, что большую часть людей можно почти идеально откалибровать.
В другом методе участникам предлагается назвать аргументы против каждой из своих оценок. Например, ваша оценка потерь из-за юридических обязательств может быть основана на другом подобном примере, произошедшем в вашей компании. Но, вспомнив, насколько разными были заявленные убытки в других компаниях, а может, и некоторые удивительные решения судов, возможно, вы пересмотрите первоначальный диапазон. Научные исследования выявили, что этот метод сам по себе значительно улучшает калибровку5.
Еще Хаббард просил экспертов, предоставляющих оценки в виде диапазона, рассматривать каждую границу диапазона как отдельный «бинарный» вопрос. Девяностопроцентный ДИ означает наличие вероятности 5 %, что истинное значение может быть выше верхнего предела, и вероятности 5 %, что оно окажется ниже нижнего предела. Значит, специалисты по оценке должны быть на 95 % уверены, что правильное значение меньше верхнего предела. Если такой уверенности нет, следует увеличивать верхний предел, пока они ее не достигнут. Аналогичный тест применяется к нижнему пределу. Выполнение этого теста, похоже, позволяет избежать якорного эффекта, упомянутого в главе 4. Напомним, что якорный эффект является своего рода зацикленностью: если у нас в голове засело какое-то число, то все остальные оценки, как правило, будут тяготеть к нему. Некоторые специалисты по оценке, составляя диапазоны, задумывают одно число, а затем складывают или вычитают «ошибку» для создания диапазона. Такой подход может казаться разумным, но на самом деле чаще приводит к тому, что у экспертов получаются «чрезмерно уверенные» диапазоны (т. е. слишком узкие). Рассмотрение же каждого предела в отдельности как самостоятельного бинарного вопроса «Вы на 95 % уверены, что предел больше/меньше этой суммы?» избавляет от склонности к якорному эффекту.
Кроме того, можно сделать так, чтобы естественная склонность к якорному эффекту работала наоборот. Вместо того чтобы начинать с точечной оценки и затем превращать ее в диапазон, начните с абсурдно широкого диапазона, а затем постепенно исключайте значения, которые считаете крайне маловероятными. Если вы понятия не имеете, насколько велики могут быть убытки от утечки данных об интеллектуальной собственности (ИС), начните с диапазона от 100 до 10 млрд долл. Затем вы поймете, что при краже ИС как минимум будут предприняты усилия по оценке убытков, и повысите нижний предел. Потом признаете, что стоимость ИС не может превышать все доходы от данного продукта, а новые технологии уменьшают срок жизни ИС, и, возможно, понизите верхний предел. И, продолжая в том же духе, вы сможете сузить диапазон, убрав все абсурдные значения.
Иногда мы называем это «тестом на абсурдность». В нем вопрос «Как я думаю, каким может быть это значение?» перефразируется на «О каких значениях я точно знаю, что они нелепы?» Ищутся и затем исключаются явно абсурдные ответы, пока не останутся варианты, которые все еще маловероятны, но уже не совсем неправдоподобны, что и будет пределом наших знаний о данной величине.
После нескольких калибровочных тестов и практики с остальными методами специалисты по оценке учатся корректировать свое «чутье вероятности». Большинство становится почти идеально калиброванными всего лишь за половину дня обучения. Главное здесь, что испытуемые хоть и тренируются на вопросах общих знаний, навык калибровки переносится на любую область оценки.
На сайте www.howtomeasureanything.com/cybersecurity представлены дополнительные калибровочные тесты каждого типа (с диапазоном и бинарные). Работая с ними, попробуйте для улучшения калибровки применить разобранные методы, которые кратко изложены в табл. 7.3.
Концептуальные помехи калибровке
Упомянутые выше методы не помогут, если понятия человека о калибровке или вероятностях в целом иррациональны. И хотя большинство людей, занимающих должности, связанные с принятием решений, придерживаются конструктивных взглядов на вероятности или способны их усвоить, некоторые демонстрируют удивительные заблуждения по данному вопросу. Нами было рассмотрено несколько общих концептуальных препятствий в главе 5, давайте теперь уделим чуть больше внимания заблуждениям, связанным с использованием субъективных вероятностей. Вот несколько комментариев, полученных Хаббардом во время обучения группы людей калибровке, а также в процессе получения калиброванных оценок после обучения.
• Не может быть, что моя уверенность в 90 % верна на 90 % потому, что субъективная 90 %-ная уверенность никогда не будет иметь таких же шансов, как и объективные 90 %.
• Вот мой 90 %-ный доверительный интервал, но я понятия не имею, правильный ли он.
• Это невозможно оценить. У нас же никакой информации.
• Не зная точного ответа, невозможно узнать шансы.
Первая фраза принадлежит инженеру-химику, и в ней отражена проблема, с которой он изначально столкнулся при калибровке. До тех пор пока человек будет считать, что субъективная вероятность уступает объективной, освоить калибровку у него не выйдет. Однако после нескольких упражнений по калибровке наш инженер-химик обнаружил, что может субъективно задавать вероятности, которые оказывались верными так часто, как и предполагалось. Иначе говоря, его 90 %-ные доверительные интервалы содержали правильные ответы в 90 % случаев.
Остальные замечания очень похожи. Все они частично основаны на идее, что, если не знаешь точные величины, значит, не знаешь ничего полезного. И в очередной раз обратите внимание, что ни одна из проблем, озвученных в этих возражениях, не исчезнет, если заменить субъективные, но четко определенные вероятности и диапазоны двусмысленными фразами о «высокой» или «средней» вероятности или убытках. Какими бы ни были трудности, связанные с использованием калиброванных оценок вероятности, с ними нельзя справиться, скрыв проблему за словесными формулировками, лишь усугубляющими неточность.
Даже калиброванным экспертам на начальном этапе потребуются определенные усилия для преодоления подобных заблуждений. В основе следующего примера лежит беседа специалиста компании Hubbard Decision Research с сотрудниками службы информационной безопасности министерства по делам ветеранов США (о нем упоминалось в главе 2) еще в 2000 году. Эксперт от министерства первоначально вообще не обозначил диапазон, настаивая, что его невозможно оценить. Начав с того, что он «ничего не знает» о переменной, эксперт постепенно признал, что весьма уверен в некоторых границах.
Аналитик: Если ваши системы выходят из строя из-за компьютерного вируса, как долго длится отключение? Как всегда, мне нужен лишь девяностопроцентный доверительный интервал.
Эксперт по безопасности: Трудно точно сказать. Иногда система выходит из строя на короткий срок, а иногда на длительный. Детально это не отслеживается, так как приоритетом всегда является восстановление системы, а не документирование события.
Аналитик: Естественно, вы не можете сказать точно. Вот почему мы указываем только диапазон, а не конкретное число. Вот каким было самое долгое отключение на вашем опыте?
Эксперт по безопасности: Не знаю, по-разному бывало…
Аналитик: Отключение когда-нибудь длилось более двух рабочих дней?
Эксперт по безопасности: Нет, такого никогда не было.
Аналитик: А больше одного дня?
Эксперт по безопасности: Не помню… возможно.
Аналитик: Мы ищем ваш девяностопроцентный доверительный интервал для периода отключения в будущем. Если взять все отключения, вызванные вирусом, они обычно длились больше суток?
Эксперт по безопасности: Понимаю, к чему вы клоните. Пожалуй, в среднем они длились меньше одного дня.
Аналитик: Значит, верхний предел для события будет?..
Эксперт по безопасности: Что ж, думаю, что почти все системные сбои будут исправлены в течение двадцати четырех часов.
Аналитик: Отлично. Теперь давайте рассмотрим нижний предел. Насколько мал он может быть?
Эксперт по безопасности: С некоторыми инцидентами удается справиться за пару часов. Другие требуют больше времени.
Аналитик: Понятно, а систему когда-нибудь возвращали к работе меньше, чем за час?
Эксперт по безопасности: Полагаю, иногда это занимало менее тридцати минут.
Аналитик: Хорошо. Итак, ваш девяностопроцентный доверительный интервал продолжительности отключения от тридцати минут до двадцати четырех часов?
Эксперт по безопасности: Да, но мне кажется, что систему могут отключить и на три дня.
Аналитик: Конечно. Вот почему мы называем это девяностопроцентным доверительным интервалом. Мы допускаем пятипроцентную вероятность, что длительность окажется ниже нижнего предела, и пятипроцентную вероятность, что она будет выше верхнего предела. При моделировании мы получим значения меньше тридцати минут или более двадцати четырех часов в общей сложности один раз из десяти. В зависимости от выбранного распределения в редких случаях можно получить длительность в несколько дней.
Эксперт по безопасности: Тогда, пожалуй, все верно.
Это типичный разговор в ситуации с рядом величин с высокой неопределенностью. Сначала эксперты наотрез отказываются называть диапазон: кто-то, возможно, из-за расхожего мнения, что в бизнесе отсутствие точных показателей – то же самое, что и отсутствие какой-либо информации вообще; а кто-то, быть может, из-за нежелания стать «ответственным за число». Но отсутствие точного числа не означает, что вы ничего не знаете. Эксперту по безопасности было известно, что для большинства сбоев варианты, когда проблема устраняется менее чем за 30 минут или же решается дольше недели, определенно не соответствуют действительности. По крайней мере, он знал, что такие крайности случаются редко. Безусловно, у него не было конкретных величин, но неопределенность не была безграничной.
Данный пример – одна из причин, почему нам не нравится использовать в анализе слово «предположение». Предположение – это утверждение, которое считается истинным для текущих целей, независимо от того, является ли таковым на самом деле. Предположения необходимы, если требуется применять методы учета, требующие конкретные точки в качестве значений. Вы никогда не знаете конкретную точку с уверенностью, поэтому любое такое значение будет предположительным. Но когда есть возможность смоделировать неопределенность с диапазонами и вероятностями, не обязательно утверждать то, чего вы не знаете наверняка. Если вы не уверены, диапазоны и присвоенные вероятности должны это отражать. Если вы понятия не имеете, является ли узкий диапазон правильным, просто расширяйте его, до тех пор пока он не станет отражать известную вам информацию.
Легко потеряться в том, как много неизвестно о проблеме, и забыть, что кое-что вы все же знаете. Вам буквально никогда не доведется измерять явление, единственными границами которого будут отрицательная и положительная бесконечности.
Приведенный диалог также является примером теста на абсурдность в подходе с обратным якорным эффектом, о котором говорилось выше. Мы применяем его всякий раз, когда слышим фразу «Откуда я могу это знать?!» или «Вот мой диапазон, но это лишь догадка». Неважно, как мало, по мнению экспертов, у них сведений о величине, – всегда найдутся значения, в абсурдности которых они уверены. А точка, где значение из абсурдного начнет превращаться в маловероятное, но в некоторой степени правдоподобное, как уже отмечалось, станет пределом их неуверенности в величине. В качестве заключительного теста мы даем равноценную ставку, чтобы посмотреть, будет ли полученный в результате диапазон на самом деле 90 %-ным ДИ.
Скорее всего, в процессе внедрения количественных методов, в какой-то мере опирающихся на субъективную оценку вероятностей, вы столкнетесь и с другими концептуальными возражениями. Как показал приведенный в главе 5 опрос, некоторые эксперты в сфере безопасности весьма любопытно распределяют вероятности. Еще один пример – описанный Хаббардом случай, когда эксперт ответил, что вероятность наступления каждого события составляет 100 %. Коллеги эксперта спорили с ним, считая такую позицию явно абсурдной. Но он возразил, что должен вести себя так, как будто каждое из событий произойдет. Сидящие рядом коллеги заметили, что в таком случае вероятности наступления всех событий считались бы одинаковыми, а поскольку ресурсы ограничены, то пришлось бы распределять их произвольно. Похоже, эксперт перепутал понятия вероятности и рискоустойчивости, а заодно и способы взаимодействия с ними.
Исключительно философская интерлюдия
Все возможные «определения» понятия вероятности весьма неполно отражают реальную практику[8].
Все согласны с тем, что статистика так или иначе зависит от вероятности. Но что касается вероятности и того, как она связана со статистикой, со времен Вавилонской башни редко случались такие серьезные разногласия и непонимания.
На протяжении всей книги 90 %-ный ДИ рассматривается как на диапазон значений (обозначенный верхним и нижним пределами), в котором с вероятностью 90 % содержится истинное значение. Мы придерживаемся этого определения независимо от того, установлен ли ДИ субъективно или – как будет показано в главе 9 – с помощью данных выборки. При этом вероятность интерпретируется нами как выражение неопределенности или «степени убежденности» лица, выполняющего оценку.
Некоторые (не все) профессора статистики придерживаются другой интерпретации, противоречащей только что изложенной. Если бы мы вычислили, что 90 %-ный ДИ, скажем, для оценки совокупности пользователей, соблюдающих протокол безопасности, составляет от 25 до 40 %, они возразили бы, что заявление о 90 %-ной вероятности того, что истинное среднее значение совокупности находится внутри интервала, неверно. С их точки зрения, истинное среднее значение совокупности либо находится в интервале, либо нет.
Это один из аспектов так называемой частотной интерпретации доверительных интервалов. В нем путаются и студенты, и даже многие ученые. Приверженцы частотной интерпретации (фреквентисты) утверждают, что термин «вероятность» можно применять только к совершенно случайным событиям, которые «строго повторяемы» и имеют бесконечное число итераций. Эти три условия, если точно им следовать, превратят вероятность в чисто математическую абстракцию, которая окажется совершенно неприменима ни к одной ситуации принятия практических решений.
Однако большинство лиц, принимающих решения, судя по всему, придерживаются позиции, описанной в этой книге. Их называют субъективистами, поскольку они используют вероятности для описания личного состояния неопределенности, и неважно, отвечает ли оно таким критериям, как «совершенная случайность». Эту позицию еще иногда называют байесовской интерпретацией (хотя у интерпретации часто нет ничего общего с формулой Байеса, которую мы обсудим в главе 8). С точки зрения субъективиста, вероятность просто описывает знание человека о явлении, пока оно не станет доступным для наблюдения, и не имеет значения при этом, связана ли неопределенность с каким-либо неизменным фактом вроде истинного среднего значения совокупности или нет. Использование вероятностей (и доверительных интервалов) в качестве выражения неопределенности – практический подход к принятию рискованных решений.
Допустим, вы заключаете пари с коллегой о том, сколько человек потеряют ноутбуки в следующем месяце (мы не предлагаем заключать такие пари, это просто пример). Вы заявляете, что ваш 90 %-ный ДИ потерянных ноутбуков в следующем месяце находится в диапазоне от 2 до 10. Предположим, что вместо этого также можно вращать барабан, где вероятность выигрыша составляет 90 %. Какой бы способ ставки вы ни выбрали, вы в равной мере готовы воспользоваться и другим способом. Пока не появится новая информация, например фактическое количество потерянных ноутбуков, диапазон доверительного интервала будет восприниматься вами как вероятность. Будь на кону реальные деньги, подозреваем, что эксперимент с участием статистиков-фреквентистов, делающих ставки на различные доверительные интервалы и вращение барабана, показал бы, что они повели бы себя как субъективисты.
Во многих опубликованных работах, содержащих эмпирические исследования, физики7, эпидемиологи8 и палеобиологи9 многократно и предельно ясно описывают доверительный интервал как вероятно содержащий оцениваемое значение. Но, похоже, никому еще не приходилось отзывать из-за этого статью, и вряд ли придется. Важно отметить, что любая интерпретация – исключительно семантическая и не является результатом математического обоснования или эмпирического наблюдения, истинность или ложность которого можно было бы доказать. Вот почему они называются лишь «интерпретациями», а не «теоремами» или «законами».
Однако между этими двумя интерпретациями существует прагматическое, измеримое, реальное различие: студенты считают фреквентистскую интерпретацию гораздо более запутанной. Некоторые преподаватели статистики прекрасно это понимают и поэтому обучают как субъективистской, так и фреквентистской интерпретации. Как и большинство ученых, занимающихся вопросами принятия решений, мы будем исходить из того, что 90 %-ный доверительный интервал с вероятностью 90 % содержит истинное значение (благодаря чему не придется сталкиваться с математическим парадоксом).
Эффект калибровки
Один из авторов, Хаббард, с 1995 года начал заниматься калибровкой и сбором данных о том, насколько хорошо люди справляются с тестами из вопросов общей тематики и насколько верно откалиброванные специалисты оценивают неопределенность в реальной жизни. Для этого их оценки сравнивались с фактическими результатами после наступления оцениваемых событий. Методы калибровки и тесты постепенно эволюционировали, но после 2001 года выработанный подход в целом не изменялся. С тех пор Хаббард и его команда в компании Hubbard Decision Research обучили более 1000 человек методам калибровки и задокументировали их успехи: ожидаемые и фактические результаты нескольких калибровочных тестов, проводимых один за другим во время семинаров.
Собранные таким образом сведения позволили лучше понять обобщенные данные, часто публикуемые в различных рецензируемых научных изданиях. Академические исследования обычно показывают агрегированные результаты всех участников исследования, поэтому можно видеть только среднее значение по группе. Объединив таким же образом показатели участников семинаров, Хаббард получил результаты, очень схожие с данными таких академических исследований. Однако, имея возможность отделить данные по каждому испытуемому, он выявил еще один интересный феномен. Хаббард заметил, что большинство людей к концу обучения добиваются превосходных результатов, а средний показатель снижается из-за нескольких человек, показывающих плохой результат.
Чтобы определить, кто из испытуемых откалиброван, следует допускать некоторое отклонение от идеала даже для полностью откалиброванного человека. Кроме того, некалиброванному участнику может повезти. С учетом этой статистической ошибки 80 % участников оказываются идеально откалиброваны уже после пятого упражнения. Они не склонны ни к недостаточной уверенности, ни к чрезмерной уверенности. Их 90 %-ные ДИ с вероятностью около 90 % содержат правильный ответ.
Еще 10 % участников демонстрируют значительное улучшение, но не достигают идеальной калибровки. А 10 % вообще не показывают каких-либо улучшений по сравнению с первым выполненным тестом[9]. Анализ выявил наличие среди испытуемых групп с различной результативностью, что не соответствует модели, согласно которой все участники изначально слегка неоткалиброваны. Последнюю группу нельзя объяснить случайным набором неудачливых участников, а те, кто был откалиброван, не могут быть просто удачливым, но неоткалиброванным большинством. Почему около 10 % людей, видимо, вообще не способны улучшить свои результаты в процессе обучения калибровке? Какова бы ни была причина, она не так уж и важна. Все, на кого мы когда-либо полагались в фактических оценках, относились к первым двум группам, и почти все они были в первой, идеально откалиброванной, группе. Среди тех, кто, казалось, сопротивлялся любым попыткам калибровки даже до тестирования, никогда не было компетентных экспертов или специалистов, принимающих решения по конкретным вопросам. Возможно, они были менее мотивированы, зная, что их мнение не будет иметь большого веса. А может, люди, не имеющие склонности к таким задачам, просто не стремятся совершенствоваться до уровня, необходимого для выполнения подобных оценок. В любом случае это ни на что не влияет.
Как видно, для большинства людей занятия оказываются очень эффективными. Но отражают ли успехи на занятиях способность оценивать вероятность неопределенности в реальной жизни? Ответ – однозначно да. Хаббард постоянно отслеживал, как хорошо откалиброванные специалисты действуют в реальных ситуациях, однако один контролируемый эксперимент, проведенный в сфере IT, до сих пор выделяется среди остальных. В 1997 году Хаббарда попросили научить аналитиков консалтинговой компании Giga Information Group (впоследствии была приобретена Forrester Research, Inc.) определять вероятность наступления неопределенных событий в будущем. Giga занималась исследованиями в области информационных технологий и предоставляла свои исследования другим компаниям по подписке. В компании был принят метод определения вероятности наступления событий, прогнозируемых для клиентов, и в ней хотели убедиться, что он будет успешно функционировать.
Хаббард обучил 16 аналитиков компании Giga с помощью описанных ранее методов. В конце обучения аналитики получили 20 конкретных прогнозов, касающихся IT-индустрии, которые необходимо было разделить на истинные или ложные и определить вероятность их наступления. Тест проводился в январе 1997 года, а все вопросы касались событий, которые могли бы произойти к 1 июня 1997 года (например, «верно или неверно, что компания Intel выпустит процессор Pentium с тактовой частотой 300 МГц к 1 июня» и т. п.). В качестве контрольной группы выступали 16 директоров по IT различных организаций из числа клиентов Giga, которым был предоставлен тот же список прогнозов. После 1 июня стало возможным определить фактические результаты. Хаббард представил свои выводы на Giga World 1997 – главном симпозиуме в IT-индустрии того года. Итоги эксперимента приведены на рис. 7.3. Обратите внимание, что некоторые участники не ответили на часть вопросов, поэтому сумма ответов в каждой группе меньше 320 (16 испытуемых по 20 вопросов на каждого).
Горизонтальная ось – указанная участниками вероятность того, что прогноз по конкретному вопросу окажется верным. Вертикальная ось показывает, сколько прогнозов оказались верными на самом деле.
Рис. 7.3. Результаты калибровочного эксперимента для 20 прогнозов развития IT-индустрии в 1997 году. Источник: Hubbard Decision Research
Ответы идеально откалиброванного человека должны быть расположены вдоль пунктирной линии, означающей, что человек был прав в 70 % случаев, когда был на 70 % уверен в своих прогнозах, прав в 80 % случаев, когда был уверен на 80 %, и т. д. Видно, что результаты аналитиков (где точки обозначены маленькими квадратами) очень близки к идеальной уверенности и легко укладываются в допустимую погрешность. Сильнее всего результаты отклоняются от идеальной калибровки в нижней части графика, но и тут они все еще находятся в допустимых пределах погрешности (диапазон допустимых ошибок шире в левой части графика и сужается до нуля в правой). Когда участники заявляли, что уверены на 50 %, они оказывались правы примерно в 65 % случаев. Это означает, что они, возможно, знали больше, чем говорили, и – только в этой части графика – были немного неуверенны. Такие результаты близки к 50 % и могут быть случайными. Существует 1 %-ная вероятность, что 44 или более из 68 человек окажутся правы, просто загадав ответ и подбросив монетку.
Чуть более значительное отклонение – имеется в виду статистически, а не визуально – наблюдается на другом конце шкалы. Там, где аналитики указывали высокую степень уверенности, случайность вызвала бы лишь незначительное отклонение от ожидаемого результата, а значит, на этом конце графика они были немного самоуверенны. Но в целом аналитики оказались очень хорошо откалиброваны.
Для сравнения, результаты клиентов компании, не проходивших обучение калибровке (обозначены маленькими треугольниками), свидетельствуют об очень большой самоуверенности. Цифры рядом с результатами калибровки показывают, что в 58 случаях конкретный клиент заявлял об уверенности на 90 % в определенном прогнозе. Из этих случаев верными оказались менее 60 % прогнозов. Клиенты, указавшие, что они на 100 % уверены в правильности прогноза, в 21 случае получили только 67 % правильных ответов. Все эти результаты соответствуют данным ряда других исследований калибровки за последние несколько десятилетий.
Не менее интересен тот факт, что аналитики Giga на самом деле не дали большее число правильных ответов (вопросы были общими для IT-индустрии и не касались специальностей аналитиков). Они просто проявляли немного больше осторожности в отношении прогнозов с высокой степенью уверенности. Однако до начала обучения по калибровке аналитики в ответах на вопросы из области общих знаний показывали такие же плохие результаты, как и клиенты при прогнозировании реальных событий. Вывод очевиден: разница в точности полностью обусловлена обучением калибровке, а обучение калибровке, даже если в процессе него используются вопросы на общие знания, работает для реальных прогнозов.
Многие из прежних читателей и клиентов Хаббарда проводили собственные семинары по калибровке и получали различные результаты в зависимости от того, насколько точно они следовали разобранным здесь рекомендациям. В каждом случае, когда у них не получалось откалибровать такой процент людей, как на семинарах Хаббарда, оказывалось, что они на самом деле обучали не всем стратегиям калибровки, указанным в табл. 7.3. В частности, не применялась равноценная ставка, которая, похоже, является одной из наиболее важных стратегий калибровки. Те, кто придерживался описанных стратегий и отрабатывал их в каждом упражнении, неизменно получали результаты, аналогичные тем, что наблюдал Хаббард.
Другими факторами могут быть мотивация и опыт оценки. Хаббард обычно обучает опытных менеджеров и аналитиков, большинство из которых знают, что им придется применять новые навыки для реальных оценок. Дейл Ренигк из Университета Северной Каролины в Чапел-Хилле провел подобный тренинг для своих студентов и отметил гораздо более низкий показатель калибровки (хоть и все равно со значительным улучшением). В отличие от менеджеров, студентам редко приходится оценивать что-либо, и возможно, это стало одним из факторов, повлиявших на результаты. Как было замечено на семинарах, проводимых самим Хаббардом, те, кто не ожидает, что полученные навыки понадобятся в будущем для оценки проблем в реальном мире, почти всегда демонстрируют незначительные или нулевые улучшения.
Есть еще один чрезвычайно важный эффект калибровки. Помимо улучшения способности субъективно оценивать шансы калибровка, похоже, избавляет от возражений против вероятностного анализа при принятии решений. До обучения калибровке людям может казаться, что любая субъективная оценка бесполезна, а единственный способ узнать ДИ – провести вычисления, которые они смутно припоминают из университетского курса статистики. Они могут не доверять вероятностному анализу в целом, поскольку все вероятности кажутся им произвольными. Однако после калибровки редко кто мыслит подобными категориями. Судя по всему, проблема решается за счет получаемого практического опыта указания вероятностей, благодаря чему постепенно приходит понимание, что это – измеримый навык, в котором можно добиться реальных улучшений. И хотя это не было целью Хаббарда в начале работы по калибровке специалистов, в итоге стало ясно, насколько данный процесс важен для формирования положительного отношения к концепции вероятностного анализа при принятии решений.
Теперь вам известно, как можно количественно оценить текущую неопределенность, научившись предоставлять калиброванные вероятности. Этот навык имеет решающее значение для следующего шага в измерениях.
1. P. Laplace, Théorie analytique des probabilités (Paris: Courcier, 1812), переведена на английский Ф. У. Траскоттом и Ф. Л. Эмори под названием A Philosophical Essay on Probabilities (Mineola, NY: Dover, 1952), 16–17.
2. D. Kahneman and A. Tversky, “Subjective Probability: A Judgment of Representativeness,” Cognitive Psychology 4 (1972): 430–454; и D. Kahneman and A. Tversky, “On the Psychology of Prediction,” Psychological Review 80 (1973): 237–251.
3. Фишхофф Б., Филлипс Л. Д., Лихтенштейн С. Калибровка вероятностей: положение дел к 1980 г. // Принятие решений в неопределенности. Правила и предубеждения / Под ред. Д. Канемана, С. Пауля, А. Тверски. – Харьков: Гуманитарный центр, 2021. – 540 с.
4. Там же.
5. Там же.
6. L. J. Savage, The Foundations of Statistics (New York: John Wiley & Sons, 1954), 2.
7. Идье В., Драйард Д., Джеймс Ф. и др. Статистические методы в экспериментальной физике. – М.: Атомиздат 1976. – 335 с.; Byron P. Roe, Probability and Statistics in Experimental Physics, 2nd ed. (New York: Springer Verlag, 2001), 128.
8. C. C. Brown, “The Validity of Approximation Methods for the Interval Estimation of the Odds Ratio,” American Journal of Epidemiology 113 (1981): 474–480.
9. Steve C. Wang and Charles R. Marshal, “Improved Confidence Intervals for Estimating the Position of a Mass Extinction Boundary,” Paleobiology 30 (January 2004): 5–18.
Доверительные интервалы: 1. 203. 2. 1687. 3. 8,9. 4. 1969. 5. 1564. 6. 3,944. 7. 78,5 %. 8. 88. 9. 560. 10. 1964.
Верно/Неверно: 1. Неверно. 2. Верно. 3. Верно. 4. Неверно. 5. Верно. 6. Верно. 7. Неверно. 8. Верно. 9. Неверно. 10. Верно.