Надеемся, что из главы 2 вы уяснили, как применяется термин «измерение» в науке о принятии решений и в эмпирических науках в целом. На наш взгляд, это наиболее подходящая трактовка измерения для сферы кибербезопасности. В главе 3 вы познакомились с простейшим уровнем количественного анализа рисков. Еще многое предстоит рассказать об особенностях методов измерения, но пока мы предлагаем выбрать первой целью измерений сам анализ рисков.
Авторы знакомы с самыми разными экспертами, которые активно защищают свои точки зрения на относительные достоинства различных методов оценки риска в сфере кибербезопасности. Мы вывели простое наблюдение, что обе стороны с полярно противоположными позициями часто получают аргументы в свою поддержку от высококвалифицированных специалистов с многолетним опытом работы в сфере кибербезопасности. Один компетентный эксперт, к примеру, будет утверждать, что конкретная система, основанная на качественной оценке, повышает эффективность принятия решений, позволяет добиться консенсуса и избежать проблем, возникающих при более количественных методах. Другой столь же квалифицированный эксперт будет настаивать, что это иллюзия и что такие методы просто «неправильно считают». Так как известно, что по крайней мере один из них (или оба) должен быть не прав, значит, квалификации и опыта в области кибербезопасности недостаточно, чтобы определить, является ли конкретное мнение на определенную тему верным.
Это подводит нас к нескольким сложным вопросам. Как решить, какие методы эффективнее? Могут ли методы анализа рисков, которыми специалисты по кибербезопасности пользовались десятилетиями и в которых они весьма уверены, на самом деле не работать? Возможно ли, что предполагаемые преимущества широко используемых инструментов – иллюзия? Что вообще подразумевается, когда говорят, что метод «работает», и как это можно измерить? Нам кажется, что самое важное измерение при оценке риска кибербезопасности, да и любой другой оценке риска – измерение того, насколько хорошо работают сами методы оценки рисков.
Если задуматься, то имеет ли вообще значение, работает анализ рисков или нет? И подразумевается ли под «работает», что он лишь внешне соответствует своему названию или же что он и правда улучшает процесс распознавания рисков и управления ими? Мы будем придерживаться позиции, которую считаем очевидной и которая не должна вызывать споров.
• Важно, чтобы анализ рисков работал на самом деле.
• Под «работает» мы имеем в виду, что он измеримо снижает риски по сравнению с альтернативными методами при тех же ресурсах. То есть, по нашему мнению, анализ рисков в любой области, включая кибербезопасность, это не просто бутафория ради галочки.
• Регуляторы и организации по стандартизации должны сделать так, чтобы измеряемая производительность методов являлась ключевой характеристикой их соответствия предъявляемым требованиям. Если соблюдение стандартов и правил в действительности не способствует повышению эффективности управления рисками, то такие стандарты и правила нужно менять.
• Также нам кажется, что мы вправе сказать, что для урегулирования вопроса со множеством противоречивых мнений экспертов всех уровней необходимо начать измерять, насколько хорошо работают методы анализа рисков.
• Мы твердо убеждены, что использование компаниями методов анализа рисков кибербезопасности, которые не могут показать измеримое улучшение качества оценки рисков или, что еще хуже, снижают его, и есть самый большой риск в кибербезопасности, а повышение эффективности оценки рисков является наиболее важным приоритетом в управлении рисками.
Измерение самих методов лежит в основе всех рекомендаций в данной книге. Нами предлагаются либо методы анализа рисков на основе уже проведенных и опубликованных измерений, либо, если подобные измерения не проводились, способы, позволяющие определить действенный метод. И кстати, описывая, как измерить относительную эффективность методов, неплохо бы также объяснить, как ее измерять не следует.
К концу данной главы вы увидите, что в опубликованных исследованиях уже представлены измерения ключевых элементов количественных методов, предложенных в главе 3. В следующей же главе описано исследование, показывающее, что компоненты популярных в настоящее время методов оценки рисков могут принести больше вреда, чем пользы. А теперь давайте рассмотрим, почему методы должны прежде всего обосновываться исследованиями, а не мнениями экспертов.
Аналитическое плацебо: почему нельзя доверять только мнению
Главный принцип – не дурачить самого себя. А себя как раз легче всего одурачить.
Порой можно услышать, что тот или иной метод «проверен» и является «лучшей практикой». Метод могут расхваливать, называя «строгим» и «формальным», и подразумевается, будто этого достаточно, чтобы полагать, что он повышает качество оценки и решений. В конечном итоге метод получает звание «принятого стандарта», а некоторые довольные пользователи даже приводят свидетельства его эффективности.
Как часто эти утверждения основаны на реальных измерениях эффективности метода? Вряд ли кто-то проводил крупные клинические испытания с тестовыми и контрольными группами. Оценки редко сравниваются с фактическими результатами, а нарушения кибербезопасности, которые особенно дорого обходятся организациям, почти никогда не отслеживаются на большом количестве примеров, чтобы увидеть, действительно ли риск изменяется в зависимости от того, какие методы оценки риска и принятия решений используются. К сожалению, звание «лучшей практики» не означает, что метод был измерен и получил научное обоснование его превосходства над множеством других практик. Как говорил Фейнман, нас легко одурачить. Видимые улучшения могут оказаться всего лишь миражом. Даже если метод приносит больше вреда, чем пользы, люди все равно могут искренне считать, что видят его преимущества.
Как такое возможно? Виновато «аналитическое плацебо» – ощущение, что некоторые методы анализа повысили качество решений и оценок, даже если это не так. Аналогия с плацебо и его ролью в медицинских исследованиях на самом деле слишком мягкая. В медицине плацебо и правда может давать положительный физиологический эффект, а не просто дарить ощущение полезности. Однако, используя термин в данном контексте, мы имеем в виду, что в буквальном смысле нет никакой пользы, а только одно ее ощущение. В областях, не относящихся к кибербезопасности, проводились исследования, показавшие, что чем больше усилий тратилось на анализ, тем выше была уверенность в его эффективности, даже если фактически она не повышалась совсем. Вот несколько таких примеров, также упоминавшихся в других книгах Хаббарда.
• Спортивные прогнозы. В исследовании, проведенном в 2008 году в Чикагском университете, отслеживалась вероятность исходов спортивных событий, которые определяли участники испытания, исходя из получаемых объемов информации о командах, но при этом не сообщались названия команд или имена игроков. По мере того как участникам выдавалось больше информации о командах в конкретной игре, повышалась их уверенность в том, что они выбирают победителя, даже несмотря на то что реальная вероятность выбора победителя оставалась почти неизменной независимо от количества полученной информации1.
• Психологическая диагностика. Другое исследование показало, что практикующие клинические психологи становятся увереннее в поставленном диагнозе и в прогнозах различных видов рискованного поведения, когда собирают больше информации о пациентах. И опять же процент соответствия прогнозов наблюдаемым результатам поведения на самом деле не повышался2.
• Инвестиции. Пол Андреассен, психолог-исследователь из Массачусетского технологического института, в 1980-х годах провел несколько экспериментов, показавших, что сбор большего количества сведений об акциях в инвестиционных портфелях повышал уверенность испытуемого, но не способствовал повышению доходности портфеля. В одном из исследований он продемонстрировал, что люди склонны слишком остро реагировать на новости и считать дополнительные сведения информативными, даже если в среднем доходность в результате не повышается3.
• Сотрудничество в спортивных прогнозах. Еще одно исследование предполагало сотрудничество спортивных болельщиков друг с другом для повышения точности прогнозов. И снова после совместной работы повышалась уверенность, но не фактические показатели. Более того, участники редко вообще меняли мнение, сформировавшееся еще до совместного обсуждения. Прямым следствием сотрудничества было стремление получить подтверждение тому решению, которое участники уже приняли4.
• Сотрудничество при обсуждении интересных фактов. В другом исследовании, посвященном изучению пользы сотрудничества, испытуемых просили дать ответы на вопросы на общую эрудицию, подобные вопросам из «Своей игры» (Jeopardy). Исследователи рассматривали многочисленные формы взаимодействия, в том числе дельфийский метод, свободное обсуждение и прочие методы сотрудничества. Несмотря на то что взаимодействие не улучшило оценки по сравнению с простым усреднением индивидуальных оценок, испытуемые действительно чувствовали большее удовлетворение от его результатов5.
• Определение лжи. В исследовании 1999 года измерялась способность испытуемых обнаруживать ложь в контролируемых тестах с использованием видеозаписи инсценированных допросов «подозреваемых». Актеры в роли подозреваемых должны были скрывать определенные факты о «преступлениях» и демонстрировать явную нервозность по поводу того, что их раскроют. Некоторых испытуемых, просматривавших видеозаписи, обучали распознавать ложь, а других – нет. Обученные испытуемые были более уверены в суждениях о распознавании лжи, хотя на деле распознавали ложь хуже, чем необученные6.
И это лишь несколько из множества подобных исследований, показывающих, что можно обучаться, собирать информацию, сотрудничать с другими людьми и это повысит уверенность в суждениях, но не фактическую эффективность оценки. Конечно, эти примеры относятся к проблемам решения совершенно иных типов задач. Но почему предполагается, что сходные проблемы не свойственны вопросам кибербезопасности? В фармацевтической промышленности новый препарат фактически считают плацебо, пока не будет доказана его эффективность. Тот факт, что плацебо существует в одних областях, означает, что оно может существовать и в других, если только данные не показывают обратного. Глядя на примеры проблем в таких разных областях, как инвестиции, скачки, футбольные матчи и диагностика пациентов в психологии, кажется, что бремя доказывания должно лежать на человеке, утверждающем, что в какой-то другой области, например кибербезопасности, можно избежать этих проблем. Так что давайте остановимся на предположении, что для сферы кибербезопасности характерны те же проблемы, что наблюдаются во многих других областях, где людям приходится выносить суждения.
Мы определенно не будем при измерении эффективности различных методов полагаться на заявления экспертов, независимо от того, каким уровнем знаний, по их мнению, они обладают и насколько громко о себе заявляют. И поэтому, хотя мы можем вполне обоснованно сказать, что обладаем большим опытом в области кибербезопасности (Сирсен) и количественного анализа рисков в целом (Хаббард), мы не будем полагаться на свой авторитет, говоря о том, что работает, а что – нет (а подобный недостаток, кажется, имеется у многих книг по управлению рисками и информационной безопасности). Наши аргументы будут основаны на опубликованных результатах крупных экспериментов. Любое упоминание случаев из жизни или цитирование лидеров мнений будет приводиться только для иллюстрации точки зрения, но не в качестве ее доказательства.
Бесспорно, что аргументы и доказательства – это способ получения достоверных выводов о реальности. Под «аргументами» нами понимается использование математики и логики для получения новых утверждений из предыдущих подтвержденных заявлений. К «доказательствам», на наш взгляд, не относятся случаи из жизни или доводы свидетелей (любой метод, включая астрологию и экстрасенсорное общение с животными, способен генерировать подобные «доказательства»). Лучшими источниками доказательств служат большие случайные выборки, клинические испытания, объективные данные за прошедшие периоды и т. д. А чтобы затем делать выводы, данные должны быть оценены с помощью соответствующих математических методов.
Почему у вас больше данных, чем кажется
Необходимо определить научно обоснованный способ оценки методов, а затем сравнить различные методы на основе этой оценки. Однако существует распространенное опасение, что в сфере кибербезопасности просто не найдется достаточного количества данных для надлежащих, статистически достоверных измерений. Иронично, что утверждается это почти всегда без должных математических расчетов.
Вспомните из главы 2: если расширить свой кругозор в отношении того, какие данные могут быть информативными, то на деле у нас будет больше данных, чем кажется. Поэтому ниже представлена часть способов, благодаря которым у нас больше данных об эффективности методов оценки рисков кибербезопасности, чем мы думаем.
• Не стоит ограничиваться только собственным примером. Конечно, каждая организация уникальна, но это не означает, что нельзя учиться на чужом примере (по сути, опыт ничего бы не значил, если бы мы не умели обобщать практические знания, не являющиеся абсолютно идентичными). Именно с помощью информации из более крупных совокупностей страховые компании оценивают риск вашего здоровья, даже если вы никогда не предъявляли претензий, а врач считает, что лекарство, которое вы раньше не принимали, подойдет вам, так как знает о крупном исследовании с участием множества других людей.
• Можно измерять как целые системы, так и их компоненты. Можно измерить общую эффективность всей системы или отдельных ее компонентов. Когда инженер прогнозирует поведение новой системы, которая еще не построена, он применяет знания о поведении компонентов и их взаимодействии. Проще измерить несколько компонентов оценки риска, чем ждать, пока произойдут редкие события. Например, отслеживание того, насколько эффективно аналитики в области кибербезопасности оценивают более частые незначительные события, является мерой компонента «экспертная оценка» в системе управления рисками.
• Можно обратиться к опубликованным исследованиям. Если рассмотреть на уровне компонентов исследования более крупных совокупностей, не связанных с нашим собственным опытом, то нам станет доступно гораздо больше данных. При отсутствии данных или результатов сторонних исследований, возможно, пора начать собирать данные в процессе измерения.
В идеальном мире у вашей компании было бы так много собственных данных, что не пришлось бы делать выводы из более крупных совокупностей данных других предприятий. Можно было бы оценить общую эффективность системы оценки рисков, измерив реальные результаты, наблюдаемые в вашей компании. Имея крупную компанию и достаточно времени, можно было бы наблюдать изменения при значительных утечках данных в различных структурных подразделениях, применяющих разные методы оценки рисков. Более того, можно было бы задействовать множество организаций в общеотраслевых экспериментах и получить в изобилии данные даже о событиях, редко возникающих в отдельно взятой компании.
Естественно, крупные эксперименты в масштабах всей отрасли нецелесообразны по нескольким причинам, в том числе из-за количества затрачиваемого на них времени (да и какие организации захотели бы оказаться в группе «плацебо», применяющей фальшивый метод?). Не удивительно, что на момент написания книги в рецензируемой литературе не было опубликовано ни одного подобного исследования. Так что же можно тогда сделать для сравнения различных методов оценки рисков научно обоснованным способом? Другие упомянутые выше аспекты стратегии измерений предоставляют различные варианты действий, и некоторые из них могут дать ответы немедленно.
Самым целесообразным решением для первоначального измерения было бы поэкспериментировать с крупными совокупностями данных, но в рамках существующих исследований на уровне компонентов. Компонентное тестирование – подход, знакомый многим профессионалам в области информационных технологий. К доступным для рассмотрения компонентам относятся отдельные этапы оценки рисков, используемые инструменты и методы сотрудничества. Даже простое обозначение вероятности кибератаки является компонентом процесса, который можно проверить. На самом деле на эту тему уже проводилось множество исследований на уровне компонентов, в том числе очень масштабных, выполнявшихся десятилетиями многими исследователями и опубликованных в ведущих рецензируемых научных журналах.
Если продемонстрировано, что отдельные компоненты метода повышают его эффективность, то метод, основанный полностью на таких элементах, с гораздо большей вероятностью будет эффективным, чем метод, для компонентов которого нет подобных доказательств или, что еще хуже, отмечено наличие у них недостатков. Это ничем не отличается от работы инженера-конструктора, занимающегося проектированием нефтеперерабатывающего завода или ракеты. Он применяет доказанные законы физики для оценки компонентов системы и затем рассчитывает, как они будут вести себя в совокупности. Существует множество потенциальных компонентов для оценки, поэтому давайте разделим их на две основные категории, которые используются или могут использоваться при оценке рисков кибербезопасности.
• Какова относительная эффективность сугубо традиционных моделей в оценке неопределенных результатов по сравнению с экспертами?
• При обращении к мнению экспертов какова эффективность инструментов, помогающих этим экспертам в оценке результатов?
Когда алгоритмы превосходят экспертов
Ключевой компонент, который следует учитывать при анализе рисков кибербезопасности, – это эффективность способа синтезирования информации для составления оценок. В частности, лучше ли полагаться на экспертов при вынесении суждения или на статистическую модель? Одним из специфических вопросов, область изучения которого изобилует исследованиями, является сравнение статистических моделей и мнений экспертов при оценке неопределенных результатов будущих событий. Благодаря таким исследованиям был получен один из самых цитируемых и впечатляющих выводов в психологии: даже относительно наивные статистические модели, похоже, превосходят экспертов-людей, предоставляя на удивление большее разнообразие оценок и прогнозов.
Мы не утверждаем, что можно полностью заменить человека при оценке рисков, а лишь рассматриваем несколько ситуаций, в которых были созданы объективные количественные модели и проведено их сравнение с профессиональным чутьем. Нам интересно выяснить следующее: если бы можно было построить чисто количественную модель на основе ранее полученных данных, стоило бы вообще это делать?
Читая об исследовании, вы, скорее всего, также захотите узнать, а можно ли, собственно, применять исследования из других областей к кибербезопасности. Если останетесь с нами, думаем, вы в итоге согласитесь с тем, что применение возможно. На самом деле, как и упомянутый ранее эффект плацебо, исследования настолько многочисленны и разнообразны, что, кажется, бремя доказательства будет возложено на того, кто утверждает, что кибербезопасность каким-то образом не затрагивает эти фундаментальные вопросы.
Некоторые из исследований начинались в совершенно другой области в те времена, когда концепции кибербезопасности еще не существовало. Так, в 1950-х годах американский психолог Пол Мил высказал идею, потрясшую область клинической психологии. Он утверждал, что основанные на экспертных оценках клинические суждения о пациентах с психическими расстройствами могут быть хуже простых статистических моделей. Мил собрал большую исследовательскую базу, демонстрирующую, что статистические модели, основанные на медицинских записях, поставленных диагнозах и прогнозах, как минимум совпадали с суждениями квалифицированных клиницистов, а обычно превосходили их. Мил смог показать, например, что тесты на определение черт характера лучше экспертов прогнозировали преступность среди несовершеннолетних, аддиктивное поведение и некоторые виды поведения, связанные с неврологическими расстройствами.
В 1954 году им был написан фундаментальный труд под названием Clinical versus Statistical Prediction («Клинический прогноз против статистического»). И уже в этом первоначальном исследовании Мил смог процитировать более 90 работ, оспаривавших предполагаемый авторитет экспертов7. Исследователи, к примеру Робин Доус (1936–2010) из Мичиганского университета, с воодушевлением продолжили работу в этом направлении. И каждые новые результаты, полученные ими, только подтверждали выводы Мила, несмотря на то что они расширили охват, включив также специалистов, не занимающихся клинической диагностикой8, 9, 10. Собранная в итоге библиотека исследований включала сведения, предсказывающие средний балл успеваемости первокурсников и студентов-медиков, рецидив преступлений, медицинские прогнозы и результаты спортивных событий. После того как число исследований значительно возросло, Мил был вынужден констатировать следующее:
В социальной науке нет ни одного противоречия, которое показало бы такое большое количество качественно разнородных исследований, приводящих к столь схожим результатам, как в данном исследовании. Когда вы проводите 90 экспериментов [теперь уже ближе к 150], предсказывая всё – от исхода футбольных матчей до заболеваний печени, – и при этом с трудом можете найти полдюжины исследований, показывающих хотя бы слабую тенденцию в пользу [экспертов-людей], самое время сделать практический вывод11.
В указанном исследовании применялись довольно простые методы. Экспертов просили предсказать какие-либо объективно проверяемые результаты, например потерпит ли новый бизнес неудачу или какова будет эффективность химиотерапии для больного раком. Затем составляли прогноз для того же явления, используя алгоритм, основанный только на данных за прошлые периоды. И, наконец, тестировали оба метода на большом количестве прогнозов и определяли, какой из них работает лучше.
Убедительные выводы Мила и его коллег неизбежно привлекли интерес других исследователей, которые стали искать подобные явления в других областях. В одном из недавних примеров, исследовании компании, занимающейся разведкой нефти, отмечалась тесная взаимосвязь между использованием количественных методов (в том числе симуляций по методу Монте-Карло) для оценки рисков и финансовой успешностью компании12, 13. В НАСА симуляции Монте-Карло на основе ранее полученных данных применяются наряду с более мягкими методами (основанными на субъективных шкалах) для оценки рисков превышения стоимости, срыва сроков и провала миссии. При оценке затрат и срывов расписания, полученной с помощью количественных методов, ошибки в среднем случались вполовину реже, чем у ученых и инженеров, использующих неколичественные методы14.
Пожалуй, самым амбициозным исследованием такого рода является эксперимент, который в течение 20 лет проводил Филип Тетлок. Результаты Тетлок опубликовал в книге Expert Political Judgment: How Good Is It? («Экспертное политическое суждение: насколько оно хорошо?»). Название указывает на конкретную область, но автор трактовал проблему достаточно широко, включая в нее экономику, военные вопросы, технологии и многое другое. Он отслеживал вероятности мировых событий, которые предсказывали в общей сложности 284 эксперта в соответствующих областях. К концу исследования было собрано более 82 000 отдельных прогнозов15 (это означает, что по объему данные Тетлока равны или превосходят данные III фазы крупнейших клинических испытаний лекарств, опубликованных в научных журналах). Исходя из полученных данных, Тетлок был готов сделать еще более сильное заявление, чем Мил с коллегами:
Невозможно найти область, в которой люди явно превосходили бы примитивные алгоритмы экстраполяции, не говоря уже о сложных статистических алгоритмах.
Робин Доус, один из упоминавшихся ранее коллег Мила, подчеркивал, что низкая эффективность людей в задачах прогнозирования и оценки возникает отчасти из-за неточной интерпретации вероятностной обратной связи16. Те исследователи стали рассматривать эксперта как своего рода несовершенного посредника между входными данными и результатом. Очень немногие эксперты действительно проверяют свою эффективность с течением времени. К тому же они склонны обобщать собственные воспоминания об отдельных несистематических наблюдениях. Затем эксперт делает приблизительные выводы из этих выборочных воспоминаний, и, согласно опубликованному Доусом исследованию, это может привести к «иллюзии обучения», т. е. эксперты могут интерпретировать опыт как свидетельство результативности. Они полагают, что многолетний опыт должен привести к повышению эффективности, и потому считают, что так и происходит на самом деле. Но, как выяснилось, нельзя считать, что обучение происходит само собой, и неважно, сколько лет опыта накоплено.
Тетлок в своей книге предположил, что «у людей эффективность ниже, поскольку в глубине души мы мыслим причинно-следственными категориями и испытываем отвращение к вероятностным стратегиям, допускающим неизбежность ошибок». Математика взаимодействия с ошибками и неопределенностью – это математика вероятностей. Если не осмыслить ее, то возникнут большие трудности с вероятностным прогнозированием проблем. Если человек не силен в простой арифметике, нас же не удивит, что он будет тогда плохо разбираться в оценке, скажем, стоимости и продолжительности крупного, сложного инженерного проекта со множеством взаимосвязанных элементов. И покажется естественным, что кому-то разбирающемуся в таких оценках будет известно, как перемножить количество людей, участвующих в работе, стоимость их труда и продолжительность выполнения проекта, чтобы оценить требуемые трудозатраты. А также этот человек будет знать, как суммировать затраты на решение отдельных задач с другими расходами по проекту (например, на материалы, лицензию, аренду оборудования и т. д.).
Поэтому, когда эксперты говорят, что, исходя из определенного опыта и данных, одна угроза представляет собой больший риск, чем другая, они, осознанно или нет, занимаются своего рода вычислениями в уме. Это не значит, что эксперты буквально пытаются складывать числа в уме, скорее, они действуют в соответствии со своим чутьем в отношении чего-то, что во многих случаях действительно можно вычислить. Насколько хорошо наша интуиция соответствует математическим фактам, также измерялось во множестве исследований, включая работу израильско-американского психолога, лауреата премии по экономике памяти Альфреда Нобеля 2002 года, Даниэля Канемана и его коллеги Амоса Тверски. Они выяснили, что даже хорошо разбирающиеся в статистике исследователи склонны сильно ошибаться в определении вероятности того, что новые данные подтвердят или опровергнут результаты предыдущего эксперимента с заданным размером выборки17. И кроме того, они склонны неверно оценивать ожидаемые вариации наблюдений в зависимости от размера выборки18.
Под «хорошо разбирающимися в статистике» мы подразумеваем, что участники этого исследования были настоящими учеными, чьи работы публиковались в уважаемых, рецензируемых журналах. Как отметили Канеман и Тверски в своем исследовании: «Дело не в том, что они должны знать математику, они знали математику». Получается, что и те, кто знает математику, полагаются на свою интуицию, а интуиция ошибается. Даже для квалифицированных ученых различные повторяющиеся (но устранимые) математические ошибки – лишь одна из трудностей, возникающих из-за попыток заниматься «вычислениями в уме».
Несмотря на то что все приведенные исследования не связаны с кибербезопасностью, объем результатов в столь многих областях свидетельствует о том, что они фундаментальные и применимы к любой сфере человеческих суждений, включая кибербезопасность. Однако, если данное разнообразие выводов не убедило вас в том, что те же проблемы относятся и к кибербезопасности, рассмотрим еще один аргумент, выдвинутый Канеманом и Гэри Клейном, другим исследователем в области психологии принятия решений.
Канеман и Клейн выделяют три условия, необходимых для того, чтобы опыт привел к обучению. Во-первых, должна быть последовательная обратная связь. Человек должен получать информацию о прошлой деятельности регулярно, а не эпизодически. Во-вторых, обратная связь должна быть сравнительно быстрой. Если человек делает несколько прогнозов событий, которые могут произойти через несколько лет (что не редкость при анализе экономического эффекта новых инвестиций, скажем, в технологии, инфраструктуру или новые продукты), то задержка в получении обратной связи усложнит обучение. В-третьих, обратная связь должна быть однозначной. Если человек просто говорит, что проект в области кибербезопасности будет «успешным» или что риск будет снижен, то здесь возможны интерпретации. А когда прошлые результаты можно интерпретировать по-разному, данные, как правило, интерпретируются так, как выгоднее. В отсутствие регулярной, быстрой и однозначной обратной связи, скорее всего, мы будем запоминать информацию избирательно и интерпретировать свой опыт так, чтобы выглядеть в лучшем свете.
Поэтому аналитики рисков кибербезопасности должны задать себе ряд неудобных вопросов: «Действительно ли опыт эксперта в сфере кибербезопасности соответствует этим условиям? Действительно ли эксперты по кибербезопасности записывают все свои оценки вероятности и воздействия, а затем сравнивают их с результатами наблюдений? Даже если предположить, что они это делают, как долго им обычно приходится ждать, чтобы узнать, была ли их оценка правильной? Даже если оценки записываются и мы ждем достаточно долго, чтобы событие произошло, становится ли ясно, что первоначальная оценка была правильной или что описанное событие произошло? Например, если мы говорим, что наша репутация пострадала в результате взлома, откуда мы это знаем и как на самом деле подтвердить – хотя бы приблизительно – значимость события, определенную в первоначальных расчетах?» В кибербезопасности, как и во многих других областях, обучение невозможно без процессов, направленных на его обеспечение. Эти выводы очевидны для таких исследователей, как Мил:
Человеческий мозг является довольно неэффективным устройством для выявления, отбора, категоризации, записи, сохранения, извлечения информации и манипулирования ею с целью формулирования выводов. Почему мы должны удивляться этому?19
Все это не означает, что эксперты мало разбираются в своей области. Они обладают большим объемом подробных технических знаний. Эффективность работы экспертов в упомянутых исследованиях касалась только оценки величин на основе субъективных выводов по прошлому опыту. То есть проблема состоит в том, что эксперты, похоже, часто путают знания об огромном множестве деталей с умением прогнозировать неопределенные будущие события. Специалист по кибербезопасности может хорошо разбираться в технических аспектах, таких как проведение тестов на проникновение, использование средств шифрования, настройка файрволов, и многих других и при этом быть неспособным реально оценить собственные навыки прогнозирования будущих событий.
Инструменты для повышения эффективности человеческого компонента
Исходя из рассмотренных выше исследований, может создаться впечатление, что эксперты почти ничего не способны сделать для оценки рисков. Однако мы совсем не это имели в виду. Когда есть возможность создать грамотные математические модели, основанные на объективных наблюдениях и ранее полученных данных, так и нужно сделать. И все же нельзя отрицать, что с некоторыми задачами по-прежнему лучше справится эксперт. Эксперт является компонентом анализа рисков, который невозможно отбросить, но можно улучшить.
Прежде всего эксперты должны помогать определить проблему, в том числе оценивать ситуации, когда данные неоднозначны или условия не соответствуют имеющимся статистическим данным. Эксперты также должны предлагать решения для проверки.
Наша цель – повысить статус эксперта. Нам бы хотелось, чтобы к экспертам в области кибербезопасности относились как к части системы оценки рисков. За ними необходимо наблюдать, как за гоночным автомобилем или спортсменом, и корректировать их работу для достижения максимальной результативности. Эксперт – это такой своеобразный тип измерительного прибора, который можно «откалибровать» для повышения эффективности.
Стоит также отметить, что все проблемы, которые будут перечислены ниже, присущи не только кибербезопасности. Однако профессия эксперта обладает характеристиками, которые относят ее к сферам деятельности, где люди склонны выносить «некалиброванные» суждения. Кибербезопасность может брать пример с других технологичных инженерных областей, зависящих от экспертной оценки, которые применяют конкретные методы для отслеживания и калибровки суждений экспертов. В Комиссии по ядерному регулированию США (КЯР), например, признают значимость роли эксперта на нескольких этапах процесса оценки риска. Отчет КЯР об использовании и получении экспертных оценок гласит следующее:
Экспертные суждения действительны как сами по себе, так и в сравнении с другими данными. Все данные – это несовершенное отображение реальности. Достоверность данных экспертных оценок, как и любых других данных, может варьироваться в зависимости от процедур, применяемых для их сбора. Так называемые точные данные, например полученные с помощью приборов, не могут считаться совершенными из-за наличия таких факторов, как случайный шум, неисправность оборудования, вмешательство оператора, отбор данных или их интерпретация. Достоверность всех данных различна. Достоверность экспертного суждения в значительной степени зависит от качества когнитивного представления эксперта о сфере деятельности и способности выразить свои знания. Получение экспертных оценок является формой сбора данных, которую можно тщательно проверить. Использование суждений также можно и нужно тщательно проверять20.
Мы согласны. Следует пристально проверять эксперта, как и любой другой инструмент измерений. По нашему мнению, специалист в области кибербезопасности – важнейший и в конечном счете незаменимый компонент любого анализа рисков. Даже с учетом появления новых источников данных, позволяющих проводить еще более эффективный количественный анализ рисков, кибербезопасность в обозримом будущем будет по-прежнему зависеть от специалистов в этой области. Именно из-за ключевой роли, отведенной квалифицированным экспертам, необходимо обратить особое внимание на качество выполнения ими различных критически важных задач. И точно так же, как точность измерений прибора не определяется с помощью него самого, не следует полагаться на самих экспертов в оценке их эффективности.
Как и раньше, начнем с изучения имеющихся исследований по теме. Мы хотим рассмотреть применяемые экспертами инструменты и выявить, действительно ли они повышают ценность их суждений или, наоборот, понижают ее.
Важнейшим компонентом анализа рисков является оценка экспертами по кибербезопасности вероятности возникновения событий, связанных с нарушением кибербезопасности, и потенциальных убытков при их наступлении. Независимо от того, используются ли вероятности в явном виде или неколичественные вербальные шкалы, экспертам необходимо определить, является ли один вид угрозы более вероятным, чем другой. Поскольку в какой-то момент процесса придется полагаться на мнение эксперта, следует рассмотреть, как можно измерить его мастерство в решении задачи и что покажут такие измерения.
На эту тему опубликовано достаточно исследований в самых разных областях, проводившихся с участием экспертов и неспециалистов. Во всех исследованиях применялся схожий подход: собиралось большое количество оценок, сделанных различными людьми, а затем они сравнивались с наблюдаемыми результатами. Полученные выводы убедительны и повторяются в каждом новом исследовании, посвященном данному вопросу.
• Без обучения или других средств контроля почти все люди, определяя вероятности, получают значения, существенно отличающиеся от реально наблюдаемых результатов (например, когда кто-то говорит, что уверен на 90 %, предсказанный результат происходит гораздо реже, чем в 90 % случаев).
• Существуют методы, в том числе обучение, которые значительно повышают способность экспертов оценивать субъективные вероятности (т. е. когда они будут говорить, что уверены на 90 %, то окажутся правы примерно в 90 % случаев).
Приведем пример, связанный с другой профессией – финансовыми директорами, – иллюстрирующий типичные результаты подобных исследований. В 2010 году Национальным бюро экономических исследований был проведен эксперимент, в котором финансовых директоров ряда корпораций попросили оценить годовую доходность индекса S&P 50021. Оценки давались в виде диапазонов (значения нижнего и верхнего пределов), достаточно широких, чтобы финансовый директор посчитал, что правильный ответ с вероятностью 80 % будет содержаться в данном диапазоне. Назовем эти диапазоны 80 %-ными доверительными интервалами[4]. Просто подождав, в итоге можно было легко узнать фактическую доходность за указанный период времени. Несмотря на то что финансовые директора были очень опытными и образованными, как и требовала должность, их 80 %-ные ДИ на практике содержали правильные ответы только в 33 % случаев. То есть испытуемые считали, что предоставили диапазоны, не содержащие правильный ответ, лишь в 20 % случаев, а на самом деле правильные ответы выходили за пределы их диапазонов в 67 % случаев. Показатель «неожиданных отклонений» оказался гораздо выше, чем они ожидали.
Причина кроется в чрезмерной уверенности. Уверенность экспертов, в данном случае выражавшаяся в ширине 80 %-ного ДИ, позволяла получить правильный ответ гораздо реже, чем они ожидали. Другими словами, они были уверены в значении вероятности 80 %, что указанный интервал содержит наблюдаемое значение, но на самом деле такой вероятности не было. К сожалению, этим грешат не только финансовые директора. Несколько исследований, проведенных в последние десятилетия, подтверждают, что излишняя самоуверенность – распространенная черта почти всех нас. Откалиброванные оценки вероятности, судя по большому объему опубликованных результатов, являются предметом исследований с 1970-х годов, и начало этим исследованиям положили Даниэль Канеман и Амос Тверски22. Их работа показала, что почти все представители самых разных профессии так же излишне самоуверенны, как и упомянутые финансовые директора, причем независимо от рода деятельности.
Это исследование не является чисто академическим. Предмет изучения влияет на реальные суждения и на действия, предпринимаемые для решения реальных проблем. За последние 20 лет Хаббард сумел сформировать один из крупнейших наборов данных, касающихся этого явления. Он протестировал и обучил более 1000 человек из различных отраслей, занимающих разные должности и относящихся к разным уровням управления. Из них по меньшей мере 54 испытуемых специализировались именно в области кибербезопасности.
Чтобы измерить, насколько хорошо эксперты распределяют субъективные вероятности, Хаббард проводил с ними серию тестов, аналогичных тем, что использовались в большинстве других исследований. В контрольном тестировании (оно проводится перед обучением, направленным на совершенствование навыков оценки) он просил участников указать 90 %-ный ДИ количества верных ответов для вопросов на общую эрудицию (когда родился Исаак Ньютон, какова высота самого высокого здания в мире и т. д.). Большинство людей указали диапазоны, содержавшие 40–50 % правильных ответов, что соответствует результатам из упомянутых выше исследований[5].
Чрезмерная уверенность также наблюдается при определении вероятностей дискретных событий, например приведет ли кибератака к крупной утечке данных в этом году. Безусловно, результат единичного события, как правило, не является достоверным индикатором того, насколько реалистична ранее заявленная вероятность. Если говорится о существовании 25 %-ной вероятности наступления события к концу следующего года, то сам факт, что оно произошло или не произошло, еще не будет являться доказательством нереалистичности вероятности. Но если отследить работу ряда экспертов, делающих множество вероятностных оценок, то можно сравнить ожидания с наблюдениями и составить более достоверное представление о качестве оценки. Например, пусть группа экспертов дает 1000 оценок вероятности определенных событий. Это могут быть утечки данных какого-то минимального объема, возникающие в течение конкретного периода времени, вероятность убытков на сумму более 10 млн долл. и т. п. Предположим, по словам экспертов, в 100 из этих оценок они уверены на 90 %. Тогда заявленный результат должен происходить примерно в 90 случаях из 100. Можно ожидать некоторых расхождений в силу удачного стечения обстоятельств или же вычислить (о чем будет рассказано позже) допустимое количество случайных ошибок. С другой стороны, если они окажутся правы только в 65 из 100 случаев, когда заявляли, что уверены в результате на 90 %, такой показатель гораздо хуже, чем можно было бы ожидать при банальном невезении (если бы речь шла только о невезении, шанс, что они будут ошибаться так часто, составил бы всего 1 к 68,9 млрд). Поэтому гораздо правдоподобнее выглядит объяснение, что эксперты просто наделяли слишком высокой вероятностью события, в которых им следовало быть менее уверенными.
К счастью, другими исследователями были проведены эксперименты23, показавшие, что экспертов можно научить лучше оценивать вероятности с помощью наборов оценочных тестов, обеспечения быстрой, постоянной и четкой обратной связи в достаточном объеме, а также техник повышения точности субъективных вероятностей. Иными словами, исследователи обнаружили, что оценка неопределенности – общий навык, которому можно обучить, добившись измеримого улучшения показателей. То есть, когда откалиброванные эксперты в области кибербезопасности говорят, что они на 85 % уверены в том, что в ближайшие 12 месяцев в их отрасли произойдет крупная утечка данных, значит, действительно вероятность утечки составляет 85 %.
И еще раз, выборка людей, проходивших тестирование по этому «компоненту», включала в себя не только финансовых директоров, но и врачей, студентов, ученых, менеджеров проектов и многих других. Поэтому можно вполне обоснованно утверждать, что эти наблюдения, вероятно, относятся ко всем. А если кто-то попытается доказать, что эксперты по кибербезопасности отличаются от представителей других профессий, участвовавших в исследованиях, помните, что в выборке Хаббарда было 54 эксперта в области кибербезопасности из нескольких компаний. В первом тесте они показали примерно такие же низкие результаты, как и представители любой другой профессии. В процессе же обучения их результаты существенно улучшились, как и у представителей остальных профессий, которых тестировал Хаббард, а успешность калибровки к концу обучения тоже оказалась у всех групп примерно одинаковой (85–90 % экспертов научились выверять свои оценки).
В главе 7 будут подробнее описаны процесс обучения и его результаты. Мы объясним, как научиться калибровать свои оценки с помощью несложного упражнения и как можно измерять собственную эффективность с течением времени. Этот навык станет отправной точкой для разработки более совершенных количественных моделей.
В целом проверка субъективных вероятностей для калибровки чрезмерной самоуверенности подразумевает, что придется ждать проявления наблюдаемых результатов. Однако есть и другой вид калибровки, действие которого можно легко наблюдать почти сразу, не дожидаясь, пока наступит предсказанный результат и наступит ли вообще, – измерение согласованности оценок эксперта. То есть, независимо от точности оценки, следует ожидать, что эксперт будет последовательно давать один и тот же ответ при возникновении похожих ситуаций. Конечно, единообразие ответов не означает, что они верны, но, как известно, два противоречащих друг другу ответа не могут одновременно быть правильными. Величина несогласованности должна хотя бы соответствовать нижнему пределу ошибки оценивания. Если же «эксперты» дают совершенно разные ответы каждый раз при решении сходных задач, то с тем же успехом они могли бы просто игнорировать предоставленную информацию и наугад выбирать оценки путем жеребьевки. Не нужно ждать наступления предсказываемых событий, чтобы оценить согласованность оценок таких экспертов.
Аналогичным образом, даже если специалисты отвечают в полном соответствии с собственными предыдущими суждениями, но ответы сильно отличаются от мнения других экспертов, то как минимум известно, что все они не могут быть правы (зато могут быть все неправы). К счастью, эти компоненты деятельности экспертов также измерялись в долгосрочной перспективе. Исследователи дали названия обеим мерам согласованности оценок24:
• стабильность – согласие эксперта с собственным предыдущим суждением, сделанным в идентичной ситуации (тот же эксперт, те же данные, другое время);
• консенсус – согласие эксперта с другими экспертами (одинаковые данные, разные эксперты).
Пока во всех областях, в которых проводились исследования, была выявлена сильная степень несогласованности оценок экспертов (с точки зрения как стабильности, так и консенсуса) практически во всех суждениях. Такая несогласованность оценок проявляется и у менеджеров проектов, оценивающих затраты, и у врачей, диагностирующих пациентов, и у экспертов в сфере кибербезопасности, определяющих риски.
В качестве примера, демонстрирующего несогласованность оценок экспертов, можно привести одно исследование начала XX века, в котором нескольким врачам-радиологам была выдана пачка из 96 рентгеновских снимков язвы желудка25.
Каждого радиолога просили оценить, может ли язва стать причиной злокачественной опухоли. Неделю спустя те же радиологи получили еще один набор из 96 рентгеновских снимков для оценки. Врачи не знали, что на самом деле получили те же самые снимки, но в другом порядке. Исследователи выявили, что радиологи меняли свои ответы в 23 % случаев.
Если спросить экспертов в такой ситуации, должно ли их суждение каким-то образом зависеть от порядка расположения элементов в списке, все они согласятся, что не должно. Тем не менее, согласно исследованиям, подобные изменения порядка элементов все же влияют на суждения.
Отдельный источник несогласованности оценок кроется в другой распространенной особенности суждений. При оценке цифр на эксперта может повлиять эффект, известный как «якорный»: если просто подумать о каком-либо числе, это повлияет на значение последующей оценки даже по совершенно не связанному вопросу. Исследователи показали, как при использовании произвольных значений, таких как номер социального страхования или случайное число, можно оказать влияние на последующие оценки, например количества врачей в районе или цены товаров на eBay26, 27.
Где гарантия, что случайные, не относящиеся к делу факторы вроде якорного эффекта не влияют и на суждения экспертов по кибербезопасности? У нас было достаточно возможностей собрать информацию по этому вопросу, и ее краткое изложение приведено ниже.
• Во многих не связанных друг с другом проектах за последние пять лет Хаббард и его сотрудники опросили 54 экспертов по кибербезопасности на предмет вероятности возникновения различных видов нарушений кибербезопасности. Проекты выполнялись для клиентов из четырех областей: нефтегазовой, банковской, высшего образования и здравоохранения. Все упомянутые эксперты ранее прошли обучение по калибровке оценки вероятности.
• Каждому эксперту были предоставлены описательные данные по различному количеству систем или сценариев угроз в организации (от 80 до 200 штук). Типы сценариев и предоставляемые данные различались между клиентами, но они могли включать информацию о типе подверженных риску данных, об операционных системах, находящихся под угрозой, о существующих средствах контроля, типах и количестве пользователей и т. д.
• Всех экспертов просили оценить для каждой из этих систем или сценариев вероятности возникновения различных типов событий (до шести штук), включая нарушения конфиденциальности, несанкционированное редактирование данных, несанкционированные транзакции денежных средств, кражи интеллектуальной собственности, перебои с доступом и т. д.
• Поскольку 54 эксперта оценивали вероятность возникновения от одного до шести событий для каждой из ситуаций, которых было от 80 до 200 штук, один эксперт, как правило, давал от 300 до 1000 оценок. В итоге получилось более 30 000 индивидуальных оценок вероятностей.
Однако при оценивании экспертам не сообщалось, что в представленных списках имелось несколько дублирующих друг друга пар сценариев. Скажем, что данные, представленные для системы в девятой строке списка, могли быть идентичны данным, представленным в 95-й строке, что 11-я и 81-я строки одинаковые и т. д. У каждого эксперта в списке было несколько дубликатов, в общей сложности 2428 пар дублей.
Чтобы измерить несогласованность, было достаточно сравнить первую оценку, данную экспертом, со второй для идентичного сценария. Сравнение оценок показано на рис. 4.1. Для лучшего отображения концентрации большого количества точек в одних и тех же местах диаграммы вокруг каждой точки добавлено немного шума, чтобы они не накладывались друг на друга. Шум очень мал по сравнению с общим эффектом и предназначен только для отображения диаграммы, т. е. не учитывается при статистическом анализе результатов.
Как видно, в 26 % случаев разница между первой и второй оценками составила более 10 процентных пунктов, например первая оценка была 15 %, а вторая – 26 %. Некоторые различия оказались гораздо существеннее. В 2,7 % случаев разница превысила даже 50 процентных пунктов. Сводная информация несогласованности в ответах представлена на рис. 4.2.
Рис. 4.1. Согласованность оценок в дублирующихся сценариях: сравнение первой и второй оценок вероятностей одного и того же сценария, сделанных одним и тем же экспертом
Какими бы непоследовательными ни выглядели результаты, на самом деле все гораздо хуже, чем кажется. Здесь нужно сравнить эти несогласованности с «предвзятостью» эксперта, то есть насколько сильно различаются ответы экспертов при оценке событий конкретного типа. Вероятности существенно различались в зависимости от типа оцениваемого риска. Например, риску нарушения работоспособности (выхода системы из строя), как правило, присваивали более высокую вероятность, чем риску нарушения целостности, при котором кто-то мог фактически украсть денежные средства с помощью несанкционированных транзакций. Если все ответы эксперта для данного типа риска (например, вероятности крупной утечки данных) колебались между, скажем, 2 и 15 %, то в большинстве случаев исследователи определяли, что разброс его оценок составлял 5 или 10 процентных пунктов.
Рис. 4.2. Сводная информация о распределении несогласованных оценок
Согласованность оценок отчасти показывает, насколько тщательно эксперт изучает каждый сценарий. У некоторых экспертов несогласованность являлась основной причиной большинства предвзятых суждений. Обратите внимание, что если бы несогласованность и предвзятость являлись одним и тем же, то наблюдалась бы ситуация, когда эксперт просто подбирает вероятности случайным образом, независимо от предоставленной информации. В указанных же опросах большинство испытуемых как минимум пытались отвечать с учетом внимательного изучения предоставленной информации. Тем не менее мы видим, что несогласованность оценок являлась причиной по крайней мере в 21 % случаев предвзятости. Это значительный процент суждений эксперта, отражающий исключительно его личную несогласованность оценок.
Следует отметить, что участники обнаружили небольшой процент дубликатов. Некоторые отправляли электронные письма со словами: «Мне кажется, в вашем опросе допущена ошибка. Эти две строки содержат идентичные данные». Но никто не заметил больше двух дублирующихся пар, а большинство людей не нашли и одной. Что еще важнее, обнаружение ряда дубликатов оценщиками могло только уменьшать наблюдаемую несогласованность оценок. Тот факт, что они случайно заметили несколько дубликатов, означает, что их показатель согласованности оценок получился выше, чем в случае, если бы они не нашли дубликаты. Другими словами, несогласованность по крайней мере такова, как показано в результатах исследования, но не ниже.
К счастью, мы также можем показать, что степень несогласованности можно уменьшить, что приведет к повышению точности оценок. Можно статистически сгладить несогласованность оценок экспертов с помощью математических методов, уменьшающих ошибку оценивания у экспертов. Авторам доводилось применять эти методы на практике именно в сфере кибербезопасности (данные о степени несогласованности оценок с рис. 4.1 взяты как раз из таких реальных проектов). Более подробно о них мы расскажем далее.
Как мы уже выяснили, существует немало данных о разных аспектах субъективного экспертного суждения, однако также имеются любопытные исследования о том, как объединить суждения разных экспертов. Возможно, наиболее распространенный метод объединения экспертных суждений иногда упоминается в вооруженных силах США под названием BOGSAT. Это акроним, означающий «куча парней сидит кружком и разговаривает». Эксперты собираются вместе и обсуждают, насколько вероятно наступление события или каковы будут последствия, если оно произойдет, пока не достигнут консенсуса (или, по крайней мере, пока не стихнут последние возражения).
Для объединения суждений могут применяться различные математические методы, а также существуют разнообразные способы обеспечения взаимодействия между экспертами. Как и в случае с прочими компонентами, нас интересует, являются ли одни методы измеримо более эффективными, чем другие.
Некоторые исследования, например, показывают, что случайную несогласованность в стабильности оценок отдельных людей можно уменьшить, просто усреднив оценки, данные несколькими людьми28. Вместо того чтобы собраться вместе и попытаться достичь консенсуса в группе, каждый из экспертов проводит оценку самостоятельно, и их оценки усредняют.
Данный подход и лежащие в его основе исследования были описаны в книге Джеймса Шуровьески «Мудрость толпы»29. Шуровьески также изложил несколько других методов сотрудничества, таких как «рынки предсказаний»[6], демонстрирующих заметно бóльшую эффективность по сравнению с оценками отдельных экспертов. Те же данные, которые позволили компании Hubbard Decision Research измерить стабильность экспертов, позволяют измерить и консенсус. Если бы эксперты проявляли индивидуальную несогласованность, т. е. демонстрировали низкую стабильность, можно было бы ожидать, что разногласия в их оценках будут возникать исключительно из-за случайной индивидуальной несогласованности. Однако фактическое общее количество разногласий между экспертами оказалось больше, чем можно было объяснить одной лишь мерой стабильности. То есть наряду с индивидуальной несогласованностью наблюдались и общие разногласия между экспертами одной организации по поводу важности различных факторов и риска атак в сфере кибербезопасности в целом.
Тем не менее интересно отметить, что эксперты в сфере кибербезопасности в одной организации давали ответы, которые хорошо соотносились с ответами их коллег из другой похожей организации. Один эксперт мог оценить вероятность возникновения события значительно выше, чем его коллеги, но при этом информация, заставлявшая его повышать или понижать вероятность в оценке, оказывала аналогичное воздействие и на других экспертов. То есть они были как минимум более или менее согласны в отношении «направления». Следовательно, разные эксперты вряд ли просто выбирали ответы наугад. В определенной степени они соглашались друг с другом, и, как показали результаты описанного выше исследования, их прогнозы можно сделать более точными, если взять среднюю оценку нескольких экспертов.
Мы уже выяснили, что эксперты менее эффективны, чем статистические модели, основанные на объективных данных за прошедший период. А что насчет количественных моделей, которые все еще основаны на субъективных оценках? Могут ли эксперты, применяя только имеющиеся знания, строить модели, которые превзошли бы их оценки, сделанные без использования количественных моделей? Результаты исследований показывают, что могут.
С 1970-х по 1990-е годы исследователи, изучавшие теорию принятия решений, Дональд Дж. Мак-Грегор и Дж. Скотт Армстронг, как по отдельности, так и совместно проводили эксперименты, чтобы выяснить, насколько можно повысить эффективность оценки с помощью разложения на составляющие30. Они задействовали сотни испытуемых в различных экспериментах с целью определить, насколько сложно оценить такие вещи, как окружность монеты или количество мужских брюк, производимое в США за год. Одних испытуемых просили напрямую оценить эти величины, а второй группе нужно было оценить разложенные на составляющие переменные, которые затем использовались для оценки исходного количества. Например, отвечая на вопрос о брюках, вторая группа оценила бы численность мужчин в США, количество брюк, покупаемых одним мужчиной в год, процент брюк, произведенных за границей, и т. д. Затем результаты первой группы (оценку, произведенную без разложения) сравнили с результатами второй группы.
Армстронг и Мак-Грегор выяснили, что разложение не помогало, если в оценках первой группы и так было относительно мало ошибок, например при оценке окружности американской 50-центовой монеты в миллиметрах. Однако если первая группа допускала много ошибок, а так происходило в случае с оценкой количества мужских брюк, произведенных в США, или общим количеством автомобильных аварий в год, тогда разложение на составляющие оказывалось значительно полезнее. Было установлено, что с самыми неопределенными переменными простое разложение на составляющие – ни в одном случае число переменных при разложении не превышало пяти – сокращало количество ошибок в 10 или даже 100 раз. Представьте, если бы эти решения принимались в реальных условиях с высоким уровнем неопределенности. Безусловно, разложение на составляющие стоит потраченного на него времени.
Выполнение вычислений в явном виде, даже если в качестве исходных данных используются субъективные оценки, устраняет источник ошибок. Чтобы оценить финансовые потери в результате атаки типа «отказ в обслуживании» на конкретную систему, можно оценить продолжительность атаки, количество пострадавших людей и затраты на единицу времени для каждого пострадавшего. Однако, получив эти значения, нужно не просто оценить их произведение, а вычислить его. Поскольку, как уже говорилось, при таких подсчетах люди склонны совершать несколько ошибок, связанных с интуицией, то будет лучше проводить расчеты не в уме. Для многих исследователей это было очевидно, как писал Мил в одной из своих работ:
Безусловно, ни для кого не секрет, что человеческий мозг плохо умеет взвешивать и вычислять. Делая покупки в супермаркете, вы не оцениваете взглядом кучу покупок и не говорите продавцу: «Похоже, здесь где-то на 17 долларов, как думаете?» Продавец считает их стоимость31.
Но не все разложения на составляющие одинаково информативны. Можно чересчур увлечься раскладыванием проблемы на элементы32. Разложение на составляющие производится потому, что в одних вещах мы более уверены, чем в других, но можем вычислить вторые на основе первых. Если же переменные, на которые раскладывается задача, не являются более определенными, то можно не добиться успеха. На самом деле неудачное разложение способно ухудшить ситуацию. В главе 6 мы более подробно обсудим так называемое неинформативное разложение.
Даже если предположить, что разложение на составляющие оказывается вам полезно, существует несколько стратегий его выполнения, и мы не будем придерживаться какой-то определенной точки зрения относительно степени их информативности. Разные организации могут предпочитать разные методы разложения, поскольку информация, которой они располагают, также различна. Но, как станет ясно из главы 6, существуют жесткие математические правила относительно того, действительно ли разложение на составляющие уменьшает неопределенность. Следует применять эти правила наряду с эмпирически измеренной эффективностью для определения наилучшего метода разложения на составляющие для конкретной организации.
Резюме и дальнейшие шаги
«По моему опыту…» – если предложение начинается с этих слов, к нему стоит относиться с осторожностью, особенно когда речь идет об оценке самих экспертов. Существуют причины, почему наш опыт, даже накопленный за многие десятилетия, не может служить надежным источником информации в некоторых вопросах. Из-за аналитического плацебо невозможно определить качество своих оценок, опираясь лишь на собственные субъективные ощущения. Для оценки экспертов и применяемых ими методов следует обратиться к научным исследованиям, лежащим в ее основе. И эти исследования четко указывают на следующие выводы.
1. По возможности рекомендуется использовать понятные количественные модели, основанные на объективных ранее полученных данных. Роль экспертов в первую очередь будет заключаться в разработке и настройке этих моделей, а не в выполнении отдельных оценок.
2. Для оценки вероятностей и других количественных величин можно научить экспертов определять субъективные вероятности, которые будут сравниваться с наблюдаемой реальностью.
3. Несогласованность оценок экспертов можно снизить с помощью математических методов, а также путем сотрудничества с целью повышения точности оценок. При рассмотрении мнений нескольких экспертов, даже просто выведя среднее значение из их оценок, получится более точный результат, чем дадут мнения экспертов, взятые по отдельности.
4. Разложение на составляющие повышает точность оценки, особенно когда приходится иметь дело с очень высокой степенью неопределенности. Модели, требующие проведения конкретных вычислений, а не подсчетов в уме, позволяют избежать многих ошибок в выводах, как правило, свойственных экспертам.
В данной главе наши измерения различных методов оценки риска были сосредоточены на ранее опубликованных результатах научных исследований отдельных компонентов процесса оценки риска, включая альтернативные инструменты оценки вероятностей (с помощью экспертов или алгоритмов), способы контроля несогласованности оценки экспертов, их сотрудничество и разложение на составляющие. Внимание уделялось только тем компонентам, о которых у нас есть данные исследований, показывающие, что альтернативные методы способны измеримо улучшить результаты.
Все компоненты методов, представленных в главе 3, и всё, о чем пойдет речь далее, опираются на результаты исследований. Нами не будут разбираться компоненты методов, по которым не проводились исследования, и, что не менее важно, не будут применяться методы, которые, как было доказано, увеличивают вероятность ошибки. Учитывая важность оценки рисков кибербезопасности, следует продолжать искать пути совершенствования методов. Никогда не стоит забывать о скептицизме, вынуждающем нас задаваться вопросом: «Откуда я знаю, что это работает?»
Позже будет рассказано, как выйти за рамки существующих исследований и статистически грамотно отслеживать собственные данные, чтобы еще больше снизить неопределенность и иметь возможность постоянно совершенствовать методы оценки рисков. А в следующей главе мы продолжим анализ компонентов на основе существующих исследований, но сосредоточимся на методах, которые не приводят к улучшению результатов или даже ухудшают их. Это необходимо сделать, так как данные компоненты фактически являются частью наиболее широко используемых методов и стандартов в области кибербезопасности. Пришло время решить эти вопросы раз и навсегда, а также дать ответы на распространенные возражения против использования рекомендуемых нами методов количественной оценки.
1. C. Tsai, J. Klayman, and R. Hastie, “Effects of Amount of Information on Judgment Accuracy and Confidence,” Organizational Behavior and Human Decision Processes 107, no. 2 (2008): 97–105.
2. Stuart Oskamp, “Overconfidence in Case-Study Judgments”, Journal of Consulting Psychology 29, no. 3 (1965): 261–265, doi:10.1037/h0022125. Reprinted in Judgment under Uncertainty: Heuristics and Biases, ed. Daniel Kahneman, Paul Slovic, and Amos Tversky (Cambridge, UK: Cambridge University Press, 1982).
3. P. Andreassen, “Judgmental Extrapolation and Market Overreaction: On the Use and Disuse of News,” Journal of Behavioral Decision Making 3, no. 3 (July – September 1990): 153–174.
4. C. Heath and R. Gonzalez, “Interaction with Others Increases Decision Confidence but Not Decision Quality: Evidence against Information Collection Views of Interactive Decision Making,” Organizational Behavior and Human Decision Processes 61, no. 3 (1995): 305–326.
5. D. A. Seaver, “Assessing Probability with Multiple Individuals: Group Interaction versus Mathematical Aggregation,” Report No. 78–73 (Los Angeles: Social Science Research Institute, University of Southern California, 1978).
6. S. Kassin and C. Fong, “I’m Innocent!: Effects of Training on Judgments of Truth and Deception in the Interrogation Room,” Law and Human Behavior 23 (1999): 499–516.
7. Paul E. Meehl, Clinical versus Statistical Prediction; A Theoretical Analysis and a Review of the Evidence (Minneapolis: University of Minnesota Press, 1954).
8. R. M. Dawes, D. Faust, and P. E. Meehl, “Clinical versus Actuarial Judgment,” Science (1989), doi:10.1126/science.2648573.
9. William M. Grove and Paul E. Meehl, “Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal (Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical Controversy,” Psychology, Public Policy, and Law 2 (1996): 293–323.
10. William M. Grove et al., “Clinical versus Mechanical Prediction: A Meta-Analysis,” Psychological Assessment 12, no. 1 (2000): 19–30.
11. Paul Meehl, “Causes and Effects of My Disturbing Little Book,” Journal of Personality Assessment 50 (1986): 370–375.
12. William Bailey et al., “Taking Calculated Risks,” Oilfield Review 12, no. 3 (Autumn 2000): 20–35.
13. G. S. Simpson et al., “The Application of Probabilistic and Qualitative Methods to Asset Management Decision Making,” presented at SPE Asia Pacific Conference on Integrated Modeling for Asset Management, April, 25–26, 2000, Yokohama, Japan.
14. C. W. Freaner et al., “An Assessment of the Inherent Optimism in Early Conceptual Designs and Its Effect on Cost and Schedule Growth.” Paper presented at the Space Systems Cost Analysis Group/Cost Analysis and Forecasting/ European Aerospace Cost Engineering Working Group 2008 Joint International Conference, European Space Research and Technology Centre, Noordwijk, The Netherlands, May 15–16, 2008, European Space Agency, Paris, France.
15. Philip E. Tetlock, Expert Political Judgment: How Good Is It? How Can We Know? (Princeton, NJ: Princeton University Press, 2005; Kindle edition, location 869).
16. Robyn Dawes, House of Cards: Psychology and Psychotherapy Built on Myth (New York: Simon & Schuster, 1996).
17. Amos Tversky and Daniel Kahneman, “Belief in the Law of Small Numbers,” Psychological Bulletin 76, no. 2 (1971): 105–110.
18. Daniel Kahneman and Amos Tversky, “Subjective Probability: A Judgment of Representativeness,” Cognitive Psychology 3 (1972): 430–454.
19. William M. Grove and Paul E. Meehl, “Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal (Mechanical, Algorithmic) Prediction Procedures: The Clinical – Statistical Controversy,” Psychology, Public Policy, and Law 2 (1996), 293–323; #167.
20. Herren DeWispelare and Clemen Bonano, “Background Report on the Use and Elicitation of Expert Judgement”, prepared for Center for Nuclear Waste Regulatory Analyses under Contract NRC-02-93-005, September 1994.
21. I. Ben-David, J. R. Graham, and C. R. Harvey, Managerial Miscalibration (No. w16215) (Washington, DC: National Bureau of Economic Research, 2010).
22. D. Kahneman and A. Tversky, “Subjective Probability: A Judgment of Representativeness,” Cognitive Psychology 4 (1972): 430–454; D. Kahneman and A. Tversky, “On the Psychology of Prediction,” Psychological Review 80 (1973): 237–251.
23. Sarah Lichtenstein, Baruch Fischhoff, and Lawrence D. Phillips, “Calibration of Probabilities: The State of the Art to 1980,” in Judgement under Uncertainty: Heuristics and Biases, ed. Daniel Kahneman, Paul Slovic, and Amos Tversky (Cambridge, UK: Cambridge University Press, 1982).
24. L. Goldberg, “Simple Models or Simple Processes?: Some Research on Clinical Judgments,” American Psychologist 23, no. 7 (July 1968).
25. Paul J. Hoffman, Paul Slovic, and Leonard G. Rorer, “An Analysis-of-Variance Model for the Assessment of Configural Cue Utilization in Clinical Judgment,” Psychological Bulletin 69, no. 5 (1968): 338.
26. Amos Tversky and Daniel Kahneman, “Judgment under Uncertainty: Heuristics and Biases,” Science 185, no. 4157 (1974): 1124–1131.
27. D. Ariely et al., “Coherent Arbitrariness: Stable Demand Curves without Stable Preferences,” The Quarterly Journal of Economics 118, no. 1 (2003): 73–106.
28. R. Clemen and R. Winkler, “Combining Probability Distributions from Experts in Risk Analysis,” Risk Analysis 19 (1999): 187–203.
29. Шуровьески Д. Мудрость толпы / Пер. В. Логвинова. – М.: МИФ, 2013. – 410 с.
30. Donald G. MacGregor and J. Scott Armstrong, “Judgmental Decomposition: When Does It Work?” International Journal of Forecasting 10, no. 4 (1994): 495–506.
31. Paul Meehl, “Causes and Effects of My Disturbing Little Book,” Journal of Personality Assessment 50 (1986): 370–375.
32. Michael Burns and Judea Pearl, “Causal and Diagnostic Inferences: A Comparison of Validity,” Organizational Behavior and Human Performance 28, no. 3 (1981): 379–394.