Как измерить все, что угодно — страница 6 из 16

Хорошо ли вы оцениваете шансы?

Сколько часов в неделю работники тратят на разбор жалоб потребителей? Насколько повысятся объемы продаж после новой рекламной кампании? Даже не имея точных ответов на подобные вопросы, вы все-таки что-то знаете. Например, одни значения интересующего вас показателя кажутся более вероятными, чем другие. Понять, что именно вам известно о чем-то сейчас, очень важно: нередко от этого зависит выбор подхода к измерению или даже сама необходимость этого измерения. Нам очень нужен способ выразить то, сколько мы знаем сейчас, каким бы малым ни было наше знание. Кроме того, обязательно следует понять, насколько хорошо нам удастся выразить неопределенность.

Один из способов показать неточность определения величины — выразить ее в виде интервала возможных значений. В статистике интервал, в котором с некоторой вероятностью может содержаться правильный ответ, называется доверительным интервалом (confidence interval, CI); 90-процентный доверительный интервал — это диапазон значений, содержащий правильное с вероятностью 90 %. Например, не зная точно, сколько потенциальных потребителей действительно станут вашими клиентами в следующем квартале, вы думаете, что, вероятно, договоры подпишут не меньше трех и не больше семи человек. Если существует уверенность на 90 %, что реальное число окажется больше трех, но меньше семи, то можно утверждать, что ваш 90-процентный доверительный интервал составляет три — семь. Границы такого интервала рассчитывают различными, довольно сложными статистическими интерференционными методами, но вы можете выбрать их, руководствуясь собственным опытом. В любом случае они отражают достоверность ваших знаний об искомом показателе.

Выразить неопределенность наступления конкретных событий в будущем вы можете и с помощью вероятностей. Например, существует вероятность 70 %, что данный потенциальный клиент подпишет договор в следующем месяце, однако правильно ли выбрано это значение? Чтобы понять, насколько хорошо человек умеет количественно оценивать неопределенность, нужно проверить судьбу всех потенциальных клиентов, по поводу которых делался квартальный прогноз, и ответить на вопрос: «Менеджер был на 70 % (80 %, 90 %) уверен, что все эти люди вот-вот подпишут договоры, но сколько их реально сделали это — 70 % (80 %, 90 %)?» Таким образом, чтобы узнать, насколько умело мы субъективно оцениваем вероятности, ожидавшиеся результаты нужно сравнить с фактическими.

ДВЕ КРАЙНОСТИ СУБЪЕКТИВНОЙ ОЦЕНКИ

Чрезмерная уверенность наблюдается, когда человек постоянно переоценивает точность своих знаний и оказывается правым реже, чем ожидает. Например, когда такого специалиста просят оценить что-то в виде 90-процентного доверительного интервала, в его пределах оказываются гораздо меньше, чем 90 %, правильных ответов.

Недостаточная уверенность проявляется, когда человек постоянно недооценивает точность своих знаний и оказывается правым намного чаще, чем ожидает. Например, когда такого специалиста просят оценить что-то в виде 90-процентного доверительного интервала, в его пределы попадают гораздо больше, чем 90 %, правильных ответов.

К сожалению, очень немногие из нас являются от природы калиброванными оценивателями. Большинство либо чересчур уверены, либо, наоборот, слишком не уверены в правильности своих результатов. Определение вероятности наступления недостоверных событий или интервала возможных значений некоего показателя — не такой навык, который приобретается по мере накопления опыта и развития интуиции.

К счастью, теоретические исследования доказали, что если людей специально учат преодолевать систематические ошибки и необъективность, их оценки становятся существенно точнее[19]. Калиброванные оценки вероятности активно изучались в психологии принятия решений в 1970-х и 1980-х годах. Чуть менее интенсивно изучаются они и сегодня. В отличие от многих преподаваемых в школах бизнеса методов «науки управления» или «количественного анализа», предлагающих оптимальные пути решения конкретных, четко определенных задач, психология принятия решений занимается тем, как люди реально принимают свои решения, какими бы иррациональными они ни были.

Исследователи обнаружили, что букмекеры обычно оценивают вероятность наступления события точнее, чем, например, менеджеры. Кроме того, они сделали ряд неутешительных открытий о том, как плохо врачи диагностируют непонятные явления: «есть шанс, что эта опухоль окажется злокачественной» или «эта боль в груди, вероятно, вызвана сердечным приступом». Наблюдаемые различия между людьми разных профессий позволили исследователям сделать вывод, что оценка вероятности — это навык, которому можно научиться.

Ученые установили, какими способами эксперты могут определить, страдают они чрезмерной уверенностью, недостаточной уверенностью в себе или имеют еще какие-то отклонения. После самоанализа с помощью ряда методов они способны устранить выявляемые недостатки и оценить достигнутый прогресс. Короче говоря, оказалось, что оценка неопределенности — это навык, который можно приобрести и который можно совершенствовать. Таким образом, когда калиброванные менеджеры по продажам говорят, что они на 75 % уверены, что новый конкурент не переманит к себе вашего крупного клиента, значит, действительно есть 75-процентная вероятность того, что вам удастся удержать его.

Давайте проверим с помощью небольшого теста, насколько хорошо вам удается количественно выразить неопределенность. В таблице 5.1 приведены 10 вопросов, на которые нужно ответить с 90-процентной уверенностью, и 10 бинарных вопросов, предполагающих ответы типа «правильно» или «неправильно». Это вопросы из разных областей знания, и если только вы не чемпион по игре «Jeopardy», ответить на них со всей определенностью вряд ли удастся. Но некоторое представление об этих вопросах у вас все же должно быть. Аналогичные упражнения я предлагаю участникам своих семинаров. Разница только в том, что я даю тесты, в которых больше вопросов каждого вида, причем слушатели выполняют их подряд и после каждого я сообщаю о результатах. Обычно продолжительность семинара по калиброванию составляет половину рабочего дня.

Но даже при такой малой выборке удается получить информацию о ваших навыках. И, что важнее, это упражнение подтолкнет вас к осознанию того, что саму приблизительность ваших оценок можно определить количественно.

Упражнение «Калибровка»

Указание: в таблице 5.1 приведено по 10 вопросов двух видов.


Вопросы с 90-процентным доверительным интервалом. Отвечая на каждый вопрос, укажите нижнюю и верхнюю границы интервала. Помните: интервал должен быть таким широким, чтобы вы были на 90 % уверены, что правильный ответ попадает в него.

Бинарные вопросы. Ответьте «правильно» или «неправильно» на каждое из приведенных выше утверждений, а затем обведите кружком число, отражающее степень вашей уверенности в своем ответе. Например, если вы абсолютно уверены в своем выборе, то должны указать, что его вероятность составляет 100 %. Когда вы совсем не знаете темы, вероятность правильного ответа должна быть равна вероятности выпадения орла или решки при подбрасывании монеты (50 %). В противном случае (возможно, в большинстве случаев) эта вероятность должна составлять 50–100 %.


Конечно, легко подглядеть ответы на все эти вопросы, но ведь мы воспользовались данным упражнением, чтобы понять, насколько хорошо вы находите ответы, которые нельзя найти нигде (например, как точно вы оцениваете продажи следующего месяца или возможное повышение производительности труда в результате внедрения новой информационной системы).

Важная подсказка: вопросы различаются по сложности. Одни кажутся легкими, другие — слишком трудными. Но каким бы сложным ни выглядело задание, вы все равно сможете как-то его выполнить. Сосредоточьтесь на том, что знаете. А вы, в частности, знаете, какие границы интервала наверняка неправильны (например, всем точно известно, что Ньютон не был современником древних греков или нашим современником). Аналогично, отвечая на бинарный вопрос, вы представляете себе более правдоподобный вариант.




Покончив с этой работой, не торопитесь искать правильные ответы. Сначала проведите небольшой эксперимент: убедитесь, что указанные вами доверительные интервалы — действительно 90-процентные. Возьмите один из вопросов с таким доверительным интервалом, скажем, когда Ньютон опубликовал свою работу о всемирном законе тяготения? Допустим, я дал вам шанс выиграть 1000 дол. одним из двух следующих способов (см. рис. 5.1):



1) вы получите 1000 дол., если год публикации книги Ньютона окажется в пределах между верхней и нижней границами указанного вами интервала. Если границы выбраны неверно, то не выиграете ничего;

2) вы должны раскрутить круглый диск, разделенный на два неравных сектора, площади которых составляют 90 и 10 % соответственно. Если указатель остановится на большем секторе диска, то вы выиграете 1000 дол., если же на меньшем, то не выиграете ничего (то есть вероятность выигрыша — 90 %).

Какой из вариантов вы выберете? Во втором случае шанс выиграть составляет 90 %. Если вы такой же, как большинство (примерно 80 %) людей, то предпочтете вращать диск. Но почему? Единственным объяснением может служить ваша убежденность в том, что шансов выиграть, раскручивая диск, гораздо больше. Отсюда вывод: доверительный интервал с вероятностью 90 % на самом деле — неправильная оценка, сделанная вами. Эта вероятность, скорее, составляет 80, 65, а то и 50 %. С точки зрения статистики это называется чрезмерной уверенностью. Вы выразили неопределенность таким образом, который указывает на гораздо меньшее ее значение по сравнению с фактическим.

Так же нежелателен выбор варианта 1, в котором вы получите 1000 дол., если указанный год попадет в границы вашего интервала. Данный выбор демонстрирует, что на самом деле вы уверены в своем ответе более чем на 90 % (хотя и указали, что убеждены в нем именно на 90 %).

Правильный ответ в данном случае — сказать, что ни один из вариантов не является предпочтительным. Так вы покажете, что уверены в своем ответе именно на 90 % (а не на больше или меньше). Но для этого тем, кто слишком уверен в себе (то есть большинству из нас), пришлось бы предварительно расширить свой доверительный интервал.

То же проверочное упражнение можно проделать и с бинарными вопросами. Допустим, что вы на 80 % уверены в правильности своего ответа на вопрос о месте рождения Наполеона. Сделайте снова выбор между способами получения приза (1 или 2). Но пусть в этом случае вероятность выигрыша при вращении диска будет составлять только 80 %. Если вы предпочтете раскручивать диск, значит, уверены в своем ответе менее чем на 80 %. Пусть вероятность выигрыша при вращении диска сократится до 70 %. Если вы и в таком случае сделаете этот выбор, то действительно убеждены в своей правоте только на 70 %.

На тренингах по калибровке я называю такую процедуру проверкой с помощью эквивалентных ставок. Как видно из самого названия, она помогает установить, действительно ли вы на 90 % уверены в названном интервале значений, предлагая сделать другую ставку, представляющуюся эквивалентной. Исследования показывают: даже когда люди только воображают, что рискуют деньгами, это значительно улучшает их способность оценивать шансы[20]. На деле же выяснилось, что, реально рискуя деньгами, они оценивают шансы лишь ненамного точнее, чем когда рискуют ими понарошку (подробнее об этом в той части главы 13, где обсуждаются рынки предсказаний).

Методы, подобные проверке с помощью эквивалентных ставок, помогают людям точнее оценивать неопределенности. Тех, кто точно определяет степень своей уверенности (то есть тех, кто оказывается прав в 80 % случаев, когда говорит, что уверен на 80 %), называют калиброванными специалистами. Существуют и другие простые приемы подготовки калиброванных экспертов, но давайте сначала посмотрим, как вы справились с этим тестом. Ответы даны в приложении А.

Чтобы понять, насколько вы калиброваны, необходимо сравнить ожидаемые вами результаты с фактическими. Поскольку вас просили указать 90-процентный CI, вы, в сущности, полагаете, что 9 из 10 правильных ответов окажутся в названных вами интервалах значений. Однако если вы похожи на большинство людей, то процент «прямых попаданий», скорее всего, окажется меньше. Конечно, это очень малые выборки, не позволяющие точно оценить вашу калибровку, но примерное представление они дают. Если даже при такой малой выборке в ваши доверительные интервалы попали менее семи верных ответов, вы, скорее всего, страдаете преувеличенной уверенностью. А когда их оказывается менее пяти (как у большинства людей), вы чрезмерно самонадеянны.

Итак, отвечая на вопросы с 90-процентным доверительным интервалом, вы ожидали, что в предложенные вами границы попадут девять правильных ответов, но фактически их оказалось меньше. Теперь необходимо определить «ожидаемые» значения для бинарных вопросов. Вы указали, что уверены в своих ответах на каждый из них на 50, 60, 70, 80, 90 или 100 %. Переведите все обведенные вами кружочком проценты в десятичные дроби (0,5; 0,6… 1,0) и суммируйте их. Предположим, что вы были уверены в своих ответах на 1,0; 0,5; 0,9; 0,6; 0,7; 0,8; 0,8; 1,0; 0,9 и 0,7, тогда сумма этих показателей составляет 7,9. Таким образом, «ожидаемый» показатель равен 7,9. Конечно, 10 — тоже небольшая выборка, но если ваш фактический показатель составил, например, 2,5, то, скорее всего, вы слишком самонадеянны.

Дальнейшее повышение точности калибровки

Как показывают теоретические исследования, точность калибровки можно повысить путем обучения. Мы уже упоминали о проверке с помощью эквивалентных ставок, позволяющей человеку представить себя лично заинтересованным в точности оценок. Исследования (и мой опыт) также доказывают возможность повысить способность оценивать неопределенности методом повторения и обратной связи. Он состоит в том, что я задаю обучаемым ряд несложных вопросов, подобных тем, на которые вы только что отвечали. Слушатели дают свои варианты, затем я знакомлю их с истинными значениями, и они выполняют тест снова.

Однако не похоже, чтобы присущую большинству людей врожденную излишнюю уверенность можно было исправить каким-то одним способом. Поэтому я объединил несколько методов и обнаружил, что в большинстве случаев все вместе они позволяют добиться практически идеальной калибровки человека.

Кроме того, я обычно прошу своих слушателей привести аргументы «за» и «против» для обоснования сделанных ими оценок. Довод «за» — это причина, почему оценка разумна; довод «против» — основание, почему она может быть чрезмерно самоуверенной. Например, ваша оценка продаж нового продукта коррелирует с данными о продажах аналогичных новинок с такими же расходами на рекламу. Однако когда вы задумываетесь о неопределенности прогнозов неожиданных провалов или ошеломительных успехов других компаний наряду с неопределенностями, связанными с общими темпами роста рынка, часто приходится корректировать исходные доверительные интервалы. Исследования показали, что один только этот метод способен значительно повысить точность калибровки[21].

Наконец, я прошу экспертов, определяющих диапазон значений, отнестись к своей задаче так, как будто им задали отдельные бинарные вопросы о каждой границе диапазона. Доверительный интервал 90 % означает, что есть вероятность 5 % того, что истинное значение окажется выше верхней границы предлагаемого диапазона, и такая же вероятность того, что истинное значение окажется ниже нижней границы данного диапазона. Это означает, что эксперт должен быть на 95 % уверен, что истинное значение оцениваемой величины будет ниже верхней границы интервала. Если этой уверенности нет, ему придется повысить верхнюю границу интервала так, чтобы такая уверенность появилась. Похожую процедуру выполняют и с нижней границей. Похоже, что выполнение этого теста решает проблему зацикливания эксперта на каком-то значении. Зацикленность — сужение интервала значений оцениваемой величины до одного пришедшего вам в голову числа. Специалисты часто признаются: называя интервал значений величины, они обычно думают о каком-то одном числе, к которому просто добавляют или из которого вычитают погрешность оценки, чтобы получить границы этого интервала. Такой подход выглядит разумным, но на самом деле заставляет человека сужать диапазоны значений. Избежать подобного зацикливания можно, задавая себе бинарные вопросы типа: «Уверен ли я на 95 %, что правильное значение окажется выше или ниже данного значения?», касающиеся как верхней, так и нижней границ интервала.

Выполнив ряд калибрующих тестов и попрактиковавшись в использовании таких методов, как составление списка всех «за» и «против», проверка с помощью эквивалентных ставок и антизацикливание на одном числе, слушатели приобретают навык в точной настройке «чувства вероятности». Большинство людей становятся практически идеально калиброванными после тренинга продолжительностью всего половину рабочего дня. И, что еще важнее, несмотря на то, что обучение осуществляется на самых общеизвестных проблемах, полученные навыки позволяют проводить оценки в любой сфере деятельности.

В приложении приведены еще два калибрующих теста с вопросами двух видов — бинарными и на интервал значений оцениваемой величины. Попробуйте использовать перечисленные в таблице 5.2 методы для повышения точности своей калибровки.


Понятийные заблуждения, мешающие калибровке

Описанные только что методы оказываются бесполезными, когда у слушателя безотчетно сложились неправильные представления о калибровке или о вероятностях в целом. Хотя, по моим наблюдениям, большинство людей, по долгу службы принимающих важные решения, уже знакомы с теорией вероятности или вполне могут освоить ее, некоторые по-прежнему находятся в плену поразительных заблуждений. Вот, например, что мне доводилось слышать в ходе проведения занятий по калибровке или когда я по их окончании просил произвести калиброванные оценки:

• моя уверенность на 90 % вовсе не означает, что я прав в 90 % случаев, поскольку субъективная уверенность на 90 % — совсем не то же самое, что объективная;

• это мой 90-процентный доверительный интервал, хотя я понятия не имею, содержит ли он правильный ответ;

• оценить то, что вы просите, вообще невозможно — мы ведь ничего об этом не знаем;

• не зная точного ответа, нельзя подсчитать шансы.

Первое утверждение, сделанное инженером-химиком, свидетельствует о том, что поначалу у него были проблемы с калибровкой. До тех пор, пока человек считает, что субъективная вероятность в чем-то уступает объективной, он не может откалибровать свои оценки. Однако, выполнив ряд калибрующих упражнений, инженер убедился, что его субъективные оценки вероятности оказывались правильными. Другими словами, его 90-процентные доверительные интервалы содержали правильные значения в 90 % случаев.

Остальные возражения нам уже знакомы. Все они так или иначе основываются на идее, что тот, кто не знает точного значения какого-либо показателя, вообще ничего о нем не знает. Дама, заявившая, что «понятия не имеет» о том, содержал ли ее 90-процентный доверительный интервал правильное значение, имела в виду один из вопросов на экзамене по калибровке. Речь шла о размахе крыльев «Боинга-747» в футах. Ее ответ был 100–120 футов. Тогда между нами состоялся примерно следующий разговор.


Я: Уверены ли вы на 90 %, что правильное значение больше 100 и меньше 120 футов?

Участница семинара: Понятия не имею. Это не более чем догадка.

Я: Но интервал 100–120 футов означает, что вы достаточно уверены в своих знаниях. Данный интервал слишком узок для человека, утверждающего, что он не имеет о предмете ни малейшего представления.

Участница семинара: О’кей. Я не очень уверена в предложенном интервале.

Я: Это означает только, что ваш реальный 90-процентный доверительный интервал значений размаха крыльев самолета должен быть шире. Не кажется ли вам, что размах крыльев может составлять, например, 20 футов?

Участница семинара: Нет, думаю, он не может быть таким маленьким.

Я: Хорошо, тогда, наверное, менее 50 футов?

Участница семинара: Маловероятно. Я бы приняла это за нижнюю границу.

Я: Что ж, мы делаем прогресс. А может ли размах крыльев превышать 500 футов?

Участница семинара (после паузы): Нет, не думаю, чтобы он был так велик.

Я: О’кей. А может ли он превышать размер футбольного поля — 300 футов?

Участница семинара (которая, кажется, поняла, куда я клоню): Ну, хорошо, думаю, что моей верхней границей будет 250 футов.

Я: Значит, вы на 90 % уверены, что размах крыльев «Боинга-747» составляет от 50 до 250 футов?

Участница семинара: Да.

Я: Значит, на самом деле ваш 90-процентный доверительный интервал значений размаха крыльев составляет 50–250, а не 100–120 футов.


В ходе нашей беседы эта слушательница скорректировала границы первоначально указанного неправдоподобно узкого интервала значений и определила реальный 90-процентный доверительный интервал, безусловно, улучшив результат. Теперь она уже не могла сказать, что «понятия не имеет», попадает ли в него правильный ответ, так как новый диапазон действительно отражал ее знания.

Этот пример объясняет также, почему я стараюсь не использовать в своем анализе слово «допущение». Допущение предполагает, что в целях доказательства мы считаем некий факт верным независимо от того, так ли это на самом деле. Допущения необходимы, если вы используете детерминистские методы расчета с точными значениями в качестве величин. Точно знать данные значения вы не можете, поэтому каждое такое значение обязано быть допущением. Но если возможно моделировать неопределенность через интервалы значений и вероятности, то пропадает необходимость утверждать что-то, чего вы не знаете наверняка. Когда вы «понятия не имеете», правилен ли этот узкий диапазон, просто расширяйте его до тех пор, пока он не будет отражать ваши знания.

Очень легко потеряться в неизвестном о предмете изучения и забыть, что какие-то факты вы все-таки знаете. А там, где границы нашего объекта — плюс-минус бесконечность, вряд ли вообще потребуется что-либо измерять.

Следующий пример несколько отличается от предыдущего диалога с дамой, предложившей нереально узкий диапазон оценки. Разговор состоялся со специалистом по безопасности Управления по делам ветеранов. Сначала он вообще не дал никакого интервала значений, настаивая на том, что объект оценить невозможно. Все началось с утверждения, что он ничего не знает о величине, но впоследствии оказалось, что некоторые границы ее значений не вызывают у него сомнений.


Я: Если в ваши программы проникает компьютерный вирус, то сколько времени в среднем продолжается сбой в работе? Как всегда, все, что мне нужно, — это 90-процентный доверительный интервал.

Специалист по безопасности: Это определить невозможно. Иногда сбой бывает короткий, а иногда продолжается очень долго. На самом деле мы за этим особенно и не следим, поскольку главная задача — восстановить нормальную работу, а не задокументировать происходящее.

Я: Конечно, точно вы знать не можете. Вот почему мы стремимся определить диапазон, а не точное число. А как долго продолжался самый длительный из случавшихся у вас простоев?

Специалист по безопасности: Не знаю, в разных случаях по-разному.

Я: Было ли когда-нибудь так, чтобы вы не работали целых два рабочих дня подряд?

Специалист по безопасности: Нет, никогда.

Я: А более одного дня?

Специалист по безопасности: Не уверен. Возможно.

Я: Мы хотим определить 90-процентный доверительный интервал для средней продолжительности сбоя. Если вспомнить обо всех сбоях, связанных с вирусами, то могла бы средняя продолжительность перерыва превысить один день?

Специалист по безопасности: Я понял, что вы имеете в виду. Я бы сказал, что среднее значение составляет менее одного рабочего дня.

Я: Так что вашей верхней границей для среднего простоя будет..?

Специалист по безопасности: О’кей. Думаю так: очень маловероятно, чтобы средняя продолжительность сбоя превышала 10 часов.

Я: Давайте теперь подумаем о нижней границе. Какой она может быть?

Специалист по безопасности: Некоторые повреждения устраняются за пару часов, на исправление других уходит намного больше времени.

Я: Отлично, но как вы думаете, могла бы средняя продолжительность сбоев составлять два часа?

Специалист по безопасности: Нет, не думаю, чтобы она была так мала. Думаю, что не менее шести часов.

Я: Хорошо. Итак, ваш 90-процентный доверительный интервал для средней продолжительности сбоев составляет 6–10 часов?

Специалист по безопасности: Я ведь выполнял ваши калибрующие тесты. Дайте мне подумать. Думаю, этот диапазон составляет 4–12 часов.


Такие разговоры совсем не редкость, когда нужно определить величины, характеризуемые высокими неопределенностями. Сначала эксперты вообще отказываются давать интервалы значений — ведь, наверное, все они усвоили в своих компаниях, что отсутствие точного числа равносильно полному незнанию, или это связано с тем, что обычно они несут ответственность за точные данные. Но на самом деле отсутствие точного числа вовсе не означает полной неосведомленности. Специалист по безопасности знал, что средняя продолжительность вирусной атаки и устранения последствий никак не может составлять 24 часа (три полных рабочих дня). Кроме того, было известно, что сбой не может составлять один час. Таким образом, кое-какой информацией эксперт обладал, а приблизительность его знаний можно было выразить количественно. Диапазон 6–10 часов говорит о меньшей неопределенности, чем диапазон 2–20 часов. В любом случае эта степень неопределенности интересует нас сама по себе.

Я называю метод, использованный мной в двух приведенных выше диалогах, проверкой на абсурдность и применяю его всякий раз, как слышу, что «этого мы знать не можем» или «я предлагаю диапазон значений, но это только догадка». Какими бы скудными ни считал эксперт свои знания о каком-либо объекте, всегда оказывается, что он четко представляет значения этой величины, невозможные в исследуемых условиях. То значение, которое эксперт считает уже не абсурдным, а лишь маловероятным, и определяет границу его доверительного интервала. А напоследок я предлагаю слушателям сделать эквивалентную ставку и убедиться, что полученный ими в результате доверительный интервал оценки — действительно 90-процентный.

Эффект калибровки

Я занимаюсь такого рода консалтингом с 1995 г., поэтому имею возможность сделать определенные выводы о том, как мои простые тесты и калибровка помогают людям оценивать неопределенность, возникающую в реальных жизненных обстоятельствах.

До 2001 г. мои методы калибровки и тесты постоянно совершенствовались, но с тех пор остаются практически неизменными. За этот период обучение по моей методике прошли в общей сложности 142 человека. Все они выполняли на семинарах продолжительностью половину рабочего дня по несколько тестов подряд, а я сравнивал их ожидаемые и фактические результаты. Будучи хорошо знаком с данными исследований в этой области, я представлял, что слушатели добьются значительных, пусть и не идеальных, успехов. В чем я был меньше уверен, так это в том, какого прогресса добьются разные люди. В теоретических работах обычно приводятся общие результаты всех участников, так что мы видим лишь средний показатель по труппе. Когда я рассчитываю такой параметр для слушателей своих семинаров, то получаю итог, весьма похожий на информацию других исследователей. Но поскольку у меня были данные и по отдельным участникам, я обнаружил очень интересный феномен.



Рисунок 5.2 демонстрирует обобщенные ответы всех 142 слушателей на вопросы, связанные с доверительными интервалами, во всех предложенных на семинаре тестах. Те, кто быстро учился давать калиброванные оценки, освобождались от выполнения последующих заданий (и это оказалось очень хорошим стимулом). В рамке под графиком приведен процент участников, освобожденных от дальнейшего тестирования после выполнения теста под данным номером. Вертикальные линии показывают результаты выполнения каждого теста 90 % средних участников, а черные ромбы — среднее значение для группы. Цель слушателей, конечно, заключалась в том, чтобы оказаться на жирной горизонтальной линии, показывающей, что 90 % их ответов попадают в указанные 90-процентные доверительные интервалы.

На первый взгляд, график иллюстрирует значительное улучшение результатов выполнения первых трех заданий и последующую стабилизацию на уровне, далеком от идеальной калибровки. Даже принимая во внимание то, что тесты 4 и 5 выполняли только отстающие, участниками семинаров по калибровке заданий на 90-процентные доверительные интервалы складывается впечатление: три-четыре часа интенсивного тренинга еще не позволяют достичь желаемого уровня.

Но взяв данные о каждом слушателе, я обнаружил, что большинство из них добились к концу тренинга большого прогресса, а средние показатели снижаются за счет нескольких отстающих. Статистически мы допускаем, что даже идеально калиброванный эксперт в своих оценках может отклоняться от цели. С учетом одной этой погрешности при тестировании семинар помогает стать идеально калиброванным оценщиком не менее 70 % его участников. Больше они не страдают ни излишней самонадеянностью, ни недостатком уверенности в себе. Если эти люди указывают 90-процентный CI, то вероятность попадания правильного ответа именно в этот интервал значений действительно составляет 90 %. Еще 20 % участников достигают заметного прогресса, но не состояния идеальной калибровки. И только 10 % слушателей, похоже, вообще не повышают свой уровень. Так что же, для одного из десятка этот тренинг проходит бесполезно? Нет, это не так. Все, на кого мы когда-либо полагались в фактических оценках, попали в две первые группы и почти все — в группу идеально калиброванных экспертов. А те, кто на первый взгляд вообще не поддался калибровке, еще до тестирования не считались хорошими специалистами в своих областях или людьми, принимающими решения. Возможно, они не были мотивированы в достаточной мере, зная, что их мнения ни на что не влияют. А, возможно, те, кто не склонен к подобным задачам, не стремятся дорасти до уровня экспертов, услугами которых пользуются для проведения оценок. В любом случае это уже вопрос дальнейших исследований.

Мы видим, что большинству занятия идут на пользу. Но свидетельствуют ли успехи на семинарах о способности оценивать шансы в реальной жизни? На этот вопрос можно ответить только утвердительно. У меня было немало возможностей наблюдать, как ведут себя хорошо калиброванные специалисты в жизненных ситуациях, но особенно мне запомнился один управляемый эксперимент. В 1997 г. меня попросили провести курс занятий по оценке вероятности будущего наступления недостоверных событий для аналитиков Giga International Group, компании, занимавшейся консалтингом в области ИТ (впоследствии поглощенной Forrester Research, Inc.). Giga первой из подобных фирм стала продавать результаты своих исследований другим компаниям — своим постоянным подписчикам. Она приняла некий метод определения вероятности событий, наступление которых прогнозировала для своих клиентов, и хотела удостовериться в его корректности.

Я обучил 16 аналитиков Giga использованию описанных выше приемов. В конце занятий я попросил их высказать свое согласие или несогласие с 20 конкретными прогнозами, касавшимися индустрии информационных технологий, и указать степень уверенности в своих оценках. Это задание они выполняли в январе 1997 г., а во всех прогнозах речь шла о событиях, которые могли произойти до 1 июня того же года (например, участники должны были указать, верно или неверно предположение, что Intel выпустит до 1 июня свой процессор Pentium 300 МГц и т. д.). В качестве контрольного эксперимента я познакомил с этими предсказаниями 16 руководителей информационных служб различных организаций. После 1 июня мы могли уже определить, какие прогнозы сбылись, а какие нет. О полученных результатах я рассказал на крупном симпозиуме Giga World (см. рис. 5.3).



По горизонтали отложены указанные участниками занятий вероятности правильной оценки прогноза, по вертикали — процент сбывшихся прогнозов. Результаты идеально калиброванного эксперта представлены пунктиром. Такой специалист оказывается прав в 70 % случаев, если уверен в своих предсказаниях на 70 %; в 80 % случаев, если уверен в своих предсказаниях на 80 %, и т. д. Вы видите, что результаты аналитиков Giga (обозначенные квадратиками) в пределах допустимой погрешности были очень близки к идеальной уверенности. Сильнее всего эти результаты отклоняются от «идеальной калибровки» в нижней части шкалы, но и здесь это отклонение не превышает допустимой ошибки (в левой части графика интервал допустимой ошибки шире, а в правой он сужается до нуля). Участники оказались правыми в 65 % всех случаев, когда они указали, что уверены на 50 %. Это означает, что они знали больше, чем полагали, и что были недостаточно уверены в себе (только в этой части шкалы). Но это отклонение невелико и вполне могло объясняться случайностью. Имеется вероятность 1 % того, что не менее 44 человек из 68 угадают ответ, просто подбросив монету. В другой части шкалы это отклонение более значительно, по крайней мере статистически, если не визуально. Случайностью могло бы объясняться несколько меньшее отклонение от ожидаемого, поэтому в этой части шкалы слушатели несколько самоувереннее. Но в целом они очень хорошо калиброваны.

Для сравнения, результаты клиентов Giga (обозначенные треугольниками), не прошедших тренинга по калибровке, показали их чрезмерную самонадеянность в прогнозировании. Цифры рядом с результатами калибровки означают, например: тот или иной клиент 58 раз указывал, что уверен в правильности данного прогноза на 90 %. Однако сбылось только 60 % таких предположений. Клиенты (21 %), заявившие, что убеждены в правильности прогноза на 100 %, угадали только в 67 % случаев.

Не менее интересен тот факт, что у аналитиков Giga правильных ответов оказалось не больше (вопросы были составлены по отрасли в целом, а не по узким направлениям специализации аналитиков). Просто они проявили большую (но не чрезмерную) осторожность, указывая процент уверенности в своей оценке прогноза. Однако до участия в занятиях аналитики, отвечая на вопросы общего характера, так же плохо оценивали неопределенность, как и клиенты, оценивавшие достоверность прогнозов реальных событий. Вывод очевиден: разница в точности определяется только занятиями по калибровке способности слушателей оценивать шансы, весьма действенной в реальных жизненных ситуациях.

Хотя у некоторых участников занятий и возникали трудности с калибровкой, большинство воспринимают ее с готовностью и считают способность оценивать шансы важнейшим навыком, необходимым для проведения измерений. Пат Планкетт, менеджер по оценке эффективности информационных технологий Министерства жилищного строительства и городского развития (Department of Housing and Urban Development), пожалуй, лучше всех в американском правительстве разбирается в использовании показателей эффективности. Он знаком со многими специалистами различных учреждений, прошедшими калибровку с 2000 г. Планкетт в 2000 г. еще работал в Управлении служб общего назначения (General Service Administration, GSA), и именно он стоял за экспериментом Совета директоров по информационным технологиям при федеральном правительстве США и рекомендовал Управлению по делам ветеранов внедрить эти методы. Планкетт считает калибровку серьезным шагом вперед в решении проблемы неопределенности. Он сказал: «Калибровка открыла нам глаза. Многие, включая меня самого, обнаружили, что излишне оптимистичны, делая оценки. Калибровка делает вас другим человеком. Вы приобретаете обостренную способность оценивать степень неопределенности».

Возможно, единственный сотрудник правительственного учреждения США, повидавший больше прошедших калибровку людей, чем Планкетт, — это Арт Койнз, старший консультант по политике Агентства по защите окружающей среды, десятки специалистов которого прослушали мои семинары. Как и Планкетт, он был удивлен отношением обучаемых к калибровке: «Люди высидели до конца все занятия и поняли их ценность. Их явное желание научиться делать калиброванные оценки стало для меня большим сюрпризом — я ожидал, что они вообще откажутся отвечать на вопросы о таких неопределенных вещах».

Навык в калибровке очень пригодился и команде Управления по делам ветеранов, оценивавшей проект повышения надежности информационной технологии. Команде нужно было понять, что она уже знает, а что остается неизвестным, и выяснить неопределенность, связанную с надежностью. Первоначальные оценки (все интервалы значений и приписанные им вероятности) отражают приблизительность имеющихся данных о рассматриваемых величинах. Эта неопределенность служит основой для следующих этапов: использования вероятностей в модели принятия решений и расчета стоимости информации.

Теперь, научившись вычислять калиброванные вероятности, вы знаете, как количественно рассчитать текущую неопределенность. Умение правильно оценивать калиброванные вероятности крайне важно на следующих этапах измерения. Из глав 6 и 7 вы узнаете, как использовать калиброванные оценки вероятности для определения риска и стоимости информации.

Глава 6. Оценка риска: введение в моделирование методом Монте-Карло