Как измерить все, что угодно — страница 13 из 16

У человеческого разума действительно есть ряд замечательных преимуществ над обычными механическими инструментами измерения. Он обладает уникальной способностью оценивать сложные и неоднозначные ситуации, в которых другие средства бесполезны. Любой пятилетний ребенок справится с задачей распознавания лица или голоса человека в толпе, но разработчикам никак не удается научить этому программное обеспечение (хотя определенный прогресс в этом направлении уже и достигнут). И мы еще очень далеки от создания искусственного интеллекта, способного написать рецензию на кинофильм или бизнес-план. Человеческий разум — действительно непревзойденный инструмент истинно объективного измерения. Точнее, он был бы таковым, если бы не многочисленные допускаемые человеком систематические ошибки и заблуждения.

Не секрет, что человеческий мозг не просто машина для вычисления. Это сложная система, познающая окружающую среду и приспосабливающаяся к ней путем выработки разнообразных упрощающих правил. Практически все эти правила приносят правду в жертву простоте, а многие даже противоречат друг другу. Те, что не вполне обоснованны, но, тем не менее, полезны на практике, называются эвристикой. А те из них, что явно противоречат здравому смыслу, называются заблуждениями.

Если мы все же надеемся использовать человеческий разум в качестве инструмента измерения, то должны придумать, как усилить присущие ему преимущества и в то же время нейтрализовать погрешности. Последствия излишней самоуверенности экспертов устраняет калибровка вероятностей; другие характерные для людских суждений виды систематических ошибок и искажений устраняют специальные методы, особенно эффективные, когда необходимо высказать много мнений по аналогичным вопросам. Примерами могут служить оценка затрат на реализацию новых проектов по информационным технологиям, определение рыночного потенциала новых продуктов либо аттестация работников. Только человеческие суждения позволяют учесть все качественные факторы при проведении этих измерений, однако людям всегда нужна помощь.

Хомо абсурдус: странные мотивы наших решений

Упомянутые в главе 8 отклонения — лишь отдельные разновидности ошибок измерения. Отклонения связаны с погрешностями наблюдения, возникающими при проведении случайной выборки или управляемого эксперимента. Но когда измерение пытаются осуществить с привлечением экспертов-оценщиков, то возникает другая проблема — проблема когнитивного искажения. Мы уже видели пример такого искажения, когда говорили о присущей экспертам излишней самоуверенности, но есть и другие — некоторые из них перечислены ниже.

• Зацикленность. Это когнитивное искажение, уже обсуждавшееся в главе 5 по калибровке, но заслуживающее более детального рассмотрения. Оказывается, что если просто думать о какой-то цифре, пусть и не имеющей отношения к вопросу, то это может повлиять на ваш ответ. В одном эксперименте Амос Тверски и лауреат Нобелевской премии по экономике 2002 г. Дэниел Канеман спросили у испытуемых, какой процент стран — членов ООН составляют африканские государства. Одну группу респондентов спросили, превышает ли этот показатель 10 %, а вторую — 65 %. И тем и другим сообщили, что число, предложенное в вопросе, было выбрано наугад (хотя на самом деле это было не так). Затем каждую группу попросили дать свой ответ. Представители первой (10 %) в среднем дали ответ 25 %, а члены второй группы (65 %) — 45 %. Несмотря на уверенность респондентов в случайности предложенных им значений, эти числа все же повлияли на ответы. В своем более позднем эксперименте Канеман показал, что число, на котором зацикливаются участники, может не иметь к делу вообще никакого отношения. Он попросил каждого испытуемого написать на бумаге четыре последние цифры номера своего полиса социального страхования, а затем оценить количество врачей в Нью-Йорке. Как ни странно, Канеман обнаружил корреляцию в 0,4 между оценкой числа врачей и цифрами полиса социального страхования. Эта корреляция была умеренной, но намного превышала объясняемую чистой случайностью.

• Эффекты ореола. Если люди сначала замечают некий факт, который настраивает их за или против какого-то варианта решения, то, получив в дальнейшем новую информацию, каким бы ни было ее содержание, они обычно воспринимают ее как аргумент в пользу сделанного ими первого заключения. Например, если при первом контакте у вас сразу же сложилось положительное мнение о человеке, то вы, скорее всего, истолкуете в позитивном свете и любые новые сведения, которые получите о нем позже (эффект ореола святости). А в случае отрицательного впечатления истолкуете эти сведения негативно (эффект дурной славы). Подобные эффекты возникают даже тогда, когда первоначальное ощущение, казалось бы, не должно влиять на оценки, сделанные впоследствии. В эксперименте, проведенном Робертом Капланом из Университета штата Сан-Диего, привлекательная внешность авторов статей заставляла рецензентов давать об их работах лучшие отзывы[41]. Испытуемых просили оценить статьи, написанные студентами, причем к каждому экземпляру прилагалась фотография автора. Присвоенные работам оценки сильно коррелировали с баллами внешней привлекательности, определенными особой группой экспертов. Интересно, что всем испытуемым предложили на рецензию статью, написанную одним и тем же человеком, но с приложением разных фотографий.



• Стадный эффект, или эффект группового давления. Оказывается, что если вы хотите выяснить мнение экспертов, то лучше опрашивать их по отдельности, а не всех вместе, поскольку в последнем случае возникает дополнительная погрешность. В 1951 г. психолог Соломон Эш предложил группе испытуемых (студентов) проверить их зрение (см. рис. 12.1). Когда он спрашивал каждого в отдельности, длина какой линии ближе всего к контрольному отрезку, то правильный выбор (отрезок С) сделали 99 % испытуемых. Одновременно Эш провел опыт: в комнате находились несколько человек, и каждого из них по очереди просили сделать этот выбор. Однако испытуемые не знали, что несколько первых опрашиваемых сами были участниками эксперимента и их проинструктировали выбрать линию А вместо С. После первого, заведомо неверного, ответа наступала очередь реального испытуемого. Если он слышал перед этим один ложный ответ, то только в 97 % случаев делал правильный выбор. Когда перед испытуемым ложный ответ давали двое или трое, действительные участники делали правильный выбор в 87 и 67 % случаев соответственно. Если же к неверным первым ответам добавлялось некое групповое поощрение (усиливая тем самым давление к проявлению конформизма) на случай, что все участники ответят правильно, только 53 % реальных респондентов выбирали нужную линию С.

• Изменение предпочтений. Как только люди начинают склоняться к одному варианту, они фактически меняют свои предпочтения по поводу дополнительной информации. Они настраиваются на те сведения, которые поддерживают их первоначальное решение. Это похоже на эффекты ореола святости и дурной славы, но в данном случае связано со сменой предпочтений в процессе принятия решения. Например, если менеджеры решили предпочесть проект А проекту В, а вы скажете им после того, как этот выбор сделан, что первый проект менее рискован, но на его реализацию уйдет больше времени, чем на второй, то вам ответят, что снизить риск для них всегда было важнее, чем сократить сроки реализации. А если вы доложите, что проект А более рискован, но на его реализацию уйдет меньше времени, то получите реплику: всегда считалось, что сократить сроки реализации важнее, чем снизить риск.

К счастью, подобные иррациональные эффекты человеческой способности к оценке всегда можно как-то нейтрализовать. Ряд решений этой проблемы предложил ведущий специалист по когнитивному искажению Джей Эдвард Руссо из Корнелльского университета. Например, для устранения эффекта изменения предпочтений Руссо предложил простую форму слепого перебора: прежде, чем приступить к оценке предлагаемых вариантов, эксперты должны были сформулировать и ранжировать свои предпочтения. Тогда никто уже не смог бы сказать позже, что всегда считал какой-то критерий важнейшим только для того, чтобы не менять свое первое решение.

Как и в случаях уже обсуждавшихся ранее ошибок эксперимента и смещений выборок, первое, что необходимо сделать, — признать само существование проблемы. Только подумайте о том, как перечисленные выше эффекты могут сказаться на экспертных оценках затрат на реализацию проекта, объемов будущих продаж, возможного роста производительности труда и т. п. Специалисты обычно не ощущают, что на их мнение повлияла не имеющая к делу информация, — ведь люди вообще редко осознают, что повинны в искажении. Всем нам хотелось бы думать, что мы не так интеллектуально лабильны, как объекты этих исследований, но лично я обнаружил, что наиболее внушаемы как раз те, кто уверен в непоколебимости своих суждений.

Значение систематизации: пример оценки эффективности деятельности

Казалось бы, декан факультета информатики и принятия решений Университета штата Иллинойс (Чикаго) должен предпочитать сложные количественные методы для оценки буквально любого объекта. И все же когда доктору Аркалгуду Рамапрасаду потребовалось измерить эффективность деятельности преподавателей факультета, он придумал довольно простой подход. «Раньше аттестационные комиссии копались в кучах бумаг, — говорит доктор Рам (он предпочитает, чтобы его называли так). — Члены комиссии усаживались за столом, заваленным личными делами преподавателей, и обсуждали их работу». Публикации, полученные гранты, сделанные каждым сотрудником предложения, присвоение профессиональных званий и степеней обсуждались в произвольном порядке и оценивались по пятибалльной шкале. Подобный бессистемный подход использовался для принятия таких важных решений, как повышение заработной платы профессорско-преподавательскому составу.

Доктор Рам понимал, что главным недостатком этой процедуры является неупорядоченность представляемой информации и что любое усовершенствование данного процесса, даже простая систематизация данных, может дать большой положительный эффект. Чтобы исправить положение, он проанализировал подаваемые на аттестацию сведения о работе преподавателей и представил их в виде большой матрицы. Каждая ее строка содержала данные об одном преподавателе, а каждый столбец показывал отдельную категорию профессиональных достижений (публикации, награды и т. д.).

Ученый даже не пытался далее формализовать анализ этих данных, он по-прежнему пользовался пятибалльной шкалой. Оценки эффективности в баллах основаны на консенсусе мнений членов аттестационной комиссии, а новый метод просто гарантирует, что они изучают одни и те же сведения. Мне этот метод показался слишком простым, и когда я предложил рассчитывать на основе этих данных какие-нибудь показатели, Рам ответил: «Когда информация представлена в таком явном виде, люди сразу обращают внимание на разницу между собой и своими коллегами, а это совсем не одно и то же, что попытка разобраться в неких условных показателях. Комиссия спорит о присваиваемых баллах, но не о предложенных к рассмотрению данных». Когда ранее ее членам приходилось анализировать разнородную информацию, в их оценки вкрадывалось больше ошибок.

Это еще один полезный пример конструктивного разностороннего подхода к измерению. Наверное, нашлись бы возражения против самой идеи оценивать результаты деятельности преподавателей на основании того, что новый метод принесет с собой новые ошибки и не решит проблему исключений. Не менее вероятно и то, что на самом деле критиков данного подхода беспокоит вероятность оказаться на последнем месте в случае использования подобного подхода. Но доктор Рам знает, что при всех своих недостатках новый метод измерения все же лучше того, что делалось до сих пор. Ведь неопределенность снижается, а значит, то, что он делает, — это измерение. Сегодня доктор Рам в соответствии с таксономией Стивенса (см. главу 3) может, по крайней мере, с определенной уверенностью сказать, что преподаватель А работает лучше преподавателя В. А если учесть, что эти оценки используются для принятия решений о продвижении по службе или повышении зарплаты, то большего и не требуется.

Моя единственная претензия к этому подходу — возможность (и это было бы нетрудно) использовать более аналитический метод расчета и тем самым усовершенствовать процедуру оценки. Доктор Рам не решил ни одну из обсуждавшихся нами проблем когнитивного искажения; он только устранил потенциальный информационный «шум» и погрешность, связанную с анализом разнородной информации о преподавателях. Вот почему я считаю, что систематизация данных — всего лишь необходимое условие применения других способов решения этих проблем.

На удивление простые линейные модели

Существует еще один метод, не самый теоретически обоснованный и даже не самый эффективный, но простой. Когда приходится формулировать суждения по аналогичным вопросам, рассчитывают взвешенные значения. Если сравнивают «деловые возможности», например варианты инвестиций в недвижимость, то можно определить несколько наиболее важных для вас факторов, оценить эти факторы для каждого варианта в баллах и объединить полученные результаты в некую агрегированную величину. Для инвестиций в недвижимость такими критериями могут быть желательное местоположение, затраты, возможный рост спроса на этот вид недвижимости, наличие залогов и т. д. Затем следует «взвесить» каждый фактор путем умножения его баллов на определенный весовой коэффициент и суммировать все результаты, чтобы получить общее значение.

Одно время я категорически отрицал ценность метода взвешенных коэффициентов, уподобляя его астрологии. Однако последующие исследования убедили меня, что он все-таки имеет определенные преимущества. К сожалению, методы, обладающие, на первый взгляд, некими преимуществами, не относятся к тем, которые обычно выбирают компании.

По мнению исследователя в области науки о принятии решений и автора ряда работ Джея Эдварда Руссо, эффективность метода взвешенных коэффициентов «зависит от того, что вы делаете. Людям обычно нужно зайти слишком далеко в своих усилиях, чтобы понять: и простые методы дают хорошие результаты». На самом деле, даже расчет простейших взвешенных коэффициентов, похоже, облегчает процесс принятия решений. В 1979 г. Робин Доуз из Мичиганского университета опубликовал статью под названием «Robust Beauty of Improper Linear Models» («Строгая красота неправильных линейных моделей»)[42], в которой писал: «Весовые параметры в этих моделях нередко не имеют значения. Главное — знать, что измерить, а затем сложить».

Здесь необходимо сделать два уточнения. Во-первых, опыт доктора Рама в области оценки эффективности преподавателей вполне согласуется с тем, что говорят Руссо и Доуз. Ранее использовавшиеся в университете методы давали такую погрешность, что одна только систематизация исходных данных уже способствовала улучшению измерений. Кроме того, когда Доуз говорит о коэффициенте, он на самом деле говорит о нормированном z-показателе, а не о балле какой-то условной шкалы. Он берет значения одного параметра для всех оцениваемых вариантов и строит их нормированное распределение так, что его среднее значение равно нулю, а каждая величина преобразовывается в ряд средних квадратичных отклонений от среднего в ту или иную сторону (например, — 1,7, +0,5 и т. д.). Доуз может, например, взять из матрицы доктора Рама число публикаций преподавателя и проделать с этими данными следующие процедуры:

1. Всем значениям столбцов в матрице оцениваемых альтернатив присвоить баллы по какой-либо порядковой или количественной (метрической) шкале. Заметьте, что предпочтительнее использовать количественные шкалы с вещественными единицами измерения (например, доллары, месяцы).

2. Рассчитать среднее значение для всех величин каждого столбца.

3. Использовать формулу Excel =stdevp(.) расчета среднего квадратичного отклонения для генеральной совокупности каждого столбца.

4. Рассчитать z-показатель, соответствующий каждому значению в столбце, по формуле:



5. В результате получаем средний балл, равный 0, нижнюю границу в пределах —2 или —3, а верхнюю границу — +2 или +3.

Причиной работоспособности данного подхода является то, что он следит за правильностью выбора весовых коэффициентов. Если не пересчитывать присваемый балл в z-показатель, то вы можете использовать для одного фактора более высокое значение, чем для другого, а это окажет такой же эффект, как если бы вы изменили их относительные веса. Предположим, например, что вы оцениваете проекты инвестирования в недвижимость и оцениваете каждый фактор по десятибалльной условной шкале. Однако один из оцениваемых факторов (желаемое местонахождение) довольно сильно варьирует и вы склонны присвоить ему 7 или 8 баллов, в то время как критерию возможного роста спроса на недвижимость дали 4 или 5 баллов. В результате, даже если вы считаете, что рост спроса важнее, желательное местонахождение перевесит. Предложенное Доузом преобразование баллов в z-показателе решает проблему неизбежного искажения при взвешивании.

Хотя этот простой метод и не решает напрямую ни одну из перечисленных нами проблем когнитивного искажения, исследования Доуза и Руссо показали, что принимать решения с его помощью становится легче, пусть и ненамного. Похоже, что данный подход обеспечивает, по крайней мере, некоторое снижение неопределенности и улучшение качества принимаемых решений. Однако для принятия серьезных и рискованных решений, когда стоимость информации очень высока, мы можем и должны использовать гораздо более сложные приемы, чем банальная систематизация данных и расчет взвешенных коэффициентов.

Как стандартизировать любую оценку: модели Раша

Выбирая из огромного разнообразия имеющихся статистических методов те, о которых следовало бы рассказать в этой книге, я старался не ограничиваться уже ранее знакомыми мне. В частности, для меня новинкой стали приемы дидактического тестирования (educational testing), практически неизвестные специалистам по измерению, работающим в других областях. Именно таким приемам посвящена книга с многозначительным названием «Objective Measurement» («Объективное измерение»). Подобная публикация могла быть всесторонним исследованием проблем измерения, одинаково интересным для астронома, инженера-химика и программиста, но в ней говорится лишь об оценке способностей человека и дидактическом тестировании. Это все равно, как если бы вы увидели старую карту с названием «Карта мира», на которой на самом деле изображен богом забытый островок в Тихом океане и которая была составлена людьми, не знавшими, что населяют лишь крошечную часть огромной планеты. Один специалист по дидактическому тестированию как-то рассказал мне об «инвариантном сравнении» — характерной черте измерения, которая, по его словам, «настолько фундаментальна, что ее можно считать на 10 % основой статистики». Другой эксперт в этой же области уверял, что это суть физики. Из всех физиков и статистиков, которых я позднее спрашивал об «инвариантном сравнении», что-то слышал о нем только один. По всей видимости, то, что специалисты по дидактическому тестированию считают общей для всех фундаментальной основой, на самом деле имеет значение только для них. Справедливости ради отмечу, что, наверное, кто-то скажет то же самое и о книге, претендующей научить читателя измерять все, что угодно.

Но вообще говоря, у специалистов по дидактическому тестированию есть чему поучиться. Ведь им приходится решать все проблемы по оценке возможностей человека — большую группу задач измерения того, что многие компании считают неизмеряемым. Концепция инвариантного сравнения имеет отношение к ключевой проблеме проведения многих тестов на определение способностей человека, например теста на IQ. Принцип инвариантного сравнения гласит, что если один инструмент измерения говорит, что А больше, чем В, то и другой инструмент должен продемонстрировать то же самое. Иными словами, результаты сравнения А и В должны быть одинаковыми, какие бы инструменты измерения ни использовались. Для физика это очевидно настолько, что даже не заслуживает упоминания. Казалось бы, если на одних весах А весит больше, чем В, то и другие весы должны показывать то же самое, даже если первые весы пружинные, а вторые — цифровые. Аналогичные результаты должны наблюдаться с IQ-тестами или любыми другими тестами, оценивающими человеческую эффективность. Однако при проведении таких испытаний может произойти нечто совсем иное: результаты теста на IQ с одним набором вопросов могут сильно отличаться в выводах от результатов аналогичного теста с другим набором вопросов. Поэтому один тест может показать, что Боб умнее Шерри, а второй — что Шерри умнее Боба.

Другое проявление той же проблемы наблюдается, когда разным экспертам приходится оценивать способности больших коллективов. Если аттестуемых слишком много, то и их делят на группы, и каждый человек имеет дело с разным составом судей. Возможно, один эксперт оценивает одно качество одного аттестуемого, а другой обращает внимание совсем на другое или же разным людям даются задачи разной степени сложности. Предположим, например, что вы хотите оценить квалификацию менеджеров проекта по тому, как они справятся с порученными им программами. Если таких менеджеров несколько, то вам потребуется не один судья. Экспертами могут стать непосредственные начальники аттестуемых менеджеров как люди, наиболее знакомые с их работой. Отметим, что проекты могут различаться по сложности. Предположим далее, что все менеджеры, независимо от того, какие проекты им поручены и кому они подчиняются, должны конкурировать за один фонд бонусов или за одни и те же карьерные места. Те, кого будет оценивать строгий судья или кому поручены более сложные проекты, окажутся в невыгодном положении по сравнению с другими. Сравнение разных менеджеров не будет инвариантным (то есть независимым от того, кто его проводит и по каким критериям). На самом деле, доминирующими решающими факторами, определяющими рейтинг проект-менеджеров, могут оказаться условия, не контролируемые ими.

Решение этой проблемы в 1961 г. предложил датский статистик Георг Раш[43]. Он разработал метод предсказания вероятности того, что испытуемый правильно ответит на вопрос бинарного типа «верно/неверно» на основе 1) процента в генеральной совокупности других респондентов, ответивших на этот вопрос правильно, и 2) процента других вопросов, на которые данный испытуемый уже ответил правильно. Выполнение тестов человеком, не знакомым с предлагаемым набором вопросов, можно предсказать с погрешностью, поддающейся вычислению, даже если давать испытуемым разные тесты.

Во-первых, Раш рассчитал вероятность того, что случайно выбранный из группы человек ответит на вопрос правильно. Она просто равна доле тех, кто дал верный ответ, в общем числе ответивших на данный вопрос. Этот показатель называется у Раша уровнем трудности задания (item difficulty). Затем Раш рассчитал логарифм отношения вероятностей — натуральный логарифм отношения вероятностей правильного и неправильного ответов. Если трудность задания была 65 %, то это означает, что 35 % респондентов ответили правильно, а 65 % — неправильно. Отношение вероятности ответить правильно к вероятности ответить неправильно — 0,548, а натуральный логарифм 0,548 составляет —0,619. При желании можно записать следующую формулу в программе Excel:


=ln (A1/(1 — A1)),


где А1 — вероятность ответить правильно.

Затем Раш проделал ту же процедуру с вероятностью, что этот человек ответит правильно на любой вопрос. Поскольку данный респондент давал правильные ответы в 82 % случаев, соответствующий логарифм составил ln(0,82/0,18), или 1,52. Наконец, Раш сложил значения двух логарифмов и получил: (-0,619) + 1,52 = 0,9. Чтобы снова преобразовать это в вероятность, можно записать следующую формулу в Excel:


= 1/(1/exp(0,9) + 1).


В результате получится 71 %. Это означает, что есть 71-процентная вероятность того, что данное лицо ответит на этот вопрос верно, учитывая трудность задания и правильность его ответов на другие вопросы. При большом числе вопросов и (или) большом числе испытуемых мы обнаружим следующее: когда вероятность получить правильный ответ (уровень трудности задания) 70 %, около 70 % людей ответят на этот вопрос верно; когда вероятность получить правильный ответ (уровень трудности задания) 80 %, около 80 % людей ответят на данный вопрос верно, и т. д. Таким образом, модели Раша — просто еще один способ калибровки вероятностей.

Мэри Лунц из чикагской компании Measurement Research Associates Inc. применила модели Раша к решению важной задачи в области общественного здравоохранения, порученной ей Американским обществом клинической патологии (American Society of Clinical Pathology). Использовавшийся этим обществом ранее порядок сертификации патологов давал большую погрешность, которую необходимо было уменьшить. Каждый кандидат должен был разобраться в одном или двух случаях, и каждый его ответ оценивался одним или несколькими экспертами. Практически невозможно одному эксперту оценить все задания, как невозможно гарантировать, что все они будут одинаковой сложности. Раньше получение кандидатом сертификата почти целиком зависело от того, какой экзаменатор ему попадется и какой случай придется разбирать на экзамене. Иными словами, снисходительные экзаменаторы могли пропустить некомпетентных кандидатов. Лунц рассчитала стандартные очки Раша для каждого эксперта, экзаменационного задания, а также кандидата для всех уровней квалификации.

В результате появилась возможность предсказать, пройдет ли кандидат экзамен у среднего экзаменатора при случае средней сложности, или у снисходительного эксперта при легком случае, или, наоборот, у строгого экзаменатора при очень сложном случае. И теперь (наверняка не слишком скоро для самих кандидатов) наконец появилась возможность полностью устранить при сертификации отклонения, связанные с характером экзаменатора или сложностью задания.

ОЦЕНКА УМЕНИЯ ЧИТАТЬ С ПОМОЩЬЮ БАЛЛОВ РАША

Интересное направление применения статистики Раша — оценка сложности прочтения того или иного текста. Доктор Джек Стеннер, президент и основатель компании MetaMetrics, Inc., использовал модели Раша для разработки схемы «Lexile» — способа оценки умения читать и писать, а также анализа сложности текста для восприятия. Система «Lexile» позволяет оценивать навыки чтения, письма, выполненные тесты, тексты и способности студентов, впервые сделав возможным сравнение наиболее распространенных языков. Располагая персоналом всего в 56 человек, компания MetaMetrics добилась в этой сфере гораздо больше, чем любая другая государственная или частная организация. Так:

• баллы «Lexile» используются во всех основных тестах на умение читать. Свои показатели «Lexile» знают около 20 млн американских учащихся;

• система «Lexile» использована для классификации по сложности восприятия около 100 тыс. книг и десятков миллионов журнальных статей;

• программы обучения чтению по учебникам некоторых авторов основаны на системе «Lexile»;

• на систему «Lexile» переходят все новые учебные заведения штатов и местные учебные заведения.

Показатель 100 баллов по системе «Lexile» означает текст первого уровня сложности, а 1700 — это уровень сложности текста решений Верховного суда, научных журналов и т. п. Компания MetaMetrics считает, что читатель, набравший 600 баллов, сумеет на 75 % понять содержание текста, уровень сложности которого составляет также 600 баллов.

Устранение непоследовательности людских суждений: модель линзы

В 1950-х годах психолог по имени Эгон Брунсвик захотел статистически измерить принимаемые экспертами решения[44]. Большинство его коллег интересовались тем скрытым процессом принятия решений, через который обычно проходят такие эксперты. А Брунсвику хотелось описать те решения, которые они принимали в реальности. О себе и других специалистах по психологии принятия решений он говорил: «Мы должны быть не столько геологами, сколько картографами». Иными словами, свою задачу он видел в простом описании того, что можно наблюдать, а не в анализе внутренних процессов. В связи с этим Брунсвик начал свои эксперименты, в которых экспертам предлагалось принять какое-то решение (скажем, о приеме выпускника в аспирантуру или о статусе опухоли) на основании определенной предоставленной информации. Затем Брунсвик подобрал наиболее подходящую регрессионную модель для большого числа собранных экспертных оценок (сейчас это можно легко проделать с помощью инструмента «Regression» в программе Excel, как показано в главе 9). В результате он вывел нечто вроде формулы с набором неявных весов, осознанно или неосознанно использованных экспертами при вынесении оценок.

Удивительно, что он также обнаружил, что эта «формула», хотя в ней использовались вовсе не объективные данные прошлых периодов, а экспертные суждения, позволяет получить более точные оценки, чем сделанные специалистами. Например, эта формула, получившая известность под названием «модель линзы», лучше эксперта определяет, кто будет хорошо учиться в аспирантуре или какая опухоль является злокачественной.

Модель линзы применяется в самых разных целях, например для составления медицинских прогнозов, идентификации самолетов операторами корабельных радаров и расчета вероятности краха компании по ее финансовым показателям. В каждом случае результаты, полученные с помощью модели, ничем не хуже, а в большинстве случаев и значительно лучше, чем оценки экспертов.

Это происходит потому, что модель линзы устраняет непоследовательность в суждениях. Обычно экспертные оценки различаются даже в одинаковых ситуациях. Однако линейная модель экспертной оценки позволяет получать не противоречащие друг другу величины.

Более того, поскольку модель линзы — математическое выражение, элементами которого являются известные исходные данные, можно компьютеризировать и обрабатывать такие объемы информации, которые люди не смогли бы проанализировать по очереди.

Сама семиэтапная процедура расчетов довольно проста. Я слегка изменил ее, чтобы учесть и другие методы (например, калибровку вероятностей), ставшие известными после того, как Брунсвик разработал свой способ (см. рис. 12.3).




1. Выберите экспертов, которые будут участвовать в процессе.

2. Если им придется оценивать вероятность или интервал значений, то калибруйте их.

3. Попросите экспертов составить список (не более чем из 10 пунктов) факторов, требующих учета при вынесении оценки (например, «продолжительность реализации проекта разработки программного обеспечения повышает риск неудачи» или «уровень доходов лица, обращающегося за ссудой, влияет на вероятность погашения им взятого кредита»).

4. Разработайте ряд сценариев с разными сочетаниями значений каждого из выявленных факторов воздействия. За основу можно взять и реальные, и чисто гипотетические примеры. Составьте по 30–50 сценариев для каждого эксперта.

5. Попросите экспертов дать оценку каждого сценария.

6. Проведите регрессионный анализ, следуя указаниям, изложенным в главе 9. Независимые переменные «Х» — предоставленные экспертам исходные данные. Зависимая переменная «Y» — оценка, которую должен был дать эксперт.

7. Программа Excel создаст таблицу результатов, в которой вы найдете коэффициент для всех столбцов данных из ваших сценариев. Найдите коэффициент, соответствующий каждой переменной, умножьте ее на этот коэффициент, а затем суммируйте все полученные таким образом произведения. Это и есть величина, которую вы пытаетесь измерить.

Результатом процедуры, описанной выше, является таблица с весами для всех переменных, входящих в модель. Поскольку данная модель внутренне непротиворечива, мы знаем, что уменьшили ошибку, по крайней мере частично.

Быстро выяснить, насколько модель линзы снижает неопределенность, можно, оценив непоследовательность экспертных суждений. Для этого нужно предложить экспертам дублирующие друг друга сценарии, что должно остаться для них в тайне. Иными словами, седьмой и двадцать девятый сценарии в списке могут быть одинаковыми. Изучив два десятка сценариев, люди забудут, что уже знакомы с этой ситуацией, и вполне могут дать отличающийся ответ. Вдумчивые эксперты обычно последовательны в своих суждениях о сценариях. Тем не менее именно непоследовательностью объясняется 10–20 % ошибок большинства экспертных оценок, их полностью устраняет метод линзы.

Поборник простых, неоптимизированных линейных моделей Робин Доуз согласен с тем, что Брунсвик добился значительного улучшения по сравнению с обычными суждениями экспертов. Вместе с тем он утверждает, что такой результат вовсе не связан с определением «оптимальных» весов при помощи регрессии. В своей статье Доуз на четырех конкретных примерах показал, что модель линзы дает лишь небольшое улучшение по сравнению с моделями, которые он назвал «неправильными», где веса факторов не выводятся из регрессии, а считаются одинаковыми или, как это ни странно, приписываются случайным образом[45].

Доуз пришел к выводу, что главная ценность экспертов заключается в том, что они определяют подлежащие учету факторы и относят их к «хорошим» или «плохим» (то есть решают, будут ли их веса иметь знак «плюс» или «минус») и что рассчитывать точные значения этих весов с помощью регрессии вовсе не обязательно.

Приведенные Доузом примеры, возможно, и не позволяют судить об эффективности модели линзы как инструмента решения задач, возникающих в бизнесе[46], но его выводы все равно полезны. Во-первых, собственные данные Доуза доказывают определенное преимущество, пусть и небольшое, оптимальных линейных моделей над «неправильными» моделями. Во-вторых, его выводы подтверждают ту мысль, что некая непротиворечивая модель (с оптимизированными весами или без них) лучше, чем единственно человеческое суждение эксперта. И все же я думаю, что усилия по созданию оптимальных моделей, особенно когда нужно принять действительно важное решение, вполне оправдывают даже то небольшое улучшение, которое они обеспечивают по сравнению с более простыми моделями.

Однако я убежден, что мы часто добиваемся лучших результатов, чем даже «оптимальные» линейные модели. Регрессионные модели, используемые мной для бизнеса, обычно подчиняются нескольким правилам, например такому: «Продолжительность реализации проекта является фактором дифференциации, только если она превышает год. Все проекты, реализуемые в течение года и менее, одинаково рискованны». В этом смысле такие модели не вполне линейны, но позволяют выявлять более тесную корреляцию, чем строго линейные модели линзы. Все модели, о которых Доуз упоминает в своей статье, строго линейны, но, как правило, дают более низкие значения корреляции, чем те, что я получаю с помощью нелинейных моделей.

Одним правилам меня научили эксперты, другие я сформулировал сам, проанализировав их оценки. Например, если специалист, анализирующий вероятность существенного расширения содержания разрабатываемого программного обеспечения, говорит мне, что не проводит грань между проектами, продолжительность которых составит менее года, то я просто не использую в качестве переменной исходную «продолжительность проекта». Взамен я так изменяю эту функцию, чтобы любое значение продолжительности до 12 месяцев было равно 1, 13 месяцев — 2, 14 месяцев — 3 и т. д. Но если эксперт мне этого и не скажет, то я догадаюсь обо всем по его оценкам. Предположим, что мы нанесли экспертные оценки на график зависимости вероятности значительного (требующего, скажем, увеличения объема работ более чем на 25 %) изменения спецификаций от продолжительности реализации проекта (в месяцах). Получим следующую картину (см. рис. 12.4).



Если вам кажется, что геометрическим местом этих точек служит, скорее, пунктир, то вы не одиноки в своем мнении. Оценивая проект, на реализацию которого уйдет больше года, придется учесть другой набор факторов. Возможно, с точки зрения эксперта, одни переменные больше или меньше зависят от продолжительности проекта. Модель линзы, учитывающая эти нелинейные зависимости, не только лучше соответствует мнениям специалистов; еще важнее, что она лучше коррелирует с фактическими результатами.

Бывает также, что удачный выбор переменной требует использования еще более сложных правил. Иногда существует тесная корреляция зависимой переменной не с самой независимой функцией, а с ее логарифмом, с обратной к ней величиной или с ее отношением к произведению других независимых переменных. Эксперименты в этой области только приветствуются. Как правило, я пробую несколько вариантов линейных переменных для одних и тех же исходных данных и обычно обнаруживаю, что один из них явно выигрывает на фоне других.

Оказывается, что вы можете пользоваться моделями взвешенных оценок разной степени сложности. Если не боитесь экспериментировать с нелинейными методами, то вам подойдут именно они. Если это для вас слишком сложно, но вы разбираетесь в линейной регрессии, то применяйте ее. Если вы не знакомы с регрессионным анализом, то в вашем распоряжении z-показатели Доуза с одинаковыми весами. Каждый из этих методов эффективнее другого, более простого, и все они эффективнее, чем обычная оценка эксперта.

Панацея или плацебо? Сомнительные методы измерения

ВАЖНЕЙШЕЕ ПРАВИЛО ИЗМЕРЕНИЯ

Самое главное — никогда не используйте метод, способный увеличить ошибку первоначальной оценки.

Кое-кто из читателей может подумать: до сих пор автор пытался снизить планку требований к измерениям настолько, что одно только это сделает измеримым любой объект или явление. Ведь я с самого начала заявил: измерением может считаться все, что снижает неопределенность. Разнообразные ошибки наблюдения — вовсе не препятствие, если только неопределенность после измерения ниже, чем до него. Даже методы анализа того, что обычно считается «субъективным» (например, модель Раша и модель линзы), — тоже измерение, если есть убедительные доказательства, что они действительно позволяют получать более точные оценки. Вместе с тем существуют такие способы, которые я не могу считать измерением даже при этих отнюдь не жестких критериях. Поэтому сейчас, прежде чем перейти к описанию новых методов количественной оценки, я хочу благоразумно притормозить и сделать ряд оговорок.

Раз не нужно больше заботиться о точности измерения, наше определение его как «снижение неопределенности», безусловно, делает выполнимой оценку чуть ли не всего, что угодно. Но это определение предполагает и строгое ограничение. Если какой-то метод на самом деле не уменьшает неопределенность или, более того, ее увеличивает, то это нельзя считать измерением и его ценность для принимающих решение равна нулю. В подобном духе запоздалого измеренческого скепсиса мы должны обсудить два весьма распространенных метода измерения: анализ «затраты/выгоды» и метод субъективных взвешенных показателей.

Только приступив к написанию этой книги, я попросил своих многочисленных знакомых сообщать мне об интересных решениях в области измерений, которые я смог бы использовать в качестве примеров из практики. Я сказал, что ищу «интересные примеры удачного решения трудных или даже казавшихся неразрешимыми задач измерения, при этом желательно, чтобы результаты оказались поразительными и заставили изменить первоначальное решение». Недостатка в предложениях не было, и я обсудил по телефону намного больше практических примеров, чем в конце концов включил в свою книгу. Однако я заметил, что многие аналитики, консультанты и бизнесмены, похоже, ставят знак равенства между проведением измерений и обоснованием проекта. Они не приводили примеров интересного использования результатов наблюдений для снижения неопределенности в связи с каким-то неизвестным показателем. Вместо этого они объясняли мне, как готовили обоснование своего любимого проекта.

Справедливости ради скажу, что анализ «затраты/выгоды» вполне может считаться разновидностью разложения на составляющие, о котором мы говорили в главе 8, и сам по себе способен снизить неопределенность без дальнейших измерений. В процессе обоснования проекта проблему разлагают на составляющие точно так же, как в свое время Ферми это делал своими вопросами. При этом не являясь сам по себе измерением, основанным на наблюдениях, процесс все же позволяет узнать что-то новое о том, с чем мы уже были знакомы. Но, как я отмечал ранее, согласно моему многолетнему опыту, при высокой стоимости информации об изучаемых переменных одно только разложение на составляющие достаточно снижает неопределенность всего в 25 % случаев. А чаще всего, если стоимость информации оправдывает усилия по снижению неопределенности, все равно требуются определенные эмпирические наблюдения.

Между тем, похоже, что единственный прием измерения, которым пользуются многие компании, — это разложение на составляющие (например, при обосновании проекта); применять эмпирические методы они даже не пытаются. Каждая переменная при этом представляет собой просто первоначальную оценку (одного эксперта либо целой рабочей группы) и всегда выражается конкретным значением, а не диапазоном, свидетельствующим о том, что точная ее величина неизвестна. Никакие опросы и эксперименты не проводятся; не применяются и методы, позволяющие уточнить субъективные суждения. Те, кто с таким энтузиазмом рассказывал мне об обосновании проекта как о примере проведения измерений, не смогли, сколько я ни просил об этом, назвать хотя бы один показатель, который использовался ими при анализе «затрат/выгод» и который был бы рассчитан в результате наблюдений реального мира.

Совсем иное поведение наблюдается, когда задача состоит в том, чтобы на этапе обоснования проекта определить точные значения, особенно когда эксперт участвует в нем и заинтересован в результате. Оно отличается от действий калиброванного эксперта, указывающего первоначальный 90-процентный доверительный интервал. Один или несколько собравшихся для анализа проекта специалистов рассматривают со всех точек зрения каждую оценку. Вынуждаемые обстоятельствами выбрать точные значения, несмотря на всю имеющуюся неопределенность и условность ситуации, они задаются вопросом: «Каким должно оказаться это значение, чтобы оно стало приемлемым для других и в то же время подтверждало правоту моей прежней точки зрения?» Это почти то же самое, как если бы мы использовали термины «консенсус» и «факт». Обсуждавшийся ранее эксперимент Эша со стадным эффектом — лишь один из недостатков подобного подхода.

Еще одна настораживающая тенденция в принятии решений менеджерами компаний — использование взвешенных показателей такого типа, когда и сами показатели, и присвоенные им веса — субъективные, произвольные величины, а не использовавшиеся Доузом z-значения. Как и обсуждавшиеся ранее простые линейные модели, такие методы могут поставить перед менеджером портфеля проектов задачу ранжировать их по категориям типа «организационный риск» или «стратегическое соответствие» и т. д.

Подобные методы в большинстве своем предполагают использование от 4 до 12 категорий оценки, а некоторые — больше 100. Обсуждаемому проекту обычно присваивают балл, например по пятибалльной шкале, для каждой категории. Сумму баллов затем умножают на весовой коэффициент (иногда тоже составляющий от 1 до 5), отражающий относительное значение данной категории. Обычно в компаниях используемые весовые коэффициенты стандартизируют, чтобы можно было оценивать проекты по сопоставимым критериям. Скорректированные на весовые коэффициенты баллы затем суммируют и получают общий показатель обсуждаемой программы.

Присваивание баллов — способ выражения сравнительного значения, предпочтительности и т. д. без помощи реальных единиц измерения. Хотя подсчет баллов справедливо считают разновидностью порядкового измерения, обсуждавшегося в главе 3, я всегда считал, что он в определенном смысле предполагает подмену действительного желаемым, что вносит дополнительные ошибки по следующим четырем причинам.

1. Нередко баллы используют в ситуациях, где вполне оправдано использование обычных количественных показателей, которые были бы намного информативнее (например, иногда в баллы пересчитывают доходность инвестиций или риск вместо того, чтобы использовать эти параметры, как это сделал бы актуарий или финансовый аналитик).

2. Баллы привносят свой собственный тип ошибки в процесс оценки, так как зачастую показатели, определенные по разным шкалам, несопоставимы и неоднозначны. Рассмотрим, например, число звезд, которое кинокритик может присвоить кинофильму или ресторанный обозреватель — ресторану (в первом случае обычно используют шкалу четыре звезды, а во втором — пять звезд). В данной ситуации две звезды не означают, что продукт или услуга в два раза лучше, чем то же, но с одной звездой, а посещение четырех однозвездочных кинофильмов совсем не равнозначно просмотру одного четырехзвездочного.

3. Баллы бывают информативными, если являются элементами опроса большой группы людей (например, при проведении исследования по определению степени удовлетворенности потребителей). Однако они существенно теряют информативность, если используются индивидуумами для оценки возможностей, стратегий, инвестиций и т. п.: людей редко удивляют те баллы, которые они присваивают сами.

4. Баллы лишь отражают порядковый номер, но многие пользователи увеличивают ошибку тем, что расценивают их как реальные величины. Как уже говорилось, более высокое порядковое число означает «больше», но не показывает, насколько больше. Умножение и суммирование порядковых чисел иногда дает результаты, о которых пользователь и не догадывается. Вот почему этот метод может привести к непредвиденным последствиям.

Стоит подробнее остановиться на том, чем такие баллы отличаются от z-показателей, использованных Робином Доузом, а веса — от весов, получаемых с помощью модели линзы. Во-первых, в «неправильных» линейных моделях Доуза и оптимизированных моделях линзы Брунсвика применяются исходные данные, выраженные в реальных единицах измерения (например, продолжительность реализации ИТ-проекта в месяцах или средний балл поступающего в аспирантуру), а вовсе не баллы, присвоенные экспертами по некоей произвольно выбранной шкале. Во-вторых, такими баллами не были и веса, использовавшиеся Доузом и Брунсвиком. Психология применения произвольных шкал гораздо сложнее, чем кажется. Когда эксперты выбирают веса по пятибалльной шкале, они вовсе не имеют в виду, что балл 4 вдвое важнее балла 2. Из-за этой неоднозначности пятибалльная (семибалльная или какая угодно другая) шкала только добавляет ошибку к процессу оценки.

На мой взгляд, единственное наблюдаемое достоинство систем условных взвешенных коэффициентов то, что менеджерам обычно хватает здравого смысла игнорировать полученные таким образом результаты. Я обнаружил, что лица, принимающие решения, отвергают итоги подобных расчетов очень часто, и мне не удалось найти ни одного доказательства того, что эти баллы когда-либо способствовали принятию совершенно иного или даже просто более удачного решения. И это притом что менеджеры нередко тратят массу времени и сил на разработку и применение своих условных шкал.

Один из таких методов иногда используется в информационных технологиях под ошибочным названием прикладной информационной экономики[47]. Его представляют как объективный, систематизированный и формализованный подход, однако, фактически, он не основан ни на одной общепризнанной экономической модели и на самом деле не может считаться относящимся к экономике. При ближайшем рассмотрении его название оказывается совершенно неправильным. Гораздо точнее выглядит термин «метод расчета субъективных нескорректированных взвешенных коэффициентов для области ИТ».

Полученный этим методом итоговый показатель для оцениваемого ИТ-проекта не имеет смысла и с точки зрения финансов. Описательное определение баллов в каждой категории и весовые коэффициенты, приписываемые этим категорям, никак не привязаны к научным подходам — ни к теоретическим, ни к эмпирическим. На самом деле это всего лишь еще один метод исключительно субъективной оценки, не предполагающий, в отличие от метода Раша или модели линзы, корректировку ошибки. Многие из тех, кто рассчитывает взвешенные коэффициенты для информационных технологий, утверждают, что метод имеет свои преимущества, но доказательств этому пока нет.

Любопытно, что прикладная информационная экономика предполагает преобразование полезных и имеющих экономический смысл величин (например, ROI) в баллы. Этот процесс происходит следующим образом: отрицательной или нулевой ROI присваивается балл 0, ROI, составляющей от 0,1 до 299 % — балл 1, ROI от 300 до 499 % — 2 и т. д. Иными словами, скромная 5-процентная ROI обозначается таким же баллом, как 200-процентная. В более количественных методах определения приоритетности инвестиционных проектов подобная разница в доходности означала бы, что один проект намного предпочтительнее другого. А здесь два проекта, существенно и очевидно различающихся по доходности инвестиций, попадают в одну категорию. «Чистый эффект» от такой процедуры — «уничтожение» информации.

Того же мнения придерживается специалист по управлению информационными технологиями Барбара Макнарлин. Она проанализировала 25 разных способов оценки преимуществ, в том числе несколько методов взвешенных коэффициентов[48]. Макнарлин охарактеризовала эти методы как бесполезные, причем ни в одном из них не нашла научно-теоретической основы.

Пожалуй, лучше всего это сформулировал Пол Грей, книжный обозреватель «Journal of Information Systems Management». В своей рецензии на книгу «Information Economics: Linking Business Performance to Information Technology» («Информационная экономика: влияние информационной технологии на эффективность компании»), одну из важнейших работ по методу прикладной информационной экономики, Грей написал: «Не обращайте внимания на слово „экономика“ в названии. Все, что в этой книге есть экономического, — это приложение о графиках затрат»[49]. Желая похвалить, Грей на самом деле указал на основной недостаток данного подхода: он не имеет никакого отношения к экономике.

Еще один распространенный вариант метода расчета условных взвешенных коэффициентов называется методом анализа иерархий (analytical hierarchy process, АНР). От других аналогичных методов он отличается в двух отношениях. Во-первых, АНР основан на ряде попарных сравнений, а не на прямом присваивании баллов каким-либо характеристикам. При этом экспертов спрашивают, является ли один критерий «намного более предпочтительным», «чуть более предпочтительным» и т. д. по сравнению с другим, и таким же образом разные варианты выбора сравниваются между собой по одному критерию. Например, возникает вопрос: что предпочтительнее — «стратегические преимущества» нового товара А или «стратегические преимущества» нового товара В? Следом идет другой: что предпочтительнее — «риск, связанный с разработкой» товара А или «риск, связанный с разработкой» товара В? Наконец, требуется найти ответ, что важнее — «стратегические преимущества» или «риск, связанный с разработкой нового товара». Таким образом, сначала эксперты сравнивают проекты по одному критерию, а затем сопоставляются сами критерии. Попарные сравнения не требуют разработки условных шкал, что можно считать преимуществом данного метода. Однако, как ни странно, при использовании АНР результаты сравнений конвертируются в условные баллы.

Второе отличие метода анализа иерархий от других способов расчета условных взвешенных коэффициентов — определение «коэффициента согласованности». Он показывает, насколько ответы не противоречат друг другу. Например, если вы предпочитаете а) возможность получить стратегическое преимущество низкому риску разработки новой продукции и б) низкий риск, связанный с разработкой новой продукции, возможности использовать существующие каналы сбыта, то тогда вы не должны отдавать приоритет возможности использовать существующие каналы сбыта возможности получить стратегическое преимущество. Если таких несоответствий много, то коэффициент согласованности низок. Если ни один ответ не противоречит другому, то коэффициент согласованности равняется 1.

Расчет коэффициента согласованности базируется на одном методе из матричной алгебры — нахождении собственных значений, — применяемом для решения целого ряда математических задач. Поэтому метод АНР нередко называют «теоретически обоснованным», или «математически доказанным». Если бы критерием теоретической обоснованности было просто использование на каком-то этапе математического инструмента (пусть и такого мощного, как нахождение собственных значений матрицы), то тогда доказать правоту новой теории или эффективность нового метода было бы гораздо легче, чем на самом деле. Кто-нибудь нашел бы способ использовать нахождение собственных значений матрицы в астрологии или дифференциальные уравнения в хиромантии. Но ни в том, ни в другом случае ценность самого метода не повысилась бы только потому, что был применен математический прием, доказавший свою эффективность в других условиях.

На самом деле АНР — просто еще один метод расчета взвешенных коэффициентов, особенностью которого является возможность снижения уровня информационного шума за счет выявления противоречащих друг другу ответов. Однако это вряд ли делает его результаты «доказанными», как часто утверждается. Проблема в том, что сравнение таких критериев, как стратегическая согласованность и риск, связанный с разработкой новой продукции, обычно не имеет смысла. Если бы я спросил, что вы предпочитаете — новую машину или деньги, то вы, прежде всего, спросили бы меня, о какой машине и о каких деньгах я говорю. Если бы речь шла о малогабаритном автомобиле среднего класса с пятнадцатилетней историей и миллионе долларов, то вы, наверное, дали бы один ответ, а если бы о новом «роллс-ройсе» и ста долларах, то другой. Тем не менее, по моим наблюдениям, когда группа людей применяет АНР, никто не спрашивает, о какой степени риска разработки новой продукции и о каких объемах затрат идет речь. Как ни странно, они просто дают ответ, как если бы сравнение было очевидно. Такой подход привносит опасность, что одни люди просто представляют себе совсем иные связи между затратами и риском, чем другие, а значит, уровень шума только повышается.

Последний, особенно странный недостаток анализа иерархий — возможность обратного порядка предпочтений[50]. Допустим, вы про-ранжировали с помощью АНР варианты А, B и C так, что самым предпочтительным оказался вариант А. Предположим, что вы откажетесь от варианта С; изменится ли в результате положение вариантов А и В в списке так, что лучшим станет В, а худшим — А? Нелепо, не правда ли? Как ни странно, применение метода анализа иерархий может привести именно к этому.

Существует только один ограничивающий критерий, позволяющий с уверенностью сказать, являются ли методы анализа «затрат/выгод» или расчета взвешенных коэффициентов способами измерения: результатом должно стать повышение предыдущего уровня знания. Если использованный метод только увеличивает прежнюю ошибку, то это не измерение. Если его считают формализованным и систематизированным, но без научных доказательств уменьшения ошибки и принятия более удачных решений, это не измерение. На проведение псевдоизмерений организации нередко тратят больше времени и сил, чем потребовалось бы на применение способов, гарантированно снижающих неопределенность. Зачем же тогда, спрашивается, даже думать об использовании методов, которые фактически не уменьшают неопределенность?

Сравнение методов

В конечном счете, человеческое суждение — совсем не плохой инструмент измерения. Если вы регулярно принимаете большое число аналогичных решений, то модели Раша и линзы, несомненно, помогут вам снизить неопределенность, устранив отдельные типы ошибок, присущие экспертам. Даже простой z-показатель Доуза выглядит, похоже, как определенный шаг вперед по сравнению с мнением эксперта.

Расскажем для сравнения о еще одном подходе, как будто более эффективном, чем все перечисленные методы, — объективной оптимизированной линейной модели. В отличие от других обсуждавшихся в этой главе способов, он никак не зависит от человеческих суждений и поэтому обычно дает намного лучшие результаты. Обычно мы предпочитаем его, но во многих случаях, когда приходится количественно оценивать то, что «не поддается измерению», необходимые для этого подробные, объективные данные за прошлые периоды получить невозможно. Отсюда возникает потребность в таких методах, как модели линзы, Раша и т. д.

В главе 9 мы обсуждали способы проведения регрессионного анализа, нужные, чтобы выделить и оценить эффекты от многочисленных переменных. Имей мы больше данных за прошедшие периоды по некоей периодически возникающей проблеме, полную документацию по каждому фактору, выраженному в реальных единицах измерения (а не в баллах условной шкалы), и возможность зарегистрировать фактические результаты, можно было бы построить «объективную» линейную модель.

Если модель линзы выявляет корреляцию между исходными переменными и экспертными оценками, то объективная модель находит связь между этими переменными и фактическими результатами прошлых периодов. Во всех случаях применения модели линзы, перечисленных в рисунке 12.2, на основе прошлой информации была построена регрессионная модель. Например, врачам были предоставлены медицинские данные о больных раком, а затем на основе оценок их ожидаемой продолжительности жизни была построена модель линзы. Но помимо этого за пациентами продолжали наблюдать и определять их фактическую продолжительность жизни. И если погрешность результата, полученного с помощью модели линзы, оказалась всего на 2 % меньше человеческого суждения, то ошибка оценки на базе объективной модели была меньше уже на 12 %. Средняя погрешность оценок, полученных во всех случаях применения модели линзы (см. рис. 12.2), была на 5 % меньше ошибки мнений экспертов, а средняя ошибка объективной модели — на 30 %. Конечно, даже объективные линейные модели не являются панацеей от всех бед. Как мы говорили в предыдущих главах, обычно дальнейшее разложение задачи на составляющие позволяет снизить неопределенность еще больше. Если бы мы расположили все эти методы в определенном порядке, так, чтобы на одном конце спектра оказались простые экспертные оценки, а на другом — объективная линейная модель, то получили бы следующую картину (см. рис. 12.5).



Несмотря на свои недостатки, описанные ранее методы оценки всегда эффективнее простых экспертных мнений. Такие методы, как модели Раша и линзы, устраняют основные погрешности человеческих суждений и превращают эксперта в гибкий, калиброванный и очень мощный инструмент измерения. По мнению многих специалистов по психологии принятия решений, оспаривать эффективность этих методов все равно, что стегать мертвую лошадь. Лучше всего это сформулировал Пол Мил, профессор психологии Университета штата Миннесота:

Нет ничего странного в том, что в социологии постоянно появляется столько качественно разных исследований, которые ведут к одному заключению. Когда вы проводите 90 исследований [теперь их уже около 150][51] с целью предсказания всего, что угодно, начиная от результатов футбольных матчей до диагноза заболевания печени, и когда вы вряд ли можете назвать хотя бы полдюжины работ, доказывающих, что экспертные оценки лучше, то уже пора сделать практические выводы[52].

Глава 13. Новые инструменты измерения для менеджмента