Шум в прогнозировании
Многие суждения по сути являются прогнозами, и поскольку качество поддающихся проверке прогнозов может быть выражено в цифрах, при их изучении мы много узнаем о шумовых помехах и смещении. В этой части книги мы уделим внимание прогнозированию.
В главе 9 сравнивается точность прогнозов, выполненных профессионалами, машинными методами и по простым правилам. И вас не удивит сделанный нами вывод, что профессионалы в этом соревновании занимают третье место. В главе 10 мы исследуем причины такого результата и покажем, что основным фактором низкого качества выносимых людьми оценок является шум.
Чтобы прийти к этим выводам, мы должны выразить качество прогнозов в цифрах, а для этого понадобится единица измерения точности прогнозирования. С ее помощью мы сможем ответить на вопрос: насколько близко прогнозы ковариируют (то есть соотносятся) с результатами? Если, например, кадровые агентства в плановом порядке оценивают потенциал новых сотрудников, мы можем подождать несколько лет, выяснить, как те работают, и проверить, насколько точно рейтинги ковариируют с фактическими показателями. Прогнозы точны, если сотрудники, чей потенциал был высоко оценен при приеме на работу, показали такие же высокие результаты в процессе трудовой деятельности.
Единицей измерения этого интуитивного сопоставления является процент согласия92 (ПС), который отвечает на более специфический вопрос. Допустим, вы принимаете на работу двух сотрудников, выбрав их случайным образом. Какова вероятность, что тот из них, кто получил более высокий балл при оценке потенциала, также лучше покажет себя в работе? При идеальной точности прогнозов ПС составит 100 % и ранжирование двух сотрудников по потенциалу позволит идеально предугадать эффективность их работы в будущем. А если прогнозы совершенно бесполезны, совпадение окажется таким же, как при случайном выборе, то есть вполне вероятно, что сотрудник с более высоким потенциалом не будет работать лучше: ПС составит 50 %. Данный пример был всесторонне изучен, и мы обсудим его в главе 9. Более простой случай: ПС при оценке соотношения длины стопы и роста для взрослых мужчин составляет 71 %. То есть если вы встретите двух мужчин разного роста, вероятность того, что у более высокого будет больший размер стопы, будет равна 71 %.
ПС как прямая, интуитивная мера ковариации весьма полезна, однако специалисты не используют ее в качестве стандартной единицы измерения. Стандартной единицей измерения является коэффициент корреляции (r), который находится в диапазоне от 0 до 1, когда две переменные положительно связаны. В предыдущем примере коэффициент корреляции между ростом и размером стопы составляет около 0,6.
Представить себе коэффициент корреляции можно разными способами. Вот один из них, интуитивно понятный: корреляция между двумя переменными – это процент общих для них определяющих факторов. Вообразим, например, что некоторый признак полностью определяется генетически. Мы ожидаем увидеть для этого признака корреляцию 0,5 между родными братьями и сестрами, у которых 50 % общих генов, и 0,25 между двоюродными, у которых 25 % общих генов. Мы также можем интерпретировать корреляцию 0,6 между ростом и размером стопы93 как предположение, что 60 % фактора, определяющего рост, определяет и размер обуви.
Две вышеописанные единицы измерения ковариации непосредственно связаны друг с другом. В таблице 1 приведены значения ПС94 для разных значений коэффициента корреляции. Далее в этой книге мы будем всегда указывать обе единицы измерения при обсуждении качества прогнозов, выполненных людьми и моделями.
Таблица 1. Коэффициент корреляции и процент согласия (ПС)
В главе 11 мы обсудим важную причину ограниченности прогнозов по точности, а именно тот факт, что большинство оценок выносится в состоянии, называемом объективной неосведомленностью, потому что многие обстоятельства, от которых зависит будущее, просто не могут быть известны. Поразительно, что мы обычно ухитряемся в упор не видеть эту ограниченность и давать прогнозы с уверенностью (а зачастую и с излишней самоуверенностью). И наконец, в главе 12 мы покажем, что объективная неосведомленность наносит ущерб не только нашему умению прогнозировать события, но даже и способности понимать их – а это существенная часть ответа на загадку, почему шумы так трудно разглядеть.
Глава 9Оценочные суждения и модели
Многие заинтересованы в прогнозировании будущей результативности сотрудников при приеме на работу – как в своей фирме, так и в других. Именно потому этот процесс широко используется специалистами в качестве примеров. Возьмем двух сотрудниц крупной компании. При приеме на работу Моника и Натали были протестированы специализированной консалтинговой фирмой, которая оценила по шкале от 1 до 10 баллов их лидерские качества, коммуникативные навыки, навыки межличностного общения, профессионально-технические компетенции и мотивацию карьерного роста (таблица 2). Ваша задача – спрогнозировать эффективность их работы два года спустя по шкале от 1 до 10.
Таблица 2. Два кандидата на руководящую должность
Большинство людей, столкнувшись с подобным типом проблем, пробегают глазами каждую строку и выдают немедленный ответ, зачастую после подсчета в уме среднего количества баллов. Если вы поступите так, то, вероятно, сделаете вывод, что Натали является более сильным кандидатом: она получила на 1–2 балла больше Моники.
Суждение или формула?
Ваш неформальный подход к данной проблеме известен как клиническое суждение. Вы обдумываете информацию, возможно, производите быстрые вычисления, сверяетесь со своей интуицией и выносите вердикт. По сути, в данной книге мы называем просто суждением именно клиническое суждение.
Теперь предположим, вы решали задачу по прогнозированию как участник эксперимента. Моника и Натали были выбраны из базы данных, включающей сотни менеджеров, принятых на работу несколько лет назад, которым присвоили рейтинги по пяти независимым параметрам. На базе этих рейтингов вы спрогнозировали эффективность их работы. Показатели трудовой деятельности менеджеров в новой должности в настоящее время доступны. Насколько близки эти показатели к вашей клинической оценке?
Данный пример представлен на основе реальных исследований прогнозирования эффективности95 работы персонала. И будь вы участником исследования, вас, вероятно, не удовлетворил бы результат. Дипломированные психологи, привлеченные международной консалтинговой фирмой для этой работы, получили корреляцию 0,15 с реальной производительностью (ПС=55 %). Другими словами, когда они аттестовали одного из кандидатов как более сильного – как и мы на примере Моники и Натали, – то вероятность того, что выбранный кандидат показал бо́льшую эффективность, оказалась 55 %, что практически не точнее, чем при случайном выборе. Результат, мягко говоря, не впечатляет.
Возможно, вы объясните столь низкую точность тем, что данные рейтинги не подходят для прогнозирования. Тогда мы должны задаться вопросом: а много ли полезной для прогнозирования информации действительно содержат рейтинги кандидатов? Как они могут обусловить индекс предсказания, который будет иметь максимально возможную корреляцию с фактическим результатом?
На эти вопросы можно ответить стандартными статистическими методами. В представленном исследовании они добиваются оптимальной корреляции 0,32 (ПС=60 %) – что также не впечатляет, однако существенно выше, чем клиническая оценка.
Такая техника, называемая множественной регрессией, определяет показатель, являющийся взвешенным средним96 прогностических факторов. С ее помощью вычисляется оптимальный набор весовых коэффициентов, призванный максимизировать корреляцию между общим прогнозом и целевой переменной. Оптимальные коэффициенты минимизируют MSE (среднеквадратическую ошибку) прогнозов – отличный пример доминирующей роли метода наименьших квадратов в статистике. Как можно ожидать, прогностический фактор, наиболее сильно коррелирующий со значением целевой переменной, получает больший коэффициент97, а наиболее бесполезный получает коэффициент, равный нулю. Коэффициент может быть и отрицательным: количество неоплаченных штрафов за нарушение правил дорожного движения как фактор управленческого успеха, по всей вероятности, получит отрицательный коэффициент.
Использование множественной регрессии – один из примеров механического прогнозирования. Есть много видов механического прогнозирования, в диапазоне от простых правил («нанять любого, кто окончил среднюю школу») до сложнейших моделей с привлечением искусственного интеллекта. Однако линейные регрессивные модели (их еще называют «рабочими лошадками98 исследований в области оценок и принятия решений») получили наибольшее распространение. Чтобы сократить количество профессионального жаргона в книге, мы будем называть линейные модели простыми моделями.
Исследование, которое мы проиллюстрировали на примере Моники и Натали, было одним из многих сопоставлений клинического и механического прогнозирования. Все они отличаются простой структурой99:
▣ для прогнозирования конечного результата (эффективность работы одних и тех же людей) используется набор переменных (в нашем случае рейтинг кандидатов);
▣ клиническое прогнозирование выполняют люди;
▣ алгоритм (например, множественная регрессия) использует те же прогностические факторы для механического прогнозирования тех же результатов;
▣ сравнивается точность клинического и механического прогнозирования.
Пол Мил: оптимальная модель одерживает над вами верх
Знакомясь с клиническим и механическим прогнозированием, люди хотят знать, как их сравнивать. И как выглядит прогноз, сделанный человеком, на фоне вычисленного по формуле?
Такой вопрос задавался и ранее, однако наибольшее внимание привлек к себе лишь в 1954 году, когда профессор психологии Университета Миннесоты Пол Мил опубликовал книгу «Клинический и статистический прогнозы: теоретический анализ и фактологический обзор»100. Мил представил обзор двадцати исследований в сфере высшего образования и в психиатрической диагностике, где клинические оценки противопоставлялись механическим прогнозам. Он пришел к однозначному выводу, что простые механические правила в большинстве случаев одерживают верх над экспертами. Мил обнаружил – практикующие врачи и профессионалы в других областях удручающе слабы в том, что сами нередко считают своей особенно сильной стороной, а именно в способности обобщать информацию.
Чтобы понять, насколько поразительны эти открытия и при чем здесь шум, следует разобраться в работе простой механической модели. Ее ключевая характеристика состоит в том, что одно и то же правило применимо ко всем случаям. Каждый прогностический фактор имеет свой вес, и этот вес одинаков для каждого случая. Вы можете подумать, что столь строгие ограничения ставят модель в крайне невыгодное положение по отношению к экспертам. Вернемся к нашему примеру. Возможно, вы решите, что для Моники сочетание ее мотивации и технических навыков является самым важным качеством и компенсирует ее недостаточность в других областях, в то время как слабость Натали по этим двум параметрам не станет серьезной проблемой с учетом ее сильных сторон. Неявным образом вы уже определили для двух женщин разные средства достижения успеха. Эти вполне убедительные клинические теории по сути присваивают в двух случаях различный вес одному и тому же фактору – ухищрение, на которое неспособна простая модель.
Другое ограничение простой модели – разница в 1 единицу для какого-либо предиктора всегда дает одинаковый эффект (и половинный эффект при разнице в 2 единицы). Клиническая интуиция часто нарушает это правило. Если, к примеру, вас впечатлил полученный Натали высший балл 10 за коммуникативные навыки и в значительной степени повлиял на ее репутацию в ваших глазах, вы сделали то, чего никогда не сделает простая модель. А для формулы, которая рассчитывает средневзвешенное значение, разница между 10 и 9 баллами – то же самое, что разница между 7 и 6 баллами. Клиническая оценка не подчиняется этому правилу. Напротив, она отражает распространенное интуитивное мнение: разница в 1 балл может быть несущественной в одних случаях и критической в других. Возможно, вам захочется это проверить, однако мы подозреваем, что ни одна простая модель не сможет точно объяснить ваши оценки Моники и Натали.
Исследование, на которое мы опирались для этих случаев, – один из очевидных примеров схемы Мила. Как мы заметили ранее, клинические прогнозы достигают корреляции 0,15 (ПС=55 %) при оценке эффективности работы кандидатов, а механические прогнозы – 0,32 (ПС=60 %). Вспомните, с какой уверенностью вы сравнивали оценки, полученные при тестировании Моники и Натали. Результаты Мила настойчиво указывают, что ваша удовлетворенность правотой своих суждений была иллюзией, а точнее, иллюзией достоверности.
Иллюзия достоверности присутствует в любых прогнозах и возникает вследствие распространенной ошибки, когда люди не различают два этапа задачи прогнозирования: количественные оценки на основании имеющихся в распоряжении фактов и прогнозирование реальных результатов. Зачастую вы можете быть абсолютно уверены в своем мнении, какой из кандидатов выглядит более достойным, однако догадаться, который из них действительно окажется лучшим – совершенно другое дело. Например, можно с уверенностью заявлять, что Натали выглядит более сильным кандидатом, чем Моника, однако никак нельзя утверждать, что Натали будет работать более успешно. Причина лежит на поверхности: вам известно достаточно много, чтобы дать оценку кандидатам, однако заглянуть в будущее вам не дано.
К сожалению, в нашем сознании граница размывается. Вы озадачены тем, что не видите разницу между количественной оценкой и прогнозированием? Поздравляем, вы в отличной компании: эту разницу не видит практически никто. А если вы уверены в своих прогнозах так же, как и в оценках, вы стали жертвой иллюзии достоверности.
От иллюзии достоверности не застрахованы и клиницисты. Можно с уверенностью представить себе реакцию психолога на выводы Мила о том, что тривиальные формулы, последовательно примененные, превосходят клинические оценки. Шок, недоверие, презрение к поверхностным исследованиям, авторы которых вздумали усомниться в чудесах клинической интуиции. Подобную реакцию легко понять: схема Мила противоречит субъективному восприятию, а большинство из нас скорее доверится собственному опыту, чем всяким наукообразным заявлениям.
Мил сам неоднозначно относился к своим выводам. Его имя ассоциируется с превосходством статистики над клиническими оценками, и можно представить Мила непреклонным критиком внезапных озарений или крестным отцом количественного анализа, как мы сказали бы сейчас. Однако этот образ был бы карикатурным. Мил, помимо своей академической карьеры, работал как практикующий психоаналитик. В его кабинете висел портрет Фрейда101. Он был энциклопедистом102; кроме психологического, получил философское и юридическое образование, писал статьи по метафизике, религии, политическим наукам и даже парапсихологии. (Мил настойчиво утверждал, что «в телепатии что-то есть».) Ни одно из этих человеческих качеств не соответствует стереотипу упертого бухгалтера. Мил ничего не имел против клиницистов – скорее наоборот. Однако когда он задался целью, доказательства преимуществ механического подхода к задаче были «массивными и последовательными».
«Массивными и последовательными»103 – это еще мягко сказано. Две тысячи статей 104 по результатам 136 исследований однозначно подтверждали превосходство механической агрегации над клиническими оценками. Исследования проводились в различных областях, включая диагностику гепатита, годность к военной службе и удовлетворенность в браке. Механическое прогнозирование оказалось более точным в 63 исследованиях, статистические закономерности наблюдалась еще в 65, а клинические прогнозы выиграли состязание в 8 случаях. При этом полученные результаты умаляли преимущества механического прогнозирования, которое к тому же является более быстрым и дешевым. Более того, оценки экспертов в большинстве исследований на самом деле имели несправедливое преимущество за счет доступа к «личной» информации105, не включенной в компьютерную модель. Выводы однозначно подтверждали: простая модель одерживает верх над человеком.
Голдберг: ваша модель одерживает над вами верх
Выводы Мила поднимают важные вопросы. Почему, собственно, формула побеждает? Что именно она делает лучше? Хотя по сути следовало бы задаться вопросом: а что именно люди делают хуже? Ответ прост – люди во многих отношениях слабее статистических моделей. И одна из критических слабостей состоит в том, что суждения людей подвержены влиянию шума.
Чтобы подтвердить этот вывод, обратимся к другому направлению в исследовании простых моделей, которое берет начало в городке Юджин, штат Орегон. Пол Хофман был состоятельным человеком и мудрым психологом, а еще не следовал установленным в науке правилам. Он основал научно-исследовательский институт, где собрал под одной крышей нескольких чрезвычайно эффективных ученых, превратив Юджин во всемирно известный центр изучения оценок и прогнозов.
Одним из этих исследователей был Льюис Голдберг, известность которому принесла ведущая роль в разработке модели личности, получившей название «Большой пятерки». В конце 1960-х годов106, развивая идеи ранних работ Хофмана, Голдберг изучал статистические модели, описывающие суждения людей.
Построить «модель эксперта» почти так же просто, как и любую отражающую реальность модель. Используются те же прогностические факторы. В нашем исходном примере это пять рейтингов менеджеров. Используется тот же инструмент – множественная регрессия. Вот только целевая переменная другая. Вместо прогнозирования реальных результатов работы формула применяется к прогнозированию оценочных суждений – к примеру, ваши оценки Моники, Натали и других менеджеров.
Сама идея моделирования ваших суждений как расчета средневзвешенной величины может показаться весьма странной. Разве так формируется ваше мнение? Когда вы думаете – в клиническом смысле – о Монике и Натали, вы не применяете к каждой из них одно и то же правило. Более того, вы вообще не применяете никаких правил. «Модель эксперта» не является реалистичным описанием вашего мыслительного процесса.
Однако, даже если вы ничего не вычисляете по линейной формуле, вы можете давать свои оценки, как если бы занимались вычислениями. Опытные игроки в бильярд бьют по шару так, словно решают в уме сложные уравнения107, описывающие механику каждого отдельного удара. Подобно им и вы можете выдавать прогнозы, будто пользуетесь простой формулой – хотя на деле решаете намного более сложные задачи. Условная модель, построенная по принципу «если бы», которая с приемлемой точностью прогнозирует, что станут делать люди, вполне пригодна, даже когда она явно не подходит в качестве описания процесса. Это довод в пользу простых моделей. Комплексный обзор исследований выявил, что в 237 случаях средняя корреляция между «моделью эксперта» и клиническими оценками составила 0,8 (ПС=79 %). Пусть не идеальный, однако довольно высокий результат108 в поддержку условной модели.
Вопрос, который побудил Голдберга заняться исследованиями, звучал так: насколько хорошо простая «модель эксперта» может прогнозировать реальные результаты? Поскольку модель является грубой аппроксимацией человека, было бы разумно допустить, что не очень хорошо. А много ли мы теряем в точности, когда модель заменяет человека?
Ответ может вас удивить. Прогнозы не стали менее точными, когда их генерировала модель. Наоборот, точность повысилась. В большинстве случаев модель обошла профессионалов, работу которых имитировала. Эрзац оказался лучше оригинального продукта.
Этот вывод был подтвержден исследованиями в различных сферах. Первые повторения109 опытов Голдберга включали в себя прогнозы успехов выпускников средних школ. Исследователи дали задание 98 участникам спрогнозировать средний балл 90 старшеклассников на основе десяти ключевых факторов. На базе прогнозов исследователи построили линейную модель каждого участника и сравнили, насколько точно спрогнозировали средний балл участники и модели. Для каждого из 98 участников эксперимента модель оказалась лучше! Десятилетия спустя сводный обзор исследований за минувшие полстолетия110 заключил, что модели стабильно превосходили экспертов, работу которых моделировали.
Мы не знаем, получали ли участники исследований обратную связь. Однако представьте свое смятение, если кто-то скажет вам, что грубая модель ваших оценочных суждений – практически карикатура – оказалась в действительности более точной, чем вы сами! Для большинства из нас процесс вынесения оценок является сложным, многогранным и интересным именно потому, что не сводится к простым правилам. Мы гордимся собой и своей способностью делать прогнозы, когда создаем и применяем сложные правила или задействуем свою интуицию, выделяя отдельный случай на фоне остальных – короче говоря, когда даем оценки, которые не сводятся к тупому вычислению средневзвешенного значения. Изучение «модели эксперта» подкрепляет выводы Мила о бесполезности искусных умозаключений. Зачем впустую напрягать ум? Сложность и многогранность необязательно приводят к повышению точности прогнозов.
В чем же дело? Чтобы разобраться в выкладках Голдберга, нам нужно понять, в чем различия между вами и «вашей моделью». Что является причиной расхождений между вашими реальными оценками и результатом, который выдает простая модель?
Статистическая модель ваших оценок не может добавить ничего к заложенной в нее информации. Все, что под силу модели, – вычитать и упрощать. В частности, простая модель не будет формировать никаких сложных правил, которых придерживаетесь вы. Если вы думаете, что разница между 10 и 9 баллами при оценке коммуникативных навыков более значима, чем разница между 7 и 6 баллами, или кандидат, набравший твердые 7 баллов по каждому из параметров, предпочтителен кандидату, получившему те же 7 баллов в среднем, однако имеющему очевидные сильные стороны и явно выраженные слабые, то «ваша модель» не будет копировать ваши сложные правила – даже если вы сами применяете их с образцовым постоянством.
Отказ от следования вашим изощренным правилам приведет к потере точности только в том случае, если ваши догадки верны. Допустим, вам нужно спрогнозировать чью-то успешность в решении сложных задач, имея на входе два параметра – навыки и мотивацию. Взять формулу и вычислить средневзвешенное значение тут недостаточно, потому что никакая мотивация не восполнит серьезный дефицит навыков – и наоборот. Если вы используете более сложную комбинацию входных параметров, то точность ваших прогнозов повысится и станет больше, чем у модели, которая не в состоянии проявить подобную гибкость. С другой стороны, сложные правила зачастую дают вам лишь иллюзию достоверности и фактически наносят ущерб качеству ваших предположений. Некоторые хитрые комбинации действительно эффективны, однако в большинстве из них нет смысла.
К тому же простая «модель эксперта» не будет воспроизводить внутриэкспертный шум в ваших прогнозах. Она не сможет воспроизвести отклонения в ту или иную сторону, возникающие в результате ваших непредсказуемых реакций, от которых вы не застрахованы в каждом конкретном случае. Никакая модель не подвержена влиянию обстановки и вашего психического состояния в момент прогноза. Скорее всего, эти шумовые ошибки в оценках ни с чем систематически не коррелируют, а это значит, что в большинстве случаев они могут рассматриваться как случайные.
Следствием устранения шума из ваших оценок всегда будет повышение точности ваших прогнозов111. Предположим, например, что корреляция между вашими прогнозами и фактическим результатом составляет 0,5 (ПС=67 %), однако 50 % расхождений состоят из шумов. Если полностью устранить шум из ваших оценок – то есть создать вашу идеальную модель, – то корреляция с тем же фактическим результатом подскочит до 0,71 (ПС=75 %). Другими словами, сокращение шума автоматически повышает достоверность прогнозов.
Итак, если заменить вас моделью, произойдут две вещи: устранение вашей изобретательности и устранение ваших внутриэкспертных шумовых помех. Грубый вывод, что «модель эксперта» более эффективна, чем сам эксперт, несет в себе важное послание: преимуществ громоздких правил, используемых человеком – если таковые существуют, – в большинстве случаев недостаточно, чтобы компенсировать негативное воздействие шума. Вам может казаться, что вы более искусны, более проницательны и более чувствительны к нюансам, чем линейная карикатура вашего мыслительного процесса. А на самом деле в ваших суждениях больше шума.
Почему же сложные правила вредят точности прогнозов, хотя мы упорно верим, что они помогают проникнуть в самую суть? Прежде всего, большинство сложных правил, применяемых людьми, далеко не всегда верны. Однако есть и другая проблема: даже если сложные правила верны в принципе, они неизбежно применяются в условиях, которые нечасто наблюдаются на практике. Например, вы сделали вывод, что приема на работу достойны уникальные в своем роде кандидаты, даже если по остальным параметрам они показывают посредственные результаты. Только вот незадача: уникальные кандидаты, как следует из определения, встречаются крайне редко. Поскольку подсчитать уникальность в баллах – дело неблагодарное, то бо́льшую часть высоких оценок по этому показателю можно отнести к везению, и действительно талантливый соискатель часто остается за бортом. Оценки эффективности, которые могут подтвердить, что подобный «оригинал» в будущем станет суперзвездой, так же несовершенны. Погрешности измерения с обоих полюсов неизбежно снижают достоверность прогнозов, и те самые редкие случаи, вероятнее всего, будут пропущены. Преимущества верных догадок быстро тонут в погрешности измерения.
Мартин Ю и Нейтан Канцел в своих исследованиях112 изложили более радикальную версию доказательств Голдберга. В своей работе (на ее базе мы составили пример Моники и Натали) они пользовались данными, полученными от международной консалтинговой фирмы, которая привлекла экспертов для оценки 847 кандидатов на руководящие должности, по трем отдельным выборкам. Эксперты выставили баллы по семи параметрам и, используя свои клинические оценки, определили общий предиктивный балл. Результаты получились крайне невыразительными.
Ю и Канцел решили сравнить экспертов не с лучшей простой «моделью эксперта», а со случайной линейной моделью. Они сгенерировали десять тысяч наборов случайных значений по семи прогностическим параметрам и, используя десять тысяч случайных формул113, спрогнозировали результаты будущей деятельности кандидатов.
Исследователи сделали поразительное открытие: любая линейная модель, примененная последовательно ко всем случаям, вероятнее всего, одержит верх над человеком в прогнозировании результатов на основе той же информации. В одной из трех выборок 77 % из десяти тысяч случайных линейных моделей оказались точнее, чем эксперты. В двух остальных выборках превзошли человека 100 % случайных моделей. Или, попросту говоря, в данном эксперименте оказалось практически невозможно сгенерировать простую модель, которая работала бы хуже экспертов.
Из эксперимента следуют более серьезные выводы, чем из работ Голдберга с моделями экспертов, – и в самом деле, случай из ряда вон. В данных исследованиях эксперты выступили крайне слабо в абсолютном выражении, что помогает объяснить, почему их превзошли даже заурядные линейные модели. Конечно, из этого не следует, что любая модель совершеннее любого человека. И все же тот факт, что механическое следование любому простому правилу (Ю и Канцел назвали его «бессознательная логика») может существенно повысить точность оценок в сложных задачах, иллюстрирует ощутимое влияние шума на достоверность клинических прогнозов.
Наш краткий обзор показал, как шум ухудшает качество клинических оценок. Над человеком легко одерживают победу простые формулы – модели реальности, «модели экспертов» и даже случайно сгенерированные модели. Это открытие свидетельствует в пользу «бесшумных» методов. Такие правила и алгоритмы мы рассмотрим в следующей главе.
К разговору об оценках и моделях
«Люди уверены, что они используют комплексный подход и проявляют изобретательность, вынося свои оценки. Однако сложность и изобретательность большей частью напрасная трата сил – обычно они не помогают превзойти точность простых моделей».
«Даже по прошествии более шестидесяти лет после выхода книги Пола Мила нас по-прежнему шокирует сама мысль о том, что механическое прогнозирование одерживает верх над человеком».
«В оценках столько шума, что «бесшумная» модель эксперта добивается более точных прогнозов, чем собственно эксперт».