Как начать думать в понедельник и не перестать во вторник — страница 24 из 28

Понятие репрезентативности Тренды в числах и процентах • Манипулирование статистикой

На своем канале в плейлисте, посвященном когнитивным искажениям, я очень часто говорю кощунственные вещи. И здесь расскажу, почему, когда дело касается обсуждения болезней, не всегда нужно слушать врачей. Звучит дико. Поговорим с вами об ошибке репрезентативности.

В главе «Ошибка фокусировки» я говорил о том, что мы очень часто углубляемся в несущественные вещи, обсуждая и тратя свою энергию на какие-то незначительные обсуждения, упуская при этом из виду глобальные вещи, которые сводят на нет всю необходимость рассмотрения этих самых несущественных вещей. Вспомните пример с попыткой вычислить сложным интеграл, не видя, что он взят в скобки и умножен на ноль.

Среди моей аудитории и вне ее есть врачи, которые говорят: «Вы не видите всей картины, мы находимся на передовой и видим, что вирус очень страшный, больных действительно гораздо больше» и так далее.

Скажу кощунственную вещь: относительно масштабов бедствия не надо вообще слушать врачей, если это не эпидемиологи. (Именно эпидемиологи должны иметь представление о математическом аппарате работы с данными. Пожалуй, только они.) Жутко такое читать? Но, увы, это правда. Врач – такой же человек, как и мы с вами, когда речь заходит о когнитивных искажениях. А в данном вопросе он подвержен им еще больше в силу профдеформации и ошибки репрезентативности. Одно из свойств когнитивных искажений – от них невозможно защититься на 100 %. Это не дефект, а свойство эволюционного и биологического развития нашего мозга. И врачи тут ничуть не в лучшем положении, чем мы с вами. Врач – специалист по болезням, а не специалист по матстатистике и теории вероятности. И то, что описываемые события и случаи связаны с болезнями, на неспособность медработников оперировать статистически понятиями, которыми и являются степень угрозы, вирулентность, распространяемость и опасность, это, увы, никак не влияет.

Врачи находятся на передовой и каждый день видят огромное количество заболевших людей, и в этом главная проблема. Причина этому – ошибка репрезентативности.

Репрезентативность – это соответствие наблюдаемой группы характеристикам общей группы. Допустим, вы продаете стиральный порошок домохозяйкам и решили сделать опрос среди мультимиллионеров, которые владеют автомобилями «бентли» и собственными самолетами. Вы собрали эту фокус-группу, опросили, какой порошок им нравится, и выяснили, что они вообще ничего не знают про порошки.

Логично было бы результаты этого опроса распространить на всех людей, в том числе на домохозяек, пенсионеров, военных и так далее? Конечно же, нет! Выборка из миллионеров не отвечает характеристикам домохозяек. В таких случаях говорят, что выборка нерепрезентативна.

Использование результатов опроса миллионеров для определения наиболее популярной в обществе марки стирального порошка и называется ошибкой репрезентативности. Мы наблюдаем кого-то, кто совершенно не отражает общность.

Есть анекдот, где трое старых слепых ученых-слонов решили выяснить, на что же похож человек, и поскольку они были слепые, то изучили человека на ощупь и пришли к заключению, что человек – это что-то похрустывающее, липкое и мокрое. Так вот, будет ли объективным мнение трех слонов, если мы их опросим? Конечно, нет. Это будет нерепрезентативная выборка, и нам не нужны мнения слепых слонов, которые не могут адекватно сказать, что такое человек.

Но если в случае с миллионерами все очень наглядно и просто, то бывают ситуации, когда ошибка репрезентативности может быть очень коварна и заметна далеко не сразу. Приведу пример с моего канала FreshLife28. Аудитория канала составляет более 740 000 человек, и часто всплывают такие комментарии: «Антон, огромное спасибо, вы объясняете лучше, чем врач. Мой эндокринолог мне такого сказать не мог и не мог решить проблему, только бэкал и мэкал. Посмотрел вас и решил свою проблему, а врачи все неучи и дилетанты».

На такие комментарии я всегда отвечаю, что делать подобные выводы неправильно. Несмотря на то что нас здесь собралось сотни тысяч, кто эти сотни тысяч? Здесь собралась аудитория, которой врачи помочь не смогли. Понимаете? А тот, кому врач помог, на канал FreshLife28 не придет – у них нет проблем, которые надо решать.

И если человек пришел к хорошему врачу-эндокринологу и тот решил его проблему, человек не придет на канал FreshLife28 решать проблемы с щитовидной железой и с лишним весом.

А это значит, что выборка из сотен тысяч зрителей канала самых разных возрастов и социальных групп при этом не является репрезентативной. На канале FreshLife28 собралась аудитория, которой в большинстве случаев врачи не смогли помочь. И делать выводы по комментариям на канале FreshLife28 о том, что все вообще врачи дилетанты и неучи – неверно, так как выборка канала нерепрезентативна. На канале собрались только те, кому с врачами не повезло. Здесь ошибка репрезентативности уже не так очевидна, как в примере с порошком. Внешне аудитория выглядит пестро и усредненно – на канале есть люди всех социальных групп, возрастов и уровней дохода. И все равно они не отражают общности в данном вопросе, и потому выборка нерепрезентативна.

И с докторами на передовой, говорящими, что коронавирус очень страшный, та же самая история. Их выборка нерепрезентативна – они работают на передовой и постоянно видят только этих больных людей. Они наблюдают выборку, не отражающую общность, и делают это каждый день. У них создается когнитивное искажение, что кругом все поголовно умирают. А врачи, как я уже сказал, подвержены когнитивным искажениям ничуть не меньше, чем другие.

Один мой друг, хороший психотерапевт, сказал: «Знаешь, в большинстве случаев получается так, что у всех политиков и бизнесменов не в порядке с головой». Потом подумал и добавил: «С другой стороны, мои услуги не дешевые, они приходят ко мне, и я вижу только тех, кто приходят. Так что не факт».

Это умный врач, который прекрасно отдает себе отчет, что это не у всех бизнесменов и политиков плохо с головой, а он видит только тех, кто к нему пришел за помощью. Это и называется ошибкой репрезентативности.

Итак, мнение врача (несмотря на эффект ореола, которым наделяет доктора белый халат и работа на передовой) не отражает реального положения вещей – выборка доктора нерепрезентативна именно в силу того, что доктор видит только больных на передовой.

Боткинский этюд

Почему у врача инфекционной больницы может возникнуть когнитивное искажение, что все просто ужасно? Оттого что поток заболевших возрос в три, пять, десять раз? А так ли это показательно?

Давайте перенесемся в Санкт-Петербург, город, где я родился, в самую крупную инфекционную больницу в Европе – больницу имени Боткина. Посмотрим, сколько в самой крупной инфекционной больнице койко-мест.

Итак, 1210 мест! Теперь представим себе, что все-все койко-места там заполнены больными, выздоравливающими и умирающими от злого вируса. Узнаем численность населения Санкт-Петербурга на момент написания этих строк.

А теперь посмотрим, сколько же это в процентах от населения и стоит ли паниковать.

Если 1210 коек самой крупной в Европе инфекционной больницы забить до отказа зараженными, то это будет 0,02 % населения города. Сотые доли процента, при условии, что мы набили крупнейшую больницу целиком. Но доктор из больницы Боткина или из свежесозданного ковидария видит, что поток пациентов за последний месяц увеличился, и значительно. Он видит абсолютное число заболевших или процент относительно прошлых месяцев, но совершенно не может представить себе, какой процент населения заболевает. Ему кажется, что рост 200 % – это повод паниковать.

Теперь небольшой секрет: если вы посмотрите статьи о чуме, то наиболее распространенная фраза будет такой: «чума в Средние века выкосила пол-Европы. В среднем считается, что погибло до 70 % населения Европы».

Вас не смущает, что при оценке чумы всегда прибегают к оценке того, сколько процентов населения погибло, а при оценке инфодемии коронавируса – никогда? Пишут только, насколько вырос процент смертности по сравнению с прошлым годом. Потому что если сказать правду, на сколько процентов уменьшилось население той или иной страны за полгода пандемии, то выглядеть будет все не так страшно.

Приведу пример. Предположим, есть две инфекционные больницы. Одна на 10 койко-мест в городе Верхнеблюйске, где живет 1000 человек, а другая на 500 койко-мест в Санкт-Петербурге, где живет 5 000 000 человек.



В первом городе в палате обычно валяется один вечно покусанный клещом местный бомж Гердыч, и тут раз! – и за неделю заполняются все 10 коек. То есть поток заболевших в больнице Верхнеблюйска возрос в 10 раз. В городе на Неве обычно лежит 25 человек, и вдруг заполняемость подпрыгивает аж в 20 раз – и все 500 коек заняты.

Новости будут выглядеть так: число заболевших за месяц инфекционными заболеваниями выросло в 10 и в 20 раз соответственно. Страшно звучит? Однако позволяет ли такая относительная оценка сделать выводы об угрозе?

В первом случае заболело на 9 человек больше обычного: 10 человек против 1 из 1000 населения – это 1 % по сравнению с обычным 0,1 % населения за день. Рост заболевших составил 0,9 % населения города в день.



А во втором 0,0005 % обычно было и 0,01 % стало, то есть изменение числа больных среди всего населения города составило 0,0095 %. Постарайтесь абстрагироваться от оценки, много это или мало, и сосредоточьтесь на выводе: формально в Петербурге поток больных вырос по сравнению с прошлым месяцем в 20 раз, а в Верхнеблюйске в 10. Однако для огромного Санкт-Петербурга – это прирост 0,0095 % населения, а для маленького Верхнеблюйска – целых 0,9 %. Ощущаете разницу? Рост заболевших по сравнению с прошлым месяцем страшнее там, где он в 20 раз, а с точки зрения того, какую часть населения поразила болезнь, страшнее там, где всего в 10. Именно поэтому нам не говорят, какой же процент населения унесла «чума XXI века – коронавирус». И никакого права называться чумой он не имеет (нет, не благодаря самоотверженным мерам правительств. Они не работают).

К чему приводит такой подход к оценке? К тому, что врачи дают интервью, а СМИ еще больше сгущают краски. Почему СМИ это делают, вы уже прочитали на страницах этой книги. Я помню, как летом меня буквально забросали ссылками: «Рост смертности превысил на 51 % показания по сравнению с 2019 годом». 51 %, конечно, звучит угрожающе, однако что это за цифры в абсолютных показателях для нашей страны? Как результат, на момент написания этой книги, когда летом уже был отменен карантин и масочный режим, согласно данным Росстата, общая смертность (это все вместе: и ковид, и те, кто умер, не дождавшись помощи из-за мер против ковида) – 946,5 тысячи в 2020 году. Аналогичный показатель за прошлый 2019 год составлял 918,5 тысячи, так что вроде бы меньше, и намного. Однако в 2018 году за аналогичный период смертность составила 946,8 тысячи человек. То есть несмотря на отсутствие коронавируса, беспрецендентных мер сдерживания, масочного режима, самоизоляции и тому подобного, смертность в 2018 году была выше, чем в 2020-м. Как так получилось? На каком основании СМИ приписывают разницу между уровнями смертности в 2019 и 2020 полугодиях? Как мне кажется, причина в том, что при относительно большой численности населения нашей страны изменения смертности в таких масштабах не дают возможности связывать их с чем-то конкретным.

Население России составляет около 146 000 000.

В 2019 году за полгода умерло по всевозможным причинам 918 000 – это 0,629 % от количества всех жителей.

В 2020 году за полгода – 946 000, это 0,649 %.

Иными словами, динамика изменений составила 0,0019 % от количества населения страны. Уверен, что эта цифра слишком мала, чтобы можно было точно приписать ей какую-либо причину. А учитывая, что в 2018 году умерших было больше, чем в 2020-м, я очень сомневаюсь, что такие изменения – дело рук пресловутого вируса. Это то, что я бы назвал статистическим шумом, частью случайной величины.

(Пример-антагонист: убыль населения в результате факторов военных действий 1941–1945 годов составила 41 979 417 человек. Почти 42 миллиона человек – это весомая цифра, и найти причину такой убыли населения более чем реально. Если бы сегодня из 146 миллионов мы потеряли 42 миллиона, это бы ощутил каждый и без СМИ.)

Ниже я даю ссылку на данные Росстата с архивом, чтобы желающие могли сами скачать все данные и проверить меня. Надеюсь, доступ не будет закрыт правительством.

http://freshlife28.ru/rosstat



Этюд о манипулировании статистикой

Как-то в своем инстаграм-аккаунте я попросил отписаться тех людей, у которых ближайший родственник, муж, жена, ребенок, отец или мать заболели или, не дай бог, погибли от этого вируса. Почему не сказал – про знакомых? Почему именно ближайший родственник? По одной простой причине.

Вспоминаем эффект Баадера – Майнхоф, благодаря которому, как только кто-то из наших знакомых заболевает вирусом, о котором кричат из каждого утюга, мы сразу это отмечаем. И вот представьте себе, что этот заболевший человек является знакомым еще сотни человек. И эти сто человек нам в ответе скажут: да, у меня есть знакомый, который заболел злым вирусом. В статистике появляется 100 человек, а по факту это один человек. В результате мы подтасовали статистику соцопроса, увеличив реальное число в 100 раз. И все респонденты ответили честно!

Другое дело, если у человека есть жена, и он говорит «заболела супруга». Это будет только его супруга. Она может быть знакомой еще ста опрошенным, но в статистику ее может записать только муж, поэтому и увеличения статистики не происходит. (Кстати, из моих 60 000 подписчиков было трое заболевших и ни одного умершего.)

А сейчас пришло время затронуть самый щепетильный случай – что делать тем, кто сам пострадал от вируса.

Глава 29. Подмена понятий