[389]. Возьмите любые шесть точек в пространстве. Существует десять различных способов разбить эти точки на две группы по три. (Проверьте!) Для каждого разбиения вы можете соединить обе тройки точек, чтобы получить два треугольника. Конвей и Гордон доказали, что среди разбиений всегда будет как минимум одно, при котором эти треугольники будут сцепленными, как звенья цепи.
Для меня метод доказательства выглядит даже изящнее самого факта. В реальности Конвей и Гордон доказывают, что число разбиений, приводящих к сцепленным треугольникам, должно быть нечетным. Однако ноль – число четное! Следовательно, должно быть хотя бы одно разбиение, при котором треугольники сцеплены. Кажется довольно странным доказывать существование какого-то объекта на основании того, что таких объектов должно быть нечетное число, однако на самом деле ничего необычного тут нет. Предположим, у тумблера лампочки два положения. Если вы вошли в комнату и увидели, что лампа не в том состоянии, как вы ее оставили, то вы понимаете, что кто-то щелкнул выключателем. Однако причина, почему вы это поняли, в том, что состояние лампы говорит вам, что выключателем щелкнули нечетное число раз.
Опасность заболеть COVID-19 одинакова не для всех. Риск серьезных симптомов, госпитализации и смерти намного выше у пожилых людей, чем у молодежи и лиц среднего возраста. В Соединенных Штатах есть также расовые и этнические отличия. В июле 2020 года подтвержденные случаи заболеваний COVID-19 в США делились по расам так[390]:
36,6 % – латиноамериканцы;
35,3 % – белые нелатиноамериканцы;
20,8 % – черные.
Распределение смертей от COVID-19 выглядело иначе:
17,7 % – латиноамериканцы;
49,5 % – белые нелатиноамериканцы;
22,9 % – черные.
Эти цифры могут удивить, если вы слышали что-либо о неравенстве в американском здравоохранении, которое почти повсеместно подразумевает сравнение не в пользу несветлокожих американцев. Но при этом смертность среди белых людей, на долю которых приходилось всего 35 % подтвержденных случаев заболевания COVID-19, составила 49,5 % от всех смертей. Получается, что среди белой части населения вероятность летального исхода в результате заболевания COVID-19 гораздо выше. Почему?
Как я узнал от математика и писателя Дейны Маккензи, причина в возрасте. Белые люди чаще умирают от COVID-19, потому что пожилые люди чаще умирают от COVID-19, а белые люди в целом старше. Если разбить все случаи по возрастным группам, ситуация будет выглядеть совершенно иначе. Среди американцев от 18 до 29 лет белые составляют 30 % случаев заболеваний, но всего 19 % смертей. Среди людей от 85 лет и старше белые составляют 70 % всех случаев и 68 % смертей. Фактически в каждой конкретной возрастной категории взрослых, установленной агентством CDC, случай COVID-19 у белого американца будет фатален с меньшей вероятностью, чем у типичного американца того же возраста. И тем не менее объединение данных по всем группам создает впечатление, что болезнь сильнее поражает белых. Это явление известно как парадокс Симпсона, и его следует учитывать каждый раз, когда изучаемое явление затрагивает неоднородную популяцию. На самом деле парадокс – неподходящее название, потому что здесь нет никакого противоречия, а просто есть два разных способа рассматривать одни и те же данные, и оба верны. Например, правильно ли сказать, что COVID-19 поразил Пакистан меньше, чем США, поскольку население Пакистана моложе и потому менее уязвимо? Или правильно ли сравнивать вероятности, что заболеет пожилой пакистанец и его американский сверстник? Урок парадокса Симпсона не в том, какую точку зрения принять, а в том, чтобы держать в уме одновременно и целое, и части.
Специалисты сходятся в одном: невозможно избежать самого ужасного сценария развития событий без тестирования – гораздо более масштабного, чем проводится сейчас. Чем больше тестов мы делаем, тем лучше знаем, как развивается COVID-19 и на какой стадии мы находимся.
Вот еще одна старая математическая задачка. У вас есть 16 золотых монет: 15 настоящих массой по 10 граммов и одна фальшивая, в которой всего 9 граммов. У вас есть весы, но каждое взвешивание стоит доллар. Как найти подделку с наименьшими затратами?
Безусловно, вы решите задачу, взвесив каждую монету и потратив при этом 16 долларов. На самом деле один доллар можно сэкономить: если вам все время не везло и вы 15 раз натыкались на честные монеты, то после 15 взвешиваний знаете, что оставшаяся монета – фальшивая. Так что незачем тратить больше 15 долларов.
Однако можно действовать разумнее. Разделите монеты на две группы по восемь в каждой и взвесьте первую группу: ее общий вес составит либо 80, либо 79 граммов. Теперь вы знаете, в какой группе находится фальшивка. Итак, вы сузили круг подозреваемых до восьми монет. Снова разделите их на две группы по четыре и взвесьте одну группу. В итоге вы сократили варианты до четырех (и заплатили при этом 2 доллара). Еще через два деления пополам вы гарантированно найдете фальшивую монету, при этом в общем потратите всего 4 доллара.
Как и во многих подобных головоломках, здесь используется какое-то дополнительное условие, чтобы придать задаче смысл: в реальной жизни взвешивание не стоит так дорого!
А вот биологические тесты – стоят, и это возвращает нас к инфекционным заболеваниям. Предположим, что вместо 16 монет у вас 16 новобранцев для армии и один отличается от остальных – только не весом, а тем, что болен сифилисом. Во время Второй мировой войны эта болезнь была серьезной проблемой: в 1941 году «Нью-Йорк Таймс» обвинила[392] «большую банду танковых проституток, обслуживавших солдат механизированных подразделений в придорожных закусочных и дансингах от Чикаго до обеих Дакот» в заражении тысяч солдат сифилисом и гонореей: «на свободе, без лечения, заразных и представляющих опасность для сограждан».
Вы можете выявить инфицированных, проведя анализ крови с помощью реакции Вассермана. Это вполне реально для 16 новобранцев, но совершенно неприемлемо для 16 тысяч. «Проверка отдельных участников большой популяции – дорогостоящий и утомительный процесс», – заметил Роберт Дорфман – известный профессор экономики из Гарварда, который в 1950-х и 1960-х годах первым применил математические модели к коммерческим задачам. Однако в 1942 году[393] он еще работал статистиком на государственной службе, шестью годами ранее окончив колледж, где решил сконцентрироваться на математике после того, как пришел к выводу, что у него нет будущего в первоначальном призвании – поэзии. Выше процитирована первая фраза его классической статьи «Обнаружение дефектных членов больших групп»[394], в которой он вводит в эпидемиологию идею решения задачки о монетах. Вы не можете использовать в точности ту же стратегию, что работала для монет, ведь половина от 16 тысяч солдат – это все равно очень много! Однако предположим, говорит Дорфман, что вы разбиваете новобранцев на группы по пять человек, а затем смешиваете кровь членов каждой группы в сывороточный коктейль и проверяете его на сифилитический антиген. Отсутствие антигена означает, что вы можете сообщить всем пятерым, что они здоровы; в противном случае вызываете их и проверяете каждого по отдельности.
Насколько удачна такая идея, зависит от степени распространения сифилиса в популяции. Если заражена половина войск, то почти все сгруппированные пробы дадут положительный результат, и в итоге почти все участники пройдут тест дважды, что сделает обнаружение дефектных элементов еще более утомительным и дорогостоящим. Но если сифилисом заражены всего 2 % новобранцев? Вероятность, что данная выборка даст негативный результат, равна произведению вероятностей, что каждый солдат из проверяемой пятерки не болен сифилисом. Поэтому в нашем случае вероятность негативного результата в пятерке такова:
0,98 × 0,98 × 0,98 × 0,98 × 0,98 ≈ 0,90.
Если солдат 16 000, то получается 3200 групп; из них примерно 2880 будут чистыми, и для повторной проверки остается около 320 групп, то есть 1600 солдат. Их придется проверять по одному. В результате вы проведете тест 3200 + 1600 = 4800 раз, и это огромная экономия по сравнению с проверкой каждого из 16 000 человек! Причем вы можете даже улучшить метод: Дорфман определил, что при уровне заболеваемости в 2 % оптимальный размер групп – по 8 человек, что сводит задачу примерно к 4400 тестам.
Связь с коронавирусом очевидна: если у нас недостаточно тестов, чтобы проверить всех по одному, может быть, стоит взять мазок у 7–8 человек, объединить пробы в одном контейнере и протестировать их все разом?
Предупреждение: протокол Дорфмана для выявления сифилиса в реальности никогда не использовался. Дорфман даже работал не в армии: он трудился в Управлении по контролю над ценами, когда вместе с Дэвидом Розенблаттом, которого призвали на службу и провели тест с помощью реакции Вассермана, вынашивал идею группового тестирования на сифилис. Однако оказалось, что на практике она не работает: разбавление образцов[395] слишком затруднило обнаружение следов антител.
Коронавирус – совсем другое дело. Тест полимеразной цепной реакции, который обнаруживает этот вирус, значительно усиливает даже крошечный след вирусной РНК. Это делает групповое тестирование целесообразным, а в случаях низкой распространенности заболевания и нехватки специалистов и оборудования – весьма привлекательным.
Такое тестирование проводилось в больницах Германии