2.1 Как двигается научный прогресс – от единичных к спланированным исследованиям
В прошлых главах мы говорили, что среди частых причин, почему разные исследования приходят к разным результатам, являются маленькие выборки, подверженные случайным ошибкам, ошибки отбора, из-за которых выборки становятся нерепрезентативными, а также недостатки различных дизайнов исследований.
Почему мы так часто сталкиваемся с маленькими исследованиями плохого качества, с участниками, не похожими на нас, а их результаты запутывают нас больше, чем направляют?
Если бы идеальное исследование существовало, выглядело бы оно так: чтобы узнать, будет ли лечение эффективно для вас, ученые бы создали две идентичные копии вас, с одной и той же формой и тяжестью заболевания, но только одна получила бы лекарство. А потом сравнили бы результаты и сделали выводы. К сожалению, это невозможно. Вы существуете в единственном экземпляре. И даже идентичные однояйцевые близнецы отличаются друг от друга. Об этом вам расскажет любая мама близняшек. И чем старше близнецы, тем больше появляется различий. В реальности близкие к идеальным исследования скорее редкость, чем правило.
В какой-то мере путь развития научного знания можно представить как линейное движение от маленького к большому, от простого к сложному, от известного к неизвестному или, наоборот, от неизвестного к известному.
Рисунок 30. Линейный научный прогресс
Иногда один сложный случай может сподвигнуть врача начать изучать вопрос лучше. Потом оказывается, что это не единичный случай, а серия случаев. Далее врач начинает замечать закономерности и сравнивать целые группы пациентов. Сначала одномоментно, а потом уже в течение какого-либо времени. Каждый этап дает новую информацию и позволяет лучше спланировать следующий шаг. Когда доказательств накапливается много, можно приступать не просто к наблюдению и анализу пациентов, а к эксперименту – мы вмешиваемся в ход событий и смотрим, влияют ли наши действия на результаты.
Так произошло с одним диагностическим алгоритмом из Израиля, авторов которого я знаю лично. История этого успешного стартапа как раз началась с одного клинического случая. У пациента обнаружили рак толстого кишечника, причем на достаточно серьезной стадии, когда шансов продлить жизнь не так много. Диагноз стал сюрпризом не только для пациента, но и для его участкового врача, так как пациент регулярно приходил на осмотры и сдавал анализы крови, и ничего не выбивалось из нормы. Однако, когда врач внимательно сравнила анализы крови за последние три года, она заметила тенденцию к снижению показателей гемоглобина, которая буквально перед диагнозом перешла в анемию за счет хронической кровопотери из кишечника. То есть был период, когда анализ крови был еще в норме, но можно было уже заподозрить, что что-то не так. Тогда он решил посмотреть, можно ли наблюдать подобную тенденцию у других пациентов. Оказалось, да. С группой статистиков врач провел исследование в своей больнице, и вместе они смогли найти закономерные изменения в общем анализе крови у пациентов с раком толстого кишечника, которых не было у их ровесников без рака.
Данное исследование положило начало диагностическому алгоритму под названием ColonFlag. Следующим этапом нужно было доказать, наблюдается ли подобная картина в других странах и не закралась ли в расчеты ошибка. Тогда ученые взяли несколько баз данных из США, Англии и Израиля. Результаты подтвердились: алгоритм выявлял людей, у которых в 10 раз чаще обнаруживали рак. И что важно: среди них были пациенты на ранней стадии рака и даже предраковой, как раз тогда, когда еще не поздно вмешаться и все остановить. Совсем недавно вышли результаты проспективного исследования, когда алгоритм внедрили в одну из крупных больниц в США с очень хорошим результатом [27].
Такое последовательное движение от простых к более сложным исследованиям оправдано и с финансовой точки зрения: ни одна организация не возьмется сразу спонсировать когортное исследование или клиническое испытание, требующее годы на проведение и огромные финансовые вложения, если нет достаточных предварительных данных.
Однако, если даже у ученых есть и знания, и ресурсы, и безграничное время, чтобы осуществить идеальное исследование, навряд ли они сразу бросятся их делать. Как думаете, почему?
А потому, что в реальности для большинства научных открытий процесс далек от линейного движения вперед. И выглядит примерно так.
Рисунок 31. Нелинейный научный прогресс
Каждое научное открытие распахивает дверь новым гипотезам и идеям, но не все окажутся верными. Большинство изначальных гипотез и клинических наблюдений не подтверждаются дальнейшими исследованиями. Бывает и так, что некоторые из них показывают определенный эффект в ранних исследованиях, как было в моей истории со статинами при болях в суставах, но в свете новых данных оказываются бесполезными. Поэтому мы больше не лечим инфекции кровопусканием, не обезболиваем роды маковым настоем и не едим мухоморы в попытках избавиться от рака. Как и народные средства, большинство разработок современных лекарств не доходит до реального применения, поскольку они либо небезопасны, либо неэффективны.
Другой вариант – некоторые исследования после серии успешных результатов заходят в тупик или застревают, и только новый виток научного прогресса способен пролить на них свет и обеспечить продолжение. Причем помощь часто приходит из смежных дисциплин, например химии, инженерии и компьютерных наук. Так, проект «Геном человека» (англ. The Human Genome Project, HGP), целью которого было изучение всего генома человека, начатый в 1990 году, в какой-то момент столкнулся с серьезными проблемами. В то время данные сохраняли на дисках и жестких дисках, однако информации было слишком много – 3 млрд пар нуклеотидов на каждого исследуемого. Анализировать такой объем данных было еще сложнее, чем хранить. Поэтому прорыв произошел лишь тогда, когда достижения в области вычислительной биологии и разработка высокопроизводительных технологий секвенирования позволили исследователям завершить проект в 2003 году. Это проложило путь к многочисленным открытиям в генетике, персонализированной медицине и нашему пониманию различных болезней.
Кун [4], знаменитый философ, охарактеризовал сущность научного прогресса и открытий как процесс, включающий периоды «нормальной науки» – последовательных достижений, основанных на прошлых достижениях, – перемежающихся периодами революционных изменений в научном мышлении. Эти эпизоды «меняют правила игры». Революционные открытия бросают вызов догмам и встряхивают научное сообщество. Но эти эпизоды в итоге приводят к новым парадигмам, меняющим мышление, стимулирующим дальнейшие новые открытия и тем самым способствующим прогрессу в этой области. Хотя размышления Куна относились прежде всего к физике, их легко применить к медицине.
Поэтому, чтобы сэкономить время и ресурсы, ученые сначала тестируют многие гипотезы на уже имеющихся и доступных данных, часто их называют in-house data (с англ. «домашние данные»), то есть такие данные, которые уже были собраны научно-исследовательской группой, возможно, даже для других целей. Если первичные результаты покажут положительный результат, ученые берутся планировать более масштабное исследование.
Побочным эффектом, или, как еще говорят, побочным ущербом (с англ. collateral damage), в нелинейном научном пути будет огромное количество научных публикаций, которые в последующем были или будут опровергнуты.
Стоит ли ругать ученых за ошибочные результаты?
Конечно, нет, ведь без них мы бы, возможно, никогда не продвинулись вперед. Врач-онколог и ученый Сидхартха Мукерджи в своей книге «Царь всех болезней. Биография рака» [5] так описывал важность предыдущих исследований в работе ученых: «Ученые изучают прошлое с той же одержимостью, что и историки, потому что немного других профессий так сильно зависят от него. Каждый эксперимент – это диалог с предшествующим экспериментом, каждая новая теория – опровержение старой».
Но что тогда делать со всем этим огромным массивом научных публикаций, многие из которых устарели или оказались ошибочными? Знать о них и относиться с пониманием. Многие современные эффективные методы лечения когда-то были экспериментальными. Однако не каждое экспериментальное лечение оказывается эффективным, и многие не лучше, чем существующие альтернативы. Важно собирать и анализировать доказательства, чтобы прекратить делать то, что не работает, и свести к минимуму вред для пациентов.
Недавно в одном клиническом протоколе по ведению пациентов с меланомой меня очень удивило, что одной из первых фраз стало такое предупреждение (с англ. disclaimer) – «отказ от ответственности».
«Медицина находится в процессе непрерывного развития. Поэтому все утверждения, в частности о диагностических и терапевтических процедурах, могут соответствовать только научным знаниям, существующим на момент публикации этого руководства. Лечащий врач, ссылающийся на эти рекомендации, должен учитывать научный прогресс с момента публикации руководства».
Рисунок 32. Внимание! Ведутся научные работы
О том, как быстро двигается научный прогресс и, соответственно, как быстро устаревают некоторые знания, следует помнить всем нам. И научиться объективно их оценивать.
2.2 Эволюция клинических рекомендаций
Эволюция касается не только отдельных изучаемых вопросов и направлений в исследованиях, но и всей медицины в целом. Артур Гарсон в своей книге Health Care Half-Truths: Too Many Myths, Not Enough Reality, выпущенной в 2010 году, утверждал, что меньше 15 % медицинских решений принимается на основе доказательств, все остальное – экспертное мнение.
50 лет назад соотношение было 0 к 100 %. 20–30 лет назад в педиатрии только 11 % клинических рекомендаций основано на РКИ [8], а 72 % – все еще на экспертном мнении. Сейчас, в 2023 году, я очень надеюсь, что соотношение сместилось в сторону доказательной медицины. Хотя не во всех областях. Анализ 51 клинического протокола по кардиологии показал: с 2008 по 2018 год количество доказательств высшей градации осталось прежним – около 10 % [9].
Среди научных исследований как источника доказательств тоже есть тенденция к повышению качества. Если раньше чаще проводились исследования «случай – контроль» и ретроспективные, то с развитием методов исследования и наличием крупномасштабных проспективных данных когортные исследования стали более популярными.
Иерархия доказательств в виде пирамиды, о которой мы говорили в первом параграфе этой главы, является самой распространенной системой оценки надежности исследований. Если серии случаев и исследования «случай – контроль» говорят, что эффект есть, а РКИ говорят, что эффекта нет, более вероятно, что его нет. Однако она не идеальна для полноценной и объективной оценки качества научных доказательств. Например, хорошо спланированное когортное исследование с использованием большой и репрезентативной выборки может быть лучше маленького и непродолжительного по времени РКИ. Особенно сложно сделать вывод о качестве доказательств в целом, если исследований много и они противоречат друг другу.
Поэтому клинические рекомендации часто включают другую градацию надежности научных доказательств под названием GRADE (с англ. Grading of Recommendations – «ранжирование рекомендаций», Assessment – «оценка», Development – «развитие», Evaluations – «интерпретация, суждение»). Градация GRADE отражает не только качество медицинских исследований, но и «силу рекомендаций» на основе качества. Таким образом, надежность рекомендаций оценивается четырьмя уровнями, исходя из уверенности их авторов, насколько наблюдаемый эффект может быть близок к истинному значению.
• Доказательство высокого качества. Авторы уверены, что представленная оценка близка к истине, что можно интерпретировать как «существует очень низкая вероятность дальнейших исследований, полностью изменяющих представленные выводы».
• Доказательство среднего качества. Авторы уверены, что представленная оценка близка к истинному значению, но есть шанс, что дальнейшие исследования могут полностью изменить выводы.
• Доказательство низкого качества. Авторы не уверены в оценке эффекта, и истинное значение может существенно отличаться, а значит, «дальнейшее исследование, вероятно, полностью изменит представленные выводы».
• Доказательство очень низкого качества. Авторы не уверены в оценке, и вполне вероятно, что истинное значение существенно отличается от этого, то есть «новое исследование, скорее всего, полностью изменит представленные выводы».
А для лекарств и лечебных вмешательств существует дополнительная градация надежности исследований эффективности и безопасности. В зависимости от дизайна исследованиям присваивают уровни доказательности от А до D в порядке убывания значимости и достоверности [10]. Категория лекарств обычно указывается в клинических рекомендациях по лечению.
Категория доказательства А. Доказательства основаны на законченных и хорошо спланированных рандомизированных контролируемых исследованиях. Использован совершенный математический аппарат. Полученные результаты позволяют давать рекомендации для применения препарата в определенной группе пациентов (подробное описание, как должно быть спланировано, организовано и проведено доказательное клиническое исследование лекарственных средств, можете найти в соответствующей главе нашей книги).
Категория доказательства В. Доказательства получены на основе рандомизированных контролируемых исследований. Они ограничены, так как в конечной части испытания привлечено недостаточное количество пациентов. Рекомендации могут быть распространены на ограниченную группу.
Категория доказательства С. Доказательства не основаны на рандомизированных контролируемых исследованиях. Источник информации – нерандомизированные исследования.
Категория доказательства D. Рекомендации основаны на проведенной экспертами дискуссии, в результате которой был достигнут консенсус.
Именно лекарственным средствам с классом эффективности A или B отдается предпочтение в клинических протоколах, основанных на доказательной медицине. Эти лекарства должны назначаться и применяться в первую очередь. В реальности же для многих препаратов не проводилось адекватных клинических исследований. Не только потому, что часть производителей не проводит их в соответствии с надлежащими стандартами, но и потому, что многие лекарственные средства прошли процесс регистрации задолго до того, как требования стали обязательными. Такие препараты эксперты относят к категории с недоказанной эффективностью, а в народе мы их называем «фуфломицинами». Хотя применение этих препаратов не гарантирует вам никакого лечебного эффекта, их продолжают применять на основании личных предпочтений врача или пациента.
2.3 Триангуляция знаний
Если бы слепые ученые после встречи со слоном собрались и проанализировали, что уже знают и что нового узнали, возможно, они бы пришли хоть к какому-то близкому выводу. В науке это называют триангуляцией знаний.
Термин «триангуляция» заимствован из геометрии, где знание точных координат двух точек позволяет определить расстояние до другого объекта. В научных исследованиях триангуляция [11] означает, что, опираясь на результаты разных несовершенных и неидеальных исследований, каждый со своими сильными сторонами и недостатками, мы можем понять, как далеко от истины мы находимся. Триангуляция доказательств требует анализа не только дизайна исследования, но и его недостатков и систематических ошибок. Об этом мы говорили на протяжении всей книги, поэтому я считаю вас уже хорошо подготовленными и верю, что вас заинтересует подобный анализ.
В каждой научной статье, помимо самих результатов есть еще 3 элемента, которые важны не меньше, чем сами результаты, и в хороших статьях они всегда присутствуют.
Первое – недостатки исследования. Идеальных исследований нет, во всех присутствуют недостатки. И только зная их, можно правильно интерпретировать результаты.
Второе – соответствовало ли проведенное исследование поставленной цели. Ответы на одни вопросы можно найти только в когортных исследованиях, на другие – только в клинических испытаниях. Хорошо, если в статье это указывается.
Третье – систематические ошибки.
Если все результаты различных подходов указывают на один и тот же вывод, это укрепляет доверие к результатам. Особенно когда различные исследования имели разные недостатки, а потенциальные систематические ошибки были разнонаправленными (ниже об этом еще поговорим). Это позволит исключить ситуации, когда множество исследований приходит к одному, но ошибочному выводу. В этом как раз поможет триангуляция.
Критически важна триангуляция, когда несколько исследований приходит к разным вариантам. Понимание основных источников систематических ошибок в каждом из них может помочь определить, с какой вероятностью мы можем полагаться на их результаты и какие дальнейшие исследования необходимы для решения причинного вопроса.
Например, за последние десятилетия высказано много предположений и найдено много доказательств о пользе грудного вскармливания. В том числе что грудное вскармливание в младенчестве оказывает пожизненный эффект в отношении ряда последствий, связанных со здоровьем и болезнями, в том числе защищает от ожирения. Чтобы получить ответ, провели большое количество самых разнообразных по дизайну исследований. С одной стороны, чем больше продолжительность грудного вскармливания, тем стройнее были дети, то есть обратную взаимосвязь показали некоторые когортные исследования и подтвердил метаанализ проспективных когортных исследований с минимальной корректировкой (по возрасту и полу) [29]. Однако связь была слабее после поправки на индекс массы тела матери, курение и социально-экономическое положение, а еще были доказательства предвзятости публикации.
С другой стороны, если посмотреть внимательнее на эти исследования, можно заметить, что эта обратная взаимосвязь четко прослеживалась в когорте из Великобритании, но не в 5 когортах из стран с низким или средним уровнем дохода [30]. Там социально-экономическое положение семьи не сильно влияло на результат или влияло в обратном направлении, чем в британской когорте [31–33].
Было проведено и РКИ, однако эффекта грудного вскармливания на показатели массы тела ребенка в возрасте 6 и 11 лет не обнаружилось [34–35], что уже поставило под сомнение существование данной взаимосвязи. Наконец, ученые решили снова протестировать свою гипотезу с помощью так называемого контроля отрицательных результатов, когда интересующий нас исход заменяют на другой и смотрят, сохраняется ли взаимосвязь. Это дополнительный метод, применяемый, чтобы еще раз убедиться в отсутствии ошибки отбора или влияния конфаундера. Например, чтобы оценить, что влияние вакцинации от гриппа на смертность у пожилых в период гриппа действительно имеет место, ученые заменили исход на смертность до наступления гриппа (и результат показал положительный эффект, но мы понимаем: вероятно, в исследование закрались ошибки, так как вакцинация от гриппа защищает лишь от гриппа) [34]. Так и в этом исследовании: ученые заменили интересующий нас исход – массу тела у детей – на 2 других: заявление о появлении мышей или голубей в доме, где проживала семья. Могло ли повлиять грудное вскармливание на подобные исходы? Нет. Но взаимосвязь была – в семьях, где кормили грудью, реже видели голубей и чаще – мышей. Объяснялась взаимосвязь просто – семьи из более благополучных в финансовом плане слоев британского общества часто жили в старинных викторианских и григорианских домах, где мыши не были редкостью. В то же время голуби чаще были проблемой в более финансово неблагоприятных районах. Таким образом, эти два показателя, априори не связанные с грудным вскармливанием, были связаны с социально-экономическим положением семьи. Подробнее о триангуляции в эпидемиологии можете прочитать в одноименной статье [28] профессора эпидемиологии Дэбби А. Лоулор из Университета Бристоля – с ней мне посчастливилось быть знакомой лично.
2.4 Еще раз о неопределенности
Единственное, в чем можно быть всегда уверенным в медицине, – это в ее неопределенности.
Пациенты и врачи принимают решения на основании имеющейся информации, всегда неполной, по-разному актуальной для индивидуальных обстоятельств, ограниченной вероятностями, лучшими вариантами и интуицией, сбалансированной индивидуальными предпочтениями и ограниченной доступными ресурсами.
Если говорить в общем, пациенты и врачи сталкиваются с двумя основными формами неопределенности: неопределенностью доказательств и неопределенностью результата.
Неопределенность доказательств – информационная проблема вследствие нехватки данных или доказательств. Это все равно, что положить монетку в автомат с жевательной резинкой и не знать, сколько вы получите. Когда начинаете искать ответы на вопросы, вы не знаете, есть ли хорошие клинические испытания, на которые можно опереться. Или, может, испытания есть, но в них отсутствуют пациенты, как вы. Или, возможно, выборка включала таких пациентов, как вы, но не тогда, когда вы боретесь с пневмонией.
Неопределенность результата является проблемой прогнозирования, когда мы не уверены, с какой вероятностью можно прогнозировать реальный результат на основе имеющейся информации. Мы знаем, что автомат выдаст пять жевательных конфет, но не знаем, какие именно. Допустим, в год у 5 % таких пациентов, как вы, случится инсульт. Вы 5 % или 95 %?
Ведь, по сути, результаты исследований – не что иное, как вероятности, полученные при сравнении двух методов лечения при определенных условиях. В реальной жизни нам нужно добавить в уравнение индивидуальные характеристики пациента, а также его врачебной команды с определенным уровнем знаний, опыта и ресурсов. А также все те ментальные шаблоны, фильтры и стереотипы, живущие в нашей голове и влияющие как на решение врача рекомендовать то или иное лечение, так и на решение пациента соглашаться или нет в условиях имеющейся неопределенности.
В математике существует так называемая Байесовская модель комбинации вероятностей, названная в честь английского статистика и философа Томаса Байеса. Ее применяют для расчетов и принятия решений в ситуациях неопределенности в разных областях – от медицинской статистики до квантовой механики. Согласно теореме Байеса, базовая информация (что уже известно) в сочетании с новой информацией (например, особенности пациента или ситуации и возможности) дает апостериорную вероятность (то есть интерпретация уже известной информации в свете новых данных).
Подобная идея как раз согласуется с концепцией доказательной медицины, которая выходит за рамки исключительно оценки и использования опубликованных научных данных. Вместо этого доказательная медицина призывает объединить «лучшие научные данные с клиническим опытом и возможностями врача, а также уникальными ценностями и обстоятельствами пациентов». Таким образом, представляется более целесообразным решать клинические вопросы, особенно те, которые порождают неопределенность, с помощью комбинированного многомерного подхода к вероятности, чем с помощью традиционного подхода, где учитываются только цифровые результаты – эффективность, стоимость, – без оценки ситуации, имеющихся возможностей и предпочтений пациента.
Как раз на этой ноте о неопределенности и о существовании различных дополнительных факторов, тоже влияющих на принятые нами решения, хочу затронуть одну важную, но очень чувствительную для интерпретаций и дебатов тему – лечение, выходящее за пределы научно доказанных рекомендаций.