Все три фактора, о которых мы поговорили в первом параграфе главы – контроль, ослепление и рандомизация, – касаются организации или дизайна научного исследования. А сейчас переходим к тому, что именно изучали, какой результат со статистической точки зрения получили и насколько ему можно верить. Начнем с простого примера.
2.1 Конечные точки научных исследований
Представьте себя в магазине бытовой техники. Вы пришли туда со своей проблемой – ваш пылесос/компьютер/телевизор окончательно устарел и вы присматриваете что-то получше. Прогуливаетесь вдоль идеально освещенного ряда моделей, каждая из которых хороша по-своему: одна – современная и минималистичная, другая – яркая и элегантная с блестящими хромовыми деталями, третья – со множеством функций и дополнительных насадок…
– Чем отличаются эти модели? Какая лучше? Что выбрать? – спрашиваете вы проходящего мимо консультанта.
– А что для вас важно? – профессионально улыбаясь, спрашивает он в ответ. – Мощность, вес, удобная ручка, уровень шума, сколько прослужит… а может, цена?
Примерно так рассуждают ученые, планируя исследование. Все начинается с практической проблемы – существующее лечение / диагностика / диета / комплекс упражнений устарело. Помогает не всем, не всегда или, может, не так хорошо, как хотелось бы, и, возможно, есть что-то новое, что можно протестировать. Первое, с чем нужно определиться, – что для нас важно и как будем это измерять. Ученые называют такие показатели клиническими исходами или конечными точками (с англ. outcome или endpoint) [40]. Исходы, или конечные точки, – это то, что мы подразумеваем, когда говорим «укрепляет сердце», «борется с раком», «помогает при артрите»… За каждой формулировкой стоит определенный параметр, который можно как-то измерить и проследить.
Термин «конечная точка» изначально использовали при анализе выживаемости, где «смерть» была по всем параметрам последним измерением. Сейчас термин «конечная точка» применяется в более широком смысле и обозначает определенное событие, по достижении которого основное наблюдение за участниками прекращают. Например, конечной точкой может быть интересующее нас событие (выздоровление, уменьшение симптомов, операция и т. д.), либо невозможность продолжать наблюдение за участником (отказ от участия, переезд, смерть и т. д.), либо достижение определенного временного интервала (например, 2 года или 5 лет). Схематично можно изобразить так:
Рисунок 23. Наблюдение за конечными точками в течение года
Конечные точки, как правило, наиболее важные события в жизни пациента, которые могут отличаться в зависимости от заболевания и цели лечения. Например, если цель исследования – сравнить эффективность двух препаратов железа в лечении железодефицитной анемии, конечной точкой будет достижение определенного значения показателей железа в крови, которые отражают устранение железодефицита. Если заболевание может привести к преждевременной смерти (например, рак или тяжелые аутоиммунные болезни), конечной точкой будет летальный исход. Если заболевание не приводит к преждевременной смерти (во всяком случае, в ближайшем будущем), можно оценивать другие показатели, например частоту операций по замене сустава при остеоартрозе, частоту госпитализаций при неконтролируемой артериальной гипертензии. Качество жизни может выступать конечной точкой в случае, когда заболевание неизлечимо, но лечение может облегчить симптомы [38].
Однако не все интересующие нас события можно точно измерить и однозначно интерпретировать. Например, боль обычно измеряется по 10‐балльной шкале, хотя это оценка субъективна. Восприимчивость к боли у разных людей разная, для одного сделать инъекцию – как «комарик укусил», а для другого – «очень больно». Для каждого одна и та же процедура может ощущаться по-разному в зависимости от того, кто делает инъекцию, когда ее делают – утром, пока мы еще свежи и полны сил, или после рабочего дня, когда болит голова и усталость валит с ног.
По степени важности и точности определения конечные точки делят на твердые и мягкие.
• Твердые (или жесткие) конечные точки отражают наиболее важные события в период лечения: выздоровление, госпитализацию, смерть, серьезные осложнения, которые легко отследить и измерить.
• Мягкие конечные точки – менее точны в измерении или субъективны (например, уровень боли, общее самочувствие пациента).
• Суррогатные (промежуточные) точки отражают промежуточные или временные эффекты лечения (например, изменения в физических и лабораторных данных), если достижение твердых конечных точек требует времени.
Например, при артериальной гипертензии суррогатной конечной точкой будет снижение давления после приема лекарства, а твердой – уменьшение смертности, частоты инсультов или гипертрофии левого желудочка. При пневмонии суррогатной точкой будет снижение температуры тела и лейкоцитоза в крови (что уже заметно на 2–3‐й день лечения), а твердой – полное выздоровление (обычно наступает через 7–10 дней). При диабетическом поражении почек суррогатной будет микроальбуминурия в анализе мочи, а твердой – почечная недостаточность.
Рисунок 24. Конечные точки в исследовании
Предполагается, что суррогатные конечные точки должны влиять или предсказывать твердые и конечный исход. Для этого связь между ними должна быть биологически обоснована, а изменения должны отражать видимое улучшение или выздоровление на фоне лечения. Однако в отличие от твердого шарика из стекла, который всегда остается шариком неизменной формы и размера, что в воздухе, что в воде, что в песке, форма и размеры мягкого шарика из ваты зависят от многих условий – так и мягкие конечные точки, а также суррогатные не всегда сопоставимы между исследованиями и не всегда отражают последующие важные события в жизни пациента.
Так случилось с подсчетом CD4‐лимфоцитов (разновидность белых кровяных клеток, которую раньше называли Т-хелперами) у ВИЧ-положительных лиц. Известно, что по мере развития СПИДа (последней стадии развития ВИЧ-инфекции) количество CD4‐лимфоцитов медленно уменьшается, поэтому казалось, что чем больше CD4‐лимфоцитов в крови, тем дольше проживет пациент. Ранние исследования показали: чем раньше начать лечить ВИЧ-положительных лиц, у которых еще нет симптомов заболевания, тем медленнее снижается число CD4‐лимфоцитов. Поэтому данный показатель выбрали суррогатной конечной точкой в рандомизированном контролируемом испытании CONCORDE, где сравнивали две тактики лечения зиновудином – раннее и позднее начало. Результаты оказались неожиданными: хотя в группе лечения у пациентов количество CD4‐лимфоцитов снижалось медленнее, показатель выживаемости оказался одинаковым: в обеих группах – 3 года. Измерение CD4‐лимфоцитов для прогнозирования СПИДа оказалось ненадежной промежуточной точкой. Как и при других заболеваниях, наилучший прогноз на сегодня дает комбинация нескольких точек, которая в случае с ВИЧ включает процент CD4-С29-лимфоцитов, степень усталости, возраст, уровень гемоглобина, а не просто количество CD4‐лимфоцитов.
Это не единственный пример, когда промежуточная конечная точка оказалась ненадежной. То же случилось в исследованиях желудочковых экстрасистол (незначительное нарушение ритма сокращения сердца) для прогнозирования смерти от серьезных нарушений ритмов сердца, концентрации антибиотиков в крови для прогнозирования клинического излечения от инфекции, бляшек на МРТ для выявления прогрессирования множественного склероза.
Ненадежность суррогатных промежуточных точек является основной проблемой исследований многих лекарств с недоказанной эффективностью, когда исследования вроде бы проводили, вроде был эффект, но изучались только мягкие или суррогатные конечные точки, а вот эффективность в твердых конечных точках либо не изучалась, либо не обнаружилась. Например, препараты кальция однозначно и достоверно изменяют уровень кальция в крови (мягкая точка), но для нас гораздо важнее знать, могут ли они на самом деле укрепить кости и предотвратить переломы в будущем (твердая точка).
Практические рекомендации
Когда услышите про эффективность какого-то средства, которое «чистит печень», «укрепляет сосуды» или «восстанавливает суставы», поинтересуйтесь, как именно измерялось улучшение и насколько эти параметры важны для решения конкретной проблемы.
Поэтому, чтобы зарегистрировать лекарственный препарат и вывести его на рынок, лекарство должно показать эффект на мягких или твердых конечных точках, а лучше – на тех и на других. Например, для вакцин суррогатная точка – иммуногенность, то есть потенциальная способность вызывать в организме образование иммунных клеток, а эффективность защиты от вируса и снижение смертности от коронавируса – твердые.
Иммуногенность вакцины теоретически определяет, насколько хорошо она может защищать от вируса. Но это необязательно так. Именно поэтому, чтобы оценить эффективность вакцины, важно ее протестировать на большой выборке в реальных условиях. Вакцина будет считаться эффективной, если может защитить хотя бы 50 % вакцинированных.
Далее поговорим о цифровых результатах – как измеряется эффективность в цифрах и как их интерпретировать.
2.2 Размер эффекта имеет значение
Для сравнения эффективности различных видов лечения в статистике есть термин – «размер или величина эффекта» (с англ. effect size), отражающий, насколько велика разница между группами [3]. Чем больше разница в результатах после лечения или другого вмешательства, тем более вероятно, что оно эффективно (я здесь говорю «более вероятно», поскольку размер эффекта всегда интерпретируется вместе с другими характеристиками – доверительным интервалом, р-значением и клинической значимостью, о которых тоже поговорим в этом параграфе главы).
В зависимости от того, как измеряется клинический исход или конечная точка, размер эффекта в РКИ измеряется следующими статистиками:
• Если измерения количественные (так называемые непрерывные переменные (с англ. continuous), например выраженность боли в баллах, длительность заболевания в днях или количество койко-дней), то вычисляется арифметическая разность или стандартизованная разность средних (с англ. standardized mean difference, SMD, или Cohen’s d) – арифметическая разница между измерениями, разделенная на величину стандартного отклонения внутри группы (разброс значений, отражающий и точность измерений, и объем выборки).
Если новое лечение дает тот же эффект, что и плацебо, разница равна нулю. Если новое лечение лучше, чем плацебо, разница выходит со знаком плюс, если хуже – со знаком минус. Разница в 0,2 считается маленькой, в 0,5 – средней, а больше 0,8 – большой.
• Если измерения являются бинарными (да/нет) или порядковыми категориями (количество смертей/выздоровлений/госпитализаций и т. д.), размер эффекта вычисляется тремя относительными показателями, о которых мы уже говорили в 5‐й главе:
º отношение шансов (ОШ, с англ. odds ratio) – отношение шансов развития определенного клинического исхода в основной группе к шансам его развития в контрольной группе;
º относительный риск (ОR, с англ. relative risk) – отношение вероятностей развития определенного исхода в группах сравнения. Например, соотношение пациентов, получивших ответ на лечение, разделенное на соотношение пациентов, ответивших на другое лечение (или плацебо);
º отношение рисков (с англ. hazard ratio) – показатель, который в широком смысле эквивалентен относительному риску (ОР; см. выше), но применяется в случаях, когда величина риска меняется со временем. Этот показатель включает информацию, собранную неоднократно за период наблюдения, и используется при оценке изменений выживаемости.
Чем ближе значение этих трех показателей к 1, тем меньше различий в эффективности вмешательств, применявшихся в основной и контрольной группах.
Важно обращать внимание, если разница представлена в абсолютных цифрах или в относительных цифрах (например, «улучшение при лечении X в пять раз выше улучшения при лечении Y»). В жизни мы часто сталкиваемся с относительными и абсолютными показателями в период распродаж, когда одни продавцы пишут: «Купите со скидкой 1000 рублей» (абсолютная разница в цене), а другие: «Купите со скидкой 30 %» (относительная разница в цене). Или, возвращаясь к нашему примеру в магазине бытовой техники, разница между моделями по интересующим вас параметрам может быть как в относительных показателях – этот работает на 30 % дольше, чем другой, так и в абсолютных – этот прослужит вам на 2 года больше.
Как и в магазине, для оценки эффективности нам нужны и относительные, и абсолютные показатели. Предположим, мы знаем, что терапия удваивает вероятность успешного исхода. Абсолютный эффект лечения зависит от исходной вероятности успешного исхода. Если он низкий, скажем 1 %, терапия увеличивает успешные результаты только на один процентный пункт до 2 %, что является довольно небольшим увеличением в абсолютном выражении. Напротив, если исходный уровень успеха составляет 30 %, показатель успеха лечения составляет 60 %, это гораздо большее увеличение в абсолютном выражении.
Во время массовой вакцинации от коронавируса мы то и дело видели в новостях обнадеживающие результаты исследований эффективности вакцин: американской фармкомпании Pfizer и немецкого BioNTech была 95 %. Эффективность другой американской вакцины фирмы Moderna, по предварительным данным, составляла 94 %. Эффективность российской вакцины «Спутник» по предварительным данным, составляла 91 %. Но что на самом деле значит эффективность 90 %?
Некоторые ошибочно полагали следующее: вакцина защищает от вируса 90 человек из 100. На самом деле это значит, что вакцина снижает риск заражения на 90 %. Это относительный показатель, более точно называемый «относительное снижение риска» (англ. relative risk reduction), который рассчитывается как арифметическая разница между риском среди невакцинированных и риском среди вакцинированных, поделенная на риск среди невакцинированных. Он говорит нам, например, «насколько хорошо вакцина защищает участников исследования от заболевания».
Давайте посмотрим на абсолютные цифры на примере вакцины компании «Модерна» (предварительное название mRNA‐1273). Всего в исследовании приняло участие 30 420 человек, которые были рандомно распределены в две группы по 15 210 в каждой. За время наблюдения симптомы SARS-CoV‐2 появились у 185 участников плацебо группы и у 11 участников, получивших вакцину: 185 – 11 / 185 = получим 94 % эффективность. Важно, что тяжелая инфекция наблюдалась только у 30 человек, 1 из которых умер, и все были в плацебо-группе.
Когда мы говорим о вакцинах, есть еще один показатель, взволновавший население, – это абсолютное снижение риска (англ. absolute risk reduction). Данный показатель рассчитывается как арифметическая разница между процентом заболевших между группами. То есть если в относительной разнице мы принимаем во внимание только число заболевших, здесь мы берем в расчет всех, получивших или не получивших вакцину. В случае с «Модерной», число заболевших в плацебо-группе составило 185 из 15 210, то есть 1,22 %, а среди вакцинированных 11/15 210–0,07 %. Арифметическая разница между этими показателями и будет абсолютным снижением риска – то есть чуть более 1 %. Такой результат насторожил многих пользователей интернета, и добавил аргументов в пользу того, что строгие меры по контролю коронавируса и массовая вакцинация не обоснованы. Однако, если посмотреть на абсолютное число инфицированных в группах (185 против 11), разница очевидна. 1 % кажется маленьким числом, а 164 предотвращенных инфекций, среди которых могли оказаться пожилые или ослабленные болезнями люди, – это много.
2.3 Доверительный интервал
Еще одним важным показателем для любой статистики является доверительный интервал – показатель точности количественного показателя.
Практически все измерения имеют некоторую погрешность. Если измерить один и тот же показатель 10 раз, результаты могут отличаться из-за естественной изменчивости и экспериментальной неточности. Некоторые измерения имеют меньшую погрешность, как, например, измерение роста человека. Если измерить 10 раз в один и тот же час рост одного и того же человека, вероятная разница будет в пределах сантиметра. Если измерять рост в течение дня, разница будет в пределах нескольких сантиметров просто потому, что рост в течение дня действительно меняется. Другие измерения, например УЗИ, зависят не только от особенностей организма, но и от особенностей аппарата и квалификации врача и часто дают большие различия между сканированиями. В некоторых случаях ошибка измерения может быть большой в сравнении с реальной разницей. Это если измерять одного и того же человека. А если нескольких людей? Погрешности неизбежны.
Поэтому для каждого количественного результата, в том числе эффективности, обычно измеряют его доверительный интервал (ДИ, или англ. confidence interval CI), то есть диапазон возможных значений, в котором с определенной вероятностью находится истинное значение. Альтернативная интерпретация – если провести очень большое количество аналогичных независимых экспериментов, то 95 % полученных значений будут находиться в пределах этого диапазона. Доверительный интервал часто выкидывают из новостей, только упоминая, что новое лечение «на 17 % увеличивает выживаемость», но эти 17 % – усредненное значение. Важно знать диапазон – от 15 до 20 % или от 3 до 35 %?
Когда вы покупаете в магазине 1 кг сахара, то предполагаете, что в измерении веса могут быть погрешности – там на самом деле может быть 1010 граммов, или 997 граммов, или даже 975. Если бы это было научное исследование, в результатах ученые бы написали: средний вес этой упаковки сахара составляет 1000 граммов (95 % ДИ 990 до 1010). И здесь важно отметить, что доверительный интервал показывает не диапазон значений отдельных измерений, а диапазон, в котором ожидается обобщающий показатель – среднее значение (или другой обобщающий показатель) при повторении эксперимента.
Доверительный интервал рассчитывается не только для средних значений (как в примере с сахаром), но и для разности показателей в сравниваемых группах. В таком случае доверительный интервал разности дает понимание, насколько в реальности эти группы различаются. Когда доверительный интервал пересекает 0, это означает, что существует вероятность, что исследуемый эффект или разница между группами может быть как положительной, так и отрицательной. Иными словами, результаты исследования не являются однозначными и не позволяют нам сделать окончательный вывод о наличии или отсутствии эффекта. Для получения более точных и надежных результатов требуется дальнейший анализ или сбор дополнительных данных.
Доверительный интервал также рассчитывается для показателей размера эффекта – отношение шансов, отношение рисков и т. д. Ранее в 5-й главе мы говорили, что если ОШ = 1 или ОР = 1, то это означает, что шансы или риск одинаковы для обеих групп, и это справедливо не только для самого показателя, но и для его доверительного интервала. Так и на рисунке внизу мы видим, что лечение А и Б пересекают линию неэффективности, а лечение В и Г – нет. Отсюда делаем вывод: эффект первых двух препаратов статистически незначим.
Рисунок 25. Как интерпретировать эффективность вмешательства с помощью доверительного интервала
Повторим все, что мы изучили в этом параграфе главы на примере РКИ эффективности диеты, богатой омега‐3 кислотами, у пациентов с мигренью, о котором мы говорили ранее. Помните, там было 3 группы, которым прописали либо диету, богатую только омега‐3 (вторая группа), либо диету, богатую и омега‐3, и омега‐6 (третья группа), либо диету, в которой содержание омега кислот соответствовало среднестатистической диете (контроль). В качестве конечных точек ученые выбрали содержание 17‐гидроксидокозагексаеновой кислоты (17-HDHA) в плазме крови (суррогатная конечная точка) и результаты теста из 6 вопросов о том, как головная боль влияет на жизнь пациента, под названием HIT‐6 (твердая, или жесткая, конечная точка). Показатели измерили в начале исследования и спустя 4 месяца.
17-HDHA – предшественник оксилипинов, которые вырабатываются из омега‐3 кислот и показали обезболивающий эффект в лабораторных исследованиях. Обе диеты, богатые омега‐3, действительно смогли повысить исходный уровень 17-HDHA в крови: средняя разница с поправкой на исходный уровень во второй группе равнялась 1,4 нг/мл (95 % ДИ 1,2 до 1,6), в третьей – 1,2 нг/мл (95 % ДИ 1,0 до 1,5), тогда как в контрольной был всего 0,7 нг/мл (95 % ДИ 0,4 до 0,9). Предполагалось, что изменения в лабораторных анализах крови отразятся на влиянии мигрени на жизнь пациента, которое оценивали с помощью теста HIT‐6. Например, один из вопросов теста звучал так: «За последние 4 недели как часто вы чувствовали себя сытым по горло и раздраженным из-за головных болей?» – и общий результат варьировался между 36 и 78 баллами (чем выше балл, тем сильнее влияние мигрени на жизнь пациента). Это как раз то, что важно для врача и пациента. Но, как оказалось, ни одна из диет не смогла уменьшить этот показатель. Разница между второй и контрольной группой с поправкой на исходные значения составила –1,5 балла, а в целом сравнение с исходным уровнем («до и после») показало, что если в начале исследования участники оценили влияние мигрени на их жизнь на 62,7 балла, то после 4 недель диеты группы диеты, богатой только омега‐3, этот показатель снизился до 58,4 балла. «Ну хоть какое-то улучшение» – возможно, подумают некоторые. Однако взглянем на доверительный интервал разности до и после от –4,2 до 1,2 – а это значит, что при повторении эксперимента 100 раз на разных, но таких же выборках пациентов разница средних значений составит для некоторых пациентов –4,2, а для некоторых +1,2 балла. Примерно такой же показатель получили в третьей группе: –1,6 (95 % ДИ от –4,2 до 1,0). Заметьте, мы в первую очередь ориентировались на разницу с контрольной группой, поскольку в ней на среднестатистической диете тоже было улучшение с 62,3 балла до 59,9 (95 % ДИ от 58,0 до 61,8).
Незначительное улучшение все-таки было. Помимо первичных конечных точек (17-HDHA и HIT‐6), ученые оценивали среднее количество часов головной боли в день. И здесь показатели между группами действительно отличались: если в контрольной группе в среднем голова болела в течение 2,1 часа, то во второй группе всего 1,4 часа, а в третьей – 1,3 часа. То есть разница составила –0,7 часа (95 % ДИ от –1,1 до –0,3) и –0,8 (от –1,2 до –0,4). Также улучшение отметили в количестве дней с головной болью за месяц – приступы мигрени стали реже.
Этот пример с исследованием эффективности диеты, богатой омега‐3, в лечении мигрени еще раз напоминает нам о важности твердых точек (так как показатели 17-HDHA улучшились, а результат HIT‐6 теста нет), о важности контрольной группы (ведь им тоже стало лучше), а также о том, что нужно обязательно взглянуть на цифры и их доверительные интервалы, чтобы понять, что кроется за словами «стало лучше» и «помогло» ли вмешательство.
А дальше остановимся еще на одном показателе, который часто встречается в результатах научных исследований как подтверждение эффективности, но не всегда таковым является.
2.4 Не все то золото, что блестит: Значимость в научных исследованиях
Когда вы читаете результаты клинических испытаний, в глаза часто бросается слово «значимый» – значимый результат, значимый положительный ответ, значимое улучшение. Многие из нас приравнивают «значимость» к буквальному значению «важности», то есть «значимые результаты» равно «важные результаты». Однако в клинических исследованиях значимость бывает двух видов: «статистическая значимость» и «клиническая значимость». И то и другое – значимость, но это не одно и то же.
Статистическая значимость отвечает на вопрос: «Возможно ли, что результаты могут быть случайными?» Клиническая значимость отвечает на вопрос: «Будут ли результаты иметь значение для пациентов?»
Статистически значимая разница означает, что статистический тест показал различия между группами, которые не были вызваны исключительно случайностью. Тогда как клинически значимая разница означает нечто большее и более важное – статистически значимая разница достаточно существенна, чтобы повлиять на решения врача или изменить жизнь пациента. Определить клиническую значимость сложнее, ведь в ней есть как объективный компонент – результат статистического теста, так и субъективный – суждение врачей и пациентов о важности этих различий.
Давайте посмотрим, как эти две значимости выглядят на примере.
В одном исследовании ученые анализировали выживаемость 569 пациентов с распространенным раком поджелудочной железы [9]. Пациенты были рандомизированы в две группы: первая получала новый препарат эрлотиниб в сочетании со стандартным гемцитабином, вторая – только гемцитабин. Результаты показали: в группе эрлотиниба в сочетании с гемцитабином риск смерти пациентов был «значительно» ниже. Под значимостью здесь подразумевается статистическая значимость, которую определили с помощью «значения р».
Р-значение (пи) отражает, насколько вероятно, что полученный в исследовании результат (и даже предположительно больший результат) может быть следствием случайности. Например, насколько случайна разница между группами лечения. P = 0,01 означает, что с вероятностью 1 из 100 эффект от лечения мог произойти случайным образом, то есть на самом деле лечение неэффективно. Обычно ученые сообщают о значимых результатах, когда р-значение теста меньше 0,05 (1 из 20). Если статистическая значимость больше, чем 0,05, любое значение эффективности лечения будет под большим вопросом, так как невозможно исключить возможность случайных ошибок.
В нашем примере значение р равнялось 0,038, то есть существует лишь 3,8 %-ная вероятность, что наблюдаемая разница между группами возникла случайно. А значит, есть 96,2 %-ная вероятность не наблюдать положительный эффект нового препарата на выживаемость пациентов с распространенным раком поджелудочной железы случайно.
Для нас важно, насколько выражен этот положительный эффект, – так мы можем понять, есть ли реальная польза от нового лечения. Поэтому, помимо значения р, мы обязательно обращаем внимание на количественную разницу между значениями – размер эффекта. В данном примере эффект измерялся в продолжительности жизни на фоне лечения. Анализ выживаемости показал: комбинированная терапия увеличивает выживаемость пациентов на 18 %. Это относительные показатели. А в абсолютных значениях медиана выживаемости (срока дожития) была 6,24 и 5,91 месяца, то есть разница между группами – всего 10 дней. Конечно, ее можно с уверенностью считать клинически несущественным «улучшением», особенно с учетом дополнительной токсичности и затрат, связанных с комбинацией лекарств. Поэтому следует быть осторожными с любыми выводами, основанными только на том, что получен статистически значимый или незначимый результат, и значение p без оценки количественных показателей и важности этих показателей для врача и пациента. Говоря о клинической значимости и размере эффекта, я бы хотела упомянуть еще один термин – «минимальная клинически значимая разница» (с англ. minimal clinically important difference (MCID)). Как следует из названия, этот показатель отражает нижнюю границу разницы в результатах, которая будет клинически значимой для пациента.
Когда мы оцениваем клиническую значимость, важны оба показателя: статистическая значимость и размер эффекта. Например, сравните «показатели боли в суставах до и после лечения значительно отличаются (р < 0,001)» с «на фоне лечения снижение боли в суставах составило от 1 до 2 баллов по 10-балльной шкале с вероятностью случайности наблюдаемого эффекта менее 0,1 %». Оба утверждения следуют из статистического теста, но второе также предполагает, что боль, вероятно, уменьшится на 1–2 балла, учитывая, что в исследования обычно набирают пациентов с уровнем боли >6, такое улучшение, вероятно, будет незначительно в жизни для большинства участников.
Еще один пример: исследование эффективности витамина D и рыбьего жира в профилактике смертности от сердечно-сосудистых заболеваний под аббревиатурой VITAL показало, что смертность при приеме рыбьего жира была на 4 % меньше [41]. Однако эта разница не была статистически значимой (95 %-ный доверительный интервал 0,76–1,21), а значит, полученный эффект вполне мог оказаться случайным.
Клинически значимые результаты всегда должны быть статистически значимыми, но статистически значимые результаты не всегда являются клинически значимыми.
Рисунок 26. Статистическая и клиническая значимость
2.5 Доктор, а мне точно поможет?
Показатели, которые мы разобрали в этой главе, говорили об эффективности как таковой и о том, насколько важны результаты для практики. Но чтобы понять вероятность, поможет то или иное вмешательство конкретному пациенту, есть еще одна статистика, которую вы можете встретить в исследованиях и клинических протоколах, – это число больных, кого необходимо пролечить, чтобы достичь определенного благоприятного исхода или предотвратить один неблагоприятный исход, в сравнении с контрольной группой (англ. number needed to treat, или NNT). Дальше я буду использовать английскую аббревиатуру NNT, так как более вероятно, что вы столкнетесь именно с ней, нежели с русскоязычной аббревиатурой ЧБНЛ.
Идеальный показатель NNT равен 1, когда все больные выздоравливают от лечения, а в контрольной группе никто не выздоравливает. Чем больше NNT, тем больше людей требуется пролечить, чтобы один из них выздоровел, то есть лечение менее эффективно.
Например, исследование ASCOT-LLA оценивало эффект от приема 10 мг аторвастина (понижает уровень холестерина) у пациентов с гипертензией, но без сердечно-сосудистых осложнений (первичная профилактика). За 3,3 года наблюдения риск осложнений снизился на 36 % (относительное снижение риска). Снижение риска в абсолютных значениях было значительно меньше, поскольку исследуемая группа имела невысокую частоту развития осложнений сердечно-сосудистых заболеваний за время исследования: 2,67 % в контрольной группе против 1,65 % в группе пролеченных больных. Прием аторвастатина в течение 3,3 лет в итоге приводил к снижению абсолютных рисков всего на 1,02 % (2,67 % минус 1,65 %). Число больных, которых необходимо лечить, чтобы предотвратить одно осложнение сердечно-сосудистых заболеваний, равнялось 99,7 за 3,3 года.
NNT находится в обратной зависимости от разницы показателей между группами. Например, если она равняется 1, то NNT = 2. Чем разница ближе к 0, тем больше людей надо пролечить, чтобы получить эффект.
Возможно, вас напугали эти цифры – как минимум 100 человек должны получать статины, чтобы предотвратить одно осложнение в течение 3 лет, или нужно провакцинировать от 80 до 120 пациентов, чтобы предотвратить один случай COVID‐19. Только не забывайте: это относится к профилактике. Показатели NNT для лечения гораздо более оптимистичные. NNT для лучевой терапии рака молочной железы равен 8, для бета-блокаторов при хронической сердечной недостаточности – 24.
Практические рекомендации
Наиболее полный онлайн-каталог NNT при различных видах лечения собран на сайте https://thennt.com/home-nnt/.
Ни одно исследование не является идеальным. Будь то рандомизированное испытание или наблюдательное исследование, никогда нельзя быть абсолютно уверенным, что результаты верны и применимы к вам. Однако, зная эффективность лечения, вы сможете задать вопросы о лечении, не демонстрирующем эффективность в исследованиях, и с осторожностью отнестись к его назначению, а также обсудить с врачом сравнительную эффективность предложенных вариантов лечения.