Простое начало. Как четыре закона физики формируют живой мир — страница 41 из 59

однонуклеотидными полиморфизмами (ОНП или SNP – «спипы» в лабораторном жаргоне). В геноме человека несколько миллионов типичных ОНП, и слово «типичный» здесь означает, что по меньшей мере у 1 % населения это место занимает более редкий нуклеотид. Несколько миллионов – это много, но все же не слишком в сравнении с 3 миллиардами нуклеотидов полного генома человека, поэтому мы умеем находить такие ОНП без особого труда.

Например, мы можем закрепить на микроскопических шариках короткие однонитевые фрагменты ДНК, комплементарные доминирующей форме ОНП, и использовать их как зонды, наблюдая, свяжется ли с шариками измельченная и амплифицированная ДНК исследуемого человека. Если да, мы поймем, что у этого человека типичный вариант нуклеотида в интересующей точке генома, если же нет – будем знать, что у него вариант более редкий[59]. Я не вдаюсь в детали, да и технологии на рынке доступны разные, важнее здесь другое: в каждой из них нашли отражение изящные методы, описанные в прошлой главе. В них используются уникальные преимущества флуоресцентных нуклеотидов, ДНК-полимераз, серийных заготовок в виде стеклянных подложек, усеянных миллионами шариков с миллионами клонов ДНК на каждом, и многого другого. Мы получаем результат стоимостью до 100 долларов в пересчете на один тест – меньше, чем многие тратят на пару обуви, – который показывает нам совокупность ОНП, характеризующую геном, а следовательно, и основную долю генетических вариаций у индивида.

Логично предположить, что чей-то набор ОНП сообщает нам не так уж и много, поскольку на эти точки приходится лишь малая доля генома, а геномы устроены сложно. Сначала так и было. В первых исследованиях по выявлению ОНП, связанных с ростом, обнаружили около 40 генетических вариантов, которые в совокупности хоть и отличимо от погрешности, но незначительно коррелировали с ростом участников эксперимента. Результаты исследований опубликовали в 2008 году, и сразу же стало очевидно, что изучать надо гораздо больше людей – даже не из-за биологии как таковой, а скорее из-за взаимосвязи между случайностью и предсказуемостью.

Вспомним главу 6 и подбрасывание монет. Представьте, что вы 10 раз подбросите подлинную монету. В среднем можно ожидать, что 5 раз выпадет решка, а 5 – орел, но вас наверняка не удивит, если решка выпадет 6 раз, а орел – 4. Вероятность такого исхода составляет целых 83 % от вероятности получения 5 к 5. Если вы подбросите монету 1000 раз, скорее всего, 500 раз выпадет решка и 500 – орел: с ростом числа попыток расхождение сглаживается. Вероятность выбросить 600 решек и 400 орлов существенно снизится и станет в миллиард раз меньше, чем вероятность выбросить 500 к 500. Допустим, вы подозреваете, что ваша монета – фальшивая и несбалансированная, из-за чего вероятность выбросить решку превышает 50 %. Если вы подбросите монету 10 раз, асимметрия вас не особо смутит: обнаружив 6 решек, вы вряд ли сразу же сделаете вывод о 60-процентной вероятности выпадания решки у этой монеты. Однако 600 решек после 1000 подбрасываний сильно укрепят ваши подозрения в «неправильности» монеты. Если быть математически точными, ваша чувствительность к фальшивым монетам растет пропорционально квадратному корню из числа подбрасываний. Этот квадратный корень, возможно, напоминает вам о статистических свойствах нашего случайного блуждающего из шестой главы. И не случайно: у этих зависимостей сходные математические обоснования.

Но вернемся к геному. Наши ОНП сравнимы с монетами, и перед нами стоит задача выяснить, в какой степени каждый из них «правильный» или «неправильный», то есть как сильно тот или иной ОНП влияет на отклонение признака от средней, ожидаемой величины. ОНП, где редкий генетический вариант с равной вероятностью встречается у высоких и низких людей, аналогичен правильной монете, которая в половине случаев ложится решкой, а в половине – орлом. Тот вариант ОНП, что заметно чаще встречается у высоких либо, наоборот, у низких, вероятно, задает предрасположенность к росту выше или ниже среднего – как неправильная монета предрасполагает к тому, чтобы общая доля выпавших решек всегда была либо больше, либо меньше 50 %. Эти тенденции могут быть не сильно выраженными. По аналогии с подбрасыванием множества монет нам нужно исследовать геномы как можно большего числа людей. Чтобы оценить масштаб отклонения от среднего показателя под влиянием того или иного ОНП, нужно проанализировать огромный массив данных по корреляции роста человека с нуклеотидом в этой точке его генома. Чем больше геномов мы анализируем, тем выше становится наша чувствительность к ОНП, связанным с ростом.

Мы живем в эпоху крупномасштабных исследований генома. Физик Стивен Хсу и его коллеги из Университета штата Мичиган обработали данные почти полумиллиона человек, собранные в рамках британского проекта «Биобанк», и по статистическим параметрам выявили ОНП, связанные с ростом. Они обнаружили гораздо больше тех 40 ОНП из работы 2008 года – почти 20 тысяч. Такие проекты сопряжены с рядом трудностей, и ложные закономерности могут легко сбить с толку. Достоверность результатов можно проверить математическим путем, но предпочтительнее оценить предсказательную способность ОНП, ассоциированных исследователями с ростом участников этого эксперимента, то есть проверить, могут ли эти ОНП служить предикторами роста в другой экспериментальной выборке. Иными словами, группе Хсу нужно было проанализировать основную часть базы данных «Биобанка» (то есть не все данные) и заметить, например, что ОНП № 312 соответствует увеличению роста в среднем на 0,05 сантиметра относительно среднего показателя; ОНП № 3092 соответствует его уменьшению на 0,02 сантиметра; ОНП № 4512 – увеличению на 0,08 сантиметра и так далее. Затем во второй, до сей поры не задействованной части базы данных нужно было найти «подозреваемые» ОНП у каждого ее члена, суммировать предположительные эффекты найденных полиморфизмов и предсказать рост этого человека – и так для всех представителей выборки. Оставалось лишь сравнить предсказанные показатели с реальными. Хсу с коллегами проделал все это и изложил результаты в статье 2018 года3. Ученые обнаружили, что записанный в базе данных рост, как правило, отклонялся от прогноза, сделанного на основании ОНП, не больше чем на 3 сантиметра. Чтобы лучше понять, как выглядит подобного рода точность, построим несколько графиков.



На каждом графике показано облако гипотетических значений, где предсказанный рост отложен по горизонтальной оси, реальный – по вертикальной, а каждая точка соответствует одному человеку. Реальные и спрогнозированные показатели роста коррелируют друг с другом на всех трех графиках. Более того, прямая, лучше всего соответствующая распределению данных, на всех графиках почти идентична. Однако между этими тремя случаями есть существенные различия в том, насколько хорошо она описывает данные. Левое облако сильно рассеянное, в среднем точки выстраиваются кучнее и ближе к линии, в правом измеренные значения довольно плотно группируются вокруг предсказания. Эту изменчивость в распределении данных можно количественно оценить с помощью статистической характеристики, называемой коэффициентом вариации и часто обозначаемой символом R2. Чтобы интуитивно понять смысл R2, представьте сначала, что вы измеряете степень разброса точек вокруг горизонтальной прямой, идущей посередине графика. (Если вы немного знакомы со статистикой, вообразите дисперсию, или меру рассеивания, результатов измерений, то есть величину отклонения измеренных значений от среднего.) Затем представьте, что вы оцениваете разброс точек вокруг прямой наилучшего соответствия. В этом случае степень изменчивости будет меньше – это то, что остается после принятия в расчет зависимости, выражаемой прямой. Отношение второго отклонения (разброса) к первому равняется числу от нуля до единицы, которое тем меньше, чем плотнее точки прилегают к прямой наилучшего соответствия. Если вычесть это число из единицы, получится разброс, описываемый линейной зависимостью, то есть R2. На левом графике с рассеянным облаком R2 = 0,1, то есть зависимость между предсказанными и реальными значениями, выражаемая линией наилучшего соответствия, учитывает лишь 10 % разброса точек. На правом графике R2 = 0,7, то есть учитывается 70 % разброса.

В основанном на ОНП анализе роста, проведенном командой Хсу, R2 ≈ 0,42 – это примерно как на среднем графике: не идеально плотное распределение, но и не бесформенное облако, что вполне соответствует упомянутой точности до 3 сантиметров. Быть может, отклонение в 3 сантиметра не слишком впечатляет, но, как выясняется, такой прогноз точнее, чем предсказание роста детей по росту их родителей. Кроме того, оценка на основании ОНП, разумеется, не требует никаких сведений об отличительных чертах и происхождении индивида – хватает ДНК и дешевого анализа. Как отмечает Хсу, ничтожной биологической улики с места преступления теперь достаточно, чтобы установить рост и ряд других физических показателей совершенно неизвестного человека.

Насколько показательным может быть R2 роста? Из семейных исследований с большой выборкой людей разной степени родства, включая однояйцевых близнецов (чьи геномы почти идентичны), генетики давно знали, что наследуемость роста близка к 80 %. Иными словами, наследственность объясняет около 80 % разницы в росте между индивидами4. Но чем объяснить разрыв между 0,4 и 0,8 – влиянием особенностей ДНК, не охватываемых анализом ОНП, или более загадочными биологическими механизмами? В 2019 году австралийский генетик Питер Виссхер и его коллеги изучили полногеномные последовательности более чем 20 тысяч человек и обнаружили, что информация, закодированная в ДНК, действительно объясняет 80 % разницы в росте у людей. Остальные 20 %, по крайней мере у современных европейцев, связаны с различиями в рационе, физической активности и истории болезней.