с археологической датировкой 7000 лет назад, и в Венгрии в двух ископаемых ДНК, с датировками 7125 ± 175 и 7100 ± 100 лет назад[38]. Чтобы понять, что эти субклады показывают, взглянем на (сокращенный) список субкладов гаплогруппы С, построенный в виде иерархии снипов. Как и на примерах ранее, каждый нисходящий снип включает вышестоящий. Это и дает генеалогию субкладов, показывает последовательную цепочку их происхождения. Мы видим, что у древнего человека, кости которого были найдены на западном берегу Дона, был самый ранний субклад гаплогруппы С, со снипами Р255, М183. Надо пояснить, что эти два снипа относятся к одному субкладу. Какой-то из был определенно более ранний, но у всех носителей гаплогруппы С, которые были тестированы, обнаруживались оба эти снипа. Поэтому они даются под запятую у одного и того же субклада. А вот снип V20 уже более поздний, для его образования понадобилось мутация (Z1426), которая превратила С в Cl, и еще мутация, которая образовала С1а, и только из С1а образовались «параллельные» С1а1-M8 и С1а2-V20. Носители последнего и были найдены в Турции, Испании и Венгрии.
Из этого рассмотрения можно сделать предварительное заключение, или, скорее, предположение, что современные Костенки могут находиться относительно близко к региону появления первых гаплогрупп неафриканцев после предполагаемой глобальной катастрофы 60–70 тысяч лет назад. Гаплогруппы В и С появились почти сразу (в историческом масштабе времени) после прохождения бутылочного горлышка популяции, о чем говорилось выше, примерно 60–65 тысяч лет назад. И именно ранний субклад гаплогруппы С оказался у «костен-ковца». Видимо, из тех мест, кто сейчас протекает Дон, потомки выживших после катастрофы людей начали разносить гаплогруппы в своих ДНК по разным направлениям. Десятки тысячелетий позже их потомки жили на Пиренейском полуострове, в Центральной Европе, в Анатолии, а сейчас живут по всему миру. Давайте посмотрим, где они сейчас живут.
Гаплотипы наших современников гаплогруппы С
Построим дерево гаплотипов, размещенных в ДНК-Проекте «Гаплогруппа С». Поскольку дерево раскидистое, возьмем короткие гаплотипы, 12-маркерные, они для нашей задачи подойдут.
Фактически, это дерево дает примерный срез планеты по субкладам гаплогруппы С, распространение их по миру – но не только. Оно также показывает относительный «возраст» ветвей дерева, чем разбросанней ветвь, тем она древнее, потому что гаплотипы ветви показывают расхождение мутаций от предкового гаплотипа каждой ветви. Чем мутации больше разошлись – тем больше прошло времени от общего предка ветви. Плоские ветви – самые молодые, им обычно менее 2000 тысяч лет, порой и менее 1000 лет. Количественный счет числа мутаций в ветвях позволяет рассчитать, когда жил общий предок ветви. Для этого нужно знать константу скорости мутации, в данном случае для 12-маркерных гаплотипов, но она давно известна и откалибрована по тысячам гаплотипов практически всех гаплогрупп. Она равна 0.02 мутаций на гаплотип в расчете на 25 лет, что в ДНК-генеалогии называется «условным поколением». По аналогии, фут как мера длины, что означает «ступня», на самом деле представляет условную ступню, равную по длине 30.5 см. и никто не требует использовать в расчетах реальные, настоящие ступни конкретных людей.
Дерево 274 гаплотипов в 12-маркерном формате гаплогруппы С.Построено по данным Проекта[39].Серия плоских ветвей в правой части дерева – среднеазиатские гаплотипы, в основном из Казахстана.
Первое, что обращает на себя внимание – это то, что правая часть дерева состоит из серии плоских ветвей, то есть относительно недавних, «молодых», а левая и нижняя части – древние, разветвленные.
Это определенно разные народности, рода, этносы. Так вот, серия плоских ветвей в правой части дерева – это среднеазиатские гаплотипы, в основном из Казахстана. Первая плоская ветвь из 42 гаплотипов, в которой 20 гаплотипов идентичны друг другу (имеют вид гребенки), характеризуется базовым (предковым) гаплотипом
13 25 16 10 12 12 и 13 1114 1131
а остальные 22 гаплотипа суммарно содержат 40 мутаций от этого базового гаплотипа, он же предковый для всей ветви. Расчет хронологии всей ветви проводится следующим образом: 40/42/0.02 = 48 → 50 условных поколений, то есть 1250 ± 230 лет до общего предка ветви из 42 гаплотипов. Здесь стрелка показывает поправку на возвратные мутации, которая рассчитывается по определенным формулам[40]’[41]. Это – линейный метод расчетов. Для беглых расчетов можно использовать логарифмический метод, в котором мутации считать не надо. В применении к данному примеру формула следующая: ln(42/20)]/0.02 = 37 → 38 условных поколений, то есть 950 ± 220 лет до общего предка. Оба подхода дали датировки, которые совпали в пределах погрешностей расчетов, но здесь точные цифры и не нужны. Понятно, что общий предок казахов гаплогруппы С жил совсем недавно по историческим меркам, примерно в 8-11 вв нашей эры. Вся ветвь – исключительно казахские гаплотипы.
Что такое поправки на возвратные мутации, и как они рассчитываются?
Вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели, и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[42], и в простейшем виде симметричной картины мутаций формула следующая:
где:
λobs= наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов, λ – «истинное» среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
Рассмотрим для начала единичный маркер. Например, в серии из 3466 гаплотипов гаплогруппы Rlb-L21 в маркере DYS393 (это – самый первый маркер в протяженных гаплотипах) наблюдаются 232 мутации. В таком случае наблюдаемое среднее число мутаций на маркер равно 0.067, и поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Полная запись расчета следующая:
Итак, наблюдаемое число мутаций на маркер 0.067, «истинное» 0.069, и отношение между ними в соответствии с формулой (до округления) равно
(1 + 1.069)/2 = 1.0345
Итак, поправочный коэффициент равен 1.0345, и при наблюдаемых 0.067 мутаций на маркер их на самом деле 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В случае маркеров DYS390 (второй по счету маркер в протяженных гаплотипах) поправка будет уже значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент для того же случая 3466 гаплотипов, в которых наблюдается 1165 мутаций в данном маркере. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997. Полная запись расчета —
Иначе говоря, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть на 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ – важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.
Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».
Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59 ± 8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (см. врезку) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ± 13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ± 30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ± 32.7 %. Мы видим, что при введении в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400 ± 800 лет.