В рассматриваемой работе автор, Е.Я. Тетушкин, сетует, что калибровка скоростей мутаций, основанная на археологических «и прочих непрямых свидетельствах» часто «очень неточна и ненадежна», а вот прямые результаты скоростей мутаций по парам отец-сын якобы намного точнее, если только убедиться, что нет проблемы с отцовством. Тогда можно просто разделить число наблюдаемых мутаций на число мейозов. И в качестве примера автор приводит недавнюю работу Ballantyne et al (2010) по установлению скоростей мутаций для 186 маркеров почти в 2000 пар отец-сын.
Этим «теоретикам» в популяционной генетике, которые сами не считают, но думают, что все так просто и надежно, можно только порекомендовать опробовать свои рекомендации самим. На самом деле то, что приводится в статье Ballantyne et al (2010) и других подобных статьях, совершенно неприменимо для реальных расчетов в ДНК-генеалогии. Может в судебной практике это и полезно, но не при расчетах времен жизни общих предков.
На первый взгляд кажется, что в той статье – замечательная статистика, и вот наконец-то получены данные, которые позволят откорректировать скорости мутаций для протяженных гаплотипов и вывести ДНК-генеалогию на новый количественный уровень. Закончились споры и дискуссии, какие величины скоростей мутации самые правильные, и осталось только щелкать древние (и современные) гаплотипы как орехи. Видимо, этой эйфорией прониклись и сами авторы, поскольку в абстракте статьи написано черным по белому, после фразы, что теперь можно анализировать как близких, так и удаленных родственников «This finding is expected to revolutionize Y-chromosomal applications…»
Увы, не тут-то было.
Во-первых, поскольку мутации в гаплотипах обычно редки, то этих почти двух тысяч пар отец-сын явно недостаточно для хорошей статистики. Во многих маркерах мутаций не было вообще, в большинстве маркеров по одной-две-три мутации на все две тысячи пар, что вовсе немного для статистики. Понятно, что если мутаций в маркере вообще нет, то он остается неохарактеризованным. Одна мутация означает статистическую погрешность плюс-минус 100 %, поскольку где одна мутация, то там легко могло быть две или ни одной. Это можно показать и количественно, в терминах математической статистики. Две мутации – это погрешность примерно плюс-минус 70 %. Ясно, что о расчетах на основе отдельных маркеров здесь не может быть и речи. Не случайно в предыдущих статьях на эту тему я писал, что для статистически надежных данных нужны серии из сотен тысяч, а то и миллионов пар отец-сын, что практически нереально, пока, во всяком случае.
Во-вторых, для каждого маркера изучалось разное количество пар отец-сын. Это почти неизбежная проблема в таких массовых исследованиях, поскольку часто имеют место сбои, аллели не определяются, лаборанты ошибаются, а переделывать – дорого и неохота. Скорее второе, чем первое. В итоге итоговая таблица данных выглядит как лоскутное одеяло, с массой прорех. Но это самая незначительная проблема, поскольку данные можно пересчитать на некую «нормированную» величину, что мы ниже и сделаем двумя способами.
В-третьих, авторы не ориентировались на ДНК-генеалогию, а преследовали свои цели. В итоге ряд важных маркеров определен вообще не был, а именно из 37- и 67-маркерной панелей. Поэтому для этих расчетов, с использованием наиболее ценных, протяженных гаплотипов, данные обсуждаемой статьи вообще непригодны.
В-четвертых, и это очень важно, данные в парах отец-сын имеют принципиальный, системный недостаток в рамках понятий ДНК-генеалогии. Они позволяют рассчитать скорости мутации только НА ПОКОЛЕНИЕ, просто по определению. А исторические расчеты, понятия, исследования ведутся в годах. Переход же от числа поколений к числу лет принципиально невозможен со сколько-нибудь приемлемой точностью. Этот «коэффициент» – величина плавающая, и меняется от эпохи к эпохе, от культуры к культуре, и вообще зависит от массы факторов. В разных работах популяционных генетиков он варьируется от 18 до 35 (как минимум) лет. Соответственно, при этих величинах число лет будет варьироваться почти в два раза, и вся точность определения скоростей мутаций в парах отец-сын сводится на нет. Один выход из ситуации – калибровать полученные данные по историческим и генеалогическим данным, что мы и так делаем без тех хлопот.
Это – к «революционированию» науки, о чем в состоянии эйфории воскликнули авторы статьи. Как видно, революционирования особого не видно, хотя исследование полезное, как мы ниже покажем. Вся его полезность в основном сводится к тому, что показывает, что наши значения скоростей мутации, определенные эмпирически, вполне согласуются – по порядку (!) – с расчетами по парам отец-сын.
Напомним сначала основные положения нашего эмпирического подхода и соответствующие величины констант скоростей мутации для разных протяженных гаплотипов, а потом посмотрим, что в этом отношении дают результаты рассматриваемой статьи.
Принципиальная методология нашего подхода описана во многих статьях. Число мутаций в сериях гаплотипов может рассматриваться с применением любого из четырех основных методов: «линейный», «логарифмический», «квадратичный» и «пермутационный». Самый простой – логарифмический, в котором и мутации считать не нужно, считаются только немутированные гаплотипы, и берется логарифм отношения числа всех гаплотипов в серии к числу немутированных гаплотипов и далее к средней скорости мутации маркеров в гаплотипе. Но перед этим необходимо убедиться, что вся рассматриваемая серия гаплотипов происходит от одного общего предка. Это, впрочем, непременное требование ко всем четырем методам расчетов. На это есть критерии, которые применяются к дереву гаплотипов рассматриваемой серии. Для линейного метода необходимо определить среднее число мутаций на маркер в данном гаплотипе, разделить на среднюю скорость мутаций и сделать поправку на возвратные мутации. Такую поправку необходимо делать и в логарифмическом методе. В квадратичном и пермутационном методах поправки на возвратные мутации делать не нужно, но эти два метода особенно чувствительны к примесям гаплотипов от других общих предков.
В любом методе необходимо использовать среднюю скорость мутации – на маркер или на гаплотип:
Для 12-маркерных гаплотипов – 0,020 мутаций на гаплотип, или 0,00167 мутаций на маркер,
Для 25-маркерных гаплотипов – 0,046 мутаций на гаплотип, или 0,00183 мутаций на маркер,
Для 37-маркерных гаплотипов – 0,090 мутаций на гаплотип, или 0,00243 мутаций на маркер,
Для 67-маркерных гаплотипов – 0,12 мутаций на гаплотип, или 0,00179 мутаций на маркер,
Для 111-маркерных гаплотипов – 0,198 мутаций на гаплотип, или 0,00178 мутаций на маркер.
Эти скорости мутаций откалиброваны при величине 25 лет на поколение. Последнее – фиксированная математическая величина, а не какое-либо иное соображение. Дело в том, что при расчетах в ДНК-генеалогии, исходя из числа мутаций или числа немутированных гаплотипов в серии, всегда получается величина
Давайте посмотрим, что получается. Задавая 26 поколений до общего предка (при 25 годах на поколение) получаем 12-маркерные гаплотипы, для ранней и последней серий гаплотипов:
44/68/26=0,025±0,004 мутаций на гаплотип на поколение,
81/143/26=0,022±0,002 мутаций на гаплотип на поколение.
Из 143 гаплотипов 86 были одинаковыми, то есть базовыми. Применяя логарифмический метод, получаем: [ln(143/86)]/26=0,020±0,002 мутаций на гаплотип на поколение.
Видно, что эти величины равны в пределах погрешности. Более детальные последующие исследования со многими сериями гаплотипов позволили уточнить константу скорости мутации как 0,020±0,001 мутаций на гаплотип на поколение.
Таким же образом калибруются и более протяженные панели гаплотипов, и не только по Клану МакДоналдов, а по многим документальным генеалогиям. Это детально описано в недавней статье в англоязычном журнале «Успехи антропологии».
В то же время данные Ballantyne et al для индивидуальных маркеров не могут быть использованы для расчетов, поскольку статистики там практически нет. Так, для числа мутаций по почти 2000 пар отец-сын для первых 12 маркеров, а именно 3, 2, 7, 5, 3, 6, 0, 0, 6, 9, 1, 6, статистические погрешности, или доверительные интервалы соответственно равны (при 95 % надежности) соответственно плюс-минус 115 %, 141 %, 76 %, 89 %, 115 %, 82 %, данных нет, данных нет, 82 %, 67 %, 200 %, 82 %. Ясно, что с такими погрешностями в расчетах делать нечего.
Расчеты показывают, что для того, чтобы пары отец-сын дали статистически значимые константы скорости мутации для индивидуальных маркеров, должно наблюдаться не менее 400 мутаций в каждом локусе (это даст погрешность ±10 % при 95 %-й надежности расчетов). Это условие будет выполняться для минимум 800 тысяч (!) пар отец-сын, и даже при этом наиболее медленные маркеры дадут всего одну или несколько мутаций на локус. Но даже и в этом случае полученные константы скорости мутации будут относиться всего к одному поколению, и не будут применимы для расчетов TMRCA в годах, а в исторических науках в поколениях не считают. Так что опять придется подгонять к уже известным величинам констант скоростей мутаций. Круг замкнулся.