А.А. Клёсов, А.А. Тюняев.
ДНК, дезоксирибонуклеиновая кислота, сохраняет и реализует генетическую программу развития и функционирования организма человека (в контексте настоящей книги). Находится в ядре клетки в составе 46 хромосом, одна из которых, самая маленькая по размеру – мужская половая хромосома, или Y-хромосома. В ней содержится примерно 50 миллионов нуклеотидов, повторяющихся структурных единиц ДНК – аденина, гуанина, тимина и цитозина. Все 46 хромосом в совокупности состоят из трёх миллиардов нуклеотидов, и в их составе примерно 30 тысяч генов, в среднем по 652 гена на хромосому. В Y-хромосоме всего 27 генов, остальная часть – некодирующая, «никчёмная», как её часто называют. В ней находится много повторов нуклеотидных цепочек, часть которых генетики и выбрали в качестве гаплотипов для ДНК-генеалогии. Копирование, или репликацию ДНК выполняет ДНК-зависимая ДНК-полимераза (в составе большого комплекса, реплисомы), которая иногда допускает ошибки, называемые мутациями.
Y-ХРОМОСОМА, мужская половая хромосома (см. ДНК).
МАРКЕР, или локус, сегмент, участок Y-хромосомы (в контексте данной книги), выбранный для определения числа повторов нуклеотидов для целей ДНК-генеалогии. Число повторов нуклеотидов в локусе называют «аллель». Маркеры нумеруют и присваивают им индексы, например, DYS19, то есть «DNA Y Segment, локус номер 19». В этом конкретном локусе повторяется четвёрка (квадруплет) ТАГА, то есть тимин-аденин-гуанин-аденин, причём повторяется у разных людей от 11 до 19 раз подряд. Число повторов – индивидуальная характеристика человека, и при увеличении числа маркеров эта характеристика становится всё более индивидуальной. В ранних научных исследованиях типировали (то есть определяли последовательности) от 5 до 9 маркеров, в современных – от 10 до 22 маркеров, в коммерческих работах обычно типируют от 12 до 67 маркеров (стандартные варианты – 12, 17, 25, 37 и 67 маркеров).
АЛЛЕЛЬ, число тандемных повторов определенных блоков нуклеотидов в маркерах (см. Гаплотип).
ГАПЛОТИП, совокупность аллелей, то есть наборов повторов в локусах, или маркерах. Гаплотип записывается в виде набора чисел, которые и отражают число аллелей в каждом маркере. Например, типичный гаплотип среди славян Русской равнины:
в 12-маркерном формате (формате FTDNA)
13 25 16 11 11 14 12 12 10 13 11 30
в 25-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16
(здесь поставлено тире между первой и второй панелью маркеров, точнее – аллелей),
в 37-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16 – 11 11 19 23 16 16 18 19 34 39 13 11
в 67-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 24 14 20 32 12 15 15 16 – 11 11 19 23 16 16 18 19 34 39 13 11 – 11 8 17 17 8 12 10 8 11 10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13
ФОРМАТ FTDNA – форма записи гаплотипов, принятая компанией Family Tree DNA (США). Примеры даны в разделе выше. Порядок маркеров в 12-, 25-, 37- и 67-маркерных гаплотипах следующий (в верхней строке – порядковый номер маркера, в нижней – номер маркера, или локуса DYS):
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
393 | 390 | 19 | 391 | 385a | 385b | 426 | 388 | 439 | 389-1 |
11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
392 | 389-2 | 458 | 459a | 459b | 455 | 454 | 447 | 437 | 448 |
21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
449 | 464a | 464b | 464c | 464d | 460 | GATA H4 | YCA IIa | YCA IIb | 456 |
31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 |
607 | 576 | 570 | CDYa | CDYb | 442 | 438 | 531 | 578 | 395S1a |
41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 |
395S1b | 590 | 537 | 641 | 472 | 406S1 | 511 | 425 | 413a | 413b |
51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 |
557 | 594 | 436 | 490 | 534 | 450 | 444 | 481 | 520 | 446 |
61 | 62 | 63 | 64 | 65 | 66 | 67 | |||
617 | 568 | 487 | 572 | 640 | 492 | 565 |
ДЕРЕВО ГАПЛОТИПОВ, серия гаплотипов, рассортированная с помощью специальной компьютерной программы и представленная в виде круговой или линейной диаграммы. Эта диаграмма группирует гаплотипы по динамике их мутаций во всех маркерах, и таким образом представляет дерево в виде совокупности ветвей гаплотипов, соответствующих их предполагаемым ДНК-генеалогическим линиям. Например, среди гаплотипов гаплогруппы R1a1 встречаются гаплотипы с «типовой» мутацией, в которой маркер DYS388=12 заменён на DYS=10. Это отдельная (и древняя) ДНК-генеалогическая линия, потому что и многие остальные мутации более присущи этой линии «10», по сравнениями с мутациями для линии «12». Действительно, на дереве гаплотипов линия «10» выделяется в отдельную, которую следует анализировать отдельно. В настоящей книге деревья гаплотипов строились с помощью программы PHYLIP [Felsenstein, 2005].
ГАПЛОГРУППА, совокупность гаплотипов, объединённая «групповой» необратимой мутацией, присущей определённому человеческому роду, то есть потомков одного «патриарха», как правило, тысячелетия назад. Эти мутации («снипы») выбирают по определённым критериям. Гаплогруппой также называют сам род в таких выражениях, как «гаплогруппа мигрировала шесть тысяч лет назад на восток», понимая, естественно, что мигрировали носители данной гаплогруппы. В настоящее время классификация включает 20 основных гаплогрупп, от А до Т в алфавитном порядке, и сотни «нисходящих» гаплогрупп и субкладов. Индекс гаплогруппы с надстрочным * (например, I*) показывает, что «нисходящих» мутаций у их носителей в классификации нет. Это – прямые потомки данной гаплогруппы или субклада.
БИНАРНАЯ ГАПЛОГРУППА, устаревшее название гаплогруппы, приводится здесь потому, что всё ещё часто встречается в публикациях. То же, что и «биаллельная гаплогруппа», потому что у мутации, её определящей (снип, SNP, см. ниже) есть всего два состояния – либо мутация есть, либо её нет. То есть в соответствующем участке ДНК есть две аллели – исходная и мутированная. В отличие он них, тандемные мутации, или тандемные повторы (см. ниже) являются, как правило, множественными и имеются в популяции в виде различных аллелей, то есть «полиаллельными».
СУБКЛАД, подчинённая, «нижестоящая» гаплогруппа, ДНК-генеалогическая ветвь в пределах той же гаплогруппы, все члены которой имеют не только мутацию основной гаплогруппы, но и дополнительную мутацию, общую только для данной ветви. Например, гаплогруппа R имеет «подчинённые», или «дочерние» гаплогруппы R1 и R2; R1, в свою очередь, имеет R1a и R1b и так далее. R1b в настоящее время имеет 35 «официальных» субкладов, утвержденных Международным обществом генетической генеалогии.
МУТАЦИЯ, в ДНК-генеалогии ошибка при копировании последовательности Y-хромосомальной ДНК, в результате которой (ошибки) или меняется число аллелей в определённом локусе (STR мутации, от Short Tandem Repeats), или происходит модификация гаплогруппы (SNP мутации, от Single Nucleotide Polymorphism).
МУТАЦИЯ В ГАПЛОТИПЕ, ТАНДЕМНАЯ МУТАЦИЯ, изменение числа аллелей в маркере. Происходит в среднем примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 1100 поколений (примерно 28 тысяч лет) до одного раза в 28 поколений (примерно 700 лет). В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько ближайших предков популяции (в последнем случае популяция подразделяется на ветви). Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.
Например, DYS426 – очень «медленный» маркер, всё человечество как популяции имеет всего четыре варианта аллелей – 10, 11, 12 и 13. При этом в гаплогруппах E3a, G и J2 все 100% аллелей в изученных популяциях равны 11 (на примере 330, 454 и 915 человек, соответственно. В гаплогруппах E3b и I1 – I2 99% аллелей в этом маркере также равно 11 (на примере 1185 и 5700 человек, соответственно). Напротив, в гаплогруппах R1a и R1b 99% аллелей в том же маркере равны 12 (на примере 1574 и 22129 человек, соответственно). На аллели 10 и 13 в том же маркере приходится около 1% случаев. Примеры наиболее множественных аллелей, с высокими скостями мутаций – DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 аллелей, соответственно, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.
СРЕДНЕЕ ЧИСЛО МУТАЦИЙ НА МАРКЕР, важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».
Например, в серии из 110 25-маркерных гаплотипов гаплогруппы R1a1 на постсоветском пространстве (в основном тестированы этнические русские и украинцы) имеется 804 мутации, то есть среднее число мутаций на маркер составляет 804/110/25 = 0.292. Для сравнения, среднее число мутаций у индийцев той же гаплогруппы R1a1 (то есть того же рода) равно 191/30/25 = 0.255. Из этого уже следует, что общий предок рассматриваемой популяции индийцев жил позже, чем общий предок рассматриваемой популяции славян. Ещё пример – среднее число мутаций для западно- и центральноевропейских гаплотипов гаплогруппы R1b1b2 равно 1340/197/25 = 0.272, то есть общий предок славян, живущих в настоящее время на постсоветском пространстве, заметно древнее, чем общий предок современных западноевропейцев указанной гаплогруппы (наиболее распространенной в Европе).
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения среднего числа мутаций на маркер (см. выше) или рассчитываемого времени жизни общего предка рассматриваемой популяции. Для среднего числа мутаций на маркер упрощённая величина погрешности при 95%-ном доверительном интервале равна обратной величине квадратного корня из общего числа мутаций в выборке (здесь пренебрегается симметричностью мутаций в гаплотипах, учёт которой часто требует лишь несущественной поправки). Например, для трёх примеров выше погрешности средних величин числа мутаций на маркер равны 3,53% (для 110 гаплотипов славян), 7,24% (для 30 гаплотипов индийцев) и 2,73% (для 197 гаплотипов западноевропейцев), и сами величины равны 0.292±0.010, 0.255±0.018 и 0.272±0.007 мутаций на маркер, соответственно, при 95%-ном доверительном интервале. Для 5%-ной погрешности в определении средних скоростей мутации общая относительная погрешность (одна сигма) для рассматриваемых случаев равна = 6.1%, = 8.8% и = 5.7%.
В наших исследованиях мы брали удвоенную величину погрешности для средней скорости мутации, то есть величину «два сигма», чтобы получить погрешности при 95%-ном доверительном интервале, и таким образом получали = 10.6%, = 12.35% и = 10.4%. Применяя величину средней скорости мутации для 25-маркерных гаплотипов, равную 0.00183 (см. ниже) и вводя поправку на возвратные мутации, получим для трёх рассматриваемых случаев 4725±500, 4050±500 и 4375±450 лет до общих предков соответствующих популяций восточных славян (R1a1), индийцев (R1a1) и западноевропейцев (R1b1b2). Это означает, что общие предки указанных популяций жили в пределах данных временных интервалов с вероятностью 95%.
СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, М17 (это – «входная» мутация гаплогруппы R1a1), Р25 («входная» мутация в гаплогруппу R1b1), L21, то же самое S145 (мутация, определяющая субклад R1b1b2a1a2f) и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован:
- М, лаборатория под руководством Peter Underhill, Stanford University (США);
- Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);
- S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);
- L, исследовательский центр под названием Family Tree DNA's Genomics Research Center под руководством Thomas Krahn (США).
- U, университет центральной Флориды (Lynn M. Sims и Jack Ballantyne) и университет Gonzaga (Dennis Garvey);
- V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);
- N, лаборатория биоинформатики, Институт биофизики КАН, Пекин (Китай).
СКОРОСТЬ МУТАЦИИ, средняя частота изменения числа повторов в локусе, или маркере, обычно измеряется в числе мутаций на поколение. Средняя скорость мутаций составляет 0.00183 на маркер на поколение для первых 12-ти и первых 25-ти маркеров в стандартном формате гаплотипов (см. выше). Для первых 37-и маркеров средняя скорость мутаций составляет 0.00243 на маркер на поколение, для первых 67-ти маркеров – 0.00216 на маркер на поколение. В неопределённых ситуациях часто принимается в виде «канонической» величины 0.002 мутаций на маркер на поколение.
В реальных условиях скорости мутаций измеряют по мутациям в гаплотипах в одном поколении на большом числе пар отец-сын. Пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8%) и одна – двухшаговая (1,2% от всех). Поскольку все 1752 гаплотипа содержали 1752 × 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84 / 29784 = 0.00282 мутации на маркер на поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз».
Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4±11.6 лет (округленно 34±12) и 30.3±10.2 лет (округлённо 30±10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.
СРЕДНЯЯ СКОРОСТЬ МУТАЦИИ НА ГАПЛОТИП, для первых 6-ти маркеров в «научном формате», DYS19, 388, 390, 391, 393, 393 – 0.088 мутаций на гаплотип на поколение, для первых 12-ти маркеров (первая панель маркеров в формате FTDNA) – 0.022 мутации на гаплотип на поколение, для первых 25-ти маркеров – 0.046 мутаций на гаплотип на поколение, для первых 37-ти маркеров – 0.09 мутаций на гаплотип на поколение, для 67-ми маркеров – 0.145 мутаций на гаплотип на поколение. Отсюда сразу можно заключить, что если два 67-маркерных гаплотипа отличаются, например, на 6 мутаций, то они разошлись от общего предка, который жил 6/2/0.145 = 21 поколение назад, или 525 лет назад. Однако для таких расчётов надо знать, что оба гаплотипа относятся к одной гаплогруппе, и понимать, что для двух гаплотипов и столь немногих мутаций подобные расчёты могут быть только оценочными. Например, в данном конкретном случае оценка равна 525±220 лет с 95%-ной надёжностью.
«БУТЫЛОЧНОЕ ГОРЛЫШКО» ПОПУЛЯЦИИ, резкое или медленное сокращение популяции до критического, после чего популяция либо выживает, либо терминируется. Причинами «бутылочного горлышка» могут быть события, катастрофические в отношении популяции (природные катаклизмы, эпидемии, войны), либо медленное вымирание популяции. Обычно выжившая популяция «обнуляет» набор своих мутаций в гаплотипах до гаплотипа выжившего члена популяции, и он становится «общим предком» для потомков. Исследования показывают, что многие популяции в прошлом имели пульсирующий характер и многие популяции терминировались, не проходили «бутылочное горлышко». Многие древние популяции остались во «фрагментах», в серии относительно недавних популяций, «кластеров», которые очень значительно отличаются друг от друга по гаплотипам, оставаясь внутри одной и той же гаплогруппы. Примеры – гаплотипы американских индейцев, африканские гаплотипы, гаплотипы Русской равнины, ряд европейских гаплотипов.
Для описания этих явлений часто используют понятие «генетический дрейф». Именно из-за генетического дрейфа и соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100% преобладает аллель DYS426=11, а у гаплогрупп R на 99% преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в результате «генетического дрейфа» так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) генетический дрейф привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30% наиболее частой аллели (ср. С 99% или 100% в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).
ОБЩИЙ ПРЕДОК ПОПУЛЯЦИИ, предполагаемый носитель «базового», или «предкового» гаплотипа. Время жизни общего предка популяции вычисляется по совокупности гаплотипов его потомков, принимая во внимание число мутаций, накопившееся в популяции, нормированное на гаплотип или на маркер, и константу скорости мутации, или частоту мутации в расчёте на поколение. Расчёты времён жизни общих предков популяций позволяют делать предположения о времени и направлениях миграций популяций в древности, о передвижениях популяций. Поскольку, передвигаясь, популяции оставляли следы в виде материальных признаков, ресурсов, это позволяет проводить интерпретацию археологических данных в отношении носителей этих признаков, их принадлежности к определённым родам и племенам, связанных родственными взаимоотношениями. Аналогично, популяции, передвигаясь, приводили к перемещению языков, диалектов, и определение общих предков и времён их жизни даёт возможность прослеживать динамику языков в отношении соответствующих родов и племён, связанных родственными взаимоотношениями.
5. Общие принципы ДНК-генеалогии
5.1. Введение
В данном разделе речь пойдет о роли, которую ДНК-генеалогия может играть в понимании происхождения, динамики и миграции человеческих родов, племён, генеалогических линий, а также языков человечества – в пространстве и во времени. В отличие от антропологии, истории, археологии, которые оперируют памятниками прошлого, ДНК-генеалогия имеет дело с молекулами, извлекаемыми из нашего организма. Путём серии отработанных физико-химических операций, доступных грамотному технику-лаборанту и почти полностью автоматизированных, исследователь получает сведения о мутациях, накопившихся в определённых участках ДНК и может сравнивать характер (рисунок) этих мутаций у конкретных людей или их коллективов, популяций, этнических групп, народов. Это позволяет получать сведения о передвижениях предков современных (и ископаемых) носителей анализируемых молекул ДНК, опять же в пространстве и во времени, вплоть до времён 50 – 80 тысяч лет назад и на любой территории. На самом деле, вплоть до любых времён жизни предков человека, до сотен тысяч и миллионов лет назад, но наука на таких временах пока имеет слишком малую базу.
Помимо того, любая человеческая популяция в определённые моменты времени проходила то, что генетики называют «бутылочным горлышком» популяции. Это означает, что популяция, будь то род, племя, или просто группа родственников, сокращается в размере настолько, что или прекращает свое существование, генеалогическая линия прерывается (не прошли «бутылочное горлышко»), или сокращается до нескольких, или буквально до одного человека, потомство которого в итоге выживает и увеличивается в числе. В таких случаях этот человек и оказывается «общим предком» выжившей популяции. Методы расчёта времени жизни общего предка данной, выжившей популяции ведут именно к тому человеку, картина мутаций в ДНК его потомков сводится именно к нему, потому что «разбег» мутаций в ДНК потомков отсчитывается именно от этого, выжившего предка. Он становится, в рамках понятий ДНК-генеалогии, общим предком данной популяции.
«Буквально до одного человека» здесь – это в понятия ДНК-генеалогии, то есть скорее «до одного гаплотипа». Людей, оставшихся в данной популяции, могло быть несколько, это могли быть отец и сын, или братья, группа родственников, у которых и гаплотип мог и не различаться, или различаться несколькими мутациями, но в итоге выжил только один гаплотип, и именно от него пошёл «разбег мутаций» у потомков.
Методы ДНК-генеалогии позволяют узнать, когда жил общий предок, и, значит, – когда имело место «бутылочное горлышко» популяции на абсолютной шкале времени. При этом при наличии умеренной статистики, а именно при рассмотрении всего нескольких десятков или (лучше) сотен образцов ДНК потомков, можно идентифицировать времена жизни общих предков с точностью, близкой к 10% при 95%-ной достоверности полученных абсолютных значений времени. Так, если общий предок данной популяции жил 5000 лет назад, то при наличии (путём тестирования) сотни «гаплотипов» (так называемых «25-маркерных гаплотипов»), то есть определённых фрагментов Y-хромосомы современников, потомков данного общего предка, время жизни общего предка определится с точностью 5000±530 лет до настоящего премени. Это означает, что время жизни общего предка данной популяции попадает в указанный интервал времени, между 4470 и 5530 лет назад, с надёжностью 95%.
Такая точность вызвана тем, что в сотне 25-маркерных гаплотипов (то есть когда в каждом гаплотипе имеется по 25 нуклеотидных маркеров, и каждый мутирует с определённой средней скоростью на протяжении этих тысяч лет) в распоряжении исследователя есть 2500 «экспериментальных точек», в которых на протяжении 5000±530 лет произойдёт, как исследователь знает, примерно 770 мутаций. Эта величина жестко завязана на среднюю скорость мутаций, установленную и калиброванную. Если мутаций меньше, то общий предок жил более недавно, и опять можно вполне надежно установить, когда он жил. Например, при рассмотрении 750 19-маркерных гаплотипов басков (Пиренеи), род (гаплогруппа) R1b1b2, оказалось, что все они содержат 2796 мутаций от гаплотипа, равноудалённого от всех (это и есть предковый гаплотип, так как мутации происходят в подавляющем большинстве совершенно неупорядоченно, со степенью симметрии 0.5 в любую сторону, «вверх» или «вниз» по значению аллелей). Это означает, что общий предок всех 750 басков жил 3625±370 лет назад.
Можно вообще не обращать внимание на число мутаций и просто посчитать, сколько среди этих 750 гаплотипов есть «равноудалённых», причём идентичных друг другу. Это и есть предковые гаплотипы, и их число задаётся законами химической кинетики, то есть физической химии. Примерно такими же законами задаётся скорость радиоактивного распада, хотя после превращения стабильный изотоп не может стать обратно радиоактивным нуклидом, эти процессы необратимы.
Мутация же может вернуться обратно, потому что мутации, как мы отмечали, полностью неупорядочены. Иначе говоря, мутированному гаплотипу всё равно, в какую сторону мутировать в следующий раз, мутации обратимы. Это вносит усложнения в расчёты по сравнению с простыми процессами радиоактивного распада, но проблема с успехом решаема.
Среди отмеченных 750 гаплотипов басков 16 оказались предковыми. То есть за прошедшие 3625±370 лет в полном соответствии с теорией вероятности 16 гаплотипов из 750 так и остались предковыми. Они не успели мутировать, они – «на хвосте» кривой вероятностного распределения мутаций. Если бы считать по законам радоактивного распада (физико-химики говорят – по законам кинетики первого порядка), то из 750 гаплотипов 16 останутся неизменными за ln(750/16)/0.0285 = 135 поколений, прошедших со времени жизни общего предка, то есть за 3375 лет (продолжительность поколения в 25 лет заложена в константу скорости мутации 0.0285 мутаций на гаплотип на поколение).
Но при этом расчёте не учитывается обратимость мутаций. Учёт этой обратимости, опять в строгом соответствии с теорией вероятности, сдвигает число поколений со 135 до 156, то есть до 3900 лет до общего предка. Для введения подобных поправок есть детальные таблицы расчётов [Клёсов, 2008с; Klyosov, 2009a; Табл. 5.2.3.1.2 ниже]. Как мы видим, эта величина, 3900 лет, попадает в интервал 95%-ной надежности расчётов 3625±370 лет до общего предка.
Очевидно, что считать мутации, или считать предковые гаплотипы (если от времени жизни общего предка прошло не так много лет) – не имеет большого значения или большой разницы. Величины получаются примерно те же самые, если расчёт ведётся правильно, и используются надежные константы скоростей мутации, подтвержденные экспериментально, то есть с учётом известных генеалогий или известных исторических событий. Эта работа проведена, и в недавней работе [Klyosov, 2009a] приведены значения констант скоростей мутаций для 22 типичных гаплотипов, применяемых в ДНК-генеалогии, от 5-маркерного до 67-маркерного. В этой книге таблица расширена уже до 28 типичных гаплотипов (Табл. 5.2.3.1.2).
Чтобы показать, насколько массивными бывают расчёты, и насколько точными получаются данные, приведём ещё один пример – выборку из 857 25-маркерных гаплотипов Англии, род I1 (определения родов будут даны ниже), то есть 21425 «экспериментальных точек» [Klyosov, 2009a]. Эти гаплотипы содержали 4868 мутаций от предкового гаплотипа, который в ДНК-генеалогии часто называют «базовым». Такое название принято потому, что во многих случаях нет полной уверенности, особенно с очень древними гаплотипами, что «равноудалённый» – это непременно предковый гаплотип. Это может быть хорошее приближение, но не более того. Назвать его «предковым» было бы натяжкой. Потому – «базовый».
Такое число мутаций позволяет определять среднее число мутаций на маркер (а именно это среднее число фактически используется для расчёта времени жизни общего предка) с точностью до 1 – 2% с 95%-ной надёжностью. Это потому, что для несимметричных мутаций точность расчётов (среднеквадратичное отклонение) средней величины мутаций на маркер задаётся обратной величиной квадратного корня из числа мутаций, а для симметричных отличается лишь немногим [Klyosov, 2009a]. Для 4868 мутаций это отклонение – с 95%-ной надёжностью – составляет 1.43%. Но поскольку точность средних скоростей мутаций в гаплотипах принимается за 5%, то для 95%-ной надёжности расчётов времени жизни общего предка предельной точностью может быть только плюс-минус 5%, то есть 10%-ный интервал.
Поэтому для английских гаплотипов определено, что общий предок всех 857 человек в данной выборке жил 3425±350 лет назад. Это – относительно недавнее время, относительно молодые европейские популяции. Хотя для некоторых европейских родов общие предки – по данным ДНК-генеалогии – жили 16 – 18 тысяч лет назад. Как будет показано ниже, для ряда азиатских родов общий предок рода жил 16 – 20 тысяч лет назад, для африканских родов – 28 – 37 тысяч лет назад.
Эти примеры здесь даются для того, чтобы читатель осознал, что ДНК-генеалогия – это не просто нарождающаяся наука с зыбким фундаментом (что характерно для новых областей наук). За последние несколько лет ДНК-генеалогия практически закончила формировать расчётный базис, платформу, и временные расчёты проводятся теперь с достаточной надёжностью. Было экспериментально показано, с использованием геномов многих популяций людей, а также геномов шимпанзе, что мутации представляют собой действительно «молекулярные часы», скорость которых в ДНК неизменна на протяжении по меньшей мере последних двух миллионов лет [Sun et al, 2009].
Было экспериментально показано на тысячах пар «отец-сын», что мутации в гаплотипах действительно равновероятны по «направлению», и тандемные, повторяющиеся блоки нуклеотидов, называющиеся в ДНК-генеалогии маркерами, могут укорачиваться или удлиняться на блок (то есть менять чисто аллелей) с одинаковой вероятностью. На этих системах было показано что «двойные» или более мутации в гаплотипах (маркерах) происходят редко, на уровне единиц процентов, и практически не влияют на получаемые расчёты времён до общих предков популяций или серий гаплотипов.
Сложнее с географической привязкой, с выявлением того, где именно жил общий предок, так как время его жизни (то есть сколько поколений или лет назад он жил) о географии не говорит. Для выявления того, где, на каких территориях жили общие предки популяции, приходится привлекать независимые данные археологии, антропологии, лингвистики, понимая частую условность их сведений, поскольку о том, что те ископаемые предки действительно дожили в потомках до наших дней, приходится только гадать.
Именно потому союз антропологии, археологии, лингвистики с ДНК-генеалогией так важен. ДНК-генеалогия предоставляет в их распоряжение жёсткую привязку в виде «метки» рода, определённую и однозначно определяемую мутацию в Y-хромосоме ДНК, мутацию под названием «снип» (SNP = Single Nucleotide Polymorphism), которая всегда сопровождает каждого члена рода. Эта мутация не ассимилируется в популяциях, как ассимилируются языки, культуры, религии, физические черты, антропологические показатели.
Эта мутация, снип, одна и та же в смешанных популяциях, она позволяет отличить члена рода через тысячи и десятки тысяч лет. Она позволяет проследить миграции родов и отдельных представителей рода. Она позволяет понять, останки представителей каких родов находятся в археологических раскопах, и как археологические культуры связаны друг с другом – не только через материальные, культурообразующие носители, но и через людей, через конкретные рода, понять генезис, динамику археологических культур, добавить важнейшую компоненту к динамике человеческих популяций и их материальных носителей.
Так, определение снипа, то есть конкретной родовой принадлежности останков в Костёнках и Сунгире немедленно и надёжно позволило бы определить, есть ли их потомки среди нас, среди современного человечества. Если же снип окажется совершенно незнакомым, каких среди современных людей нет, то потомки этих культур, увы, не выжили. По крайней мере в мужском населении планеты. Но поскольку женщины имеют свои гаплогруппы и гаплотипы, в митохондриальных ДНК, то аналогичные тесты позволили бы однозначно установить, есть ли потомки женщин древних Костёнок и Сунгиря среди женщин Земли в настоящее время.
В этой книге выдвинута и частично обоснована гипотеза, что потомки обитателей тех древних стоянок 50 – 45 тысяч лет назад действительно дожили до настоящего времени. Но она, гипотеза, может быть верифицирована только путём анализа ДНК ископаемых останков. Технически это возможно – секвенированием, то есть определением нуклеотидной последовательности фрагментов костной ДНК, глубоко упрятанной в костях и частично пережившей тысячелетия. (Немногочисленные) примеры таких исследований и их результаты также приводятся в данной книге, а также поясняется, почему эти исследования немногочисленны, фактически единичны, насколько трудна эта работа и насколько дорогостояща.
Следует ещё раз подчеркнуть – ДНК-генеалогия наших современников «докапывается» только до «бутылочных горлышек» популяций, родов, племён, генеалогических линий, связывающих современников с их предками. «Бутылочное горлышко» – это далеко не обязательно результат мора, эпидемий, войн, природных катаклизмов в прошлом. Хотя все эти факторы непременно имели место и оказали влияние на состав современных популяций. Трудно представить, насколько чума середины 14-го века, которая выкосила четверть европейцев, терминировала генеалогические линии, гаплотипы и, возможно, целые гаплогруппы, рода. Много генеалогических линий начинаются именно в середине 14-го века. Это – выжившие люди, поведшие линию популяции опять сначала, ставшие «общими предками» многочисленных групп наших современников.
Геноцид – худший враг ДНК-генеалогии, не говоря обо всём человечестве. Сколько генеалогических линий прервала резня в Армении второго десятилетия прошлого века – об этом можно только догадываться. Да и любая война вносит необратимый вклад в уничтожение генетического «материала». Галльские войны Юлия Цезаря, по данным Плутарха, привели к гибели более миллиона жителей Центральной Европы, и ещё миллион был угнан в рабство. Опять, можно только гадать, как это изменило ландшафт гаплотипов и гаплогрупп в Европе.
Но не только войны и эпидемии создают «бутылочные горлышки», но и переезд, переход, миграция носителя гаплогруппы и гаплотипа на новое место. Если миграция массовая или даже нескольких человек, то эти люди «переносят» мутации своего общего предка на новое место, и, с точки зрения ДНК-генеалогии, общий предок мигрантов как был тысячелетия назад, так и остался. Так, например, общий предок англичан в Англии и в США – один и тот же. Как и русских, восточных славян, например. Это вовсе не означает, что восточные славяне жили также и в Северной Америке 4800 лет назад, как на территории современной России. Тем не менее, подобные заключения – типичная ошибка ДНК-генеалогии. Так, Исландия была заселена только в 9-м веке нашей эры, а общий предок исландцев практически по всем родам – тысячелетия назад, как и в континентальной Европе.
С другой стороны – общий предок гаплогруппы R1b1 по расчётам ДНК-генеалогии (по мутациям в гаплотипах) жил в Центральной (Средней) Азии 16 тысяч лет назад; на территории современной России, среди этнических русских – 6775 лет назад; на Ближнем Востоке (в частности, среди евреев, а также в Ливане) 5500 – 5200 лет назад, в Северной Африке – 3875 лет назад, на Пиренеях – 3625 лет назад, в Ирландии – 3800 – 3400 лет назад. Вот такой шлейф даёт обоснованное представление о временах и направлении миграций рода R1b1, более того – даёт основания связать этот род с курганной культурой (точнее, серией культур, горизонтом, культурно-исторической общностью).
Более того, он показывает истоки этой культуры в Евразии, даёт материал для интерпретаций в области языкознания. Показывает, что вряд ли гаплогруппа, род R1b1 может рассматриваться в качество «прото-индоевропейского» в отношении языка, и отдаёт это место роду R1a1, который мигрировал на Русскую равнину из Европы и имеет общего предка на Русской равнине 4800 лет назад, то есть намного позже, чем «курганники» (R1b1).
Носители гаплогруппы R1a1 продвинулись на восток, основали, среди прочих, андроновскую культуру (с ископаемыми R1a1 с датировкой 3800 – 3400 лет назад), с последующими тагарской и таштыкской культурами (ископаемые гаплогруппы практически исключительно R1a1), и примерно 3500 лет назад продвинулись в Индию, вся северная часть которой в настоящее время преимущественно R1a1.
Это и есть и корни индоевропейской семьи языков, корни санскрита, свидетельства прибытия в Индию носителей гаплогруппы R1a1, преобладающей по доле гаплогруппы в современной России (48% среди этнических русских, при второй по численности гаплогруппы только 15%, тоже, кстати, европейской гаплогруппы I2, которой много у сербов и болгар).
Кстати, «курганная» гаплогруппа (хотя курганная археологическая культура – всего эпизод в истории гаплогруппы) сейчас является наиболее распространённой в Центральной и Западной Европе и на Британских островах, достигая до 95% у ирландцев и до 93% у жителей Пиренейского полуострова.
Отсюда и новый термин – молекулярная история, то есть создание исторических реконструкций, исходя из молекулярных характеристик ДНК потомков, а порой и (ископаемых) предков. Поскольку далёкие предки, передвигаясь, несли в новые края языки, то, прослеживая миграции предков, происходившие сотни, тысячи и десятки тысяч лет назад, можно получать сведения о миграции языков во времена столь глубокой древности. Сопоставление этих реконструкций с данными лингвистики, полученными принципиально другими методами, может позволить получать более обоснованные сведения в области языкознания, проверять существующие концепции и приходить к новым, совершенно неожиданным концепциям и идеям. Примеры будут даны ниже.
Теперь дадим несколько определений и уточним некоторые данные выше положения. Потом перейдём к систематическому рассмотрению принципов и методов ДНК-генеалогии, и далее – к интерпретациям некоторых данных и положений антропологии и археологии (местами и лингвистики) с точки зрения ДНК-генеалогии. Это – не в ущерб концепциям антропологии и археологии, а в их поддержку, но на несколько другом уровне рассмотрения.
Мы будем здесь рассматривать ту область ДНК-генеалогии, которая оперирует картиной мутаций в Y-хромосоме, то есть мужской половой хромосоме. Женскую ДНК-генеалогию, основанную на мутациях в митохондриальной ДНК, мы здесь рассматривать не будем. Совокупность картин мутаций прилагается к популяциям, выбранным для рассмотрения.
Здесь термин «популяция» относится к любой группе мужчин, ДНК которых была извлечена (из слюны или крови) и тестирована по определенной методике, результатом чего явился набор цифр, характерных для каждого субъекта данной популяции. Эти цифры можно сопоставить по аналогии с серией и номером паспорта человека. «Серия паспорта» – это род, к которому относится данный человек.
Род – это совокупность людей, имеющих общего (для всех) прямого предка (рода). Все члены рода имеют характерную метку, то есть мутацию в ДНК, которую не имеют представители других родов. Эта мутация, как уже было отмечено, называется в ДНК-генеалогии «снип». Выше была дана расшифровка этого понятия. Эта мутация в каждом роду необратима, и передаётся из поколения в поколение, начиная со времени возникновения данной мутации, обычно тысячи или десятки тысяч лет назад. Таким образом, возраст родов исчисляется в тысячах, а то и в десятках тысячах лет. Возраст ДНК-генеалогических линий, ветвей рода, исчисляется порой всего в сотнях лет, опять же исходя из картины мутаций в ДНК тестируемых людей [Клёсов, 2008d; Klyosov, 2009a, b].
В задачи данного рассмотрения не входит давать исчерпывающий обзор истории создания и развития ДНК-генеалогии, хотя для справедливости следует отметить, что ДНК-генеалогия вырастает из дисциплины под названием популяционная генетика, которая была заложена трудами многих специалистов. Приложение популяционной генетики к ДНК человека в 1990-х годах – заслуга в первую очередь таких имён (хотя в данном списке, безусловно, отражаются личные предпочтения авторов), как Cavalli-Sforza L.L., Feldman M.W., Goldstein D.B., Hammer M.F., Jobling M.A., Kayser M., de Knijff P., Nebel A., Nei M., Oppenheim A., Semino O, Stoneking M., Thomas M., Underhill P., Walsh B., Wells R.S., Л.А. Животовский, Т.М. Карафет и многих других, которые здесь поместить просто невозможно (см., например, [Cordaux et al, 2004; Goldstein et al., 1995; Hammer et al., 2000; Heyer et al., 1997; Jobling & Tyler-Smith, 1995; Karafet et al., 1999; Kayser et al., 2000; Nebel et al., 2000, 2001; Nei, 1995; Semino et al., 2000; Takezaki & Nei, 1996; Underhill et al., 2000; Walsh, 2001; Wells, 2001; Zhivotovsky & Feldman, 1995]).
Трудами этих и десятков других исследователей были проведены тщательные отнесения снипов к принципиальным родам человечества и их подчинённым родам и отдельным генеалогическим линиям рода, имеющим свои мутационные метки в ДНК, называемым субкладами. Снипы тщательно идентифицируют и выбирают для классификации, так, чтобы рода (в терминах ДНК-генеалогии) были максимально чётко дифференцированы.
Всего на Земле насчитывают 20 родов (их именуют по буквам латинского алфавита, от А до Т), хотя снипов, применяемых в ДНК-генеалогии, известно уже несколько сотен. Они в большинстве своём и относятся к подчинённым родам, субкладам. Наиболее изучен так называемый «западноевропейский» род R1b1b2, в котором, в свою очередь, выделяют 35 субкладов, и число их с каждым годом растёт (в 2008 году в нем насчитывали 22 субклада). Для сравнения, в «восточноевропейском» роде R1a1, к которому принадлежит 48% этнических русских, насчитывают всего семь субкладов, из которых два пусты, то есть имеют скорее теоретический характер, в трёх насчитывают всего 15 человек из более чем тысячи тестированных, шестой (М434) тоже крайне редкий субклад, в котором насчитывают всего 14 человек из Пакистана и Омана, и только седьмой, М458), открытый совсем недавно, в 2009 году, включает несколько десятков (на самом деле значительно больше) человек. Носителей одного и того же снипа относят к одной и той же гаплогруппе. То есть, гаплогруппа – это и есть род в понятиях ДНК-генеалогии.
Следует сказать, что есть, по меньшей мере, две причины, по которым в гаплогруппе R1a1 субкладов так мало. Первая – то, что примерно 4500 лет назад что-то произошло с гаплогруппой R1a1 в Европе, она практически «обнулилась», не прошла «бутылочное горлышко» популяции. Это мог быть некий грандиозный природный катаклизм, мор, эпидемии, или что-то, почти уничтожившее носителей гаплогруппы R1a1 в Европе, и, похоже, не только их. Выжили только перешедшие к тому времени на Русскую равнину, они и возродили популяцию R1a1, которая частью вернулась в Европу. На возможные причины исчезновения гаплогруппы R1a1 в Европе наводит и то, что в то же время практически исчезла и гаплогруппа I1, и что в это же время, примерно 4500 – 4000 лет назад, произошло заселение Европы гаплогруппой R1b1b2. Грубо говоря, в одно и то же время в Европе появились кельты и исчезли «пра-индоевропейцы» и «скандинавы», кроме тех, кто уже переселились на Русскую равнину незадолго до того.
Возможно, поэтому расселение гаплогруппы R1a1 резко падает от Восточной Европы к центральной Европе и далее к Атлантике. На большей части Британских островов доля R1a1 составляет 2 – 5%, а в Польше, Украине, России – до 65 – 70%, порой и 80% по территориям. В среднем по Европейской части России доля R1a1 составляет 48%, падая от 70 – 80% за счёт заметной доли N1c в северных районах. То, что R1a1 в Европе значительно более древняя, по оценкам не менее 10 – 12 тысяч лет, выявляется по одиночным современным гаплотипам случайно выживших древних ДНК-генеалогических линий. Подробнее об этом – ниже, в настоящей части книги.
Вторая причина, по которой в гаплогруппе R1a1 практически отсутствуют субклады – весьма прозаична. Основные центры исследований ДНК-генеалогии – на Западе, где значительно преобладают гаплогруппы R1b1 и I1 – I2 и где крайне мало R1a1. На первые и направлены усилия исследователей и финансирование. Выше уже было упомянуто, что в гаплогруппе R1b1b2 идентифицировано 35 субкладов, добавим, что в гаплогруппе I – 34 субклада. В гаплогруппе R1a1 – практически один, сама гаплогруппа. Но в этой книге мы покажем наличие четырнадцати ДНК-генеалогических ветвей в гаплогруппе R1a1, выявленных в работе [Рожанский и Клёсов, 2009].
Число и расположение мутаций в выбранных для анализа участках ДНК, так называемых гаплотипах, можно сопоставить с «номером паспорта». Это – индивидуальная характеристика человека. Гаплотипы можно определять на коротких участках ДНК, можно на более протяжённых участках, что увеличивает разрешение, информативность исследования. Длину участка ДНК, то есть протяжённость гаплотипов, измеряют в числе маркеров. Маркер – это участок ДНК, специально охарактеризованный и «откалиброванный» числом нуклеотидов, которые образуют повторяющиеся, или «тандемные» последовательности.
Наиболее распространёнными при исследованиях являются гаплотипы в 12, 17, 25, 37 или 67 маркеров. Чем протяжённее гаплотип, чем больше в нём маркеров, тем он более уникален, тем более точно он описывает «паспорт» человека. Вот как выглядят 12-маркерные гаплотипы всех четырёх человек в редкой гаплогруппе R1a1b, упомянутой выше, как один из пяти субкладов в «восточноевропейском» роде R1a1:
13-23-14-11-11-14-12-14-12-13-13-16
13-24-14-10-11-15-12-12-12-14-13-16
13-24-14-10-11-14-12-12-11-13-13-17
13-24-14-11-11-15-12-12-12-13-13-16
Этот род иногда называют «восточноевропейским», так как гаплогруппа R1a1, как отмечалось выше, наиболее распространена в Восточной Европе. Но в данном случае носители гаплогруппы R1a1b указали на своих наиболее ранних им известных предков (как правило, живших не ранее 19-го века) в Канаде, Шотландии, Ирландии, Испании. Вполне возможно, что их более далёкие предки действительно были восточноевропейцами, например, обитателями Балкан. Может быть, жили и в других регионах Европы, мы этого пока не знаем. Приведённые выше четыре гаплотипа различаются между собой на 10 мутаций (считая только отклонения от преобладающих, «базовых», или «предковых» значений маркеров). Чем больше число отклонений (мутаций), тем раньше жил общий предок рассматриваемой группы людей.
Одна мутация в 12-маркерных гаплотипах происходит в среднем примерно в тысячу лет, точнее, раз в 1140 лет [Klyosov, 2009a], с точностью определения, зависящей от числа мутаций в гаплотипе. Чем больше мутаций, тем точнее определение средней частоты мутаций. 10 мутаций на четыре 12-маркерных гаплотипа, то есть на 48 маркеров – это в среднем 0.208 мутаций на маркер, что при расчётах даёт 3200±1100 лет до общего предка всех четырёх человек данного рода R1a1b. Расчеты обычно проводятся по формулам или по таблицам [Klyosov, 2009a; Клёсов, 2008c].
Более точно расчёты проводятся по 25-маркерным гаплотипам. Они определены всего для трёх человек данной группы R1a1b [YSearch, май 2009]:
13-23-14-11-11-14-12-14-12-13-13-16-18-9-10-11-11-24-15-19-29-15-16-16-19
13-24-14-10-11-15-12-12-12-14-13-16-16-9-9-11-11-25-15-18-30-15-15-17-17
13-24-14-10-11-14-12-12-11-13-13-17-18-9-9-11-11-25-15-19-31-15-15-17-18
Между всеми тремя гаплотипами – 19 мутаций. На все 75 маркеров это даёт в среднем 0.253±0.058 мутации на маркер, что приводит к времени жизни общего предка для всех трёх человек 4000±1000 лет назад. В пределах ошибки эти величины перекрываются для 25- и 12-маркерных гаплотипов, и видно, что величины, в принципе, довольно близкие, причём вторая величина, рассчитанная для почти вдвое большего количества маркеров, должна быть точнее.
Для 37-маркерных гаплотипов имеем:
13-23-14-11-11-14-12-14-12-13-13-16-18-9-10-11-11-24-15-19-29-15-16-16-19-11-11-19-23-16-15-17-17-36-38-13-12
13-24-14-10-11-15-12-12-12-14-13-16-16-9-9-11-11-25-15-18-30-15-15-17-17-11-10-19-23-16-15-17-18-39-40-11-12
13-24-14-10-11-14-12-12-11-13-13-17-18-9-9-11-11-25-15-19-31-15-15-17-18-11-12-19-24-15-15-18-17-36-36-12-12
Это добавило еще 15 мутаций, доведя общее число до 34 мутаций на 111 маркеров, или в среднем 0.306±0.052 мутаций на маркер. Скорости мутаций для 37-маркерных гаплотипов на треть выше, чем для 12- и 25-маркерных гаплотипов, поэтому и мутаций больше. Расчёты дают, что общий предок трёх человек данной гаплогруппы жил 3600±700 лет назад. Как видно, 12-, 25- и 37-маркерные гаплотипы дают примерно один и тот же возраст общего предка, в пределах ошибки расчётов.
Естественно, для такого малого числа гаплотипов подобные расчёты обычно не делают, и здесь они приведены просто для иллюстрации принципа расчётов. Именно из-за малого числа гаплотипов и мутаций в них ошибка расчётов составила от 30 до 20%. Обычно для больших серий, порой в сотни, а то и тысячи гаплотипов [Klyosov, 2009a; 2009b; Адамов и Клёсов, 2009d], ошибки расчётов уменьшаются, приближаясь к 10%, как было описано выше, при 95%-ном доверительном интервале, и к 5% при 68%-ном доверительном интервале. Большей точности обычно не бывает, поскольку лимитирует уже точность определения скоростей мутаций.
5.2. Систематическое рассмотрение основ и принципов ДНК-генеалогии
Как сказано выше, род в контексте ДНК-генеалогии, да, пожалуй, и вообще – это группа людей, в которой каждый человек связан с общим предком прямой наследственной линией. Этот род может быть очень древним и или относительно, или совсем недавним, а также может относиться к любому прямому предку. В этом смысле как вы, так и брат вашего отца, то есть ваш дядя, ведёте род от вашего дедушки. Как правило, «ведёте род» – это понятие коллективное и объединяет вас, как уже было сказано, с определённым кругом родственников, связанных прямыми наследственными линиями с одним общим предком. Чем предок глубже по времени, тем шире круг этих современных родственников. Все они принадлежат одному роду, более того, все несут в своих ДНК мутацию их БЛИЖАЙШЕГО общего предка.
Итак, в ДНК-генеалогии эта принадлежность к одному роду идентифицируется по наличию у каждого члена рода характерного признака – определённой «метки» в ДНК. Причем не просто в ДНК, а в нерекомбинируемой части ДНК, которая не перетасовывается с материнской ДНК, но передается по наследству как есть. Это делает её исключительно ценной для ДНК-генеалогии, потому что нерекомбируемая часть ДНК – единственная, которая не смешивается с материнскими хромосомами. Эта нерекомбинируемая часть ДНК находится в Y-хромосоме, мужской половой хромосоме. Потому и не рекомбинируется с женской половой хромосомой, а передаётся мужчинам целиком и полностью от отца.
Таким образом, если говорить о любой относительно стабильной и многочисленной общности людей, которые идентифицируют себя как относящиеся к этой общности, то они подразделяются на несколько доминирующих родовых групп. Однородными в этом смысле были бы только те общности, которые в течение тысяч и десятков тысяч лет жили бы в полной изоляции в пределах своего рода. Но так обычно не бывает.
В соответствии с этими понятиями любое вторжение – речь, естественно, о половых вторжениях – представителя другого рода, которое приводит к рождению мальчика, в свою очередь дающего мужское потомство, означает, что это потомство ведёт наследственные нити уже к тому, другому роду. У этого потомства уже другой характерный рисунок в мужской хромосоме, другие молекулярные метки. Естественно, при таком вторжении приобретаются и гены отца, а с ними и масса других наследственных признаков. Но гены по ходу поколений постепенно разбавляются другими, опять своего рода, «вымывая» генетику «чужака». А вот Y-хромосома не вымывается, остаётся той же. Точнее, почти той же, за исключением накопленных мутаций. Об этом речь будет идти ниже.
В итоге потомки часто и понятия не имеют, что они – прямые потомки другого рода. Язык, образ жизни, традиции, религия, даже характерные черты внешности, «возвращенные» генетическим вымыванием – всё говорит о том, что никаких вторжений не было. Собственно, даже и мысли об этом обычно нет. И – самоидентификация со своим родом на месте, что обычно самое главное для сознания человека в этом отношении.
И только данные по «меткам» в Y-хромосоме могут показывать, что на самом деле прямые потомки в отдалении – близком или далеком – принадлежали вовсе другому роду.
Важно это знать или нет? Кому как. Многим совершенно не важно, и они по-своему правы. В конце концов, в жизни масса других приоритетов, чем интересоваться предками. Другим важно, иначе не было бы огромного количества людей, интересующихся генеалогией своих предков. А это фактически то же самое, только методология другая и другие диапазоны времени.
Видимо, важно это и третьим, которые применяют генеалогию как аргумент в политических спорах или даже физических действиях. И вот здесь сходятся непримиримые позиции, когда на кону или выживание и расцвет нации, или её притеснение, вплоть до физического истребления, геноцида. И аргументы здесь тоже по сути дела генеалогические, в какой бы форме они ни выражались.
Как вынесено в заголовок, мы будем оперировать понятиями ДНК-генеалогии. Напомним основные положения этой новой дисциплины, поскольку материал нуждается в изложении понятийного аппарата.
При изложении материала в настоящей книге мы даём, на первый взгляд, избыточную информацию, приводя число гаплотипов в каждой выборке, число мутаций в каждой ветви гаплотипов и в каждой выборке, вместо того, чтобы просто сообщать окончательные результаты. Однако авторы рассматривают эту информацию как весьма важную, и из неё можно получить немало дополнительных сведений, о которых мы сейчас и не догадываемся. Наконец, авторы не просто изрекают результаты, которым можно доверять или нет, но пытаются вести читателя по логике расчётов, давая возможность читателю самому проверить результаты или разработать свои подходы.
5.2.1. Основные положения ДНК-генеалогии
Первое – к генетике наше повествование отношения не имеет (хотя в определённой части ДНК-генеалогии рассматривают и гены, но здесь этого не будет). ДНК – это не только гены. Гены вообще занимают только 1,9% последовательности ДНК. Остальные 98,1% – длинные участки, так называемые «никчёмные». Генов там нет. Есть протяжённые последовательности нуклеотидов, которые детально копируются при передаче наследственной информации от отца к сыну. Мы специально пишем «от отца к сыну», потому что в данной книге речь идёт только о «мужской» наследственной информации, передаваемой с мужской половой Y-хромосомой. У женщин её, этой хромосомы, нет.
«Никчёмными» эти негенные последовательности ДНК назвали по незнанию, и это название уже уходит в прошлое. По мере исследований, оказалось, что эти последовательности хранят массу информации и не только «генеалогического» характера. Более того, оказалось, что они, эти «никчёмные» участки, содержат сотни, если не тысячи крошечных генов РНК, кодирующих так называемые микро-РНК, длиной всего пару десятков нуклеотидов каждый, и которые регулируют синтез белков. Но это – предмет другого повествования.
Эти негенные участки ДНК в мужской Y-хромосоме, одной из 23 хромосом, которые доставляются сперматозоидом в организм будущей матери, копируются от отца к сыну, поколение за поколением. Поскольку у матери такой хромосомы нет, то сын наследует её только от отца. Остальные хромосомы сплетаются с материнской и образуют новую комбинированную молекулу ДНК, в которой хромосомы отца и матери перетасовываются. Перетасовываются все, кроме мужской Y-хромосомы.
Так и получается, что отец передаёт сыну эту Y-хромосому интактной, строго скопированной со своей. А свою Y-хромосому он получил от своего отца. Тот – от своего. И так далее, на тысячи и десятки тысяч лет вглубь, назад, к далёким предкам современных людей и к предкам тех далёких предков.
Здесь – важное примечание. В антропологии принято считать, в соответствии с базовыми понятиями, парадигмой антропологии, что сотни тысяч лет назад людей не было, во всяком случае на бОльшей части земной территории. Были палеонтропы, архантропы, неандертальцы, эректусы, другие гоминиды. Однако наши предки были, как их ни называть. Они были и десятки, и сотни тысяч лет назад, и миллионы лет назад. Он них, «приматов», мы и наследуем гаплотипы и гаплогруппы, пусть в значительной степени изменённые, мутированные.
Таким образом, аргументы, что тогда-то давно не было предков современного человека, в принципе неверны. Они были, но просто или не обнаружены антропологами (что вполне возможно), хотя и были на рассматриваемой территории, или они были представлены минорной долей гоминидов и прочих «приматов», и при изучении последних просто не встречались, проскочили сито антропологов, весьма крупноячеистое. Или определение, используемое антропологами, слишком жёсткое и не отражает значительно более сложной истории происхождения человечества. Это же относится в полной мере и к Африке, поэтому аргумент, что там 200 – 40 тысяч лет назад были только палеоантропы и архантропы, не есть на самом деле значимый аргумент.
Если бы Y-хромосома так и передавалась из поколения в поколение действительно неизменной, толку для генеалогии от неё было бы мало. Но неизменного ничего в мире нет, особенно когда речь о копировании. Копирования без ошибок не бывает. В том числе и копирование Y-хромосомы.
Отсюда второе положение – время от времени при копировании Y-хромосомы в копии проскакивают ошибки. Фермент под названием ДНК-полимераза (на самом деле вместе с целым набором молекулярных инструментов) или просто ошибается и делает некоторые участки ДНК короче или длиннее, удлиняя или сокращая повторы нуклеотидов, или «ремонтирует» повреждённые участки и в ходе «ремонта» удаляет повреждение (эта операция называется «делеция») или «вшивает» новый нуклеотид (называется «вставка», или «инсерт»).
Поэтому мутации, которые интересуют ДНК-генеалогию, бывают двух типов – или изменение числа повторов, тандемов, или «точечные», однонуклеотидные.
Оказалось, что многие повторы нуклеотидов находятся у разных людей в одних и тех же участках Y-хромосомы. Эти участки уже биохимиками пронумерованы, классифицированы, сведены в списки. Они получили название «маркеры». Набор маркеров, точнее, повторов в них, называется «гаплотип». Уже известных маркеров – многие сотни. И они, как правило, одни и те же у всех людей на Земле. Они отличаются только числом повторов, что вызвано теми самыми ошибками ферментов при копировании из поколения в поколение. Внимательное рассмотрение маркеров и гаплотипов позволило сделать вывод, что все люди на Земле произошли от одного предка. Иначе говоря, все люди – родственники.
Пока не удалось найти ни одного человека, у которого маркеры и гаплотипы были бы принципиально другие, которые не удалось бы вывести (по мутациям на временной шкале) из других жителей Земли в пределах последней сотни тысяч лет. И это – серьёзный (если не последний) аргумент против «теории мультирегиональности», согласно которой люди произошли от разных племянников современного человека, включая неандертальцев, синантропов и прочих гоминидов. То, что эти кузены человека существовали, сомнению не подвергается, но то, что выжившего потомства они не оставили – это, так сказать, экспериментальный факт. Пока не опровергнутый, но с каждым новым определением гаплотипа всё более подтверждаемый.
Строго говоря, приведённое выше рассуждение не отвергает теорию мультирегиональности в отношении жизни на Земле в ПРОШЛОМ потомков различных родов и видов, но отвергает наличие нескольких разных предков у СОВРЕМЕННЫХ людей. Иначе говоря, если даже разнообразные люди были, в полном соответствии с теорией мультирегиональности, они не прошли «бутылочные горлышки» популяций, не выжили. Выжила всего одна генеалогическая линия, а от неё и произошло современное человечество.
К настоящему времени образцы ДНК взяты у представителей практически всех популяций, и все сводятся к одному общему предку. Время жизни этого предка определяется разными исследователями в интервале между 100 и 200 тысяч лет. Порой и глубже во времени, вплоть до 800 тысяч лет назад (хотя это – верхняя грань большой погрешности расчётов) – поскольку разные исследователи используют разные значения скоростей мутаций, и эти данные пока в должной мере не упорядочены. Тем не менее, между ведущими исследователями имеется консенсус, что этот предок жил в Африке.
Итак, положение третье – все люди происходят от одного предка, который жил – по разным расчётам – от 100 до 200 тысяч лет назад. Примерно такое время понадобилось, чтобы получить то расхождение гаплотипов по мутациям, какое наблюдается у всех живущих ныне людей.
Положение четвёртое – гаплотипы изображают в виде числа тандемов, или повторов, по каждому маркеру, выбранному из десятков и сотен. В англоязычной литературе их называют STR, или Short Tandem Repeats. Самый простой и короткий гаплотип из тех, которые рассматривает ДНК-генеалогия, состоит из пяти или шести маркеров. Например, у восточных славян, к которым относится от 50% до 80% жителей старинных русских городов, городков и селений, базовый (или предковый) 6-маркерный гаплотип, в той записи, в которой обычно приводят в научных публикациях, такой
16-12-25-11-11-13
Он показывает число повторов нуклеотидных участков в маркерах, которые обозначают соответствующими индексами 19, 388, 390, 391, 392 и 393. В первом маркере (номер 19) было найдено 16 повторов определённой последовательности нуклеотидов. Во втором – 12 повторов уже другой последовательности и так далее. При передаче этого гаплотипа от отца сыну с вероятностью примерно одна сотая (то есть в среднем у одного на сто рождений) может произойти мутация, например, такая:
16-12-24-11-11-13
(в третьем маркере, выделена). Именно такая мутация есть у одного из авторов настоящей книги, поскольку она произошла у его предка. Остаётся неизвестным, когда она произошла – может, тысячелетия назад, может – автор такой в его генеалогической линии первый. И узнать это можно только изучая ДНК прямых предков или самых ближайших родственников. Например, если у родного брата такая же мутация – тогда автор точно не первый. Надо смотреть ДНК у дедушки или у брата дедушки, и так далее по генеалогической цепочке. Но это не имеет большого практического значения. Что есть, то есть. Хотя любознательность порой наказуема, и у родного (по документам) брата может оказаться вообще другой гаплотип, да и другой род.
Такое в ДНК-генеалогии бывает и чаще, чем хотелось бы. Например, это случилось с Рюриковичами, которые принадлежат как к славянскому, так и норманскому родам, в лингвистических категориях – угро-финскому. Афронт случился несколько сот лет назад, на уровне Владимира Мономаха, плюс-минус одно поколение.
Возвращаясь к нашему примеру, мутация могла произойти и в первом маркере:
15-12-25-11-11-13
или могла произойти любая другая мутация (как правило, одношаговая) в этих или любом другом маркере этого гаплотипа.
Например, еврейский ближневосточный гаплотип («гаплотип двенадцати колен израилевых», «гаплотип коэнов» – оба названия условные, а во втором случае и просто неверное, но принятое в литературе, о чём речь пойдет ниже), записанный в таком же 6-маркерном виде, такой:
14-16-23-10-11-12
Между восточно-славянским и ближневосточным еврейским гаплотипами – 9 одношаговых мутаций или в среднем 1.5 мутации на маркер. Это отражает долгий путь, который славяне и евреи эволюционно (в отношении гаплотипов) прошли, отделившись от общего предка. 9 мутаций на 6-маркерном гаплотипе означают, дистанция между двумя гаплотипами равна 86 тысяч лет или, что общий для славян и евреев общий предок жил огромное время назад, не менее 40 тысяч лет тому (точнее, 43 тысячи лет назад). Как эти дистанции считать – об этом позже.
Часто рассматривают 12-маркерные гаплотипы. Например, у восточных славян, базовый гаплотип такой (здесь запись уже по стандартам наиболее известных баз данных, и самая известная – FTDNA):
13-25-16-11-11-14-12-12-10-13-11-30
Здесь маркеры по порядку следующие: 393, 390, 19, 391, 385a, 385b, 426, 388, 439, 389-1, 392, 389-2.
В 25-маркерном варианте восточно-славянский гаплотип записывается так:
13-25-16-11-11-14-12-12-10-13-11-30-15-9-10-11-11-24-14-20-32-12-15-15-16
У ближневосточных евреев часто встречается такой 12-маркерный гаплотип («недавний гаплотип коэнов»):
12-23-14-10-13-15-11-16-12-13-11-30
У него с восточно-славянским уже 16 мутаций-расхождений, то есть в среднем 1.33 мутаций на маркер. Чем длиннее гаплотип, тем лучше статистика, тем точнее расчёты.
У ближневосточных евреев часто наблюдается следующий 25-маркерный гаплотип:
12-23-14-10-13-15-11-16-12-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-17
Это даёт 31 мутацию на 25-маркерном гаплотипе или в среднем 1.24 мутации на маркер. По скоростям мутаций это примерно соответствует 1.35 мутации на маркер для 12-маркерного гаплотипа. Так что статистика работает, и данные в целом вполне соответствуют друг другу на гаплотипах разной длины. Опять же, чем длиннее, тем точнее.
А вот пример 37-маркерного гаплотипа, который в данном случае принадлежит потомку человека по фамилии Коэн, который жил полтораста лет назад в Санкт-Петербурге:
12-23-14-10-13-15-11-16-12-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-17-11-10-22-22-15-14-21-18-31-35-13-10
Естественно, чем длиннее гаплотип, тем больше вероятность найти своего близкого предка в наше время. Заметьте, кстати, что на первых 25 маркерах этот гаплотип в точности совпадает с базовым, предковым, приведенным выше. А ведь предок жил 1350 лет назад, в 7-м веке нашей эры. Вот насколько стабильными могут быть гаплотипы и их маркеры.
Ещё пример, не столько стабильного гаплотипа. Статистика есть статистика.
12-23-14-10-13-15-11-16-11-13-11-30
Выделена одна мутация в 12-маркерном гаплотипе по сравнению с базовым «гаплотипом коэнов», приведённым выше. Этот гаплотип принадлежит еврею, живущему сейчас в Англии и предок которого родился много поколений назад, в 1799 году, там же, в Англии. А обладатель 37-маркерного гаплотипа, приведённого выше, как уже упомянуто, родился на 50 лет позже в России. Различаются всего на одну мутацию на 12 маркерах.
А на 37 маркерах? Приведём гаплотип еврея-англичанина более детально:
12-23-14-10-13-15-11-16-11-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-16-11-10-22-22-15-14-17-17-31-35-14-10
По сравнению с петербуржским Коэном добавились ещё семь мутаций, всего восемь: 12→11, 17→16, 21→17, 18→17, 13→14. Восемь, потому что одна мутация четырёхшаговая, она могла проходить шаг за шагом на протяжении длительного времени.
То, что данные примеры относятся к евреям, объясняется двумя причинами. Одна – потому что один из авторов данной книги много занимался ДНК-генеалогией евреев. За три с лишним тысячи лет относительной изоляции (по религиозным и прочим причинам) евреев от «гоев» у евреев выработались характерные ДНК-генеалогические линии, порой чётко отличающие евреев от неевреев. Поэтому наблюдается парадокс – сами евреи порой не могут дать чёткого определения евреев, которого и в самом деле нет. Но ДНК-генеалогические линии выявляют определённые ДНК-популяции евреев и почти безошибочно идентифицируют их носителей как евреев, независимо от их религиозной принадлежности, гражданства, или места жительства.
Вторая причина – потому, что евреи более других (и это «экспериментальный факт») интересуются своей ДНК-генеалогией, своими корнями. Это, в свою очередь, объясняется трагичной историей еврейского народа, постоянным передвижением по миру, часто вынужденным, часто – бегством, отсюда – потерей родовых, предковых связей. Сейчас, с помощью ДНК-генеалогии, эти связи восстанавливаются. И вовсе не нужно расматривать интерес к ДНК-генеалогии евреев как вторжение в их приватность, как попытки их «выявить и обмерить». Доказательством тому – многочисленные перепечатки работ одного из авторов книги в еврейских изданиях и награды и дипломы автору от еврейских коллективов, в том числе и золотая медаль от Международного общества коэнов (коханим) за вклад в изучение истории евреев.
Это – к тому, что по мнению немалого количества малообразованных и негативно настроенных людей, ДНК-генеалогия, да и антропология – это попытки разделить людей на «высших и низших». Нет ничего более далёкого от истины. Это – попытки понять наше прошлое, а значит – и будущее. Как раз единство общих предков показывает, что все люди – в буквальном смысле родственники.
Возвращаясь к последнему примеру выше, сообщим, что восемь мутаций у пары 37-маркерных гаплотипов соответствуют дистанции примерно в 98 поколений между ними, или примерно 2450 лет разницы во времени. То есть их условный общий предок жил на половине этого временного срока, или примерно 1225 лет назад. Кстати, одна мутация на 12 маркерах соответствует примерно 1200 лет, как будет показано чуть ниже. Так что здесь неплохое сходство во времени.
Но здесь это совпадение просто случайное. Потому что надо привести положение пятое: нельзя сравнивать мутации в парах гаплотипов. Мутации – дело статистическое, и их можно количественно (и часто полуколичественно) рассчитывать только на больших выборках. Чем выборка меньше – тем результат расчёта менее точный. А на двух гаплотипах мутация-другая могла добавиться буквально в предыдущем или нынешнем поколении. Это может сразу привести к прибавлению-отнятию тысячи лет «в одном поколении». А в большой выборке разница относительно нивелируется статистикой.
Подходы теории вероятности могут оценить погрешности расчётов в парах гаплотипах (или в любом их количестве), принадлежащих одному роду (одной гаплогруппе). Если два гаплотипа различаются на одну мутацию, то в 6-маркерных гаплотипах их общий предок жил 1600±1600 лет назад с надёжностью 95%. Как видно, информативность такой информации близка к нулю. Если два 67-маркерных гаплотипа различаются на одну мутацию, то их общий предок жил 75±75 лет назад, с той же 95%-ной надежностью. Иначе говоря, общий предок этих двух человек с 95%-ной вероятностью попадает в интервал времени от 150 лет назад до настоящего времени. В общем случае, одна мутация – это ±100%-й интервал погрешности для любого гаплотипа.
Число мутаций в серии гаплотипов | Интервал погрешности с 95%-ной надёжностью |
1 | 100% |
2 | ±71% |
5 | ±46% |
10 | ±33% |
100 | ±14% |
1000 | ±10,5 |
Таблица 5.2.1.1. Интервалы погрешности при некоторых значениях числа мутации в сериях гаплотипов.
При показателе ±10,5% мы вплотную приблизились к предельной, минимальной погрешности, когда уже лимитирует точность константы скорости мутаций в гаплотипах. Точнее уже не будет, если не доказать, что константа определяется с погрешностью меньше, чем 5%. Естественно, 1000 мутаций могут быть только в больших сериях гаплотипов, причем не происходящих от недавнего предка. В тех мутаций мало. В любом случае, чем больше гаплотипов в выборке, тем больше в них мутаций, тем точнее расчёт времен жизни общего предка.
А как часто происходят мутации в гаплотипах? Для ответа на этот вопрос надо вернуться к тому, что мутации бывают двух разных типов – тандемные и точечные. Для тандемных мутаций средняя скорость мутации в 6-маркерном гаплотипе равна 0.0088 мутаций на гаплотип в поколение, то есть одна мутация в гаплотипе происходит в среднем примерно за 114 поколений, или за 2850 лет, если считать поколение за 25 лет (а именно это часто заложено в ДНК-генеалогические расчёты). На самом деле, это будет не 114 поколений, а 129, то есть 3225 лет, если принять в расчёт возвратные мутации, как будет пояснено ниже.
В 12-маркерном гаплотипе средняя скорость тандемных мутаций равна 0.022 на гаплотип в поколение, то есть одна мутация в 12-маркерном гаплотипе происходит в среднем примерно за 45 поколений, или примерно раз в 1125 лет. Опять, если принять в расчёт возвратные мутации, то будет раз в 47 поколений, или примерно 1175 лет. А точечные мутации происходят раз и практически навсегда. Они и являются метками гаплогрупп.
Гаплотип | Скорость мутации |
17-маркерный | 1 мутация в 740 лет |
19-маркерный | 1 мутация в 880 лет |
25-маркерный | 1 мутация в 540 лет |
37-маркерный | 1 мутация в 280 лет |
67-маркерный | 1 мутация в 170 лет |
Таблица 5.2.1.2. Скорости мутаций.
Таблица 5.2.1.2. даёт общее представление, как часто происходят мутации в гаплотипах.
То есть имеем положение шестое – по числу тандемных мутаций в гаплотипах можно определять возраст гаплотипа.
А от чего или от кого считать? От того предка, кто имел такой гаплотип. Поскольку его сыновья сохраняют гаплотип отца, переданный по наследству, и мутации в этом гаплотипе проскакивают в среднем только раз примерно в 3225 лет (6-маркерный гаплотип) или раз в 1175 лет (12-маркерный гаплотип), то даже через 5000 лет у потомков сохранится 23% исходного 6-маркерного гаплотипа, без изменений. То есть в списке из 100 гаплотипов потомков – 23 гаплотипа будут такими же, какой был у предка 5000 лет назад. Это если рассматривать 6-маркерные гаплотипы. При рассмотрении 12-маркерных гаплотипов те же 23% гаплотипов предка сохранятся через 72 поколения, или 1800 лет.
Так что и через тысячелетия можно определить гаплотип предка. И по его виду можно узнать, из каких краёв предок пришёл.
К этому ведёт положение седьмое – гаплотипы в немалой степени (но не всегда) связаны с определёнными территориями.
Но как такое может быть? А вот как. В древности большинство людей передвигались племенами, родами. Род, по определению, это группа людей, связанных родством. То есть гаплотипы у них одинаковые или близкие. Помните – одна мутация в среднем происходит за тысячелетия? Проходили тысячелетия, численность родов порой сокращалась до минимума («бутылочное горлышко» популяции), и если выживший имел некоторую мутацию в гаплотипе, то его потомки уже «стартовали» с этой новой мутацией. Некоторые люди покидали род по своей или чужой воле – плен, бегство, путешествия, военные походы, и выжившие начинали новый род на новом месте. В итоге карта мира с точки зрения ДНК-генеалогии получилась пятнистой, и каждое пятно порой имеет свой превалируюший гаплотип, гаплотип рода. Такой наиболее популярный гаплотип на определенной территории называют «модальным». Часто он и есть гаплотип предка, начавшего род на данной территории.
Но есть ещё один тип мутации – точечные мутации, однонуклеотидные. Они – практически вечные. Раз появившись, они уже не исчезают. Теоретически, в том же нуклеотиде может произойти другая мутация, изменив первую. Но нуклеотидов – миллионы, и вероятность такого события крайне мала. Всего в хромосомах насчитали более трёх миллионов точечных мутаций [The International HapMapConsortium, 2007], и ДНК-генеалоги нашли применение нескольким сотням, которые, как уже было пояснено, называют «снипы», что и расшифровывается (в переводе с английского языка) примерно как «единичная нуклеотидная мутация».
Так вот, те, кто в древности покинул свой род по своей или чужой воле, всегда имели в своей Y-хромосоме эти самые снипы, причём во множестве. Все они передавались сыновьям, в результате того самого копирования ДНК от отца к сыну. Так что все мы имеем и тандемные мутации, и снипы. Из нескольких сотен снипов, которым ДНК-генеалоги нашли применение, около двухсот оказались удачными метками определённых популяций на Земле. Эти популяции и есть те самые рода, о чём речь шла выше, в самом начале. Их, эти рода, потомки которых несут соответствующие метки в ДНК, назвали «гаплогруппы», и присвоили им буквенные обозначения от А до Т, в хронологическом порядке появления соответствующего рода на планете. Или, по крайней мере, в том порядке, как учёные полагают эти рода появились. Хотя ревизий на этот счёт предстоит ещё много.
Итак, положение восьмое – людей можно классифицировать по древним родам не только (и не столько) по виду гаплотипов, но и по наличию определённых снипов. Например, гаплогруппы А и В – исконно африканские и самые древние; гаплогруппа С – монголоидная (и значительной части американских индейцев, потомков монголоидов), а также австралоидная; гаплогруппа J – исходно Ближний Восток, причем J1 – в основном евреи и арабы, гаплогруппа J2 – в основном жители Средиземноморья (хотя и часть евреев тоже); гаплогруппа N – многие жители Китая, Сибири, севера России и части Скандинавии (на территорию последней и прибыли носители гаплогруппы N тысячелетия назад).
Гаплогруппы I и R – видимо, гаплогруппы Русской равнины, причём R имеет подгруппы R1b (преобладающая подгруппа Западной Европы, доля которой превышает 90% в некоторых регионах Испании и Ирландии) и R1a – преобладающая в Восточной Европе, России, Украине, а также имеющая значительное представительство в Индии (более 100 млн человек, не менее 16% от мужской популяции, но по некоторым данным и 30%), куда эта гаплогруппа (R1a1) была принесена из Восточной Европы и Русской равнины предположительно 3500 лет назад ариями.
Гаплогруппой R1a1 отмечены и довольно резко очерчены территории Средней Азии (в Киргизии и Таджикистане), куда снип, образующий R1a1, был принесён его обладателями – ариями – по дороге в Индию и Китай. Интересно, что эти довольно резкие очертания границ гаплогруппы R1a1 в Средней Азии в ряде случаев, возможно, воспроизводят маршрут похода обладателей R1a1.
А на переходе из горной долины Памира в Индостан, в самой теснине перехода, по которому шли предки, целая малая народность так и донесла до современности этот европейский снип, образующий R1a1, в 80 процентов состава этой народности, под названием ишкашим. Гаплогруппа R1a1 представлена и в Восточном Иране, что, видимо, отражает арийский период этого региона во второй половине второго тысячелетия – первом тысячелетии до нашей эры. Но по Ирану пока мало данных, и открытия в этом отношении там ещё предстоят. Пока ясно, что гаплогруппа R1a1 появилась в Индии и Иране практически в одно и то же время.
Итак, данное положение сводится к тому, что у каждого мужчины есть снип из определённого набора, по которому можно сразу отнести носителя к определённому древнему роду. Времена появления снипов, обычно применяемых в ДНК-генеалогии, относятся к диапазону от 25 – 40 тысяч лет для «старых» снипов до 10 – 15 тысяч лет для «молодых». Снип гаплогруппы R1a1, преобладающей в России, образовался примерно 20 тысяч лет назад, как будет изложено ниже.
Положение девятое – гаплогруппы не просто соответствуют определённым родам, но образуют определённую последовательность, лестницу гаплогрупп, показывающих их иерархию, последовательный, ступенчатый переход от древнейшей гаплогруппы А до самой недавней гаплогруппы R (технически самыми последними гаплогруппами являются недавно введённые в номенклатуру гаплогруппы S и Т, но они ведут своё начало от промежуточной по положению гаплогруппы К). Эта последовательность называется «филогенетическое дерево гаплогрупп Y-хромосомы». Для его построения необходимо выполнение двух основных критериев:
- снип, образующий гаплогруппу, должен происходить со скоростью, не превышающей 5×10-7/поколение,
- снип должен происходить не более двух раз за всю историю человечества.
Чтобы пояснить эти два положения, напомним, что снип – это определённая мутация в определённом нуклеотиде (или в нескольких нуклеотидах одновременно). Например, гаплогруппа R1a1 определяется как имеющая мутацию М17 с идентификационным индексом rs3908, которая превратила четырёхнуклеотидный прогон в трёхнуклеотидный – GGGG→GGG – в Y- хромосомном участке под номером 68 и в позиции под номером 20192556.
Носители той же гаплогруппы имеют также мутацию М198 с идентификационным индексом rs2020857, которая превратила цитозин в тимин (С→T) в Y- хромосомном участке под номером 45 и в позиции под номером 13540146.
Вышестоящей гаплогруппой является R1a, c определяющей мутацией SRY10831.2 с идентификационным индексом rs2534636, которая превратила гуанин в аденин (G→A) в Y-хромосомном участке под номером 135 и в позиции под номером 2717176. Это – необычная мутация, поскольку ровно обратная ей есть у всех людей, потомков вышедших из Африки (по представлениям современной ДНК-генеалогии), и именно – у сводной гаплогруппы BR (то есть включающей в древние времена все гаплогруппы от B до R, поскольку их снипы тогда ещё не образовались).
Так вот, переход от древнейшей гаплогруппы A в ту сводную BR произошёл посредством мутации SRY10831.1 с тем же идентификационным индексом rs2534636, только там, наоборот, аденин превратился в гуанин (А→G) в том же самом Y-хромосомном участке под номером 135 и в позиции под номером 2717176. Другими словами, гаплогруппа R1a вернулась к гаплогруппе А, но с новыми дополнительными мутациями, которые набежали за десятки тысяч лет. Но вот той самой мутации, которая есть у всех неафриканцев на планете, в нас, восточных славянах, нет. Она вроде как заросла. Такие возвратные мутации называются у генетиков реккурентными. Они редко, но бывают.
Конечно, соблазнительно было бы объявить, что мы, восточные славяне, и есть самые первые люди на Земле, поскольку только у двух гаплогрупп, африканской А и восточнославянской R1a, нет этой самой мутации, как нет её и у приматов, а у других она появилась позже, начиная со сводной гаплогруппы BR – но к этому у нас нет оснований. Потому что в братской гаплогруппе R1b, которая составляет большинство западноевропейцев, эта мутация есть. Как и другие мутации, роднящие нас с «вышестоящими» гаплогруппами R1 и R. Так что получается, что в гаплогруппе R1a, «восточнославянской» (на территории России), эта мутация просто «закрылась», гуанин вернулся в аденин. Бывает.
Возвращаемся к двум основным критериям вхождения в дерево гаплогрупп отдельной самостоятельной гаплогруппой. Максимально допустимая скорость «сниповой» мутации 5×10-7 на поколение означает, что мутация в любой генеалогической линии должна происходить реже, чем раз в два миллиона поколений, то есть раз примерно за 50 миллионов лет. То есть она действительно должна быть практически необратимой. Это и делает человеческие рода, основанные на классификации по снипам, совершенно стабильными.
Потому они и не ассоциируются за практически бесконечное время, не говоря от каких-то десятках тысяч лет. Но мутации – дело статистическое, и всё может случиться и за более короткое время. Поэтому – второй критерий: если сниповая мутация и случится чаще, чем ожидается, то уж во всяком случае не чаще, чем два раза за историю человечества. Если случилась три раза – она из списка снипов вычеркивается как ненадёжная, способная «взбрыкивать». Вот в R1a она произошла уже два раза, ситуация на пределе. Если в ближайшие пару миллионов лет произойдет ещё раз, придется её вычеркнуть.
Есть ещё важный критерий – все гаплогруппы должны включать снипы «вышестоящих» гаплогрупп. То есть принцип «лесенки» должен выполняться. Преемственность узловых родов человечества должны соблюдаться.
Всё это делает филогенетическое дерево гаплотипов достаточно прочной и обоснованной структурой. У него есть только одно слабое место – само дерево: филогения не показывает, на каком континенте зародилось человечество, откуда пошли гаплогруппы, начиная с первой, гаплогруппы А. Говоря языком филогении, дерево гаплогрупп не «укоренено». Укоренение дерева – результат интерпретаций наблюдений и доступных экспериментальных данных. К этому мы ещё вернемся, а пока – как же представляется укоренение и последующее развитие дерева гаплотипов в пространстве и во времени? Как, откуда и куда шли миграции родов человечества? Ответ на этот вопрос с точки зрения антропологии дан в первой части этой книги. Ниже – результат консенсуса специалистов в том виде, как он изложен в программном документе Международного общества генетической генеалогии (ISOGG) за 2009 год.
В целом у специалистов-генетиков и биологов за последние 15 лет сложилось убеждение, что человечество вышло из Африки. На этом основании было построено филогенетическое дерево гаплогрупп, начинающееся от африканской гаплогруппы A и продолжающееся до самой молодой, заключительной гаплогруппы R (недавно, как уже упоминалось, были добавлены ещё две гаплогруппы, S и Т, но они ведут своё начало от более ранней гаплогруппы К). По этим представлениям, гаплогруппа А образовалась примерно 60 – 80 тысяч лет назад. До этого рода человечества как рода (гаплогруппы) не рассматриваются. Здесь не нужно путать понятие «рода» (tribe – англ.) в ДНК-генеалогии с понятием «рода» (genus – лат.) в биологии.
Возможно, это найдёт полное понимание у антропологов, поскольку до этого, то есть до образования гаплогруппы А (60 – 80 тысяч лет назад) и до образования анатомически современного человека, Homo sapiens, 100 – 200 тысяч лет назад, понятие «человечества» стоит на шаткой базе. Предки определённо были, но не от «человечества». Это могли быть «продвинутые» неандертальцы, гейдельберги, архантропы, палеоантропы, эректусы и прочие гоминиды (здесь мы умышленно смешиваем разные номенклатуры рода Homo семейства гоминид).
Относительно немного представителей гаплогруппы А осталось в Африке, в частности, в Эфиопии и Судане, и среди популяций с щёлкающими языками. Популяции с этой гаплогруппой разбросаны по всему континенту «пятнами». Похоже, что это всё, что осталось от самой древней гаплогруппы. Расчёты времён жизни общего предка с помощью реальных гаплотипов гаплогруппы А будут проведены ниже. У этой гаплогруппы есть свои подгруппы с более недавними снипами, такие, как подгруппы A2, A3b1, A3b2 (снипы М6, М51 и М13, соответственно). А2 и А3b1 живут преимущественно в южной Африке, причём A3b1 – почти исключительно койзанская популяция. 1,1% чернокожих африканского происхождения в США имеют гаплогруппу A3b2.
Cводная (в те времена) гаплогрупппа ВТ образовалась из гаплогруппы А 55 тысяч лет назад, в северо-восточной Африке, и гаплогруппа В оформилась примерно 50 тысяч лет назад. Территория и частота встречаемости примерно та же, что и гаплогруппы А, но добавляются центральноафриканские пигмеи и южно-африканские койзаны (гаплогруппа B2b). Язык банту распространён во многом среди носителей гаплогруппы B2a. К гаплогруппе В относятся 2,3% американских чернокожих (афроамериканцев).
От гаплогруппы В отделилась сводная гаплогруппа СF, которая и мигрировала из Африки. Это произошло в интервале 31 – 55 тысяч лет назад. От этой сводной гаплогруппы 50 тысяч лет назад образовалась гаплогруппа С, её носители мигрировали на восток, и часть её шлейфа осталась на юге Аравийского полуострова, остальные через Пакистан и Индию, Шри Ланку и через Юго-Восточную Азию ушли в Австралию. Подгруппы этой гаплогруппы наблюдаются в Японии (С1), в Полинезии, Меланезии и в Папуа-Новая Гвинея (С2), в Юго-Восточной и Центральной Азии (С3), среди аборигенов Австралии (почти исключительно С4).
От сводной гаплогруппы CF 50 тысяч лет назад образовалась сводная гаплогруппа DE, которая в свою очередь образовала гаплогруппу Е, которая разошлась по Северной Африке и Европе, и D, которая мигрировала в Индию и далее по Азии. Носители D1 живут в Тибете, Монголии, Центральной Азии, Юго-Восточной Азии, D2 – почти исключительно в Японии. Тот факт, что в Тибете примерно 50% гаплогруппы D, в Японии – 35%, может указывать на миграционные связи древних обитателей Азии. Высокое содержание гаплогруппы D2 наблюдается среди популяции айну. Гаплогруппа Е появилась, видимо, в Северо-Восточной Африке, но не исключён ближневосточный регион, откуда она могла попасть в Африку. Основания для этого предположения – что гаплогруппы E и D были в прошлом тесно связаны, но D в Африке не наблюдается. Гаплогруппа Е1b1a распространилась на огромные территории в Африке и Европе. Большинство афро-американцев имеют именно эту гаплогруппу.
Тот факт, что гаплогруппы F в Африке практически нет, но более 90% людей Земли имеют гаплогруппы, нисходящие от F, может означать, что она образовалась уже за пределами континента, или вышла из Африки в составе небольшой группы людей.
Гаплогруппа G, которая предположительно образовалась 30 тысяч лет назад в Северной Месопотамии, наблюдается в основном на Кавказе, в Иране, на Ближнем Востоке, и в Средиземноморье, но её почти нет на севере Европы – менее 2% популяции. На юге Европы она достигает 8 – 10% от общего состава Испании, Италии, Греции, Турции. Значительная доля гаплогруппы G наблюдается в Северной Осетии (до 50%), в Грузии и в Азербайджане. Гаплогруппу G имел И. Сталин (тест проведен по ДНК его внука), причём гаплотип практически в точности соответствует гаплотипам осетинского района, где и предполагалась родина его предков. В Европе наблюдается преимущественно G2а, в Иране – G1.
Гаплогруппа Н образовалась из F примерно 30 – 40 тысяч лет назад, предположительно в Индии, там в основном и осталась. Эта гаплогруппа пришла в Европу с цыганами в виде подгруппы Н1.
Сводная гаплогруппа IJK, образовавшаяся из F на Ближнем Востоке 45 тысяч лет назад, сначала отделила сводную гаплогруппу IJ и отдельную гаплогруппу K, затем разделилась на I и J и разошлась по Ближнему Востоку, Средиземноморью и далее по Европе. Причём в Европу сначала прибыла гаплогруппа I, по всей видимости, с Русской равнины, куда мигрировала из Месопотамии через Кавказские горы или в обход их. Об этом уже говорилось в первой части книги, и будет продолжено ниже.
Сейчас гаплогруппа I (в составе двух основных подгрупп – I2 [«балканской», которую стоило бы назвать «гаплотипом Русской равнины»] и I1 [«балтийской» или «скандинавской»]) охватывает примерно 20% европейцев, будучи второй по численности после гаплогруппы R1b1. Названия этих гаплогрупп опять условные, и даются здесь просто для ориентации, потому что указанные территории содержат наибольшие доли этих гаплогрупп.
За пределами Европы гаплогрупп I1 и I2 практически нет. I2 – старейшая гаплогруппа в Европе. Расчёты времени жизни этой гаплогруппы будут проведены ниже.
Гаплогруппа J1 наблюдается преимущественно у арабов и евреев, генеалогические линии которых разошлись примерно 4000 лет назад, в любопытном соответствии с тем, что изложено в Библии и её трактовках. Так, исход из Египта трактуется, как имевший место в ходе извержения вулкана Санторин примерно 3600 лет назад, а библейский Авраам жил за 400 лет до того. В Египет, как излагает Библия, пришёл внук Авраама Иаков с детьми и семейством. По иронии судьбы, евреи и арабы, включая палестинских арабов, в значительной степени делят не только гаплогруппу J, но и её подгруппу J1. Они – близкие ДНК-генеалогические родственники. Гаплогруппа J2 наблюдается среди жителей Средиземноморья – греков, итальянцев, а также многих евреев, выходцев с Ближнего Востока. Немало её в Индии, и расчёты времён жизни их индийских общих предков будут даны ниже.
Сводная гаплогруппа NOР (rs2033003) образовалась из гаплогруппы К примерно 40 – 35 тысяч лет назад к востоку от Аральского моря (это – одна из трёх основных версий), потом разделилась на N, заселившую Сибирь и территории южнее и севернее, О, мигрировавшую через Индию в Южную Азию, и Р, ушедшую в южную Сибирь, и разделившуюся на Q и R. Та же гаплогруппа К дала гаплогруппы L и M. Первая наблюдается в основном в Индии и Шри-Ланке (как субклад L1) и Пакистане (L3). Гаплогруппа M в основном находится в Папуа – Новой Гвинее, где её насчитывается от трети до двух третей всей гаплогруппы М всей планеты.
Другой вариант – что сводная гаплогруппа NOP ушла из Месопотамии на восток по Иранскому нагорью и перед неприступными горами Памира, Гималаев, Тянь-Шаня, Гиндукуша повернула на юг и прошла вдоль Индийского океана в Юго-Восточную Азию. Никаких данных в пользу той или иной гипотезы нет.
В Части 1 книги было высказано обоснованное предположение, что гаплогруппы NО и R мигрировали раздельно, вторая – на Русскую равнину из Месопотамии вместе с гаплогруппой I, и только этим можно, видимо, объяснить европеоидность гаплогрупп I и R, в отличие от не-европеоидных N и O (например, якутской и китайской-корейской-японской, соответственно).
Гаплогруппа Q наблюдается в значительной степени среди сибирских народов, а также у американских индейцев, включая потомков племен майя. Немало этой гаплогруппы у евреев-ашкенази, что относят кхазарским временам, поскольку общему предку этой гаплогруппы среди евреев не более тысячи лет.
Более детально относительно второй из приведённых версий маршрута миграции сводной гаплогруппы NO – они мигрировали из Северной Месопотамии 40 – 35 тысяч лет назад, на восток до Памирского узла, и далее по южной дуге до Индостана и Китая с последующей миграцией на север до Южной Сибири, Алтая и далее по северной дуге до Урала, Белого моря и Балтийского моря, куда носители гаплогруппы N прибыли только несколько тысяч лет назад, и образовали группы уральских и угро-финских языков.
Там они встретились с носителями гаплогруппы R1a1, группы арийских языков, или, как их сейчас называют лингвисты, «индоевропейских», и, в значительной части, «иранских» и «славянских» языков, и с носителями гаплогруппы R1b1, тогда носителями, возможно, вариантов древних тюркских языков, и с носителями гаплогруппы I, древний язык которых, скорее всего, тот же, что и у носителей R1a1, то есть пра-индоевропейский.
Гаплогруппа R дала три наиболее известные гаплогруппы – R1a1, R1b1 и R2. Все три будут рассмотрены довольно подробно ниже, в соответствующих разделах. Коротко – R1a1 наиболее представлена в России (в среднем 48%, и в южных районах – Белгородская, Орловская области и прилегающие регионы – 62% от всего населения) и в Восточной Европе (Польша, Украина, Белоруссия, примерно такие же доли в популяциях и до 57%); в Центральной Европе и в Скандинавии её примерно 15 – 20%. В Атлантических регионах её почти нет, порой на уровне единиц процентов. Гаплогруппа R1a1 предположительно прибыла с Русской равнины в составе предковой гаплогруппы R или R1 и образовалась примерно 20 тысяч лет назад, предположительно в Южной Сибири, и разошлась на европейскую и азиатскую ветви. Первая мигрировала в Европу, где зафиксирована 8 – 12 тысяч лет назад, вторая – через Китай мигрировала в Индию и Пакистан, со временем общего предка там 8 – 12 тысяч лет назад.
Европейские R1a1 – это гаплогруппа древних «прото-индоевропейцев», они же арии, прибывших в Индию примерно 3500 лет назад и замкнувших языковую связь между Европой и Индией (и тогда же с Ираном). Примерно тогда же они прибыли в Анатолию, предположительно через Кавказские горы. В высших кастах Индии и сейчас до 72% носителей гаплогруппы R1a1. R1b1 – это, вероятно, носители «курганной культуры» 5 – 7 тысяч лет назад в южных степях России и Украины, на своём пути из Центральной Азии до Ближнего Востока, Северной Африки (включая Египет и Алжир) и через Пиренейский полуостров – в Европу, где они сейчас наиболее широко представлены. Гаплогруппа R2 – относительно недавняя, преимущественно локализована в Индии, её возраст там около 7 тысяч лет.
Положение десятое – в ДНК-генеалогии обычно оперируют поколениями. Поколение в контексте ДНК-генеалогии – это событие, которое происходит четыре раза в столетие. Численно и по времени оно близко к продолжительности поколения в житейском смысле этого слова, но не обязательно равно ему. Хотя бы потому, что продолжительность поколения не может быть точно или хотя бы в среднем определена и «плавает» в реальной жизни в зависимости от многих факторов, включая культурные, религиозные и бытовые традиции, примерно и в среднем от 18 до 36 лет.
В древности этот диапазон был, видимо, заметно смещён к первой величине. Поэтому использовать столь «плавающую» величину для расчётов в широких временных диапазонах и для разных народов не представляется возможным или разумным. Скорости мутаций в настоящей книге откалиброваны под условно взятое поколение продолжительностью 25 лет. Если кому-то больше нравится 30 лет на поколение или любое другое количество лет, скорости придётся перекалибровать, и в итоге окажутся ровно те же величины в годах. Так что сколько лет приходится на поколение – в данном случае не имеет значения, потому что при расчётах меньшему числу лет на поколение будет просто соответствовать пропорционально большее число поколений, и итоговая величина в годах не изменится.
Положение одиннадцатое – только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя ко времени общего предка, которые подчиняются определённым количественным закономерностям. Другими словами, ДНК-генеалогия оперирует тремя экспериментальными факторами:
- наличием снипов, относящих человека к определённому роду,
- наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов и – при больших выборках – от начала самого рода, от самого далёкого из предков ныне живущих потомков данного рода,
- закономерности переходов гаплотипов в их мутированные формы, без численного учёта самих мутаций.
Это позволяет оценить, насколько достоверны расчёты предка по мутациям, и даёт ещё один, независимый способ расчетов.
Только если число поколений до общего предка совпадет по пп. 2) и 3), естественно, в пределах разумной ошибки, то эту временнУю оценку можно считать числом поколений до общего предка. То есть, это совпадение показывает, что общий предок был один (в рамках ДНК-генеалогии; например, это могли быть и родные братья, и даже группа близких родственников с одинаковыми или близкими гаплотипами). Если же число поколений, полученное по числу мутаций и по доле сохранившихся немутированными гаплотипов, заметно различается (порой в 2 – 3 раза), то данная выборка гаплотипов не может численно обрабатываться в предположении, что предок был один. Такую выборку надо делить по разным общим предкам, и для этого могут использоваться деревья гаплотипов или медианные сети. Тогда разные ветви дерева часто (не не всегда) соответствуют разным общим предкам.
Приведём пример подобного подхода. Рассмотрим два набора по 10 гаплотипов в каждом.
14-16-24-10-11-12 14-16-24-10-11-12
14-16-24-10-11-12 14-16-24-10-11-12
14-16-24-10-11-12 14-16-24-10-11-12
14-16-24-10-11-12 14-16-24-10-11-12
14-16-24-10-11-12 14-16-24-10-11-12
14-16-24-10-11-12 14-16-24-10-11-12
14-17-24-10-11-12 14-16-25- 9-11-13
15-16-24-10-11-12 14-16-25-10-12-13
14-15-24-10-11-12 14-17-23-10-10-13
15-17-24-10-11-12 16-16-24-10-11-12
Первые шесть гаплотипов в каждом наборе – базовые (предковые) гаплотипы. Остальные четыре – мутированные, в первом наборе 5 мутаций, во втором – 12. Если обращать внимание только на мутации, то среднее количество мутаций в наборах равно 5/10/6 = 0.083 и 12/10/6 = 0.200 мутаций на маркер. Ясно, что второй набор «древнее» в том смысле, что происходит от более древнего общего предка (если он один для всего набора), поскольку со времени его жизни в гаплотипах его потомков накопилось больше мутаций.
Чтобы определить соответствующее количество поколений, отделяющих современных гаплотипы от их общего предка, надо полученные средние величины мутаций разделить на константу скорости мутаций. Для 6-маркерных гаплотипов (в стандартном формате) она равна 0.00088 мутаций на гаплотип, или 0.00147 мутаций на маркер. Таким образом, количество поколений до общего предка будет равно 57 и 136 поколений, соответственно (с поправками на возвратные мутации разница будет ещё больше, а именно 61 и 158 поколений, соответственно).
Однако в обоих случаях число поколений, рассчитанное по доле базовых гаплотипов, равно ln(10/6)/0.0088 = 58 (с поправкой – 62 поколения; принципы расчётов описаны ниже). Как видно, только первый набор дал примерно такое же число поколений (61 и 62) и, таким образом, представляет «чистую выборку», имеющую одного общего предка. Второй набор искажён и соответствует более, чем одному общему предку. Поэтому он не может быть использован для прямых расчётов временной дистанции до общего предка.
Более корректно будет привести эти величины с расчётами соответствующих погрешностей для 95%-ного доверительного интервала. В этих случаях погрешность складывается из погрешности средней величины мутаций на маркер (пропорциональна обратному квадратному корню из числа мутаций и в простейшем случае равна этой величине, то есть 0.083±44.7%, или 0.083±0.037 мутаций на маркер для первой серии гаплотипов, и 0.200±28.9%, то есть 0.200±0.058 мутаций на маркер для второй серии гаплотипов) и погрешности в константах скоростей мутаций, которые принимаются равными 10% с 95%-ной степенью достоверности (на основании рассмотрения большого числа расчётов). Тогда погрешность для числа поколений до общего предка первой серии гаплотипов равна = 45.8%, и второй серии – = 30.6%, то есть 61±28 поколений, или 1525±700 лет до общего предка в первой серии гаплотипов. В такой серии гаплотипов общий предок всей серии жил в указанном интервале лет с 95%-ной достоверностью.
Если же рассчитывать число поколений и погрешности по числу базовых гаплотипов, то при оставшихся шести базовых гаплотипов погрешность в их числе равна в простейшем случае обратному квадратному корню из числа базовых гаплотипов, то есть 6±40.8%, или 6±2 базовых гаплотипов, и погрешность для числа поколений до общего предка первой серии гаплотипов равна = 42.0%, то есть 62±26 поколений, или 1550±650 лет до общего предка. Как видно, обе величины, рассчитанные по мутациям и по базовым гаплотипам практически одинаковы, но ошибка определения оказалась даже несколько меньше для расчётов по базовым гаплотипам. Это – следствие того, что число базовых гаплотипов оказалось больше, чем число мутаций в данной серии.
Вторая серия является смесью ДНК-генеалогических линий, и её суммарный расчёт был бы некорректным.
Многочисленные примеры расчётов по реальным выборкам гаплотипам даны ниже.
5.2.3. Кинетика мутаций гаплотипов, их калибровка и проверка. Принципы датировки. Основа исторических реконструкций
Если принять, что генеалогическое дерево действительно симметричное, то переход базового гаплотипа в мутированные должен проходить в соответствии с уравнением кинетики первого порядка
ln (B/A) = kt,где:В – это общее количество гаплотипов в списке,А – число сохранившихся базовых гаплотипов,k – средняя скорость (частота) мутации (0.0088 на гаплотип на поколение для шестимаркерного гаплотипа),t – число поколений до общего предка,ln – натуральный логарифм.
Профессиональные кинетики эту формулу знают (cм, например, Березин и Клёсов, Практический курс химической и ферментативной кинетики, М., 1976), только её в ДНК-генеалогии до недавнего времени никто не применял. Мы покажем, что можно. Для этого нужно взять гаплотипы, для которых время обшего предка известно, и проверить формулу на практике.
5.2.3.1. Семейство Мак-Доналдов, таблица Чандлера и деревья гаплотипов
Есть такие гаплотипы, для которых время общего предка известно. Это, например, обширное семейство Мак-Доналдов, предок которых, Джон Лорд Островов (John Lord of the Isles) умер в 1386 году, и для которых на сегодняшний день известны 102 гаплотипов семейства, а именно мужчин. Принимая те же 25 лет на поколение, получим, что Джон жил 26 поколений назад. Посмотрим, что нам дадут гаплотипы.
Этот вопрос рассматривать тем более полезно, что один из авторов настоящей книги повторял эти расчёты несколько раз за последние два года, в ходе расширения списка гаплотипов Мак-Доналдов от 69 до 102. Можно проследить, насколько размер выборки и принципы её формирования вляют на конечный результат, на датировку общего предка.
В качестве «точки опоры» возьмём известную таблицу скоростей мутаций для 37 маркеров, которые используются в ДНК-генеалогии. Сейчас уже в ходу 67-маркерные гаплотипы, так что таблица неполная. Тем не менее, это лучшее, что продолжает оставаться в профессиональной научной литературе и принято научной общественностью в виде хотя и не конечной истины, но хорошего приближения. Автор таблицы – Джон Чандлер [Chandler, 2006] – проанализировал тысячи гаплотипов и сопоставил частоту мутаций каждого из внесённых в таблицу 37 маркеров. Здесь первая колонка – первые 12 маркеров, вторая – последующие 13 маркеров, третья – последующие 12 маркеров, чтобы завершить 37-маркерные гаплотипы. Все цифры – это скорости мутаций на маркер на поколение. Выделенные цифры – номера маркеров:
Маркер | Скорость мутации | Маркер | Скорость мутации | Маркер | Скорость мутации |
393 | 0.00076 | 458 | 0.00814 | 460 | 0.00402 |
390 | 0.00311 | 459a | 0.00132 | GATA | 0.00208 |
19 | 0.00151 | 459b | 0.00132 | YCAa | 0.00123 |
391 | 0.00265 | 455 | 0.00016 | YCAb | 0.00123 |
385a | 0.00226 | 454 | 0.00016 | 456 | 0.00735 |
385b | 0.00226 | 447 | 0.00264 | 607 | 0.00411 |
426 | 0.00009 | 437 | 0.00099 | 576 | 0.01022 |
388 | 0.00022 | 448 | 0.00135 | 570 | 0.00790 |
439 | 0.00477 | 449 | 0.00838 | CDYa | 0.03531 |
389i | 0.00186 | 464a | 0.00566 | CDYb | 0.03531 |
392 | 0.00052 | 464b | 0.00566 | 442 | 0.00324 |
389ii | 0.00242 | 464c | 0.00566 | 438 | 0.00055 |
464d | 0.00566 |
Таблица 5.2.3.1.0. Таблица скоростей мутаций для 37 маркеров [Chandler, 2006].
Поскольку скорости отдельных маркеров складываются (мутации принимаются независимыми, и в целом так оно и есть, за несколькими исключениями), то для первых 6 маркеров средняя скорость мутации получится 0.00880±0.00015, для первых 12 маркеров средняя скорость мутации получится 0.022±0.004, для первых 25 маркеров – 0.070±0.011, и для всех 37 маркеров – 0.18±0.03 мутаций на гаплотип на поколение. Погрешности взяты из работы, в которой были опубликованы значения маркеров [Сhandler, 2006].
Если эти величины перевести в значения скоростей мутаций (или констант скоростей мутаций, они же частоты мутаций), то для 6- и 12-маркерных гаплотипов получим таблицу:
Гаплотип в формате FthNA | Средняя величина константы скорости мутации на поколение (25 лет по условиям калибровки) | Примечания | |
---|---|---|---|
На гаплотип | На маркер | ||
393-390-19-391-X-X-X-388-X-X-392-X | 0.0088 | 0.00147 | 6-маркерный гаплотип в «старом научном» формате: 19-388-390-391-392-393 |
393-390-19-391-385a-385b-426-388-439-3891-392-3892 | 0.022 | 0.00183 | 12-маркерный гаплотип в формате FTDNA |
Таблица 5.2.3.1.1. Скорости мутаций.
Это – лишь частный вариант общей таблицы скоростей мутаций, в которой приведены данные для 23 вариантов гаплотипов в различных форматах, и которую мы приведём позже. Причина в том, что только две первые строки, составленные из данных Чандлера – для так называемой первой панели маркеров (от 1-го до 12-го) разумно описывают реальные системы. Во второй и третьей панели (12 – 25 и 26 – 37 маркерных фрагментах гаплотипов) мутации в ряде локусов или сайтов (тандемов, повторяющихся прогонов ДНК) происходят сложным образом. Некоторые сайты оказываются как бы сцепленными друг с другом, и мутации в них не являются независимыми (нумерацию этих сайтов обычно сопровождают буквами, как показано в таблице скоростей мутаций отдельных маркеров выше). В итоге количество мутаций, рассчитанное по этим сайтам в отдельности, оказывается порой сильно завышенным.
Это фактически парализовало работу по использованию мутаций в гаплотипах для проведения временных оценок в масштабах исторических событий. Дискуссии, какие скорости мутаций использовать и как их адаптировать к расчётам в режимах реального времени продолжаются до сих пор, и проблема казалось нерешаемой. Для «академических учёных» проблема до сих пор не решена. Нет даже минимального консенсуса. Поэтому редкие расчёты в академической науке ведутся на страх и риск авторов, а ещё чаще вообще не проводятся, в ожидании того, что проблема как-то рассосется.
Несмотря на это, проблема была в значительной степени решена, когда к скоростям мутации гаплотипов были применены (одним из авторов настоящей книги) подходы физической химии (химической кинетики) и соответствующих принципов математической статистики, и полученные данные выверены на известных генеалогиях (с соответствующим определением гаплотипов) и известных исторических событиях. Были сопоставлены скорости мутаций по их накоплению, и по одновременному уменьшению числа немутированных гаплотипов, были применены графические деревья гаплотипов с соответствующим разделением генеалогических ветвей, в каждой из которых была своя картина мутаций, были введены принципы симметрии мутаций и количественный учёт симметрии, количественный учёт возвратных мутаций, а также – что немаловажно – количественный расчёт доверительных интервалов получаемых времён жизни общего предка, что позволило давать реалистическую картину получаемых датировок. Эти принципы изложены в двух объёмных статьях [Klyosov, 2009a, 2009b], в серии статей в Вестнике Российской Академии ДНК-генеалогии (2008, 2009, в соавторстве с Д. Адамовым) и лишь в сокращённом виде изложены здесь на конкретных примерах, избегая сложных математических рассмотрений. Полностью эти выкладки приведены в работах [Адамов и Клёсов, 2008а, b; 2009a, b, c, d].
Первый наглядный пример и есть серия гаплотипов семейства Мак-Доналдов. Полтора года назад их было в списке 68 человек и, соответственно, 68 гаплотипов. Из них 53 шестимаркерных базовых, то есть идентичных друг другу:
15-12-25-11-11-13
и на остальные 6-маркерные приходилось 17 одношаговых мутаций. Посмотрим, сколько поколений от общего предка должно было пройти, чтобы из 68 гаплотипов осталось «нетронутыми», то есть немутированными 53, и чтобы во всех 68 набежало 17 мутаций. Применим средние скорости мутаций для 6-маркерных гаплотипов, рассчитанных по таблице Чандлера:
ln(68/53)/0.0088 = 28±5 поколений
17/68/0.0088 = 28±7 поколений
Как мы помним, генеалогическое дерево Мак-Доналдов уходит вглубь на 26 поколений (650 лет), точнее, на 623 года назад до смерти отца-основателя. Видно, что лучшего совпадения, учитывая погрешность расчётов, желать трудно. Погрешности здесь рассчитывались, исходя из числа немутированных гаплотипов (53) в первой формуле и из числа мутаций (17) во второй, как обратный квадратный корень из их величин, как было объяснено выше [Адамов и Клёсов, 2009с; Klyosov, 2009a].
Дерево 6-маркерных гаплотипов Мак-Доналдов показано на рис. 5.2.3.1.1. В нём, как и во всех деревьях гаплотипов, по кругу расположены базовые гаплотипы рассматриваемой серии, то есть идентичные друг другу, и, как правило, соответствующие предковому гаплотипу, общему для всей серии гаплотипов. Это в том случае, если предок действительно был один для всей серии. Как мы позже увидим, нередко базовый гаплотип относится всего лишь к части серии гаплотипов, а остальные сильно мутированы. Вот тогда и наблюдается дисбаланс между числом базовых гаплотипов и числом мутаций в серии. Этот дисбаланс выявляется сопоставлением числа базовых гаплотипов и числа мутаций в серии, с использованием логарифмического и «линейного» подхода, как обсуждалось выше.
Чем больше мутаций в гаплотипе, тем дальше он удален от «ствола» дерева, то есть от базовых гаплотипов. Мутации графически располагаются по уровням. Каждый уровень – одна дополнительная мутация. Из рис. 5.2.3.1.1 видно, как на дереве формируются ветви, хотя все они в данном случае происходят от одного общего предка, жившего 26 поколений назад.
Рис. 5.2.3.1.1. Дерево 6-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2007). В выборке – 68 гаплотипов.
При рассмотрении 68 12-маркерных гаплотипов оказалось, что среди них 42 базовых гаплотипа
13 25 15 11 11 14 12 12 10 14 11 31
и 44 мутации
Это даёт ln(68/42)/0.022 = 22±4 поколения до общего предка, если считать по базовым гаплотипам, и
44/68/0.022 = 29±5 поколений, если считать по мутациям.
Как видно, совпадение опять вполне приемлемое при расчёте обоими способами.
Рис. 5.2.3.1.2. Дерево 12-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2007). В выборке – 68 гаплотипов.
На самом деле точность и воспроизводимость расчётов в ДНК-генеалогии зачастую поражает, принимая во внимание неупорядоченную природу мутаций и их чистую случайность. Более того, расчёты довольно чувствительны к числу мутаций и числу немутированных гаплотипов в серии. Ведь если в рассмотренном примере в серии оказалось бы не 42, а 41 базовых гаплотипов, что более чем вероятно – проскочила одна лишняя мутация – и одним базовым гаплотипом меньше, то ln(68/41)/0.022 = 23, то есть одним поколением больше. Этот пример показывает, что мутации в гаплотипах довольно точно придерживаются системы.
Дерево 12-маркерных гаплотипов показано на рис. 5.2.3.1.2 видно, что оно начинает усложняться по сравнению с 6-маркерным. Число немутированных (базовых) гаплотипов по понятным причинам начинает уменьшаться, число мутаций расти.
А вот с 25-маркерными и 37-маркерными гаплотипами Мак-Доналдов таблица Чандлера дала сбой. Оказалось, что она включает на второй и третьей панели «сцепленные» маркеры, как DYS464a, b, c, d, и быстрые (см. таблицу Чандлера выше), которые «тянут одеяло» на себя, сводя к минимуму вклад большинства других маркеров.
Оказалось, что кажущиеся константы скоростей для 25-маркерных и 37-маркерных гаплотипов, полученные из таблицы Чандлера и приведенные выше, занижают времена жизни общих предков в полтора и два раза, соответственно, причем не только Мак-Доналдов, но и по любым сериям гаплотипов. В результате, после многих расчётов по многим сериям гаплотипов были приняты величины констант скоростей мутаций, приведенные в Таблице 5.2.3.1.2 для гаплотипов в 31 форматах, используемых в литературе.
Гаплотип в формате FthNA | Средняя величина константы скорости мутации на поколение (25 лет по условиям калибровки) | Примечания. Ссылки даны на работы, в которых рассматривались указанные гаплотипы | |
---|---|---|---|
На гаплотип | На маркер | ||
393-390-X-391-X-X-X-X-X-3891-X-3892 | 0.0108 | 0.00216 | 5-маркерный гаплотип [Cordaux et al, 2004] |
393-X-19-X-X-X-X-388-X-3891-X-3892 | 0.0068 | 0.00135 | 5-маркерный гаплотип [Bittles et al, 2007] |
393-390-19-391-X-X-X-388-X-X-392-X | 0.0088 | 0.00147 | 6-маркерный гаплотип в «старом научном» формате: 19-388-390-391-392-393 |
393-390-19-391-X-X-X-X-X-3891-X-3892 | 0.0123 | 0.00205 | 6-маркерный гаплотип [Thanseem et al, 2006] |
393-390-19-391-X-X-X-X-X-3891-392-3892 | 0.013 | 0.00186 | 7-маркерный гаплотип с пропущенными маркерами 385a, 385b, 426, 388, 439 |
393-390-19-391-X-X-X-388-X-3891-392-3892 | 0.013 | 0.00163 | 8-маркерный гаплотип с пропущенными маркерами 385a, 385b, 426, 439 [Zhivotovsky et al, 2004] |
393-390-19-391-385a-385b-X-X-X-3891-X-3892 | 0.0168 | 0.00210 | 8-маркерный гаплотип с пропущенными маркерами 426, 439, 388, 392 [Contu et al, 2008] |
393-390-19-391-385a-385b-X-Y-Z-3891-392-3892 | 0.017 | 0.00189 | 9-маркерный гаплотип с пропущенными маркерами 426, 388, 439 |
393-390-19-391-X-Y-Z-388-439-3891-392-3892 | 0.018 | 0.00198 | 9-маркерный гаплотип с пропущенными маркерами 385a, 385b, 426 |
393-390-19-391-385a-385b-X-388-Y-3891-392-3892 | 0.018 | 0.00180 | 10-маркерный гаплотип с пропущенными маркерами 426, 439 |
393-390-19-391-385a-385b-X-Y-439-3891-392-3892 | 0.022 | 0.00220 | 10-маркерный гаплотип с пропущенными маркерами 426, 388 |
393-390-19-391-X-Y-426-388-439-3891-392-3892 | 0.018 | 0.00180 | 10-маркерный гаплотип с пропущенными маркерами 385a, 385b |
393-390-19-391-Х-Х-Х-388-439-3891-392-3892-(…)- 461 | 0.018 | 0.00180 | 10-маркерный гаплотип [Cinnioglu et al, 2004; Zhivotovsky et al, 2004; Sengupta et al, 2006] |
393-Х-19-391-Х-Х-Х-Х-439-Х-Х-Х-(…)- 413a-413b-460-461-GATAA10-YCAIIa-YCAIIb | 0.020 | 0.00182 | 11-маркерный гаплотип [Cruciani et al, 2007] |
393-390-19-391-Х-Х-Х-388-439-3891-392-3892-(…)- 437-438 | 0.019 | 0.00176 | 11-маркерный гаплотип [Zalloua et al, 2008] |
393-390-19-391-385a-385b-426-388-439-3891-392-3892 | 0.022 | 0.00183 | 12-маркерный гаплотип в формате FTDNA |
393-390-19-391-385a-385b-X-Y-439-3891-392-3892-(…)-437-438 | 0.024 | 0.00200 | 12-маркерный гаплотип [Mertens, 2007] |
393-390-19-391-X-X-X-388-439-3891-392-3892-(…)-YCAIIa-YCAIIb-460 | 0.024 | 0.00200 | 12-маркерный гаплотип [Fornarino et al, 2009; Battaglia et al, 2008] |
393-390-19-391-X-X-X-388-439-3891-392-3892-(…)-YCAIIa-YCAIIb-461 | 0.021 | 0.00178 | 12-маркерный гаплотип [Chiaroni et al, 2009] |
393-390-19-391-385a-385b-X-X-439-3891-392-3892-458-(…)-437-448-GATAH4-456-438-635 | 0.034 | 0.00200 | 17-маркерный гаплотип [Yfiler, FBI/National Standards) (Mulero et al., 2006] |
393-390-19-391-Х-Х-Х-388-439-3891-392-3892-(…)-434-435-436-437-438-460-451-462 | 0.024 | 0.00141 | 17-маркерный гаплотип [King et al, 2007] |
393-390-19-391-426-388-439-3891-392-3892-458-455-454-447-437-448-438 | 0.032 | 0.00188 | 17-маркерный гаплотип [Hammer et al, 2009] |
393-390-19-391-385a-385b-X-388-439-3891-392-3892-(…)-434-435-436-437-438-460-461-462 | 0.0285 | 0.00150 | 19-маркерный гаплотип [Adams et al, 2008] |
393-390-19-391-385a-385b-388-439-3891-392-3892-458-(…)-437-448-GATAH4-YCAIIa-YCAIIb-456-438-635 | 0.050 | 0.00250 | 20-маркерный гаплотип [Tofanelli et al, 2009] |
393-390-19-391-385a-385b-426-388-439-3891-392-3892-458-459a-459b-455-454-447-437-448-449 | 0.038 | 0.00183 | 21- маркерный гаплотип c пропущенными маркерами DYS464a-d [Underhill et al, 2009] |
393-390-19-391-385a-385b-426-388-439-3891-392-3892-458- 459a-459b-455-454- 447-437-448-449-438 | 0.047 | 0.00214 | 22-маркерный гаплотип [Hammer et al, 2009] |
393-390-19-391-385a-385b-426-388-439-3891-392-3892-458-459a-459b-455-454-447-437-448-449-464a-464b-464c-464d | 0.046 | 0.00184 | 25- маркерный гаплотип |
393-390-19-391-385a-385b-426-388-439-3891-392-3892-458-459a-459b-455-454-447-437-448-449-464a-464b-464c-464d-460- GATAH4-YCAIIa-YCAIIb | 0.055 | 0.00188 | 29-маркерный гаплотип |
Стандартный 37-маркерный гаплотип | 0.090 | 0.00243 | 37- маркерный гаплотип |
393-390-19-391-385a-385b-426-388-439-3891-392-3892-458-459a-459b-455-454-447-437-448-449-(…)-460-YCAIIa-YCAIIb-456-442-438-444-446-461-441-445-452-462-469-T1B07-A10-C4-H4.1 | 0.071 | 0.00183 | 39-маркерный гаплотип [Underhill et al, 2009] |
Стандартный 67-маркерный гаплотип | 0.145 | 0.00216 | 67- маркерный гаплотип |
Таблица 5.2.3.1.2. Средние значения констант скоростей мутаций на гаплотип и на маркер на поколение (25 лет по условиям калибровки) для 31 гаплотипа в разных вариантах формата, использующихся в литературе по ДНК-генеалогии и популяционной генетике. Величины рассчитаны по данным таблицы Чандлера (для гаплотипов с числом маркеров от 5 до 12), и калиброваны для более протяженных гаплотипов по серии гаплотипов семейства Мак-Доналдов, с некоторыми корректировками [Klyosov, 2009а, Клёсов, 2008d].
25-маркерных гаплотипов в списке Мак-Доналдов было 60 и дерево их гаплотипов приведено на рис. 5.2.3.1.3. Дело в том, что восемь человек ограничились при тестировании 12-маркерными гаплотипами. Видно, что дерево продолжает усложняться, и в нём осталось только 18 базовых и имеется 69 мутаций. Это даёт ln(60/18)/0.046 = 26±4 поколений до общего предка по числу базовых гаплотипов, и 69/60/0.046 = 25±4 поколений по числу мутаций.
Совпадение почти идеальное – и логарифмического метода с линейным, и с ожидаемым числом поколений до общего предка Мак-Доналдов. Базовый (предковый) 25-маркерный гаплотип Мак-Доналдов имеет вид:
13 25 15 11 11 14 12 12 10 14 11 31 16 8 10 11 11 23 14 20 31 12 15 15 16
Рис. 5.2.3.1.3. Дерево 25-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2007). В выборке – 60 гаплотипов.
Дерево 37-маркерных гаплотипов Мак-Доналдов приведено на рис. 5.2.3.1.4. Совершенно наглядная картина усложнения дерева при переходе к столь протяженным гаплотипам. Базовых гаплотипов не осталось, слишком высока вероятность, что они не выживут без мутаций на протяжении 26-ти поколений от общего предка. Точнее, остался один базовый гаплотип (номер 001 на дереве), но от него для расчетов пользы мало. Поэтому в данном случае базовый гаплотип определяется как тот, от которого ко всем остальным имеется наименьшее количество мутаций. Иначе говоря, он центровой, эквидистанционный в серии гаплотипов. Это понятно, поскольку от него и шли все мутации в гаплотипах потомков. Базовый 37-маркерный гаплотип выглядит так:
13 25 15 11 11 14 12 12 10 14 11 31 – 16 8 10 11 11 23 14 20 31 12 15 15 16 – 11 12 19 21 17 16 17 18 34 38 12 11
Здесь пунктирными линиями отделены панели гаплотипов – первая (1 – 12 маркеры), вторая (13 – 25 маркеры) и третья (26 – 37 маркеры). «Сцепленные» аллели 19 – 21 выделены (они имеют порядковые номера 28 и 29, если считать слева направо), это – характерные аллели для семейства Доналдов, отличающие их от гаплотипов практически всего мира. Речь об этом пойдёт ниже, а сейчас заметим, что аллели – это повторяющиеся нуклеотидные прогоны в соответствующих участках ДНК, называемых «маркерами», или «локусами». У Доналдов это прогоны повторены подряд 19 и 21 раз, соответственно. У восточных славян, например (той же гаплогруппы R1a1), они обычно повторяются 19 и 23 раза, соответственно. К этому мы ещё вернёмся.
Рис. 5.2.3.1.4. Дерево 37-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2007). В выборке – 59 гаплотипов.
На все 59 гаплотипов имеются 178 мутаций. Это дает 178/59/0.09 = 34 поколения до общего предка. Иначе говоря, с мутациями на этом дереве перебор. Рассмотрение мутаций сразу выявляет причину этого перебора. Всего один маркер из 37 дал пятую часть всех мутаций, а именно 36. Это – маркер CDYb, который в таблице Чандлера выше действительно зашкаливает по мутациям наряду с его близнецом CDYa, с которым они ещё и сцеплены. Если его снять, то получится 142/59/0.09 = 27±3 поколения до общего предка, что вполне приемлемо.
Этот пример показывает, что 37-маркерные гаплотипы могут давать сбои (но не всегда, хотя никогда заранее неизвестно, будет перебор с мутациями или нет), поэтому в равных ситуациях для расчётов предпочтительны 25-маркерные гаплотипы. Хотя часто 25-маркерные и 37-маркерные гаплотипы в сериях дают практически идентичные результаты. Это, конечно, наилучшее доказательство, что расчёт верный.
Рис. 5.2.3.1.5. Дерево 67-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2007). В выборке – 26 гаплотипов.
Наконец, на рис. 5.2.3.1.5 приведено дерево 67-маркерных гаплотипов Мак-Доналдов. В нём – 98 мутаций на все 26 гаплотипов, что дает 98/26/0.145 = 26±4 поколений до общего предка. Опять замечательная сходимость с результатами других расчётов и с данными «классической» генеалогии.
Эти примеры показывают, что расчёты как по базовым гаплотипам, так и по мутациям дают воспроизводимые данные, и это показано уже на десятках серий гаплотипов самых разных гаплогрупп. Прежние сомнения, что скорость мутации может на самом деле меняться при переходе к древним сериям гаплотипов (то есть происходящих от древних предков, тысячи и десятки тысяч лет назад) были развеяны недавней работой [Sun et al, 2009], выполненной совместным коллективом Гарвардского университета и Массачуссетского технологического института, согласно которой маркеры в гаплотипах представляют собой точные «молекулярные часы» с постоянной средней скоростью мутаций на протяжении как минимум 2 миллиона лет.
Это было показано сопоставлением почти тысячи маркеров в человеческих популяциях по всему миру и сотен маркеров в шимпанзе, наряду с анализом нуклеотидных последовательной всего генома. В этой же работе было показано, что наиболее древние популяции человечества – это популяции африканских племен Сан, пигмеев Биака и пигмеев Мбути, и что африканские популяции отделены генным «разрывом» от неафриканских популяций человека. Это, пожалуй, наиболее убедительная работа, свидетельствующая об Африке как прародине современного человека, наших современников.
Возвращаемся к семейству Мак-Доналдов.
К концу прошлого, 2008 года, в списке Мак-Доналдов было уже 84 человека (25-маркерное дерево гаплотипов приведено на рис. 5.2.3.1.6):
Рис. 5.2.3.1.6. Дерево 25-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1
(по данным Мак-Доналдов, 2008). В выборке – 84 гаплотипов.
В этой, новой серии гаплотипов –
12-маркерные гаплотипы – 52 базовых (из 84), 44 мутации
25-маркерные гаплотипы – 21 базовый (из 84), 109 мутаций
Базовые гаплотипы были, естественно, теми же. Это дало:
12 – маркерные гаплотипы:
ln(84/52)/0.022 = 22±4 поколений до общего предка, и
44/84/0.022 = 24±4поколения,
25 – маркерные гаплотипы:
ln(84/21)/0.046 = 30±7 поколений до общего предка, и
109/84/0.046 = 28±4 поколений
В среднем эти средние значения дают 26±4 поколения до общего предка Мак-Доналдов. Как видно, увеличение выборки от 68 до 84 приводит к тому же результату.
В середине 2009 года число гаплотипов в серии возросло до 102, но при этом был расширен круг членов «семейства». Были введены те, кто ведёт свой род не от Джона Лорда островов, а от его предка, Сомерледа, который по легендам жил в 12-м веке. Число мутаций в гаплотипах серии сразу резко увеличилось.
102 гаплотипа Мак-Доналдов в 25-маркерном формате содержат 156 мутаций, что дает 156/102/0/046 = 33 поколения, то есть 825±110 лет до общего предка. Это – граничный период времени, когда надо вводить поправку на возвратные мутации, что увеличивает полученную величину до 34 поколений до общего предка, то есть 850±110 лет назад. Это – 12-й век (плюс-минус столетие) до нашей эры. Действительно, времена Сомерледа. Иначе говоря, введенные в список гаплотипы вели свою линию действительно от Сомерледа (или от его современника), что и привело к уходу времени жизни общего предка всех 102 гаплотипов в более древние времена, в 12-й век. Как видно, результаты расчётов весьма чувствительны к времени жизни общих предков.
Собственно, показать это – и была цель данного раздела. Читателю теперь должно быть ясно, что расчёты времён жизни общего предка – это не какая-то забава, это – операция, которая основана на прочном фундаменте, и которая позволяет достаточно надёжно рассчитывать абсолютные времена начала генеалогических линий. А это, в свою очередь, связано с определёнными историческими событиями – миграциями народов, войнами, природными катаклизмами, переселениями предков на новые места.
Это – порой бесценная информация для археологии, антропологии, истории, лингвистики.
Мы рассмотрим это ниже на десятках конкретных примерах. Но чтобы поместить данные о семействе Мас-Доналдов в определённый, более широкий исторический контекст и проиллюстрировать ещё одну особенность ДНК-генеалогии в этой, постановочной главе, рассмотрим, с какой популяцией сопряжены Мак-Доналды на общем дереве гаплотипов гаплогруппы R1a1 (рис. 5.2.3.1.7). На нём – около девятисот 25-маркерных гаплотипов Европы и Азии (на дереве есть немало гаплотипов США и Канады; в тех случаях, когда в базе данных были приведены места жительства наиболее удалённых предков «классической генеалогии), известных носителю гаплотипа; во всех случаях это была Европа или Азия).
Рис. 5.2.3.1.7. Дерево 25-маркерных гаплотипов европейского и азиатского происхождения гаплогруппы R1a1
(по данным базы YSearch, 2009). В выборке – 890 гаплотипов [Рожанский и Клёсов, 2009].
На этом дереве можно выявить 14 отдельных ветвей гаплотипов, каждая со своим общим предком. Одна из этих ветвей имеет сочетание аллелей (то есть числа повторов нуклеотидных прогонов в маркерах, как отмечалось выше), характерное для семейства Мак-Доналдов. «Сцепленные» маркеры под номерами 28 и 29, если считать слева направо в базовых гаплотипах ветвей гаплогруппы R1a1, обычно имеют аллели 19 – 23 (эти маркеры имеют индексы YCAII a и b), а у всех до одного членов семейства Доналдов, для которых был проведён анализ ДНК, там 19 – 21.
Поэтому на дереве гаплотипов образовалась отдельная ветвь для всех 19 – 21, и тех, кто от них немного мутировал, но сохранил общую структуру гаплотипа. Таких оказалось 105 67-маркерных гаплотипов, то есть в формате гаплотипов наивысшего разрешения. 65 из них представлены семейством Мак-Доналдов (помечены буквами mc на дереве гаплотипов на рис. 5.2.3.1.8), остальные обычными номерами. На дерево 25-маркерных гаплотипов (рис. 5.2.3.1.7) они не нанесены, чтобы не усложнять его ещё больше.
Рис. 5.2.3.1.8. Дерево из 40 67-маркерных гаплотипов ветви YCAII=19,21 и ближайших мутаций и
65 67-маркерных гаплотипов «клана Доналдов» с YCAII=19,21 (http://dna-project.clan-donald-usa.org/tables.htm). Последние помечены индексом mc.
Видно, что дерево состоит из двух частей – слева более старые гаплотипы, числом 36; справа и в верхней части – более молодые, числом 69, почти исключительно гаплотипы «клана Доналда». Среди них – только четыре гаплотипа, которые не занесены в таблицу «клана». Гаплотипы «клана Доналда» в левой широкой ветви полностью отсутствуют.
Все 36 гаплотипов старой, левой ветви содержат 152 мутации от следующего базового гаплотипа
13 25 15 11 11 14 12 12 10 13 11 30 – 15 9 10 11 11 23 14 20 32 12 15 15 16
что даёт 2550±330 лет до общего предка ветви. Это – середина первого тысячелетия до н.э. Как показало более детальное исследование [Рожанский и Клёсов, 2009], этот предок жил на Русской равнине, если следовать данным археологии и древним скандинавским сказаниям. В свою очередь, этот предок на Русской равнине продолжил род более древнего общего предка, который жил примерно 4400 лет назад, и который имел почти исключительно пару 19,23 в маркерах YCAII. Где жил этот древний предок – пока неизвестно, но предположительно он принадлежал археологической культуре шнуровой керамики в Центральной Европе. Там были обнаружены останки носителей R1a1 давности 4600 лет назад (Eulau в Германии, см. [Haak et al, 2009]), и оттуда предположительно было направление миграции R1a1 примерно 6 – 5 тысяч лет назад, которое заложило ямную, срубную и андроновскую культуру при движении на восток.
В середине 1-го тысячелетия н.э., в ходе Великого переселения народов, было обратное движение R1a1 на запад, в Центральную Европу и в Скандинавию. Вполне вероятно, что пара 19,21 в маркерах YCAII образовалась на Русской равнине и принесена в Скандинавию, оттуда – на Британские острова. Среди современных носителей R1a1 на Русской равнине этой пары 19,21 пока не обнаружено. Возможно, в те времена её имели единичные носители, которые и перешли в Скандинавию. Или остальные носители и/или их потомки не выжили.
Вторая, более «молодая» половина дерева гаплотипов на рис. 5.2.3.1.8, включающая почти исключительно «клан Доналда», имеет 100 мутаций на 69 гаплотипов, что даёт 825±120 лет до общего предка с гаплотипом
13 25 15 11 11 14 12 12 10 14 11 31 – 16 8 10 11 11 23 14 20 31 12 15 15 16
Это – практически абсолютное совпадение со временем жизни общего предка 850±110 лет назад, но рассчитанное по 102 25-маркерным гаплотипам. Этот гаплотип происходит непосредственно от скандинавской популяции возрастом 1700±220 лет, предположительно пришедший в Скандинавию в ходе Великого переселения народов, в середине первого тысячеления нашей эры:
13 25 15 11 11 14 12 12 10 14 11 31 – 15 9 10 11 11 23 14 20 32 12 15 15 16
Первые 12 маркеров у них вообще идентичны (отмечены мутации во второй панели маркеров). На самом деле там не три мутации, а 2.2 (0.70+0.76+0.78), что и даёт указанную разницу в «возрасте» общих предков.
Итак, выстраивается следующая картина. Исходный общий предок рассматриваемой серии скандинавских гаплотипов жил примерно 4400 лет назад, предположительно в Европе, в регионе культуры шнуровой керамики. Его прямые потомки продвинулись на восток, на Русскую равнину («Великий Свитьод» в скандинавских легендах и сагах), и 2550±330 лет назад, в середине первого тысячелетия до н.э. у его потомков на Русской равнине, или в ходе миграции на запад появилась мутация в YCAII c переходом от 19,23 в 19,21, возможно, через промежуточную форму 19,22, которая не получила развития. В середине 1-го тысячелетия н.э., в ходе Великого переселения народов, мигрантами R1a1 в Скандинавию было дано начало ДНК-генеалогической линии, продолжающей мутацию 19,21. Потомками этой линии были Сомерлед и Джон, Лорд Островов, которые дали начало знаменитому «клану Доналда» с его боевой историей, описанной во многих книгах и исторических документах.
Этот довольно подробный пример, как и весь раздел, даётся с единственной целью – показать, что расчеты по гаплотипам имеют надёжную основу, и позволяют проводить исторические реконструкции, как правило, не сами по себе, а в совокупности с независимыми данными. При этом независимые данные (история, археология, лингвистика) или подтверждаются, что придаёт им дополнительное обоснование и весомость, или не подтверждаются, что делает рассмотрение ещё более интересным и важным. Вот именно там, в узлах противоречий, и ожидают нас интересные открытия.