Анатолий Клёсов
Newton, Massachusetts 02459, U.S.A.
Резюме
Дается обзор Десяти Заповедей ДНК-генеалогии:
1.Да не будет у тебя генов важнее нерекомбинантных фрагментовДНК.
2.Не делай себе идола из гаплотипов только одной длины.
3.Чти общих предков и рассчитывай времена их жизни.
4.Чти базовый гаплотип и считай мутации от него.
5.Не делай неправильных расчетов, исходя из мутаций в гаплотипах.
6.Не смешивай понятия SNP и STR.
7.Не используй необоснованных скоростей мутаций в гаплотипах.
8.Не рассчитывай времена до общих предков только для пары гаплотипов, чти статистику.
9.Не произноси ложного свидетельства на гаплогруппу ближнего своего.
10.Проверяй, происходит ли выборка гаплотипов от одного общего предка, или от нескольких. Даю тебе закон, как это делать.
Разработан критерий, позволяющий определять наличие одного или нескольких общих предков в выборке гаплотипов, и базирующийся на логарифме отношения числа гаплотипов во всей выборке и базовых гаплотипов (предковых, модальных, идентичных гаплотипов в выборке). Разработано положение, описывающее динамику мутаций в гаплотипах, и позволяющее определять временные дистанции до общего предка, основываясь на доле базовых (предковых) гаплотипов в выборке или ее отдельных генеалогических линиях (без подсчета мутаций в гаплотипах). Если критерий показывает, что в выборке больше чем одна генеалогическая линия (то есть более одного общего предка), строится дерево гаплотипов, и анализ линий (ветвей дерева) производится по отдельности. Проведена калибровка средних скоростей мутаций 6-, 9-, 1012-, 25-, 37 - и 67- маркерных гаплотипов. Предложенный подход продемонстрирован на многих примерах, включающих гаплогруппы:
- С2 (полинезийцы Самоа, Новой Зеландии и островов Кука),
- F (индийцы племени Койя),
- G (жители Швеции),
- H1 (цыгане Болгарии и Хорватии, индийские племена Койя и Корагас),
- I1 (шведы, фламандцы),
- I21b (шведы),
- J (евреи и жители Швеции),
- J1 (евреи),
- J2 (евреи),
- N3 (шведы),
- N3a (прибалтийские народы, в основном финны),
- N3a1 (русские),
- Q (американские индейцы),
- R1a1 (русские, евреи, индусы, арабы Оманского залива [Катар и ОАЭ], турки Анатолии, индийцы племени Ченчу, армяне, шведы, жители Балкан и Адриатического побережья),
- R1b (фламандцы [северная Бельгия], шведы, армяне, жители Балкан и Адриатического побережья, жители британских островов, баски, европейцы в целом),
- R2 (индийцы и пакистанцы).
Для начала определимся, что такое «род», поскольку будем часто пользоваться этим понятием. В контексте ДНК-генеалогии, да пожалуй и вообще - это группа людей, в которой каждый человек связан с общим предком прямой наследственной линией. Этот род может быть относительно - или совсем - недавний, и относиться к любому прямому предку. В этом смысле как вы, так и брат вашего отца, то есть ваш дядя, ведете род от вашего дедушки. Как правило, «ведете род» - это понятие коллективное, и объединяет вас, как уже было сказано, с определенным кругом родственников, связанных прямыми наследственными линиями с одним общим предком. Чем предок глубже по времени, тем шире круг этих современных родственников. Все они принадлежат одному роду.
В ДНК-генеалогии эта принадлежность к одному роду идентифицируется по наличию у каждого члена рода характерного признака - определенной «метки» в ДНК. Причем не просто в ДНК, а в нерекомбинируемой части ДНК, которая не перетасовывается с материнской ДНК. Эта нерекомбинируемая часть ДНК находится в Y-хромосоме, мужской половой хромосоме. Потому и не рекомбинируется с женской половой хромосомой, а передается мужчинам целиком и полностью от отца.
Таким образом, если говорить о любой относительно стабильной и многочисленной общности людей, которые идентифицируют себя как относящиеся к этой общности, то они подразделяются на несколько доминирующих родовых групп. Однородными в этом смысле были бы только те общности, которые в течение тысяч и десятков тысяч лет лет жили бы в полной изоляции в пределах своего рода. Но так обычно не бывает.
В соответствии с этими понятиями любое вторжение - речь, естественно, о половых вторжениях - представителя другого рода, которое приводит к рождению мальчика, в свою очередь дающего мужское потомство, означает, что это потомство ведет наследственные нити уже к тому, другому роду. У этого потомства уже другой характерный рисунок в мужской хромосоме, другие молекулярные метки. Естественно, при таком вторжении приобретаются и гены отца, а с ними и масса других наследственных признаков, но гены по ходу поколений постепенно разбавляются другими, опять своего рода, «вымывая» генетику «чужака». А вот Y-хромосома не вымывается, остается той же. Точнее, почти той же. Об этом речь ниже.
В итоге потомки часто и понятия не имеют, что они - прямые потомки другого рода. Язык, образ жизни, традиции, религия, даже характерные черты внешности, « возвращенные» генетическим вымыванием - все говорит о том, что никаких вторжений не было. Собственно, даже и мысли об этом обычно нет. И - самоидентификация со своим родом на месте, что на самом деле самое главное.
И только данные по «меткам» в Y-хромосоме показывают, что на самом деле прямые потомки в отдалении - близком или далеком -принадлежали вовсе другому роду.
Важно это знать или нет? Кому как. Многим совершенно не важно, и они по-своему правы. В конце концов, в жизни масса других приоритетов, чем интересоваться предками. Другим важно, иначе не было бы огромного количества людей, интересующихся генеалогией своих предков. А это фактически то же самое, только методология другая и другие диапазоны времени.
Видимо, важно это и третьим, которые применяют генеалогию как аргумент в политических спорах или даже физических действиях. И вот здесь сходятся непримиримые позиции, когда на кону или выживание и расцвет нации, или ее притеснение, вплоть до физического истребления, геноцида. И аргументы здесь тоже по сути дела генеалогические, в какой бы форме они ни выражались.
Как вынесено в заголовок, мы будем оперировать понятиями ДНК-генеалогии. Напомню основные положения этой новой дисциплины. Понимаю, что это может быть длинно и подробно, но - нужны обоснования. А они нуждаются в изложении понятийного аппарата.
Основные положения ДНК-генеалогии
Первое - к генетике наше повествование отношения не имеет (хотя в определенной части ДНК-генеалогии рассматривают и гены, но здесь этого не будет). ДНК - это не только гены. Гены вообще занимают только 1.9% последовательности ДНК. Остальные 98.1% - длинные участки, так называемые «никчемные». Генов там нет. Есть длинные последовательности нуклеотидов, которые детально копируются при передаче наследственной информации от отца к сыну. Я специально пишу «от отца к сыну», потому что у нас речь пойдет только о «мужской» наследственной информации, передаваемой с мужской половой Y-хромосомой. У женщин её, этой хромосомы, нет.
« Никчемными» эти негенные последовательности ДНК назвали по незнанию, и это название уже уходит в прошлое. Оказалось, что эти последовательности хранят массу информации, и не только « генеалогического» характера. Более того, оказалось, что они, эти « никчемные» участки, содержат сотни, если не тысячи крошечных генов РНК, кодирующих так называемые микро-РНК, длиной всего пару десятков нуклеотидов каждый, и которые регулируют синтез белков. Но об этом - в другой раз.
А сейчас - о том, что эти негенные участки ДНК в мужской Y-хромосоме, одной из 23 хромосом, которые доставляются сперматозоидом в организм будущей матери, копируются от отца к сыну, поколение за поколением. Поскольку у матери такой хромосомы нет, то сын наследует ее только от отца. Остальные хромосомы сплетаются с материнской и образуют новую комбинированную молекулу ДНК, в которой хромосомы отца и матери перетасовываются. Перетасовываются все, кроме мужской Y-хромосомы.
Так и получается, что отец передает сыну эту Y-хромосому интактной, строго скопированной со своей. А свою Y-хромосому он получил от своего отца. Тот - от своего. И так далее, на тысячи и десятки тысяч лет вглубь, назад, к далеким предкам современных людей, и к предкам тех далеких предков.
Если бы Y-хромосома так и передавалась из поколения в поколение действительно неизменной, толку для генеалогии от нее было бы мало. Но неизменного ничего в мире нет, особенно когда речь о копировании. Копирования без ошибок не бывает. В том числе и копирование Y-хромосомы.
Итак, второе положение - время от времени при копировании Y-хромосомы (а сейчас только о ней речь) в копии проскакивают ошибки. Фермент под названием ДНК-полимераза, а на самом деле вместе с целым набором молекулярных инструментов, или просто ошибается, и делает некоторые участки ДНК короче или длиннее, удлиняя или сокращая повторы нуклеотидов, или «ремонтирует» поврежденные участки, и в ходе «ремонта» удаляет повреждение (эта операция называется «делеция») или «вшивает» новый нуклеотид (называется «вставка», или «инсерт»).
Поэтому мутации, которые интересуют ДНК-генеалогию, бывают двух типов - или изменение числа повторов, тандемов, или «точечные», однонуклеотидные.
И вот оказалось, что многие повторы нуклеотидов находятся у разных людей в одних и тех же участках Y-хромосомы. Эти участки уже биохимиками пронумерованы, классифицированы, сведены в списки. Они получили название «маркеры». Набор маркеров, точнее, повторов в них, называется «гаплотип». Уже известных маркеров - многие сотни. И они, как правило, одни и те же у всех людей на Земле. Отличаются только числом повторов, что вызвано теми самыми ошибками ферментов при копировании из поколения в поколение. Внимательное рассмотрение маркеров и гаплотипов позволило сделать вывод, что все люди на Земле произошли от одного предка. Иначе говоря, все люди - родственники. Пока не удалось найти ни одного человека, у которого маркеры и гаплотипы были бы принципиально другие. И это - серьезный аргумент против «теории мультирегиональности», согласно которой люди произошли от разных племянников современного человека, включая неандертальцев, синантропов и прочих гоминидов. То, что эти кузены человека существовали, сомнению не подвергается, но то, что выжившего потомства они не оставили - это, так сказать, экспериментальный факт. Пока не опровергнутый, но с каждым новым определением гаплотипа подтверждаемый.
Итак, положение третье - все люди происходят от одного предка, который жил - по разным расчетам - от 100 до 200 тысяч лет назад. Примерно такое время понадобилось, чтобы получить то расхождение гаплотипов по мутациям, какое наблюдается у всех живущих ныне людей.
Положение четвертое - гаплотипы изображают в виде числа тандемов, или повторов, по каждому маркеру, выбранному из десятков и сотен. В англоязычной литературе их называют STR, или Short Tandem Repeats. Самый простой и короткий гаплотип из тех, которые рассматривает ДНК-генеалогия, состоит из шести маркеров. Например, у восточных славян, к которым относится от 50% до 70% жителей старинных руссих городов, городков и селений, базовый (или предковый) 6-маркерный гаплотип, в той записи, в которой обычно приводят в научных публикациях, такой
16-12-25-11-11-13
Он показывает число повторов нуклеотидных участков в маркерах, которые обозначают соответствующими индексами 19, 388, 390, 391, 392 и 393. В первом маркере (номер 19) было найдено 16 повторов определенной последовательности нуклеотидов. Во втором - 12 повторов уже другой последовательности, и так далее. При передаче этого гаплотипа от отца сыну с вероятностью примерно одна сотая (то есть в среднем у одного на сто рождений) может произойти мутация, например, такая:
16-12-24-11-11-13
(в третьем маркере). Именно такая мутация есть у меня, поскольку она произошла у моего предка. Только я не знаю, когда она произошла -может, тысячелетия назад, может - я такой в нашей генеалогической линии первый. И узнать это можно только изучая ДНК моих прямых предков, или самых ближайших родственников. Например, если у моего родного брата такая же мутация - тогда я точно не первый. Надо смотреть ДНК у дедушки или у брата дедушки, и так далее по генеалогической цепочке. Но это не имеет большого практического значения. Что есть, то есть.
Мутация могла произойти и в первом маркере:
15-12-25-11-11-13
или могла произойти любая другая мутация (как правило, одношаговая) в этих или любом другом маркере этого гаплотипа.
А, например, еврейский ближневосточный гаплотип («гаплотип двенадцати колен израилевых», «гаплотип коэнов»), записанный в таком же 6-маркерном виде, такой:
14-16-23-10-11-12
Между нашими, восточно-славянским и ближневосточным еврейским гаплотипами - 9 одношаговых мутаций, или в среднем 1.5 мутации на маркер. Это отражает долгий путь, который славяне и евреи эволюционно (в отношении гаплотипов) прошли, отделившись от общего предка. 9 мутаций на 6-маркерном гаплотипе означают, что общий для славян и евреев общий предок жил огромное время назад, не менее 40 тысяч лет тому. Как эти временные дистанции считать - об этом позже.
Часто рассматривают 12-маркерные гаплотипы. Например, у восточных славян, базовый гаплотип такой (здесь запись уже по стандартам наиболее известных баз данных):
13-25-16-11-11-14-12-12-10-13-11-30
Здесь маркеры по порядку следующие:
393, 390, 19, 391, 385a, 385b, 426, 388, 439, 389-1, 392, 389-2.
В 25-маркерном варианте восточно-славянский гаплотип записывается так:
13-25-16-11-11-14-12-12-10-13-11-30-15-9-10-11-11-24-14-20-32-12-15-15-16
У ближневосточных евреев часто встречается такой 12-маркерный гаплотип («недавний гаплотип коэнов»):
12-23-14-10-13-15-11-16-12-13-11-30
У него с восточно-славянским уже 16 мутаций-расхождений, то есть в среднем 1.33 мутаций на маркер. Чем длиннее гаплотип, тем лучше статистика, тем точнее расчеты. 1.33 мутаций на маркер в 12-маркерном гаплотипе - это все равно более 40 тысяч лет до общего предка.
У ближневосточных евреев часто наблюдается следующий 25-маркерный гаплотип:
12-23-14-10-13-15-11-16-12-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-17
Это дает 31 мутацию на 25-маркерном гаплотипе, или в среднем 1.24 мутации на маркер. По скоростям мутаций это примерно соответствует 1.35 мутации на маркер для 12-маркерного гаплотипа. Так что статистика работает, и данные в целом вполне соответствуют друг другу на гаплотипах разной длины. Опять же, чем диннее, тем точнее.
А вот пример 37-маркерного гаплотипа, который в данном случае принадлежит потомку человека по фамилии Коэн, который жил полтораста лет назад в Санкт-Петербурге:
12-23-14-10-13-15-11-16-12-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-17-11-10-22-22-15-14-21-18-31-35-13-10
Естественно, чем длиннее гаплотип, тем больше вероятность найти своего близкого предка в наше время. Заметьте, кстати, что на первых 25 маркерах этот гаплотип в точности совпадает с базовым, предковым, приведенным выше. А ведь предок жил 1350 лет назад, в 7-м веке нашей эры. Вот насколько стабильными могут быть гаплотипы и их маркеры.
Еще пример, не столько стабильного гаплотипа. Статистика есть статистика.
12-23-14-10-13-15-11-16-11-13-11-30
Жирным шрифтом выделена одна мутация в 12-маркерном гаплотипе по сравнению с базовым «гаплотипом коэнов», приведенным выше. Этот гаплотип принадлежит еврею, живущему сейчас в Англии, и предок которого родился много поколений назад, в 1799 году, там же, в Англии. А обладатель 37-маркерного гаплотипа, приведенного выше, как уже упомянуто, родился на 50 лет позже в России. Различаются всего на одну мутацию на 12 маркерах.
А на 37 маркерах? Приведем гаплотип еврея-англичанина более детально:
12-23-14-10-13-15-11-16-11-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-16-11-10-22-22-15-14-17-17-31-35-14-10
По сравнению с петербуржским Коэном добавились еще семь мутаций, всего восемь: 12-^11, 17-^16, 21-^17, 18-^17, 13-^14. Восемь, потому что одна мутация четырехшаговая, она могла проходить шаг за шагом на протяжении длительного времени.
Забегая вперед, сообщу, что восемь мутаций у пары 37-маркерных гаплотипов соответствуют дистанции примерно в 67 поколений между ними, или примерно 1700 лет разницы во времени. То есть их условный общий предок жил на половине этого временного срока, или примерно 850 лет назад. Кстати, одна мутация на 12 маркерах соответствует примерно тысяче лет, как будет упомянуто чуть ниже. Так что здесь неплохое сходство во времени.
Но здесь это совпадение просто случайное. Потому что надо привести положение пятое: нельзя сравнивать мутации в парах гаплотипов. Мутации - дело статистическое, и их можно количественно (или скорее полуколичественно) расчитывать только на больших выборках. Чем выборка меньше - тем результат расчета менее точный. А на двух гаплотипах мутация-другая могла добавиться буквально в предыдущем или нынешнем поколении. Это может сразу привести к прибавлению-отнятию тысячи лет «в одном поколении». А в большой выборке разница относительно нивелируется статистикой.
А как часто происходят мутации в гаплотипах? Для ответа на этот вопрос надо вернуться к тому, что мутации бывают двух разных типов -тандемные и точечные. Для тандемных мутаций средняя скорость мутации в 6-маркерном гаплотипе равна 0.0096 мутаций на гаплотип в поколение, то есть одна мутация в гаплотипе происходит в среднем примерно за 100 поколений, или за 2500 лет, если считать поколение за 25 лет (а именно это часто заложено в ДНК-генеалогические расчеты). На самом деле, это будет не 100 поколений, а 116, то есть 2900 лет, если принять в расчет возвратные мутации. Об этом речь будет позже.
В 12-маркерном гаплотипе средняя скорость тандемных мутаций равна 0.024 на гаплотип в поколение, то есть одна мутация в 12-маркерном гаплотипе происходит в среднем примерно за 40 поколения, или примерно раз в 1000 лет. Опять, если принять в расчет возвратные мутации, то будет раз в 43 поколения, или примерно 1075 лет. А точечные мутации происходят раз и навсегда. Они и являются метками гаплогрупп (см. ниже).
То есть имеем положение шестое - по числу тандемных мутаций в гаплотипах можно определять возраст гаплотипа.
А от чего считать? От того предка, кто имел такой гаплотип. Поскольку его сыновья сохраняют гаплотип отца, переданный по наследству, и мутации в этом гаплотипе проскакивают в среднем только раз примерно в 2900 лет (6-маркерный гаплотип) или раз в 1075 лет (12-маркерный гаплотип), то даже через 5000 лет у потомков сохранится 20% исходного 6-маркерного гаплотипа, без изменений. То есть в списке из 100 гаплотипов потомков - 15 гаплотипов будут такими же, какой был у предка 5000 лет назад. Это если рассматривать 6-маркерные гаплотипы. При рассмотрении 12-маркерных гаплотипов те же 20% гаплотипов предка сохранятся через 70 поколений, или 1750 лет.
Так что и через тысячелетия можно определить гаплотип предка. И по его виду можно узнать, из каких краев предок пришел.
К этому ведет положение седьмое - гаплотипы в немалой степени (но не всегда) связаны с определенными территориями.
Но как такое может быть? А вот как. В древности большинство людей передвигались племенами, родами. Род, по определению, это группа людей, связанных родством. То есть гаплотипы у них одинаковые или близкие. Помните - одна мутация в среднем происходит за тысячелетия? Проходили тысячелетия, численность родов порой сокращалась до минимума (генетики говорят - род проходит через бутылочное горлышко популяции), и если выживший имел некоторую мутацию в гаплотипе, то его потомки уже « стартовали» с этой новой мутацией. Некоторые люди покидали род по своей или чужой воле - плен, бегство, путешествия, военные походы, и выжившие начинали новый род на новом месте. В итоге карта мира с точки зрения ДНК-генеалогии получилась пятнистой, и каждое пятно порой имеет свой превалируюший гаплотип, гаплотип рода. Такой наиболее популярный гаплотип на определенной территории называют «модальным». Часто он и есть гаплотип предка, начавшего род на данной территории.
Но есть еще один тип мутации - помните? Точечные мутации, однонуклеотидные. Они - практически вечные. Раз появившись, они уже не исчезают. Теоретически, в том же нуклеотиде может произойти другая мутация, изменив первую. Но нуклеотидов - миллионы, и вероятность такого события крайне мала. Всего в хромосомах насчитали более трех миллионов точечных мутаций, и ДНК-генеалоги нашли применение нескольким сотням. Эти точечные мутации называют «снипы», от английского сокращения SNP, что и расшифровывается примерно как «единичная нуклеотидная мутация». Так вот, те, кто в древности покинул свой род по своей или чужой воле, всегда имели в своей Y-хромосоме эти самые снипы, причем во множестве. Все они передавались сыновьям, в
результате того самого копирования ДНК от отца к сыну. Так что все мы имеем и тандемные мутации, и снипы. Из нескольких сотен снипов, которым ДНК-генеалоги нашли применение, около двухсот оказались удачными метками определенных популяций на Земле. Эти популяции и есть те самые роды, о чем речь шла выше, в самом начале. Их, эти роды, потомки которых несут соответствующие метки в ДНК, назвали «гаплогруппы», и присвоили им буквенные обозначения от А до Т, в хронологическом порядке появления соответствующего рода на планете. Или по крайней мере в том порядке, как ученые полагают эти роды появились. Хотя ревизий на этот счет предстоит еще много.
Итак, положение восьмое - людей можно классифицировать по древним родам не только (и не столько) по виду гаплотипов, но и по наличию определенных снипов. Например, гаплогруппы А и В - исконно африканские и самые древние, гаплогруппа С - монголоидная (и значительной части американских индейцев, потомков монголоидов), гаплогруппа J - исходно Ближний Восток, причем J1 - в основном евреи и арабы, гаплогруппа J2 - в основном жители Средиземноморья (хотя и часть евреев тоже), гаплогруппа N - жители Сибири, севера России, части Скандинавии, а также многие американские индейцы, которым сибиряки с гаплогруппой N и дали начало. Гаплогруппа R - Западная Европа ( Rib) и Восточная Европа (R1a1), а также Азия, в частности, треть Индии, куда этот снип (R1a1) был принесен из Восточной Европы. Гаплогруппой R1a1 отмечены и довольно резко очерчены территории Средней Азии (в Киргизии и Таджикистане), куда снип, образующий R1a1, был принесен его обладателями - ариями - по дороге в Индию и Китай. Интересно, что эти довольно резкие очертания границ гаплогруппы R1a1 в Средней Азии в ряде случаев, возможно, воспроизводят маршрут похода обладателей R1a1. А на переходе из горной долины Памира в Индостан, в самой теснине перехода, по которому шли предки, целая малая народность так и донесла до современности этот европейский снип, образующий R1a1, в 80 процентов состава этой народности. Называются ишкашим. Но об этом тоже отдельный разговор.
Итак, это положение сводится к тому, что у каждого мужчины есть снип из определенного набора, по которому можно сразу отнести носителя к определенному древнему роду. Времена появления снипов, обычно применяемых в ДНК-генеалогии, относятся к диапазону от 40-50 тысяч лет для «старых» снипов до 10-15 тысяч лет для «молодых». Снип гаплогруппы R1a1 образовался примерно 10-12 тысяч лет назад, но это пока не доказано, хотя соображения есть.
Положение девятое - в ДНК-генеалогии обычно оперируют поколениями. Поколение в контексте ДНК-генеалогии - это событие, которое происходит четыре раза в столетие. Численно и по времени оно близко к продолжительности поколения в житейском смысле этого слова, но не обязательно равно ему. Хотя бы потому, что продолжительность поколения не может быть точно, или хотя бы в среднем определена, и «плавает» в реальной жизни, в зависимости от многих факторов. Я калибровал скорости мутаций под поколение продолжительностью 25 лет. Если кому-то больше нравится 30 лет на поколение, или любое другое количество лет, скорости придется перекалибровать, и в итоге окажутся ровно те же величины в годах. Так что сколько лет приходится на поколение - в данном случае не имеет значения.
Положение десятое разработано мной, и это было несложно, поскольку моя специальность по образованию и по опыту работы -химическая кинетика. И изменение мутаций в гаплотипах во времени -это мой вопрос, в отличие от тематики многих специалистов в области ДНК-генеалогии. Суть этого положения сводится к тому, что только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя к времени общего предка - которые подчиняются определенным количественным закономерностям. Другими словами, ДНК-генеалогия теперь может оперировать тремя экспериментальными факторами - (1) наличием снипов, относящих человека к определенному роду, (2) наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов, и - при больших выборках - от начала самого рода, от самого далекого из предков ныне живущих потомков данного рода, и (3) закономерности переходов гаплотипов в их мутированные формы, без численного учета самих мутаций. Это позволяет оценить, насколько достоверны расчеты предка по мутациям, и дает еще один, независимый способ расчетов.
Только если число поколений до общего предка совпадет по пп (2) и (3), естественно, в пределах разумной ошибки, то эту временнУю оценку можно считать числом поколений до общего предка. Иначе говоря, это совпадение показывает, что общий предок был один (в рамках ДНК-генеалогии; например, это могли быть и родные братья, и даже группа близких родственников с одинаковыми или близкими гаплотипами). Если же число поколений, полученное по числу мутаций и по доле сохранившихся немутированными гаплотипов, заметно различается (порой в 2-3 раза), то данная выборка гаплотипов не может численно обрабатываться в предположении, что предок был один. Такую выборку надо делить по разным общим предкам, и для этого могут использоваться деревья гаплотипов или медианные сети. Тогда разные ветви дерева часто (не не всегда) соответствуют разным общим предкам.
Приведу пример подобного подхода. Рассмотрим два набора по 10 гаплотипов в каждом.
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14- 17-24-10-11-12
15- 16-24-10-11-12
14- 15-24-10-11-1215-17-24-10-11-12
И второй
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-24-10-11-12
14-16-25-9-11-13
14-16-25-10-12-13
14-17-23-10-10-13
16-16-24-10-11-12
Первые шесть гаплотипов в каждом наборе - базовые (предковые) гаплотипы. Остальные четыре - мутированные, в первом наборе 5 мутаций, во втором - 12. Если обращать внимание только на мутации, то количество поколений до общего предка будет равно 5/10/0.0096 = 52 поколения, и 12/10/0.0096 = 125 поколений, соответственно. Однако в обоих случаях число поколений, рассчитанное по доле базовых гаплотипов, равно ln(10/5)/0.0096 = 53 (принципы расчетов описаны ниже). Как видно, только первый набор дал примерно такое же число поколений (52 и 53), и, таким образом, представляет «чистую выборку», имеющую одного общего предка. Второй набор искажен, и соответствует более чем одному общему предку. Поэтому он не может быть использован для прямых расчетов временной дистанции до общего предка.
Многочисленные примеры расчетов по реальным выборкам гаплотипам даны ниже.
«Научные» и «коммерческие» выборки гаплотипов
Выборки гаплотипов, которые публикуются в научной литературе, часто бедны, немногочисленны и урезаны, и они обычно относятся только к коротким, шестимаркерным гаплотипам, намного реже к 8- или 10-маркерным. Гаплотипы с 25, 37 и 67 маркерами в научной литературе не приводятся. Наверное, на это у ученых нет средств. Да и задачи в основном другие, опять же из-за отсутствия достаточных средств. Зато в коммерческих базах данных таких протяженных, полновесных гаплотипов - тысячи. Но в науке к таким базам данных - предубеждение. Этакий научный снобизм - выборки «ненаучные», кто хотел - тот и
прислал свой материал на тестирование, контроля за «контингентом пользователей» - никакого.
Полагаю, что в целом этот разрыв между «наукой» и «коммерцией» должен быть закрыт. Мой опыт показывает, что коммерческие базы данных предоставляют значительно более полную и многочисленную информацию по гаплотипам, и - более того, выводы из тех и других, где данные можно сопоставить, принципиально совпадают, и коммерческие базы данных, сверх того, позволяют получать более полные и более надежные данные.
Естественно, есть крайние случаи, когда выборки содержат ошибочные гаплотипы, гаплогруппы или гаплотипы неправильно типированы, но и научные выборки не гарантируют от присутствия ошибок. Естественно, надо внимательно относиться к «коммерческим» выборкам, удалять из них дубли, и вообще осмысливать полученные даные, но это и к научным выборкам относится.
Приведем примеры сопоставления «научных» и «коммерческих» выборок по гаплотипам евреев гаплогрупп J1 и J2. До последнего времени их практически не разделяли. В самой известной статье по гаплотипам евреев (Бехар и др., 2003) приведено почти двести гаплотипов, объединенных в одну сводную гаплогруппу J. А вот в коммерческой базе данных евреи есть и в разделе «Гаплогруппа J1», и в разделе «Гаплогруппа J2». Но можно ли использовать коммерческую базу данных, которая составлена добровольным участием, хотя и за деньги? А как же научные принципы формирования выборок?
Сравним научную выборку (Бехар и др., 2003) и коммерческую.
В научной выборке - 194 гаплотипа евреев, имеющих гаплотипы группы J. Из них 91 гаплотип, или 47%, представляют один и тот же
14-16-23-10-11-12
который по правилам ДНК-генеалогии следует назвать базовым, или предковым гаплотипом. Действительно, он один сохраняется длительное время, а все остальные представляют его мутированные варианты, расходящиеся статистически по частным случаям - с одной мутацией там или здесь, с двумя, с тремя и так далее. Вот и набегают 103 мутированных гаплотипа из 194, каждого понемногу.
А в коммерческой выборке? В ней - 90 гаплотипов евреев, все гаплогруппы J1. Это - все, кто там оказались, судя по именам и фамилиям. Всего в этой базе данных 294 гаплотипа гаплогруппы J1, так что евреи в ней занимают немалую долю, около трети. Из остальных -наверняка многие тоже евреи, но с нехарактерными (на мой взгляд) для евреев именами и фамилиями, а также арабы и другие обладатели гаплотипов группы J1. И из этих выбранных мной 90 «коммерческих» гаплотипов 41 - той же самой структуры
14-16-23-10-11-12.
Это - 46%. В «научной» выборке было 47%. То есть практически полное совпадение по доле базовых гаплотипов в научной и коммерческой выборках. Это, кстати, тот самый «модальный гаплотип коэнов». Он же « гаплотип двенадцати колен израилевых» в 6-маркерном варианте.
Хорошо, по доле базовых гаплотипов научная выборка, со всеми положенными критериями объективности, и коммерческая база дали совпадающие результаты. А по мутациям?
В научной выборке 194 гаплотипа содержат 263 мутации, или 1.36 мутации на гаплотип. В коммерческой - 90 гаплотипов содержат 123 мутации, то есть 1.37 мутации на гаплотип. Совпадение - лучше не бывает.
Другими словами, обе выборки дают практически идентичные результаты. По этим мутациям можно посчитать и время, когда жил общий предок и тех евреев, его потомков, что нашли отражение в научной базе (сводная гаплогруппа J), и тех, что в коммерческой (гаплогруппа J1). Это на самом деле физически разные потомки. 194 человека, гаплотипы которых попали в научную статью, были протестированы в конце 1990-х - начале 2000-х годов и бесплатно, в коммерческой базе данных - недавно (в основном 2005-2007 гг) и за деньги.
В простейшем случае расчеты общего предка ведутся, принимая (по умолчанию) простое симметричное дерево мутаций. То есть дерево в виде симметричной пирамиды (или шестеренки в другом формате, который мы здесь обычно используем), сходящейся вниз к гаплотипу общего предка (см. рисунки ниже). Что-то наподобие обычного генеалогического древа, но если в последнем порядок поколений уже заложен, то в дереве гаплотипов поколения беспорядочно упрятаны в ветвях. Чем больше в гаплотипе мутаций - тем дальше гаплотип отстоит от основания « шестеренки», тем от более древнего предка он происходит, если в « дереве» смешаны гаплотипы потомков разных предков. Иначе говоря, гаплотипы недавнего предка жмутся у основания, гаплотипы древнего предка уходят вдаль в виде неких протуберанцев. Это и дает основания для расчетов.
Как будет показано ниже, средняя скорость мутации шестимаркерных гаплотипов, таких, как приведены выше - 0.0096 мутации на гаплотип на поколение. И тогда приведенные выше 1.36 мутации на гаплотип дадут 142 поколения до общего предка, а 1.37 мутации на гаплотип дадут 143 поколения до общего предка. То есть примерно 3600 лет, считая 25 лет на поколение.
Казалось бы, можно объявить, что на двух разных выборках евреев, одна общей гаплогруппы J, другая - гаплогруппы J1 получено, что общий предок ближневосточных евреев жил 3600 лет назад. И с Ветхим Заветом сходится.
Но что-то мне не давала покоя эта цифра. Потому что для срока в 142-143 поколения, или 3600 лет, слишком много сохранилось базового, предкового гаплотипа. Почти половина от гаплотипов в выборке. Его должно быть меньше.
А сколько меньше? И вот здесь я придумал (а точнее, применил к гаплотипам в ДНК-генеалогии) способ расчета, связывающий долю оставшегося нетронутым базового гаплотипа и временем до общего предка, причем независимо от числа мутаций. И чтобы понять, как рассматривать гаплотипы в отношении их происхождения, нам придется заняться немного математикой и картинками «деревьев гаплотипов».
Кинетика мутаций гаплотипов, их калибровка и проверка
Если принять, что генеалогическое дерево действительно симметричное, то переход базового гаплотипа в мутированные должен проходить в соответствии с уравнением кинетики первого порядка
ln (B/A) = kt
где В - это общее количество гаплотипов в списке, А - число сохранившихся базовых гаплотипов, k - средняя скорость (частота) мутации (0.0096 на гаплотип на поколение для шестимаркерного гаплотипа), t - число поколений до общего предка, ln - натуральный
логарифм. Профессиональные кинетики эту формулу знают, только ее в ДНК-генеалогии никто не применял.
А можно ли применять? - спросит придирчивый читатель. И мы покажем, что можно. Для этого нужно взять гаплотипы, для которых время обшего предка известно, и проверить формулу на практике.
Семейство Мак-Доналдов
Есть такие гаплотипы, для которых время общего предка известно. Это, например, обширное семейство Мак-Доналдов, предок которых, Джон Лорд Островов (John Lord of the Isles), умер в 1386 году, и для которых на сегодняшний день известны 68 гаплотипов семейства, а именно мужчин. Принимая те же 25 лет на поколение, можно предположить, что Джон жил 26 поколений назад. Посмотрим, что нам дадут гаплотипы.
В списке из 68 шестимаркерных гаплотипов имеются 53 базовых
15-12-25-11-11-13
и на остальные приходится 17 одношаговых мутаций. Посмотрим, какая должна быть средняя скорость мутаций гаплотипа, чтобы эти данные показали 26 поколений до общего предка. Оказалась - 0.0096 мутаций на гаплотип за поколение. Действительно, ln 68/53, деленное на 0.0096, дает 26 поколений. А по мутациям? То же самое, 17/68/0/0096 = 26 поколений. Как в аптеке. То есть у МакДоналдов дерево гаплотипов в самом деле простое, симметричное, не искажено.
А насколько эта величина средней скорости согласуется с другими данными по скоростям мутаций 6-маркерных гаплотипов в ДНК-генеалогии? Данные варьируются, но обычно вокруг 0.0019±0.0003 мутаций на маркер на поколение (усреднено на маркер для 12-маркерных гаплотипов), то есть для 6-маркерного гаплотипа это будет в шесть раз больше, то есть 0.0114±0.0018. Полученная мной здесь величина попадает в обозначенный диапазон. Да хоть бы и не попала - она вычислена на основании объективных данных.
Итак, подход работает. Иначе говоря, количество мутаций в гаплотипах и доля базового гаплотипа должны быть жестко завязаны друг на друга. И это есть основной критерий того, что мы получаем достоверные даты жизни общего предка рассматриваемого семейства гаплотипов.
Но недоверчивый читатель может потребовать еще доказательств, на других примерах, из других гаплогрупп. И будет прав. То, что работает для Мак-Доналдов, не обязательно работает для всех. Может, гаплогруппа влияет на результаты счета, на распределение мутаций, на количество сохраняющегося базового гаплотипа.
Хорошо, давайте рассмотрим другие этнические группы. Трудность в том, что далеко не всегда имеются надежные данные, если вообще какие-то данные, о событиях сотни и тысячи лет назад, которые можно привязать к определенным популяциям, да еще с определенными гаплогруппами. Но что-то найти можно.
Болгарские цыгане (гаплогруппа H1)
Еще пример - болгарские цыгане. Пришли в Болгарию - по сведениям того времени - в средние века. Гаплотипы цыган были определены у 179 человек из двенадцати таборов, все в Болгарии (Zhivotovsky et al, 2004). На удивление, у всех гаплотипы похожи, явно от общего предка. Напрашивается объяснение, что в средние века в Болгарию пришел очень ограниченный коллектив цыган, может, всего один табор. Остальные, видимо, не прошли «бутылочное горлышко» популяции, и всего один патриарх дал выжившее потомство. Или патриархами были близкие родственники. Так, например, в наиболее многочисленном таборе «Рудари» 62 человека из тестированных 67 имели следующий гаплотип:
15-12-22-10-11-12
Этот же гаплотип имели 12 из 13 человек табора «Кальдераш», 9 из 24 человек табора «Лом», все четверо тестированных из табора «Торговцы», 20 из 29 из табора «Калайджи», 12 из 19 из табора «Музыканты». В остальных гаплотипах мутаций тоже мало. Ясно, что гаплотипы молодые, и им действительно всего несколько сотен лет.
Всего на 179 гаплотипов тестированных цыган пришлось 34 мутации, что дает 34/179/0.0096 = 20 поколений до общего предка, то есть 500 лет назад. Действительно, средние века.
Сравним с расчетом по остаточным базовым гаплотипам. Их - 146 из всех 179. Это соответствует 21 поколению до общего предка (ln 179/146, деленное на 0.0096), или 525 лет назад. Практически то же самое время.
Итак, и у цыган нормальная ДНК-генеалогия, при которой имеется весьма жесткое соответствие между убывающими базовыми гаплотипами и накоплением мутаций в их производных. Кстати, гаплотипы болгарских цыган принадлежат гаплогруппе Н1, которая характерна для Индии, и за пределами Индии встречается только у цыган и их потомков. Но в Индии возраст этих гаплотипов, с тем же базовым гаплотипом 15-12-22-10-11-12 -несколько тысяч лет. Например, как будет показано ниже, у индийцев племени Койя с общий предок с базовым гаплотипом 15-12-22-10-11-12 жил 2,400±400 лет назад, а у индийцев племени Корагас с гаплотипом X-Y-22-10-Z-12 - 2,300 лет назад (здесь неопределенные аллели обозначены латинскими буквами). У тех и других - гаплогруппа Н1.
Из независимых источников, присутствие цыган в Болгарии было отмечено 700 лет назад (Zhivotovsky et al, 2004). Однако, эти сведения не обязательно точны, они могут относиться к другим цыганам, не обязательно гаплогруппы Н1, потомство у первых цыган могло не выжить, и так далее. Тем не менее, 500-525 лет назад - это вполне удовлетворительное совпадение.
Полинезийцы (гаплогруппа С2)
У полинезийцев - маори (Новая Зеландия), жителей островов Кука, и самоанцев - гаплогруппа С2. У них суммарно было определено 36 гаплотипов (Zhivotovsky et al, 2004), и наиболее распространенный оказался следующий:
16-15-20-10-12-14
Таких среди указанных 36 гаплотипов оказалось 28. А в остальных нашлось всего 10 мутаций. По мутациям время общего предка соответствует 10/36/0.0096 = 29 поколений, или примерно 725 лет. А по остаточным гаплотипам - 26 поколений (ln 36/28, деленное на 0.0096), или примерно 650 лет. Сходство для наших задач вполне приличное. Кстати, источники отмечают, что предполагаемое время прибытия маори в Новую Зеландию варьируется от 650-700 лет до 800-1000 лет, и даже до 1200 лет назад. Как видно, согласование с первыми двумя оценками вполне приемлемое, а 1200 лет назад - цифра несколько экстремальная, судя по данным ДНК-генеалогии.
Так что методы расчета времен до общего предка работают на разных гаплогруппах. Но для того, чтобы еще более усилить это положение, рассмотрим еще несколько гаплогрупп, совершенно других. В целом же в этой статье будут даны примеры расчетов общего предка по гаплотипам гаплогрупп С2, Н1, N3, N3a, N3a1, R2, F, Q, R1a1, R1b, R1b1c, J*, J1, J2, I1, I2, G и других.
Скорости мутаций и деревья коротких и протяженных гаплотипов
Надеюсь, что даже скептики пришли к выводу, что в этих методах расчетов общего предка что-то есть, и соответствие двух методов расчета - по мутациям и по остаточным базовым гаплотипам - вполне может служить критерием обоснованности расчетов.
А в каких случаях эти два метода дадут серьезно расходящиеся результаты? Например, тогда, когда один из потомков древнего рода бурно размножился в относительно недавнее время. С этого недавнего времени (например, 500-1000 лет назад) гаплотипы еще не успели набрать много мутаций, и в списке гаплотипов окажется явный перекос в сторону этого недавнего гаплотипа. Его даже вполне можно принять за базовый, поскольку доля его на общем фоне будет велика. И тогда мы будем иметь несоответствие - по остаточным «базовым» гаплотипам предок жил относительно недавно, а по мутациям (которые представлены древними гаплотипами в том же списке) - давно, а точнее - где-то на пути к древнему общему предку. Другими словами, расчеты по остаточному базовому гаплотипу будут просто неверны, как, впрочем, и по мутациям, которые будут представлять собой суперпозицию « сигналов» по меньшей мере двух предков - древнего и относительно недавнего. Произойдет просто никому не нужное и вводящее в заблуждение усреднение гаплотипов. Вроде средней температуры по больнице.
Поэтому важным критерием в расчетах является именно соответствие в данных двух описанных методов расчетов общего предка. Не совпадают -тревога, ни тот, ни другой возраст предков неверен.
А что делать? - Строить деревья гаплотипов, и смотреть, как выглядят ветви, не являются ли они смесью древних и молодых ветвей. Если так -тогда нужно вести расчет по каждой ветви в отдельности. Или изъять молодую ветвь, точнее, образующие ее гаплотипы, как инородные, и считать по двум частям дерева раздельно.
Как проницательный читатель уже догадывается, во многих случаях именно так и оказывается. Иначе зачем бы я столько времени и пространства это объяснял?
В этом разделе мы рассмотрим построение деревьев и расчеты общего предка для 12-, 25-, 37- и 67-маркерных гаплотипов. Но поскольку ситуация будет сложная, давайте для начала опять потренируемся, как сказал герой известного фильма, «на кошках». А лучше опять на Мак-Доналдах, поскольку мы уже знаем, что у них случай «чистой» генеалогии. Как в таком случае выглядит дерево гаплотипов?
Рис. 1. Дерево 6-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 68 гаплотипов.
Для 6-маркерных гаплотипов дерево выглядит так, как показано на рис. 1, и построено с помощью специальной программы. Программа называется Phylip, или the Phylogeny Inference Package (Felsenstein, 2005).
Это дерево следовало бы назвать скорее «колесом гаплотипов». « Гребенкой» по кругу располагаются базовые 6-маркерные гаплотипы, а данном случае гаплотипы, унаследованные в неизмененном виде от Джона Лорда Островов, жившего 26 поколений, или 650 лет назад. Их -те самые 53 штуки из 68 по списку. Для остальных, мутированных пятнадцати гаплотипов, дерево показывает вычисленную (предполагаемую) последовательность мутаций.
Чтобы было понятнее, базовый гаплотип здесь такой:
15-12-25-11-11-13
Это - гаплотип гаплогруппы R1a1, пришедшей предположительно из Восточной Европы, с территории нынешних России-Украины-Польши, а может и с Балкан, от рода, населявшего те территории 8-10 тысяч лет назад. И вот его-то и унаследовал Джон, а за ним - и его потомки Мак-Доналды.
Давайте теперь разбираться с гаплотипами и мутациями, а то другие деревья не поймем. Они гораздо более сложные, чем у Доналдов.
Итак, гаплотипы с 001 до 053 - базовые. Они образуют «колесо» у основания дерева. Технически они самые «молодые», мутаций в них нет, по крайней мере в показанном на рис. 1 шестимаркерном варианте. Но их количество, как мы убедились выше, довольно точно соответствует возрасту первопредка. А именно, в данном случае, 26 поколений, примерно 650 лет.
Гаплотип 061 - с единичной мутацией базового гаплотипа (15-12-25-11-1113), а именно
15- 12-25-11-11-14
Вот его и вынесло в сторону (вправо от основания дерева). Гаплотипы 054 и 060 - идентичные, в них одна и та же мутация:
16- 12-25-11-11-13
Поэтому они сидят симметричной парой в другой стороне.
Как видно, в этих трех гаплотипах третий маркер сохраняется, он имеет 25 повторов (аллелей). А в относительно сложной ветви в нижней части имеются четыре варианта этого маркера, с аллелями 23, 24, 26 и 27. Отсюда и четыре подветви, в каждой - по одной своей мутации:
Ветвь из семи идентичных гаплотипов (между 057 и 066, включая 068)
15-12-24-11-11-13
Ясно, что эта мутация - самая популярная. Гаплотип 058 получился двойной мутацией базового по одному и тому же маркеру:
15-12-23-11-11-13
Гаплотип 067 - такая же двойная мутация, но в противоположную сторону
15-12-27-11-11-13.
Они и сидят по разные стороны «букета», поскольку не производные друг друга.
Гаплотипы 059, 063 и 065 - идентичные, с одной и той же мутацией: 15-12-26-11-11-13
А длины ветвей соответствуют среднему возрасту гаплотипов, в условных поколениях от базового гаплотипа. Например, гаплотипы 058 и 067 -вдвое старее, чем остальные на той же ветке, потому что у них уже прошло две мутации (25-^23 и 25-^27), а у остальных на ветке - только по одной (25-^24, 25-^26). По той же причине ветка 054-060 - тоже молодая. А вот одиночка 061 - старая мутация, потому что редкая (13^14). Програма учитывает и это.
Понятнее теперь? Иначе говоря, программа сортирует гаплотипы, исходя из структуры мутаций и предполагаемой связи между ними. На коротких 6-маркерных гаплотипах соседние гаплотипы на ветках вовсе не означают обязательное близкое родство их, гаплотипов, обладателей. Соседство на ветвях - часто результат чистой статистики. Но с удлинением гаплотипов, от 6 к 12, 37 и далее к 67 маркерным, родственники все больше и больше находят друг друга на одних ветвях. Потому что совпадение мутаций, скажем, в 37-маркерных гаплотипах, и тем более в 67-маркерных, простой статистикой объяснить трудно. Случайные совпадения, конечно, могут быть, но не массово.
Покажем, как выглядит дерево гаплотипов тех же Мак-Доналдов, но для 12-маркерных гаплотипов (рис. 2). Здесь в соответствии с установившимися традициями формат записи будет не в «научном» варианте, как в случае 6-маркерных гаплотипов выше, а в так называемом формате FTDNA (Family Tree DNA).
Рис. 2. Дерево 12-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 68 гаплотипов.
Базовый гаплотип у МакДоналдов в этом случае такой: 13-25-15-11-11-14-12-12-10-14-11-31
6-маркерный базовый гаплотип в этой записи соответствует маркерам с порядковыми местами 3, 8, 2, 4, 11, 1:
15-12-25-11-11-13
Как видно, удлинение гаплотипов привело к усложнению дерева, поскольку проявились мутации в остальных шести маркерах. Число базовых 12-маркерных гаплотипов уменьшилось от 53 (для 6-маркерных) до 42, но их все еще довольно много. 650 лет - и для них не такой большой срок. Стало появляться более детальное распределение по родственным ветвям, но еще в недостаточной степени для выявления близкого родства.
По 12-маркерным базовым гаплотипам расстояние до общего предка ln (68/42)/0.024 = 20 поколений. Вообще-то в данном случае более подошла бы скорость мутаций 0.0019 на гаплотип на поколение, но последующие расчеты показывают, что величина скорости 0.024 представляется более приемлемой для широкого круга гаплогрупп и временных диапазонов. По отношению к этим базовым гаплотипам во всей 12-маркерной выборке - 44 мутации, что дает 44/68/0.024 = 27 поколений до общего предка. Это - вполне приемлемая цифра, с той же скоростью мутаций 0.024 на гаплотип на поколение.
У 25-маркерных гаплотипов МакДоналдов (рис. 3) базовый гаплотип такой:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16
Их - 18 базовых из 60 гаплотипов в общем списке. По остаточным гаплотипам до общего предка ln (60/18)/0.046 = 26 поколений.
Во всей выборке - 69 мутаций до базового гаплотипа, приведенного чуть выше. Это дает 69/60/0.046 = 25 поколений, что практически совпадает с величиной, расчитанной по остаточным базовым гаплотипам.
Рис. 3. Дерево 25-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 60 гаплотипов.
А вот то же самое - но для 37-маркерных гаплотипов (рис. 4). Базовый гаплотип МакДоналдов для них - следующий:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16-11-12-19-21-17-16-17-18-34-38-12-11
Рис. 4. Дерево 37-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 59 гаплотипов.
Видно, что из 59 гаплотипов (для девяти гаплотипов из списка МакДоналдов 37-маркерные не определялись) остался только один базовый, 001. Естественно, «вручную» его уже не определить, но компьютер помог. Остальные гаплотипы распались на десяток семейств. В принципе, для каждого из этих семейств можно посчитать время, прошедшее от общего предка. Естественно, эти предки будут уже относительно недавними, жившими зачастую 200-300 лет назад. 278
Всего в 59 гаплотипах содержится 178 мутация по отношению к тому базовому гаплотипу, но пятую часть из них, 36 мутаций, дал явно аномальный (35-й) маркер CDYb. Как показало последующее рассмотрение, далеко не во всех выборках этот маркер дает столь непропорциональное число мутаций. Видимо, семейство МакДоналдов расщепилось на две половины по этому маркеру, что и дало завышенное число мутаций. Это показывает, насколько надо быть осторожными при подобных калибровках. Поэтому я провел здесь два варианта калибровки - по всем 37 маркерам, с учетом маркера CDYb, и по 36 маркерам, без учета этого маркера. Соответствующие скорости мутаций равны 0.12 и 0.09 мутаций на гаплотип на поколение. Это дает 178/59/0.12 = 25, и 142/59/0.09 = 27 поколений до общего предка. Как видно, разницы практически нет, 26±1 поколение. Однако основываясь на обработках десятков и сотен выборок гаплотипов, я выбрал скорость мутаций в 37-маркерных гаплотипах, равной 0.09 мутаций на гаплотип на поколение. Это дает более согласованные результаты с гаплотипами разной длины.
Наконец, взглянем на 67-маркерные гаплотипы тех же Мак-Доналдов (рис. 5). Базовый гаплотип их, рассчитанный компьютером, следующий:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16-11-12-19-21-17-16-17-18-34-38-12-11-11-8-17-17-8-12-10-8-11-10-12-22-22-15-11-12-12-13-8-14-23-21-12-12-11-13-11-11-12-12
Всего в списке 26 гаплотипов. В них - 98 мутаций, или 3.77 мутаций на гаплотип. Поскольку общий предок жил те же 26 поколений назад, то в среднем на 67-маркерных гаплотипах происходит 0.145 мутаций на поколение.
Рис. 5. Дерево 67-маркерных гаплотипов семейства МакДоналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 26 гаплотипов.
Дерево гаплотипов разошлось на пять семейств, образованных в свою очередь двумя предками. От одного из них идут гаплотипы 002, 036, 011, 017 и 045. В них - 17 мутаций, то есть эта ветвь образовалась 23 поколения назад. Другая ветвь значительно более обширная, и в свою очередь разбивается на четыре ветви. Возможно, следующий способ представления дерева, линейно, поможет это лучше увидеть:
Рис. 6. Дерево 67-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке - 26 гаплотипов.
Естественно, чем длиннее гаплотипы, тем более четко выявляются близкородственные связи между ними. Например, гаплотипы 038 и 051, 003 и 004, 029 и 032 - как сидели парами в 37-маркерном дереве, так продолжают сидеть на 67-маркерном. Есть и другие устойчивые образования. Это и понятно - поскольку у меня и моего родного брата гаплотипы практически одинаковы, мы так и будем находиться рядом на любом дереве гаплотипов. Просто на дереве коротких гаплотипов мы с ним будем «разбавлены» случайными короткими же гаплотипами, образованными чисто статистически, а чем гаплотипы длиннее, тем больше мы с братом будем освобождаться от случайных совпадений.
В результате этой и других подобных калибровок получаем следующую таблицу:
Гаплотипы Средняя скорость мутаций
На гаплотип
|
На маркер
| |
6-маркерные
|
0.0096
|
0.0016
|
7-маркерные
|
0.024
|
0.0034
|
9-маркерные
|
0.025
|
0.0028
|
10- маркерные
|
0.026*
|
0.0026
|
10- маркерные
|
0.025**
|
0.0025
|
12- маркерные
|
0.024
|
0.0020
|
25- маркерные
|
0.046
|
0.0018
|
37- маркерные
|
0.090
|
0.0025
|
67- маркерные
|
0.145
|
0.0022
|
Здесь 12- и выше маркерные гаплотипы имеют последовательность
согласно протоколу записи в формате FNDNA и YSearch.
-- 6-маркерные гаплотипы имеют «научный» формат записи, то есть
DYS## 19, 388, 390, 391, 392, 393 (хотя порядок записи не влияет на
расчеты),
-- 7-маркерные гаплотипы имеют состав DYS##19, 389-1, 389-2, 390, 391, 392, и 393,
-- 9-маркерные гаплотипы имеют состав DYS##19, 389-1, 389-2, 390, 391,
392, 393, 385a, и 385b, или DYS##19, 388, 389-1, 389-2, 390, 391, 392, 393, и 439,
-- 10-маркерные гаплотипы - DYS##19, 388 (или 439), 389-1, 389-2, 390,
391, 392, 393, 385a, и 385b (*), или DYS##19, 389-1, 389-2, 390, 391, 392,
393, 385a, 385b, и 439 (*), или DYS##19, 388, 389-1, 389-2, 390, 391, 392,
393, 426, и 439 (**).
Я буду обычно представлять гаплотипы с числом маркеров от 7 до 11 в формате 12-маркерных гаплотипов, замещая пропущенные аллели латинскими буквами X, Y, Z, в порядке DYS: 393, 390, 19, 391, 385a, 385b,
426, 388, 439, 389-1, 392, 389-2.
Как видно, усредненные скорости мутаций на маркер относительно близки для разных гаплотипов, за исключением вклада 35-го маркера
(CDYb).
Здесь надо отметить, что скорости мутаций продолжают оставаться дискуссионным вопросом в научной литературе. Вот названия только недавних статей «Определение скоростей мутаций по маркерам» (Журнал генетической генеалогии, США, 2006), «Скорости мутаций - у кого правильные величины?» (там же, 2007), «Неупорядоченность мутаций» (там же, 2007, письмо в редакцию). И в каждом случае авторы применяют свои приближенные (всегда!) подходы и свои допущения. Иначе нельзя, поскольку речь идет о неоднородных популяциях людей, популяциях разного размера, и при рассмотрении разных временнЫх периодов.
Например, при рассмотрении более восьми тысяч гаплотипов в базе данных YSearch первый автор получил средние скорости мутаций для 12-маркерных гаплотипов 0.0019±0.0003 мутаций на маркер на поколение (по моим данным - 0.0020), для 25-маркерных 0.0028±0.0004 (по моим данным 0.0018), для 37-маркерных 0.0049±0.0007 (по моим данным 0.0025 или 0.0032). Это уже мутации не на гаплотип, а на маркер. Второй автор приводит скорости, полученные другим способом, и объявленные сотрудниками крупнейшей компании в области ДНК-генеалогии (FTDNA), и они следующие - для 12-, 25- и 37-маркерных гаплотипов 0.0039, 0.0044 и 0.0058, соответственно. Там же автор приводит и другую величину скорости мутаций, определенную по 75258 маркерам-поколениям в 37-маркерных гаплотипах, в которых были обнаружены 309 мутаций, что дало авторам среднюю скорость мутаций 0.0041±0.0002. Еще один набор данных той же компании - для 12-маркерных гаплотипов 0.0024, для 25-маркерных 0.0027 мутаций на маркер на поколение.
Как видно, почти все литературные величины скоростей выше, чем мои. Этому есть довольно простое объяснение. Дело в том, что считая гаплотипы тысячами, авторы не разделяют общих предков, не разделяют разные генеалогические линии, не строят деревья гаплотипов, как показано выше. Порой даже не разделяют гаплогруппы, а считают все чохом. Естественно, число мутаций между столь разнородными
гаплотипами резко возрастает, что и приводит к якобы более высокой скорости мутаций за тот же промежуток времени.
Для упорядоченности изложения сведем эти литератерные величины в одну таблицу величин скоростей мутаций в расчете на маркер (Chandler, 2006; Athey, 2007). Но повторяю - эти данные в основном завышенные, особенно для более протяженных гаплотипов:
12-маркерные - 0.0019±0.0003
25-маркерные - 0.0028±0.0004
37-маркерные - 0.0049±0.0007
12-маркерные - 0.0039; 0.0024
25-маркерные - 0.0044; 0.0027
37-маркерные - 0.0058; 0.0041±0.0002
Они или в пределах ошибок с моими данными (см. выше), или просто неверные, и не попадут в калибровку.
Так что данные разнятся, и за каждыми данными - определенная философия. Напомню, что свой набор данных я получал по 68 гаплотипам семейства МакДоналдов, где современные гаплотипы отстоят на 26 поколений от предка при 25 годах на поколение.
Тем не менее, для еще большего обоснования величин полученных мной скоростей мутации, причем не на 26 поколениях, а до многих сотен поколений, то есть вплоть до десятков тысяч лет до общего предка, приведу еще много серий данных. Но до этого рассмотрим так называемые возвратные мутации в гаплотипах, и как правильно считать, когда общий предок удален во времени на тысячелетия.
Скорости мутаций, расчет времени до общего предка, и возвратные мутации
Как отмечалось выше, мутации гаплотипов происходят согласно кинетике первого порядка. Это значит, что мутации происходят «сами по себе», спонтанно, и зависят только от случайности этого события, то есть происходят статистически. Это - допущение, которое, как показывает опыт, достаточно хорошо подтверждается практикой, экспериментом. В качестве аналогичных примеров часто приводят радиоктивный распад вещества, хотя здесь есть неточность в сравнении. Если аллель в гаплотипе, скажем, из 17 мутирует в 18, то есть вероятность (и вполне возможно, такая же, как и вероятность предыдущего события), что 18 со 284
временем мутирует не только далее в 19, но и обратно в 17. То есть произойдет возвратная мутация. Ясно, что такие возвратные мутации должны приводить к кажущемуся замедлению мутаций. Процесс продолжает быть неравновесным, исходного гаплотипа в течение долгого времени больше, чем его мутированных производных, но со временем, в ходе накопления мутированных гаплотипов, количество возвратных мутаций постепенно нарастает, прогрессивно замедляя общую скорость мутаций исходного гаплотипа.
Именно согласно кинетике первого порядка, пока мутированного гаплотипа (или маркера) мало, скорость возвратной мутации пренебрежима мала. С накоплением мутированного маркера скорость возвратной мутации становится ощутимой, и затем, как было сказано, нарастает прогрессивно. Но для этого в реальных условиях нужны тысячелетия. Для 12-маркерного гаплотипа, например, если простой расчет по мутациям дает время до общего предка, равное 8000 лет, на самом деле это уже 11800 лет. Таким образом, реальная скорость мутаций будет уже не 0.0020 мутаций на маркер на гаплотип, а 0.0014.
Это явление, иногда называемое гомоплазией, может быть описано в виде следующей схемы
D <-> B <-> A <-> C <-> E
где А - базовый, или предковый маркер, и остальные - его ближайшие мутированные формы. При гомоплазии мы видим меньше мутаций, чем их на самом деле имело место, и чем глубже во времени, тем больше несоответствие. Мы видим меньше мутаций, и рассчитываем (если без учета гомоплазии), что предок жил, скажем, 10 тысяч лет назад, а он на самом деле жил почти 17 тысяч лет назад.
Давайте разбираться, так ли это, насколько велико несоответствие, стоит ли его учитывать, и как это делать.
Следует отметить, что кинетическое уравнение, учитывающее гомоплазию по схеме выше, весьма сложно, и решается в численном виде. Автор признателен коллеге Михаилу Семенову за написание и предоставление программы для расчетов гомоплазии, и Вадиму Урасину за составление соответствующих таблиц. Расчеты показывают, что двумя шагами мутации от базового маркера в каждую сторону при известных скоростях мутаций можно вполне ограничиться, поскольку даже через 10 тысяч лет количество маркеров, отличающихся от базового на две мутации, составит менее 4%. Это - с учетом гомоплазии.
Будем исходить из того, что для 12-маркерных гаплотипов скорость мутаций, усредненная по всем 12 маркерам, равна 0.002 мутаций на маркер на поколение, или одна мутация на маркер в среднем раз в 500 поколений (12500 лет, считая 25 лет на поколение). Для 6-маркерных гаплотипов эта средняя скорость равна 0.0016 мутаций на маркер на поколение.
Как было описано выше, калибровка для нашего случая проводилась по гаплотипам МакДоналдов, при временном расстоянии до общего предка, равном 26 поколениям.
Рассмотрим три модели:
- Линейная модель. Эта простейшая модель применима для расчетов при относительно малом числе поколений, или (что по смыслу то же самое) малом числе мутаций в базовом (предковом) гаплотипе. В этом случае формула для расчета времени, прошедшего от общего для всей выборки предка, проста:
t = n/N/k
где t - время до общего предка, в поколениях,
n - количество мутаций во всех N галотипах выборки,
k - средняя скорость (частота) мутаций, выраженная в числе мутаций на
маркер на поколение.
- Вероятностная модель. Она рассматривает вероятности мутации в том или ином направлении, в сторону увеличения или уменьшения аллеля (числа тандемных повторов в маркере). При вероятности события, а именно мутации маркера в ту или иную сторону, равной 0.002, вероятность события, дополнительного к этому, равна 0.998. Это -вероятность того, что за одно поколение мутации не произойдет. Тогда через 10 поколений нетронутыми останутся 0.99810 = 0.98018, то есть 98% маркеров. В этом случае линейная модель вполне применима. В целом после х поколений вероятность того, что мутация в маркере не произойдет равна 0.998х.
- Модель с учетом возвратных мутаций. Численные значения величины поколений до общего предка выборки рассчитывается по специальной программе или находятся по специальным таблицам. Пример сокращенной таблицы дан для иллюстрации ниже. Скорости мутаций принимались теми же, 0.002 мутаций на поколение на маркер в любом направлении.
* Для 6-, 25-, 37- и 67-маркерных гаплотипов необходимо вносить корректирующий фактор на скорость мутаций в гаплотипах (см. предыдущий раздел). Скорость мутаций на гаплотип по отношению к 12-маркерным гаплотипам равна - для 6-маркерных гаплотипов 125%, для 25-маркерных гаплотипов 109%, для 37-маркерных наплотипов 82%, для 67-маркерных гаплотипов 93%.
** Число поколений, использованное для калибровки скоростей мутаций (см. предыдущий раздел)
Таблица показывает, что даже всего после 1000 лет мутационной эволюции наблюдаются небольшие отклонения числа поколений, рассчитанных по линейной модели от более правильной вероятностной модели и от модели с учетом возвратных мутаций. Линейная модель может быть использована до наступления примерно 0.2 мутаций на маркер, то есть примерно до 100-110 поколений до общего предка. При наступлении этого временного и мутационного порога вычисленное с помощью линейной модели число поколений до общего предка оказывается заниженным на 10%. При наступлении 6000 лет до общего предка линейная модель приводит к значительному отклонению, примерно на 25% занижению расчетного числа поколений и времени до общего предка, и уже не должна быть использована.
Вероятностная модель становится непригодной после примерно 10 тысяч лет до общего предка, поскольку начинает намного переувеличивать это время, а именно, на 20% после 10 тысяч лет. Как показывает Таблица, при 14500 годах до предка по линейной модели это оказывается 42500 для модели с учетом обратных мутаций, но завышается до более 100 тысяч лет по модели вероятностной, что просто нереалистично.
Именно при 42,500 годах до общего предка эффективная скорости мутации становится 0.007 мутаций на маркер на поколение (см. Таблицу). У этой величины скорости короткая, но любопытная история. Ее предложил Л.А. Животовский (Zhivotovsky et al, 2004) для популяционных измерений, которые не имеют практически ничего общего с ДНК-генеалогическими, которые мы здесь рассматриваем. Эта величина, 0.0007, применима (и притом с огромной неопределенностью) для очень приблизительного вычисления времен начала (зарождения) всей популяции, многие линии которой оказались потеряны вследствии « бутылочных горлышек» популяции, и поэтому общая измеряемая эволюционная скорость оказывается на практике заниженной, в идеале (при огромной статистике) в 3-4 раза по сравнению с «генеалогической».
Коротко говоря, эту «эволюционную скорость» мутаций можно применять в ДНК-генеалогии только для выборок гаплотипов, имеющих общего предка именно и только 42500 лет назад. При временах меньших, чем 42500 лет, эффективная скорость будет выше, а при временах более 42500 лет эффективная скорость будет еще ниже чем 0.0007 (см. Таблицу).
К сожалению, эту величину «популяционной скорости» некритично применяют в литературе для малых популяций с малым числом мутаций, в пределах одной гаплогруппы, и с временами общего предка часто в пределах 500 до 5000 лет - то есть там, где вполне возможно (и нужно) применять «ДНК-генеалогические подходы». В результате времена жизни общего предка оказываются заниженными в несколько раз. Примеры будут даны ниже.
Как видно, влияние возвратных мутаций на временные оценки в ДНК-генеалогии имеет фундаментальную значимость при временах жизни общего предка глубже, чем 3000-5000 лет назад, и при временах больше чем 10 тысяч лет назад может удвоить и утроить эти временных расстояния.
Конкретные примеры влияния возвратных мутаций рассматриваются ниже.
Продолжение примеров расчетов времен до общих предков
6-маркерные гаплотипы
6-маркерные гаплотипы - далеко не лучший выбор для расчетов времен до общего предка. Однако порой это единственный выбор, поскольку в научных публикациях ими часто и ограничиваются. Считая мутации в 6-маркерных гаплотипах, мы играем в лотерею. Иногда число мутаций на 6 маркерах пропорционально числу мутаций в более протяженных гаплотипах, то есть получается, например, 0.46 мутации на маркер в 6-маркерных, 0.37 - в 12-маркерных, 0.40 - в 25-маркерных, 0.30 - в 37-маркерных, и 0.34 - в 67-маркерных гаплотипах. С учетом скоростей мутаций во всех этих гаплотипах - это ровно одно и то же число поколений до общего предка. А именно, 227 поколений, то есть 5,б75 лет до общего предка. При таком точном совпадении я осторожно напишу 5,700±100 лет до общего предка. Но обычно разброс значительно выше. Указанная ± ошибка здесь относится к точности расчетов, а не к привязке этой даты к фактическим историческим событиям. Я полагаю, что эта привязка довольно приемлемая, но в ДНК-генеалогии с этим надо еще много работать.
Чаще бывает, что при 6-маркерных гаплотипах среднее число мутаций на маркер оказывается выше или ниже, чем это число у более протяженных гаплотипов. Тогда время до общего предка, расчитанное по 6-маркерным гаплотипам, окажется соответственно завышенным или заниженным. Часто сравнивать и не с чем, потому что в наличии только 6-маркерные гаплотипы. Однако опыт показывает, что если предок недавний, то это не имеет никакой разницы, поскольку мутации редки, и во многих 6-маркерных гаплотипах мутации прсто отсутствуют. Тогда сразу видно, что предок недавний, и этого бывает знать вполне достаточно. На дереве гаплотипов это плоские ветви, все (или большинство) гаплотипов на которых идентичны. Если же предок древний, то и 6-маркерные гаплотипы об этом сразу говорят. Дело в том, что у 6-маркерных гаплотипов три маркера очень медленные (DYS# 388, 392, 393). Если они заметно мутированы, значит предок очень древний. Это тоже о многом говорит. А вот в промежуточных вариантах 6-маркерные гаплотипы часто дают отклонения. Но это часто опять не особенно критично, потому что при современном состоянии ДНК-генеалогии часто уже информативно -древний предок, молодой, или промежуточный. 6-маркерные гаплотипы на такие вопросы отвечают, и часто дают приемлемую оценку событий.
Индийцы и пакистанцы (гаплогруппа R2)
Рассмотрим, когда жил общий предок для некоторой довольно большой выборки гаплотипов гаплогруппы R2. В недавней статье Sengupta и др. (2006) был опубликован набор гаплотипов 81 индийцев и пакистанцев (последних было 13 человек), имеющих гаплогруппу R2. 21 из них имели следующий базовый гаплотип
14-12-23-10-10-14
Все эти 81 гаплотипов имели 105 мутаций от указанного базового гаплотипа. Это дает ln (81/21)/0.0096 = 141 поколение от общего предка на основе доли базовых гаплотипов, и 105/81/0.0096 = 135 поколений от общего предка на основе мутаций. Это - хорошее совпадение результатов, и указывает, что для данной выборки был один предок. Но поскольку число поколений до него превышает сотню, следует ввести поправку на возвратные мутации. Тогда получаем, что общий предок жил 160±6 поколений, или 4,000±150 лет назад. Как видно, в этой ситуации поправка прибавила 20-25 поколений, или примерно 500-600 лет, что весьма существенно.
Индийцы племени Ченчу (гаплогруппа R1а1)
Ченчу, племя австралоидов Южной Индии, имеют R1a1 гаплогруппу у 27% своего состава, а именно у 11 человек из тестированных 41 (Kivisild et al, 2003). Представляется логичным связать эту гаплогруппу у Ченчу с прибытием ариев (R1a1) в Индию примерно 3400-3500 лет назад, или даже раньше, если было несколько волн ариев в Индостан. Однако авторы цитируемой и последующих статей по гаплотипам в Индии (Sengupta et al, 2006; Sahoo et al, 2006) объявили, что эти гаплогруппы в Индии древние, и что они поэтому и зародились в Индии. Была дана и оценка - 14,000±3,100 лет назад для гаплогруппы R1a1 в целом по стране (Sengupta et al, 2006).
Проверим.
11 гаплотипов - это неважная статистика, но кое-что можно определить, даже просто посмотрев на гаплотипы. Если большинство их идентичны друг другу - общий предок жил в пределах тысячи лет назад. Если хотя бы два гаплотипа из 11 будут идентичны, то есть шанс, что общий предок жил ln(11/2)/0.096 = 178 поколений, или 4,450 лет назад, а с поправкой на возвратные мутации - 216 поколений, то есть 5,400 лет назад. Если все гаплотипы разные, то есть все мутированы, то общий предок мог жить не ближе, чем 6 тысяч лет назад. Так что и с 11 гаплотипами, даже 6-маркерными, можно получить неплохую информацию, пусть предварительную.
У одиннадцати Ченчу семь (!) гаплотипов были идентичными: 16-12-24-11-11-13
Между прочим, мой гаплотип. Как и моя гаплогруппа. Предок не подкачал.
Это - только одна мутация в сторону от базового 6-маркерного восточнославянского гаплотипа:
16-12-25-11-11-13
Для Ченчу это дает ln(11/7)/0.0096 = 47 поколений до общего предка, если считать по доле сохранившегося базового гаплотипа. А поскольку все гаплотипы содержат только 9 мутаций от базового гаплотипа, это дает 9/11/0.0096 = 85 поколений до общего предка. Ясно, что разнобой, и это означает, что предков по меньшей мере двое. Причем один из них недавний, он и оставил много немутированных, базовых гаплотипов.
Рис. 7. Дерево 6-маркерных гаплотипов индийцев племени Ченчу, построено по данным (Kivisild et al, 2003). В выборке — 11 гаплотипов.
Действительно, дерево гаплотипов, приведенное на рис. 7, четко показало наличие двух ветвей - одна недавняя, из 8 гаплотипов, 7 из которых идентичны друг другу, то есть базовые, и имеют всего одну мутацию, и другая, из трех гаплотипов, в которых имеются три мутации от своего базового гаплотипа
15-12-25-10-11-13
Недавняя ветвь дает ln(8/7)/0.0096 = 14 поколений, и 1/8/0.0096 = 13 поколений до общего предка. Это явно от одного и того же предка, который жил примерно 350 лет назад, в 17-м веке. А старая ветвь дает 3/3/0.0096 = 104 мутации, с поправкой на возвратные мутации - 116 поколений, то есть 2,900 лет до общего предка. Статистика плоха, но данные вполне разумные, поскольку древними эти три гаплотипа быть никак не могут, с тремя мутациями на всех. А поскольку арии прибыли в Индию предположительно 3400-3500 лет назад, то им могло вполне хватить 500-600 лет, чтобы добраться до племени Ченчу в джунглях. Короче, легенда о древности R1a1 в племени и об «аборигенном» происхождении этой гаплогруппы в Индии не выдерживает даже минимальной проверки.
Что же касается вопроса, откуда у Ченчу появилась R1a1 второй раз, в 17-м веке, то это становится ясным после цитаты из статьи (Kivisild et al, 2003): « Ченчу как мирные охотники-собиратели впервые описаны армией Мохаммедана в 1694 году».
Индийцы племени Койя (гаплогруппы F и H1)
Выборка гаплотипов еще одного южно-индийского племени, Койя, приведена в работе Кивисилда и др. (2003). В этом племени обнаружен всего один гаплотип гаплогруппы R1a1 среди 41 тестированных человек, и большинство остальных имели более характерные для Индии гаплогруппы F и H1, в количестве 11 и 25 гаплотипов, соответственно.
Из 11 гаплотипов гаплогруппы F два были одинаковыми:
16-13-21-11-11-14
Это формально соответствует ln(11/2)/0.0096 = 178±40 поколениям до общего предка. Оценка стандартного отклонения такова потому, что в выборке только 2 базовых гаплотипа. Окажись там совершенно случайно один или три - вот и приведет к тому самому отклонению плюс-минус 40. Например, три базовых дадут 135 поколений до общего предка. Так что малое число базовых гаплотипов весьма чувствительно к вариациям времени до общего предка.
Но поскольку те 11 гаплотипов имеют 15 мутаций от базового гаплотипа, это даст 15/11/0.096 = 142±10 поколений до общего предка. Оценка стандартного отклонения проведена по тем же принципам, и отражает плюс-минус одну случайную мутацию. Мы видим, что эти две цифры, по удаленности от общего предка, вполне соответствуют друг другу в пределах минимальной ошибки. Получается, что общий предок членов племени Койя с гаплогруппой F жил (с поправкой на возвратные мутации) 4,800±700 лет назад.
Перейдем к гаплогруппе Н1. В 25 гаплотипах этой гаплогруппы имеется 11 базовых:
15-12-22-10-11-12
Это соответствует ln(25/n)/0.0096 = 86±10 поколений до общего предка. А поскольку те же 25 гаплотипов содержат 22 мутации, то получаем 22/25/0.0096 = 92±4 поколения. То есть практически одно и то же в пределах ошибки. Таким образом, данные показывают, что общий предок 25 членов племени Койя гаплогруппы Н1 жил (с поправкой на возвратные мутации) 2,400±400 лет назад.
Индийцы племени Корагас (гаплогруппа H1)
Чтобы завершить пока разговор о южно-индийских племенах, рассмотрим еще одно, под названием Корагас. 28 гаплотипов его членов были описаны в статье (Cordaux et al, 2004). Там были даны только 5-маркерные гаплотипы, с маркерами DYS#389-1, 389-2, 390, 391, 393. В таком порядке они и даны ниже. Пришлось калибровать эти гаплотипы по серии Доналдов, и получилось, что средняя скорость их мутаций равна 0.023 на гаплотип на поколение, или 0.0046 на маркер на поколение.
Все 28 гаплотипов принадлежали одной гаплогруппе, Н1, и включали 10 идентичных, базовых гаплотипов. Уже видно, что общий предок жил не головокружительно далеко. Так и оказалось - близко к началу нашей эры.
Базовые гаплотипы были такие: 11-27-22-10-12
Они содержали 27 мутаций от данного базового. Это дает по остаточным базовым гаплотипам ln(28/10)/0.023 = 45 поколений, а по мутациям 27/28/0.023 = 42 поколения до общего предка. Практически одно и то же. Это означает, что общий предок был один, и он жил примерно 1,100±100 лет назад.
Кстати, в принятой «научной» 6-маркерной системе базовый гаплотип индийцев Корагас имеет вид
X-Y-22-10-Z-12
то есть такой же, как и базовый гаплотип индийцев Койя гаплогруппы Н1, за исключением того, что пропущенные аллели здесь обозначены латинскими буквами.
Видно, что все три рассмотренные племени не столь древние. Байки про исключительную древность индийских гаплотипов, публикуемые в научной литературе, пока остаются байками. Естественно, эти три не исчерпывают индийские племена, но в литературе-то приводятся данные именно по этим трем! А также рассуждения про «разнообразие» индийских гаплотипов, смутные расчеты общих предков этого разнообразия, да еще с делением получаемого времени на три.
Все на свете может быть. Но не на таком уровне доказательств, какие приводят уважаемые специалисты по расчетам времен жизни древних предков в научной литературе.
Вот и получается, что в обобщающей недавней работе по Индии (Sengupta et al, 2006) расстояние до общего предка гаплогруппы R2 в Индии оказывается от 11,600 до 18,100 лет, а по данным самих же авторов, но мной пересчитанным, всего 4,000±150 лет (см. выше). Расстояние до общего предка гаплогруппы R1a1 в племенах по данным тех же авторов 10,900 лет, а в целом по стране - 14,000 лет. На самом деле цифры по племенам дают 2,900 лет (на примере племени Ченчу), а в целом - 3,800 лет (см. ниже). Все та же разница в 3-4 раза, уже приведенная выше при обсуждении скоростей мутаций.
Американские индейцы (гаплогруппа Q)
В научной литературе (Bortolini et al, 2003) были опубликованы 117 гаплотипов американских индейцев гаплогруппы Q-M3. Эти гаплотипы определенно принадлежали разным общим предкам. На это указывает несоответствие числа базовых гаплотипов и мутаций. Идентичны друг другу были 31 гаплотип, и это дает 138 поколений до общего предка, а 273 мутации в тех же 117 гаплотипах дают 243 поколения до общего предка, а с поправкой на возвратные мутации даже 321 поколение.
Рис. 8. Дерево 6-маркерных гаплотипов американских индейцев гаплогруппы Q, построено по данным (Bortolini et al, 2003). В выборке - 117 гаплотипов.
Действительно, дерево гаплотипов, приведенное на рис. 8, показывает наличие по меньшей мере шести общих предков для этих 117 индейцев. Четверо из них оказались совсем недавними общими предками, жившими в пределах последней тысячи лет. У них - следующие базовые гаплотипы:
13-12-24-10-14-13 13-12-23-10-14-13
13-12-24-10-15-12 13-12-24-10-13-14
Самая древняя ветвь - из 11 гаплотипов - имеет следующий базовый гаплотип:
13- 13-24-10-14-14
Эта ветвь содержит 32 мутации, что дает 436 поколений, или 10,900 лет до общего предка.
Так что когда предок древний, так он и получается древним.
Армяне (гаплогруппа R1b)
Выборка из 238 гаплотипов армян гаплогруппы Rib была представлена в работе (Weale et al, 2001). Она включала гаплотипы из шести регионов Армении, Карабаха, Ирана, и других районов армянской диаспоры в мире. Рассмотрение нами этих гаплотипов показало, что часть из них относятся к древним, а часть - к относительно «молодым» предкам. Иначе говоря, все эти выборки представляют неоднородную смесь популяций, и для всех расчеты по остаточным гаплотипам и по мутациям дают весьма различные результаты.
Тем не менее, во всех шести регионах базовый гаплотип был один и тот же:
14- 12-24-11-13-12
Он отличается на одну мутацию от «Атлантического модального гаплотипа»
14-12-24-11-13-13
Например, для Иранского региона число поколений до «общего предка», рассчитанное по остаточным базовым гаплотипам и по мутациям оказалось равно 157 и 179, соответственно. Для Карабаха это равно 140 и 156 поколений. Для Восточной Турции - 168 и 203 поколения. Для Северной Армении - 160 и 206 поколений. Для Южной Армении - 107 и 138 поколений. Самое высокое число поколений оказалось для Араратского региона - 168 и 260 поколений, то есть, формально (и неправильно) говоря, 4,200 и 6,500 лет до общего предка. Дело в том, что при смеси общих предков в выборке первая цифра обычно оказывается завышенной, а вторая - заниженной. При разделении предков эти цифры обычно расходятся шире. Насколько шире расходятся - зависит от ряда факторов, в особенности от того, сколько потомков в выборке от каждого общего предка, и сколько до него поколений от настоящего времени.
Для того, чтобы разобраться с этой проблемой, было построено дерево для 52-х гаплотипов для объединенной выборки Араратского региона и Северной Армении
Рис. 9. Дерево 6-маркерных гаплотипов объединений выборки Араратского региона и Северной Армении, гаплогруппа R1b, построено по данным (Weale et al, 2001). В выборке -52 гаплотипа.
Дерево подразделилось на пять ветвей. Одна ветвь очень древняя, с предком 456 поколений, или 11,400 лет назад (!). Другая ветвь дала 217 поколений, то есть 5,500 лет назад до общего предка. Третья ветвь - 200 поколений, 5000 лет назад. Четвертая ветвь - 150 поколений, то есть 3,750 лет назад. Пятая ветвь оказалась совсем недавней, в ней были только базовый гаплотипы, 11 штук, поэтому возраст посчитать было нельзя. Примерно несколько сот лет до общего предка.
Ясно, что большинство армянских общих предков значительно старше западно-европейских, которые жили между 3,100 и 3,900 годами назад, как будет показано ниже. Только еврейский Rib предок, который жил 5,000±200 лет назад, может сравниться с армянскими по древности, да и то не с самым древним. Похоже, что европейские R1b предки или исчезли с европейского континента во 2-м тысячелетии до н.э. (или ранее), или никогда там до того не были.
Поэтому армянские и еврейские члены рода R1b значительно старше, чем их западноевропейские сородичи.
Армяне (гаплогруппа R1a1)
Выборка из 37 гаплотипов была представлена в той же статье (Weale et al, 2001), упомянутой выше. Они тоже включают гаплотипы из пяти регионов Армении, Карабаха, Ирана и т.д. Также, как и в случае гаплотипов гаплогруппы R1b, все подвыборки по регионам показывают более чем одного общего предка. Например, если считать по всем 37 гаплотипам, то остаточные базовые гаплотипы покажут 64 поколения до общего предка, а число мутаций - 96 поколений. Опять, первая цифра обычно завышена, вторая - занижена при таком способе расчета, при смешивании общих предков.
Рис.10. Дерево 6-маркерных гаплотипов объединений выборки Араратского региона и Северной Армении, гаплогруппа R1а1, построено по данным (Weale et al, 2001). В выборке — 37 гаплотипов.
Более внимательное рассмотрение дерева гаплотипов (рис. 10) показало, что оно содержит большое количество гаплотипов от недавнего предка:
15-12-25-11-11-13
которые даже не могут быть идентифицированы во времени, настолько они недавние. Таких в выборке 20 идентичных гаплотипов. Примечательно, что их не содержат выборки из Ирана и Восточной Турции.
17 мутированных гаплотипов имеют свой базовый гаплотип 16-12-25-11-11-13
всего лишь одну мутацию от недавнего базового гаплотипа. Это -«классический» восточно-славянский гаплотип, который в 12-маркерном формате выглядит следующим образом
13- 25-16-11-11-14-12-12-10-13-11-30
и будет обсуждаться ниже. Общий предок современных русских с восточно-славянским гаплотипом жил 148±12 поколений, то есть 3,700±300 лет назад (см. ниже). Общий предок современных армян гаплогруппы R1a1 жил 1б4±20 поколений, то есть 4,100±500 лет назад. Здесь ошибки даны оценочно.
В целом понятно, почему пра-славянский, или арийский базовый гаплотип присутствует во всех армянских популяциях, в то время как совсем недавний базовый гаплотип присутствует только у армян на территориях бывшей советской Армении, но не в Иране или Турции.
Евреи (гаплогруппы J* и J1)
Список из 194 гаплотипов евреев гаплогруппы J* был опубликован в работе Бехара и др. (Behar et al, 2003). 91 из них были идентичны друг другу:
14- 16-23-10-11-12
Это так называемый «Модальный гаплотип коэнов» (МГК). В общем, уже ясно, что когда 91 базовый гаплотип из 194, то есть половина, то предок явно не древний. Тем не менее, авторы самой нашумевшей работы по ДНК-генеалогии, опубликованной в журнале Nature в 1997 году, и затем там же, в 1998-м, объявили, что МГК появился больше 3 тысяч лет тому назад. А этого просто не может быть, глядя на эти гаплотипы.
Проверим.
Полный набор из 194 гаплотипов содержит 263 мутации, то есть указывает на общего предка, жившего 263/194/0.0096 = 141 поколение назад. Действительно, вроде бы 3,525 лет назад. А если с поправкой на возвратные мутации - то и вовсе 164 поколения, 4,100 лет назад. Но посмотрим на долю остаточных базовых гаплотипов: ln(194/91)/0.0096 = 79 поколений, примерно 2 тысячи лет. Значит, там не один предок, а больше. Нельзя так считать, как авторы статей в Nature. И в десятках других статей.
Посмотрим на другую выборку, гаплогруппы J1 евреев, извлеченную из базы данных YSearch. 90 гаплотипов, в них 41 базовый, и 123 мутации от точно такого же базового гаплотипа. Это дает 123/90/0.0096 = 142 поколения до общего предка (а в «научной выборке» было 141 поколение!) и ln(90/41)/0.0096 = 82 поколения («научная» выборка дала 79 поколений). Иначе говоря, «коммерческая» и «научная» выборка дали одни и те же результаты. Но в любом случае и та, и другая показывают, что предок был не один.
Рис.11 Дерево 6-маркерных гаплотипов евреев гаплогруппы J, построено по данным Бехара и др. (2003). В выборке — 194 гаплотипов.
Детальное изучение выборок показало (Klyosov, 2008) что эти выборки содержат по меньшей мере восемь (!) генеалогических линий, каждая из которых берет начало от своего общего предка, и предки эти жили 11,100±600, 6,200±400, 5,100±500, 3,500±200, 1,800±200, 775±50, 1,650±350 and 1,350±100 лет назад. Последние две линии - «Модальный гаплотип коэнов», которых оказалось два уже в 12-маркерных гаплотипах. Некоторые древние линии повели свое начало от обших предков, которые жили 13,400±2,400 и 9,000±1,000 лет назад, но потом расщепились, пройдя, видимо, бутылочные горлышки популяции. Деревья гаплотипов «научной» и «коммерческой» выборки евреев в 6-макерном варианте приведены на рис. 11 и 12.
Рис.12 Дерево 6-маркерных гаплотипов евреев гаплогруппы J1, построено по данным базы данных YSearch (2008). В выборке — 90 гаплотипов.
Евреи (гаплогруппа J2)
В работе Бехара и др. (Behar et al, 2004) была опубликована выборка из 88 гаплотипов евреев гаплогруппы J2. 25 гаплотипов были идентичны друг другу:
14-16-23-10-11-12
По случайной статистике этот 6-маркерный гаплотип идентичен « модальному гаплотипу коэнов» гаплогруппы J1. Эта идентичность вызвала массу дискуссий, которые продолжаются и сейчас - почему идентичны гаплотипу коэнов, ведь это же другая гаплогруппа! А это просто причуды статистики.
Рис.13 Дерево 6-маркерных гаплотипов евреев гаплогруппы J2, построено по данным Бехара и др. (2004). В выборке — 88 гаплотипов.
Все 88 гаплотипов содержат 160 мутаций от базового гаплотипа. По доле базового гаплотипа число поколений до общего предка равно ln(88/25)/0.0096 = 131 поколение, по мутациям - 160/88/0.0096 = 189 поколений. Опять разнобой, значит - более одного общего предка (рис. 13)
Проверим по другой базе данных, по другой выборке, «коммерческой» (рис. 14). В ней - 75 гаплотипов евреев, которые включают 15 базовых гаплотипов, таких же, как и в «научной» выборке, и содержат 135 мутаций. Это дает ln(75/15)/0.0096 = 168 поколений и 135/75/0.0096 = 188 поколений до общего предка. Опять более одного общего предка, на что указывает и дерево гаплотипов (рис.14).
Рис.14 Дерево 6-маркерных гаплотипов евреев гаплогруппы J2, построено по данным базы данных YSearch (2008). В выборке — 75 гаплотипов.
Анализ деревьев гаплотипов показал, что у евреев гаплогруппы J2 имеется по меньшей мере пять общих предков. Те, от которых произошло наибольшее количество современных евреев гаплогруппы J2, жили 6,100±1,000, 900±50, и 1,200±200 лет назад. Последняя генеалогическая линия - «модальные гаплотипы коэнов».
Евреи (гаплогруппа R1a1)
В литературе имеется выборка гаплотипов евреев гаплогруппы R1a1 (Behar at al, 2003), в которой имеются 42 гаплотипа, 25 из которых идентичны друг с другом:
16-12-25-10-11-13
Любопытно, что этот базовый гаплотип отличается от других базовых гаплотипов гаплогруппы R1a1, которые мы здесь рассматриваем, а именно от базовых гаплотипов Доналда, шведского и армянского базовых гаплотипов
15- 12-25-11-11-13
русского (восточные славяне) и индийского базовых гаплотипов
16- 12-25-11-11-13
и базового гаплотипа Ченчу 16-12-24-11-11-13
Похоже, что все они образуют поток гаплотипов, в направлении их предполагаемой мутации:
15-12-25-11-11-13 —16-12-25-11-11-13— 16-12-24-11-11-13
I
16-12-25-10-11-13
или
западно-европейский, армянский — славянский— индийский — ченчу
I
еврейский
На самом деле не исключено, что стрелка от западно-европейского направлена в сторону славянского:
15-12-25-11-11-13 — 16-12-25-11-11-13— 16-12-24-11-11-13
I
16-12-25-10-11-13 Это еще предстоит выяснить.
Возвращаясь к гаплотипам евреев, отметим, что их 42 гаплотипа включают 25 базовых, и 22 мутации. Это дает соответственно ln(42/25)/0.0096 = 54 поколения, и 22/42/0.0096 = 55 поколений (54.6, если быть точным до абсурда). Таким образом, евреи гаплогруппы R1a1 происходят от общего предка, который жил 1,350 лет назад, в 7-м веке нашей эры.
Для сведения, 12-маркерные гаплотипы евреев гаплогруппы R1a1, извлеченные из базы данных YSearch (поскольку в научной литературе такие гаплотипы отсутствуют), образуют набор из 44 гаплотипов, 14 из которых идентичные друг другу, базовые:
13-25-16-10-11-14-12-12-10-13-11-30
Вся выборка содержит 57 мутаций. Это дает ln(44/14)/0.024 = 48 поколений, и 57/44/0.024 = 54 поколения до общего предка. Таким образом, евреи гаплогруппы R1a1 произошли от общего предка, который жил 53±3 поколения, или 1,325±75 лет назад. Более детальное рассмотрение этих гаплотипов проведено в (Klyosov, 2008).
Характерно, что базовый гаплотип евреев гаплогруппы R1a1 отличается всего на одну мутацию как в 6-маркерном, так и в 12-маркерном формате от русского (восточные славяне) базового гаплотипа (мутированный маркер помечен жирным шрифтом)
13-25-16-11-11-14-12-12-10-13-11-30
Для сведения, западно-европейский гаплотип R1a1 генеалогической линии Доналдов
13-25-15-11-11-14-12-12-10-14-11-31
отличается от восточно-славянского на три мутации (помечено жирным шрифтом), а от еврейского - на четыре мутации. Похоже, что гаплотип евреев произошел от славянского.
Как видно, подход, разрабатываемый автором, работает весьма неплохо даже на 6-маркерных гаплотипах. «Неплохо» в том отношении, что получаются разумные результаты, не противоречащие здравому смыслу. Естественно, такой критерий недостаточен, и в следующих разделах я рассмотрю более протяженные гаплотипы. Это будет сделано не столько для проверки получаемых дат до общих предков, потому что база для проверки, как правило, отсутствует, но скорее для выработки у внимательного читателя ощущения связи картины мутаций в гаплотипах и времени до общего предка. В тех случаях, когда эти времена превышают (или приближаются к) примерно 40 поколений, или 1000 лет, будет проводиться поправка числа поколений на возвратные мутации, как описано выше.
Эти примеры показывают, что нельзя рассчитывать времена до общего предка основываясь только на числе мутаций в гаплотипах, без приложения других критериев, которые показывают, «чистая выборка» или нет, происходит ли она от одного общего предка или нет.
Прибалтийские народы (гаплогруппа N3a)
Эта серия гаплотипов была любезно представлена коллегой Владимиром Волковым. В ней - 249 гаплотипов, все они гаплогруппы N3a. Не вдаваясь в детали, поскольку сами данные и выводы из них еще не опубликованы, сообщу только, что в 12-маркерной серии 51 гаплотип был базовым, что дает ln (249/51)/0.024 = 66 поколений до общего предка. Эти гаплотипы имели 558 мутаций по отношению к базовым, что дает 558/249/0.024 = 93 поколения до общего предка. Ясно, что этот набор гаплотипов происходит от нескольких предков. Действительно, построение дерева гаплотипов выявило отдельную ветвь, состоящую из 126 гаплотипов, со следующими базовыми
14-12-24-11-14-14
14-24-14-11-11-13-11-12-10-14-14-30
и соответствующими мутациями:
6-маркерный гаплотип 77 базовых 54 мутации 12-маркерный гаплотип 48 базовых 134 мутации
Это приводит
для 6-маркерных гаплотипов: ln (126/77)/0.0096 = 51 поколение, 54/126/0/0096 = 45 поколений
для 12-маркерных гаплотипов: ln (126/48)/0.024 = 40 поколений, 134/126/0.024 = 44 поколения.
Средняя величина этих четырех величин равна 45±5 поколений до общего предка, то есть примерно между 1000 и 1250 лет, 8-10 век нашей эры. Интересно, что среди этих 126 человек на ветви 116 составляют финны. Из России и Германии были по двое, и шесть из Швеции. 123 гаплотипа с девяти других ветвей представляли Польшу, Литву, Белоруссию, Германию и некоторые другие страны, и их обший предок жил примерно 110 поколений, или 2,750 лет назад.
Русские (гаплогруппа N3a1)
Выборка из 12-маркерных гаплотипов общим числом 37 была приведена в статье Деренко и др. (2007). Однако это была не стандартная 12-маркерная панель, а включала маркеры DYS#437 и 438 из 25-37-маркерной панели. Их можно было специально откалибровать, но, чтобы получать сопоставимые с другими сериями данные, анализировались только 10 маркерные гаплотипы из данной работы. Оказалось, что базовым гаплотипом для всей выборки был следующий:
14-23-14-11-11-13-X-Y-10-14-14-30
Его в выборке оказалось 7, при 97 мутациях. Расчет по обычной схеме дал 64 и 112 поколений до общего предка. Ясно, что общий предок не один, и базовый гаплотип принадлежит не древнему, а недавнему предку.
Дерево гаплотипов подтвердило этот вывод (рис.15).
Рис.15 Дерево 10-маркерных гаплотипов русских гаплогруппы N3a1, построено по данным (Derenko et al, 2007). В выборке — 37 гаплотипов.
Как видно, на дереве по меньшей мере четыре основные ветви. Семь «базовых» гаплотипов, определенных выше, сидят в виде «гребенки» на « стволе» дерева, в его верхней части, как часть ветви из 9 гаплотипов. Кстати, этот базовый отличается на одну мутацию от «прибалтийского» базового гаплотипа N3a, приведенного выше. Эти 7 гаплотипов из 9 на ветви дают ln(9/7)/0.026 = 10 поколений от общего предка. Поскольку все 9 гаплотипов содержат только две мутации, это дает 2/9/0.026 = 9 поколений, или примерно 225 лет до общего предка. Как видно, общий предок для этой генеалогической линии был один.
Внизу дерева находится плоская, явно недавняя по происхождению ветвь из 9 гаплотипов. Она удалена от ствола только потому, что значительно отличается по предковому гаплотипу
14-23-15-11-11-14-X-Y-10-13-14-29
от недавнего же базового, приведенного выше, а именно на четыре мутации. Это соответствует разнице в 206 поколений между двумя общими предками, или примерно 5,200 лет.
Данные 9 гаплотипов содержат 5 базовых, и только 4 мутации. Таким образом, получаем ln(9/5)/0.026 = 23+5 поколений и 4/9/0.026 = 17+4 поколений. Это означает, что у всех 9 человек, гаплотипы которых образуют данную ветвь, был один общий предок, который жил примерно 500 лет назад.
Наконец, зная, что оба общих предка разделяются 5,200 годами мутационной эволюции, и сами они жили 225 и 500 лет назад, получаем, что ИХ общий предок жил (225+500+5200)/2 = 3,000 лет назад.
Самая древняя ветвь на дереве состоит из 8 гаплотипов, и имеет 19 мутаций. Это дает 100 поколений, или 2,500 лет до общего предка.
Следует заметить, что авторы (Derenko et al, 2007) использовали « эволюционный коэффициент» величиной 0.00069 мутации на поколение, который ообсуждался выше, и получили «эволюционное расстояние до общего предка», равное «8.21+2.01 тысяч лет». Эта величина имеет совершенно другой смысл по сравнению с теми, что мы обсуждаем в данной статье, и не относится к генеалогическим линиям. Обычно в популяционных работах так пытаются оценить время возникновения популяции в целом. К тому же писать 8.21+2.01 - это вообще математически неприемлемо. Нельзя давать определяемую величину с точностью до сотых долей, когда ее ошибка оценена в основном знаке, еще «до запятой». 8+2 - вот как надо было написать в лучшем случае.
Русские (восточные славяне) и индусы (гаплогруппа R1a1)
Здесь я умышленно пишу «индусы», а не «индийцы» - во-первых, потому, что эти два слова стали уже практически синонимами в русском языке, во-вторых, чтобы отличить от индийцев-дравидов, австралоидных индийцев и прочих аборигенов Индии, у которых, как правило, другие гаплогруппы, и в третьих, потому, что именно индусы, по религии, составляют основную долю носителей гаплогруппы R1a1 в Индии.
Проведем расчет времени до общего предка с помощью 25-маркерных гаплотипов на примере группы русских, а именно восточных славян, и индусов, обе выборки гаплогруппы R1a1. Эту гаплогруппу имеют от 50% до 70% жителей старинных русских городов и селений, около 30% жителей Индии, и до 60% членов высших индийских каст.
Гаплотипы были извлечены из базы данных YSearch, разделы R1a и R1a1, и скомбинированы. В отношении гаплотипов и мутаций в них эти два раздела практически эквивалентны.
Всего в нашем распоряжении было 15 славянских 25-маркерных гаплотипов. К сожалению, это все, что нашлось в базе данных YSearch среди 50 тысяч гаплотипов. Не сдают пока наши славяне свою ДНК для генеалогического анализа. На основании этих гаплотипов было построено дерево. Оно симметричное, не распадается на отдельные резко различающиеся ветви. Это указывает, для предок для всех 15 славян был один.
Для сведения - « распадаются» - это когда ветви расположены отдельно, как, например, на рис. 8, 11, 12, 15. Тогда, как правило, у них разные базовые гаплотипы. На рис. 16 все ветви сидят на одной основе, на одной широкой, «базовой» ветви.
Среди гаплотипов не было двух одинаковых, и неудивительно. При двух базовых гаплотипах время до общего предка можно было бы оценить, хотя и очень примерно, как ln(15/2)/0.046 = 44 поколения, то есть всего 1100 лет. И даже один немутированный базовый, то есть предковый, дал бы всего 59 поколений до общего предка, то есть примерно 1500 лет. Хотя, конечно, один базовый в выборке не определить.
Рис.16. Дерево 25-маркерных гаплотипов русских (восточных славян) гаплогруппы R1a1, построено по данным базы данных YSearch (2008). В выборке - 15 гаплотипов.
На самом деле базовый восточно-славянский гаплотип такой:
13-25-16-11-11-14-12-12-10-13-11-30-15-9-10-11-11-24-14-20-32-12-15-15-16
Среди 15 гаплотипов оказалось 88 мутаций, что дает 146 поколений, или 3,700+200 лет до общего предка. 17-18 вв до н.э.
Поскольку по некоторым сведениям примерно 3600-3500 лет назад наши предки, точнее, потомки наших предков, ушли в Индию и принесли туда гаплогруппу R1a1, то можно ожидать, что возраст общего предка в Индии будет примерно в том же временном диапазоне.
В базе данных YSearch обнаружились 15 индийских (из них 4 пакистанских и один из Шри-Ланка) гаплотипов гаплогруппы R1a1, и базовый их - следующий:
13-25-16-11-11-14-12-12-10-13-11-31(30)-1б(15)-9-10-11-11-24-14-20-32-12-15-15-16
Он отличается всего на 0-2 мутации от славянского на 25-маркерном гаплотипе. Ноль-две мутации - это потому, что по этим маркерам проходит «разлом», и в одинаковой степени может быть или одна, или другая величина базовой аллели. На расстоянии до общего предка это не сказывается, поскольку число мутаций до базового гаплотипа практически одинаково. Иначе говоря, мутационной разницы между славянским и индийским базовыми гаплотипами практически нет.
Рис.17. Дерево 25-маркерных гаплотипов индусов (индийцев) гаплогруппы R1a1, построено по данным базы данных YSearch (2008). В выборке - 15 гаплотипов.
Дерево гаплотипов индийских R1a1 гаплотипов приведено на рис. 17.
Рис.18 Дерево 25-маркерных гаплотипов славян и индусов (индийцев) гаплогруппы R1a1, построено по данным базы данных YSearch (2008). В выборке - 30 гаплотипов. Номера гаплотипов ниже ста — индийские, выше ста — славянские.
В этих 15 гаплотипах 47 мутаций в первых 12 маркерных гаплотипах, и 44 мутации во второй панели гаплотипов, то есть всего 91 мутация во всех гаплотипах. Это дает 150 поколений, или 3,750+200 лет до общего предка по первой, 12-маркерной панели, и 152 поколения, или 3,800+200 лет по более полной, 25-маркерной панели. Как видно, по времени общий предок для индусов практически совпадает с общим предком для восточных славян.
Для более полного прояснения этого вопроса было построено сводное дерево из 30 гаплотипов - половина славян, половина индусов (рис. 18). Оказалось, что в этом случае их совместный базовый гаплотип становится полностью славянским
13-25-16-11-11-14-12-12-10-13-11-30-15-9-10-11-11-24-14-20-32-12-15-15-16
На дереве их гаплотипы тоже в значительной степени перемешаны.
В этой совместной выборке имеется 178 мутаций на тридцать 25-маркерных гаплотипов. Это дает 148 поколений, или 3,700 лет до общего предка, то есть практически совпадает со временем общего предка для славянского базового гаплотипа.
Так что общий предок и славян, и индусов жил примерно 3,700 лет назад. А вот где именно он жил - пока остается загадкой. Но загадка решается без особого труда - ну где мог жить общий предок R1a1 славян и индусов, если предки славян ушли в Индию (видимо, с Южного Урала) примерно 3600 лет назад, общий предок современных индусов гаплогруппы R1a1 жил 3,800+200 лет назад, и общий предок славян той же гаплогруппы жил 3700+200 лет назад? Ясно, что на территории современной России, либо на Южном Урале, либо в Европейской части нынешней России.
Арабские гаплотипы R1a1 Оманского залива
В литературе были опубликованы 17-маркерные гаплотипы R1a1 для 16 жителей Катара и Объединенных Арабских Эмиратов (Cadenas et al, 2008). Для расчетов я использовал только 10 маркеров, чтобы данные можно было напрямую сравнивать с другими данными по гаплогруппе R1a1, здесь приводимыми. Во всем списке есть только один гаплотип, который можно было бы считать базовым, поскольку по отношению к нему общее число мутаций, а именно 46, было минимальным (эта процедура называется «минимизацией мутаций), и в нем, соответственно, мутаций не было. Тогда вполне разумно - на первый взгляд - получается хорошее совпадение между двумя способами расчета расстояния до общего предка: ln(16/1)/0.026 = 107 поколений, и 46/16/0.026 = 111 поколений до общего предка.
Рис.19. Дерево 10-маркерных арабских гаплотипов R1a1 Оманского залива, построено по данным (Cadenas et al, 2008). В выборке — 1б гаплотипов.
Но две причины мешали сделать такой вывод. Во-первых, один базовый гаплотип - это не дело. Случайное появление в списке еще одного такого же или, напротив, «неявка» того конкретного человека драматически меняли результаты расчетов. Нельзя базировать расчеты на одной точке, хотя для исключительно предварительной «прикидки» это не возбраняется. Во-вторых, в маркерах DYS#19 и 389-1, и именно в этих двух, имелось непропорционально высокое число мутаций, и было очевидно, что там кроются два разных базовых гаплотипа. Так и оказалось.
Рис. 19 показывает, как дерево распадается на две половины. У каждой -свой базовый гаплотип:
13-25-15-11-11-14-X-Y-10-13-11-30
13-25-16-11-11-14-X-Y-10-13-11-31
Эти базовые гаплотипы различаются двумя мутациями (показано жирным шрифтом). Интересно, что каждый из них отличается на одну мутацию от базового славянского гаплотипа, но на две мутации от базового гаплотипа Доналдов:
13-25-1б-11-11-14-12-12-10-13-11-30
13-25-16-11-11-14-12-12-10-13-11-30
13-25-15-11-11-14-12-12-10-14-11-31
13-25-15-11-11-14-12-12-10-14-11-31
Так что это явно след нашего, пра-славянского крыла наших предков, не западно-европейского.
В правой верхней половине дерева 7 гаплотипов, и они содержат 13 мутаций. Это дает 77 поколений, или примерно 1900 лет от общего для них предка. Остальные 9 гаплотипов имеют 26 мутаций - кстати, и видно, что ветвь дальше отстоит от «ствола» дерева, что приводит к 125 поколениям, или 3,125 годам от общего предка. Это - времена ариев, 12-й век до нашей эры. Они уже 300-400 лет как ушли в Индию, и вот другое крыло их дошло до Аравийского моря и Персидского залива.
Гаплотипы R1a1 в Малой Азии. Анатолия.
36 десятимаркерных гаплотипов были приведены в статье (Cinnioglu et al, 2004), но среди них был маркер DYS#A7.2 (DYS#461), который не числится среди 37 маркеров стандартного набора, и поэтому был мной исключен из рассмотрения. Среди 36 гаплотипов были 5 идентичных (предположительно базовых), и все они содержали 80 мутаций. Это даст ln(36/5)/0.025 = 79 поколений, и 80/36/0.025 = 89 поколений до общего предка. Это цифры разнятся весьма заметно, особенно при том, что маркеры DYS#19 и 389-2 показывают слишком много мутаций. Видно, что по ним проходит «разлом» между двумя потенциальными сериями гаплотипов, потенциальными ветвями.
Рис.20. Дерево 9-маркерных гаплотипов R1a1 в Анатолии, построено по данным (Cinnioglu et al, 2004). В выборке — 3б гаплотипов.
Дерево гаплотипов (рис. 20) подтвердило это предположение. Оказзалось, что на дереве имеются по меньшей мере три ветви, со следующими базовыми гаплотипами:
13-25-16-10-X-Y-Z-12-10-13-11-30
13-25-15-11-X-Y-Z-12-10-13-11-30 13-25-16-11-X-Y-Z-12-11-13-11-30
Первый базовый гаплотип относится к ветви слева, состоящей из 11 гаплотипов, в которой имеются 26 мутаций. Это соответствует 103 поколениям, или 2,600 годам до общего предка. Этот базовый гаплотип отличается всего на одну мутацию от базового гаплотипа восточных славян и от «более недавнего базового гаплотипа Оманского залива» (см. выше), и на четыре (!) мутации от западно-европейского базового гаплотипа Мак-Доналдов. Опять мы видим, то Западная Европа более удалена (в отношении гаплотипов) от Ближнего Востока и Малой Азии по сравнению с гаплотипами восточных славян.
Второй базовый гаплотип был получен из 10-гаплотипной ветви, которая находится в нижней части рис. 20, и содержит 17 мутаций. Это соответствует 72 поколениям, или 1,800 годам до общего предка. Этот базовый гаплотип отличается на одну мутацию от восточно-славянского гаплотипа и на две мутации от базового гаплотипа Доналдов, и точно совпадает с «недавним базовым гаплотипом Оманского залива», который происходит от общего предка, жившего 1,900 лет назад. Похоже, что это один и тот же общий предок.
Третий базовый гаплотип самый недавний. Его ветвь, сверху справа на рис. 20, содержит 11 гаплотипов, и имеет только 12 мутаций. Это соответствует 45 поколениям, или 1,100 лет до общего предка, который жил в 9-м веке нашей эры. У этой ветви маркер DYS#439 в базовом гаплотипе имеет аллель 11, и это почти уникально для базовых гаплотипов гаплогруппы R1a1. Это, видимо, продукт относительно недавней мутации.
Гаплотипы R1a1 в на Адриатическом побережье и на Балканах
Много гаплотипов Хорватии было опубликована в статье Барак и др (Barac et al, 2003), но там не было данных по гаплогруппам. 67 девятимаркерных гаплотипов с указанием соответствующих гаплогрупп были мне высланы автором цитируемой статьи, д-ром Марьяной Pericic.
Рассмотрение гаплотипов показало, что они определенно происходят более чем от одного общего предка. Это видно и из дерева гаплотипов, приведенного на рис. 21.
Рис.21. Дерево 9-маркерных балканских гаплотипов R1a1, представленных д-ром Марьяной Pericic, Хорватия. В выборке — 67 гаплотипов.
Рис.21. Дерево 9-маркерных балканских гаплотипов R1a1, представленных д-ром Марьяной Pericic, Хорватия. В выборке — 67 гаплотипов.
|
На дереве видны по меньшей мере четыре отдельных ветви. Самая молодая ветвь, имеющая 12 гаплотипов, включает три «базовых» гаплотипа, расположенных на «стволе» на самой вершине дерева:
13-25-16-10-11-14-X-Y-Z-13-11-30
и имеет 14 мутаций. Это дает ln(12/3)/0.025 = 55 поколений, и 14/12/0.025 = 47 поколений до общего предка. С поправкой на возвратные мутации последнее число дает 48 поколений, или 1,200 лет до общего предка, который жил в 7-м веке нашей эры.
Этот гаплотип отличается только на одну мутацию от восточнославянского базового гаплотипа
13-25-16-11-11-14-12-12-10-13-11-30
который происходит от общего предка, жившего 3700 лет назад.
Широкая ветвь справа, состоящая из 27 гаплотипов, имеет базовый гаплотип
13-25-16-11-11-14-X-Y-Z-13-11-30
в точности соответствует восточно-славянскому гаплотипу, и содержит 68 мутаций. Это дает 111 поколений, или 2,800 лет до общего предка. У восточных славян этот предок старше, ему 3,700 лет.
Наконец, самая древняя ветвь слева внизу на рис. 21, дала ошеломляющие результаты. Эти 13 гаплотипов содержат 73 мутации от базового гаплотипа
13-24-15-10-12-15-X-Y-Z-13-11-29
и соответствует 287 поколениям, или 7,200 годам от общего предка. Это -самый древний общий предок, обнаруженный в гаплогруппе R1a1.
Сопоставление его с базовым восточно-славянским гаплотипом показало, что они различаются на 6 мутаций, или на 9,100 лет на 9 маркерах. Поскольку общий предок восточных славян жил 3,700 лет назад, то общий предок балканских и восточнославянских R1a1 жил 10,000 лет назад. Где он жил - остается загадкой, но скорее всего западнее восточнославянских гаплотипов. К востоку, как мы видели, гаплотипы более молодые, от русских до индийских с возрастом общего предка 3700 лет.