Темы

Австролоиды Альпийский тип Америнды Англия Антропологическая реконструкция Антропоэстетика Арабы Арменоиды Армия Руси Археология Аудио Аутосомы Африканцы Бактерии Балканы Венгрия Вера Видео Вирусы Вьетнам Гаплогруппы генетика Генетика человека Генетические классификации Геногеография Германцы Гормоны Графики Греция Группы крови Деградация Демография в России Дерматоглифика Динарская раса ДНК Дравиды Древние цивилизации Европа Европейская антропология Европейский генофонд ЖЗЛ Живопись Животные Звёзды кино Здоровье Знаменитости Зодчество Иберия Индия Индоарийцы интеллект Интеръер Иран Ирландия Испания Исскуство История Италия Кавказ Канада Карты Кельты Китай Корея Криминал Культура Руси Латинская Америка Летописание Лингвистика Миграция Мимикрия Мифология Модели Монголоидная раса Монголы Мт-ДНК Музыка для души Мутация Народные обычаи и традиции Народонаселение Народы России научные открытия Наши Города неандерталeц Негроидная раса Немцы Нордиды Одежда на Руси Ориентальная раса Основы Антропологии Основы ДНК-генеалогии и популяционной генетики Остбалты Переднеазиатская раса Пигментация Политика Польша Понтиды Прибалтика Природа Происхождение человека Психология Разное РАСОЛОГИЯ РНК Русская Антропология Русская антропоэстетика Русская генетика Русские поэты и писатели Русский генофонд Русь Семиты Скандинавы Скифы и Сарматы Славяне Славянская генетика Среднеазиаты Средниземноморская раса Схемы США Тохары Тураниды Туризм Тюрки Тюрская антропогенетика Укрология Уралоидный тип Филиппины Фильм Финляндия Фото Франция Храмы Хромосомы Художники России Цыгане Чехия Чухонцы Шотландия Эстетика Этнография Этнопсихология Юмор Япония C Cеквенирование E E1b1b G I I1 I2 J J1 J2 N N1c Q R1a R1b Y-ДНК

Поиск по этому блогу

суббота, 10 ноября 2012 г.

Веса, или относительные скорости мутаций маркеров

Урасин В.М.


 Абстракт 

Используемые в настоящее время методы построений программой Network [1] филогенетических деревьев по значениям микросателлитных маркеров Y-хромосомы не всегда точно отображают

взаиморасположение кластеров и входят в противоречие с информацией
о гаплогруппах, полученной по снипам. Для уменьшения количества ошибок были посчитаны относительные скорости мутаций 67 микросателлитных маркеров Y-хромосомы, анализируемых FTDNA [2]. На основе относительных скоростей мутаций маркеров были предложены веса для построения медианных сетей (методом median- joining [3]) в программе Network 4.5.0.0 [1]. Для расчета относительных скоростей маркеров были построены модели мутационного потока в гаплогруппах, а именно медианные сети в программе Network 4.5.0.0 [1] по 10 гаплогруппам (DE, G, I1, I2, J1, J2, NO, Q, R1a, R1b) по выборкам из 67-маркерных гаплотипов (от 70 до 350 гаплотипов в выборке).. Затем по каждой сети было посчитано относительное количество мутаций каждого маркера и полученные данные приняты за относительные скорости мутации маркеров. На примере сетей из гаплотипов гаплогруппы E, рассчитанных разными методами, показано улучшение качества построенной сети с использованием предложенных весов. 

Введение

Установление степени родства между людьми производится разными методами. Документальная генеалогия позволяет найти родственников, общий предок с которыми жил в последние 2-3 века. Иногда, получается по документальным источникам построить генеалогические деревья и большей глубины.

Но даже в этом случае не получается заглянуть дальше нескольких веков.

В последние годы для частных генеалогических исследований стал доступен анализ ДНК. Он позволяет не только определить родственность однофамильцев, но и проследить происхождение рода в глубь тысячелетий. Особый интерес представляет изучение происхождения
предков по мужской линии. В этом помогает анализ нерекомбинируемой части Y-хромосомы. 

На данный момент определено несколько сотен снипов, уникальных мутаций (unique event polymorphisms) Y-хромосомы, однозначно разделяющих людей на группы по происхождению прямой мужской линии предков (гаплогруппы). Но на данный момент, знание своей гаплогруппы позволяет узнать о происхождении и переселении своих предков только в очень давние времена: несколько тысяч лет назад, а то и десятки тысяч лет. Таким образом, между данными из документальных источников и информацией полученной из снипов есть разрыв в несколько тысячелетий. При увеличении количества изученных снипов этот разрыв будет уменьшаться. При проведении генеалогических исследований в настоящее время заполнить этот разрыв помогает анализ микросателлитных мутаций Y-хромосомы.

Микросателлитные мутации анализируются тоже в нерекомбинируемой части Y-хромосомы. Разные лаборатории используют различные наборы участков (локусов) для анализа микросателлитных мутаций. В данной работе рассматриваются данные по микросателлитным мутациям набора из 67 локусов (маркеров), используемых в лаборатории Family Tree DNA [2].

Похожесть и различие наборов значений маркеров (гаплотипов) позволяет построить филогенетические деревья, где более близкие родственники находятся на одних и тех же ветвях, а дальние родственники - на разных ветвях. Причем, филогенетические деревья могут состоять из гаплотипов людей, общий предок которых жил сто, тысячу, две тысячи, десять тысяч лет назад.

Схожесть и различие гаплотипов оценивается по совпадению и различию значений маркеров. После анализа изменяемости маркеров становится понятно, что одни маркеры мутируют чаще, чем другие. Оценке относительной частоты мутаций маркеров и посвящена эта работа.

Одним из методов построения филогенетических деревьев гаплогрупп является построение медианных сетей в программе Network [1] по микросателлитным гаплотипам представителей гаплогруппы. Зачастую исследователи удовлетворяются построением сетей с одинаковым весом мутаций маркеров. Полученные сети хорошо показывают различные кластеры в данных, но их трудно использовать для построения деревьев. В частности, взаиморасположение кластеров иногда не совпадает с информацией о подгруппах, полученных по снипам людей из исследуемой выборки. Например, на рисунке 1 видно, 
что подгруппа E1b1b1c (определенная по снипам) разделилась на два кластера, которые соединяются только через кластер подгруппы E1b1b1a. Такое может быть, только если мутация, определяющая E1b1b1c (снип M123) произошла два раза, что очень маловероятно. Второй проблемой является предполагаемая равновероятность мутаций в центре кластеров, графически отображаемая как плотная сетка и мешающая преобразовать сеть в дерево. 



Для решения обоих проблем необходимо ранжировать маркеры по вероятности их мутаций («по скорости маркеров»). Для этого необязательно знать скорости мутаций маркеров в соотнесении ко времени (абсолютные скорости маркеров), но достаточно знать, как скорости маркеров соотносятся между собой (относительные скорости маркеров).

Есть несколько способов вычисления относительных скоростей маркеров. Например, подсчет вариативности каждого маркера, для чего вычисляется среднее значение маркера и подсчитывается среднее арифметическое сумм модулей разностей между значением маркера гаплотипов выборки и средним значением. Но в данной работе  
рассматривается другой метод расчета относительных скоростей маркеров. Его суть в первичном построении сети гаплогруппы в программе Network [1] и подсчете количества мутаций каждого маркера на ребрах сети. Веса для последующих построений задаются обратно пропорционально подсчитанному количеству мутаций на ребрах первичной сети. 

На форуме сайта dnatree.ru этот метод впервые был применен Павлом Шваревым в ноябре 2007 года для подсчета весов для сетей гаплогруппы R1a [4]. В декабре 2007 года им была предпринята попытка подсчета аналогичных весов для гаплогруппы R1b [5]. Но полученные данные для гаплогрупп R1a и R1b резко отличались, что приостановило изыскания Павла Шварева в данном направлении.

Ниже проводится подсчет частоты мутаций 67 маркеров отдельно для каждой сети гаплогрупп DE, G, I1, I2, J1, J2, NO, Q, R1a, R1b, вычисляется их среднеарифметическое значение. Полученные значения можно принять за относительные скорости маркеров. В частности, их можно использовать для расчета весов мутаций маркеров для медианных сетей программы Network [1] любых гаплогрупп. Затем на примере сети гаплогруппы E показана польза применения полученных весов.

Все расчеты проводились с помощью программы Network 4.5.0.0 [1] и на основе данных о гаплотипах и их гаплогруппах, полученных с сайтов YSearch [6] и FTDNA [2].

Порядок работы:

1. Сбор данных с сайтов YSearch [6] и FTDNA [2].

2. Составление выборок гаплотипов для разных гаплогрупп.

3. Расчет сетей для каждой гаплогруппы с заданием одинаковых весов мутаций маркеров.

4. Подсчет частоты мутаций каждого маркера на ребрах полученных сетей.

5. Вычисление среднеарифметического значения частот мутаций каждого маркера в разных сетях (относительных скоростей маркеров).

6. Вычисление весов для программы Network [1].

1. Сбор данных с сайтов YSearch [6] и FTDNA [2].

Сбор данных производился в январе-феврале 2008 года. Были собраны данные всех пользователей YSearch [6] и данные из примерно тысячи фамильных и географических проектов FTDNA [2] (всего на сайте FTDNA [2] не менее 4 тысяч проектов). Было собрано около 80 тысяч  
различных записей, где один и тот же человек мог иметь несколько записей в различных проектах FTDNA [2] и несколько записей на сайте YSearch [6]. Оценочное количество разных людей представленных в выборке: около 30 тысяч. 

2. Составление выборок гаплотипов для разных гаплогрупп.

Из общей выборки были отобраны гаплотипы с 67 маркерами, используемых FTDNA [2] (около 10 тысяч записей).

Для каждой гаплогруппы и каждой подгруппы было подсчитано количество записей в нашей выборке. На один уникальный гаплотип могло приходиться несколько записей - в случае, если один и тот же человек участвует в нескольких проектах FTDNA [2] и/или имеет запись в базе YSearch [6] (иногда несколько записей).

Было принято, что подгруппа выделяется в отдельную выборку, если количество записей с указанием этой подгруппы более 100 (исключение было сделано для гаплогруппы Q с 73 записями). Если по этому критерию в составе родительской подгруппы только у одной дочерней подгруппы была отдельная выборка, то анализировалась выборка родительской подгруппы в целом. Например, в общей выборке было 207 записей R1b1b2a2e, но ни у одной из других подгрупп R1b1b2a2 (R1b1b2a2a..R1b1b2a2h) не было более 100 записей. Следовательно, вместо выборки R1b1b2a2e было решено анализировать всю выборку R1b1b2a2. Рассуждая аналогичным образом, было решено не анализировать отдельные выборки R1b1b2a2, R1b1b2a и так далее, но выделить всю R1b в отдельную выборку. Всего было выделено 10 отдельных выборок:

DE - 183 записи, 153 уникальных 67-маркерных гаплотипа 
G - 299 записей, 205 уникальных 67-маркерных гаплотипов   
I1 - 1071 запись, 762 уникальных 67-маркерных гаплотипа   
I2 - 529 записей, 349 уникальных 67-маркерных гаплотипов 
J1 - 145 записей, 77 уникальных 67-маркерных гаплотипов 
J2 - 341 запись, 225 уникальных 67-маркерных гаплотипов 
NO - 187 записей, 83 уникальных 67-маркерных гаплотипа 
Q - 73 записи, 49 уникальных 67-маркерных гаплотипов 
R1a - 680 записей, 394 уникальных 67-маркерных гаплотипа 
R1b - 4994 записи, 3582 уникальных 67-маркерных гаплотипа. 

Следующим шагом были усечены большие выборки для обеспечения высокой скорости расчета медианных сетей. В выборках I1, R1b было оставлено около 300 гаплотипов, отобранных случайным образом. Остальные выборки оставлены без изменений.


3. Расчет сетей для каждой гаплогруппы с заданием одинаковых весов мутаций маркеров.

Для каждой выборки были рассчитаны медианные сети в программе Network [1], значение ε было установлено равным 0.

4. Подсчет частоты мутаций каждого маркера на ребрах полученных сетей.

Для каждой сети было подсчитано общее количество мутаций маркеров на ребрах сети (отрезка между различными гаплотипами выборки и различными промежуточными гаплотипами, медианными векторами) и доля мутаций каждого маркера в общем количестве мутаций (относительная частота мутации). Например, в сети по выборке 153 гаплотипов из гаплогруппы DE в маркере DYS 393 произошло 27 мутаций из общего количества 2500 тысяч мутаций во всех маркерах. Следовательно, [относительная частота мутации маркера DYS 393] =27/2500 = 0,0108. Полученные данные приведены в таблице 1




5. Вычисление среднеарифметического значения относительных частот мутаций каждого маркера в разных сетях (относительных скоростей маркеров). 

Полученные среднеарифметические значения относительных частот мутаций маркера в разных гаплогруппах представляют собой точечную оценку относительных скоростей маркеров. Доверительные интервалы не были вычислены в данной работе. Среднеарифметические значения относительных частот мутаций маркеров приведены в таблице  2


6. Вычисление весов для программы Network [1].

Разброс относительных частот мутаций лежит в пределах от 0,00004 (DYS 472) до 0,0581 (CDY b). Т.е. более чем в 1400 раз. В то время как в программе Network [1] нам доступно задание весов только в диапазоне от
1 до 99. Поэтому представляется целесообразным задавать веса по формуле: 

Вес = 99, если 0,1/[частота мутации маркера] > 99

Вес = Округл(0,1/[частота мутации маркера]), если 0,1/[частота мутации маркера] <= 99

В этом случае только очень большие веса оказываются скорректированы в меньшую сторону, а именно веса маркеров DYS 426 и DYS 472, которые бы по формуле 0,1/[частота мутации маркера] имели веса 107 и 2500 соответственно. Но при построении медианных сетей отдельных гаплогрупп будут наблюдаться только единичные мутации этих двух маркеров и уменьшение их весов до 99 будет сказываться незначительно.

Полученные веса приведены в таблице 3.



Пример использования рассчитанных весов.

Для примера использования весов взяты 152 уникальных 67- маркерных гаплотипа гаплогруппы E из той же выборки, по которой рассчитывалась частота мутаций маркеров. Сначала была построена медианная сеть с использованием равных весов, затем построена медианная сеть с использованием рассчитанных выше весов. В обоих случаях строилась медианная сеть со значением ε равным 0.

Результаты приведены на рисунках 1 и 2. Как видно на рисунке 1 при использовании одинаковых весов подгруппа E1b1b1c разделилась на два кластера, связанных между собой через подгруппу E1b1b1a. Такая топология кластеров противоречит классификации подгрупп. Между любыми двумя гаплотипами одной подгруппы должен быть путь, не проходящий ни через один гаплотип других подгрупп.

В то же время, на рисунке 2 оба кластера E1b1b1c объединяются в один и отделяются от кластера E1b1b1a за счет увеличения весов медленных маркеров DYS 590, DYS 640, DYS 492.



Исходя из полученных весов, можно разделить маркеры на три группы по частоте их мутаций.

1. Медленные маркеры и их веса (в порядке возрастания частоты и скорости, или, иначе говоря, уменьшения веса): DYS 472 - 99, DYS 426 - 99, DYS 590 - 83, DYS 436 - 71, DYS 578 - 58, DYS 455 - 51, DYS 450 - 50, DYS 490 - 45, DYS 454 - 30, DYS 640
- 30, DYS 641 - 29, DYS 492 - 28, DYS 395S1a - 27. 

2. Средние маркеры и их веса: DYS 531 - 23, DYS 594 - 21, DYS 392
- 21, DYS 395S1b - 19, DYS 438 - 19, DYS 459a - 19, DYS 437 - 18, DYS 565 - 18, DYS 568 - 17, DYS 388 - 14, DYS 459b - 13, DYS 617 - 13, YCA IIa - 13. 

3. Быстрые маркеры: и их веса: DYS 572 - 11, DYS 425 - 11, DYS 393 - 10, DYS 487 - 10, DYS 537 - 10, DYS 448 - 10, YCA IIb - 9, DYS 511 - 9, DYS 391 - 9, DYS 389-1 - 7, DYS 406S1 - 7, DYS 19/394 - 7, GATA H4 - 7, DYS 464a - 6, DYS 390 - 6, DYS 520 - 6, DYS 413b - 6, DYS 607 - 6, DYS 460 - 6, DYS 385a - 6, DYS 464c - 5, DYS 464d - 5, DYS 439 - 5, DYS 413a - 5, DYS 464b - 5, DYS 442 - 5, DYS 444 - 4, DYS 447 - 4, DYS 557 - 4, DYS 446 - 4, DYS 385b - 4, DYS 456 - 4, DYS 389-2 - 4, DYS 458 - 3, DYS 481 - 3, DYS 534 - 3, DYS 576 - 2, DYS 570 - 2, DYS 449 - 2, CDY a - 2, CDY b - 2.

Должен отметить, что все расчеты проводились на неподготовленных данных с сайтов FTDNA [2] и YSearch [6]. Не было проведено проверки данных с сайта YSearch [6], где возможны ошибки ручного ввода пользователями значений маркеров, в том числе, не сделанные пользователями корректировки значений маркеров, полученных в иных, чем FTDNA лабораториях. Кроме того, гаплотипы с делецией маркера DYS 425 рассматривались наравне с гаплотипами без делеции маркера DYS 425, что приводило к тому, что делеция маркера принималась равной 10-15 обычным мутациям маркера DYS 425, что представляется неправильным.

Особенности очистки и подготовки данных YSearch [6] и FTDNA [2] для построения гаплотипных медианных сетей Network [1] будут рассмотрены в следующей публикации.

Заключение:

На основе медианных сетей различных гаплогрупп рассчитанных в программе Network 4.5.0.0 [1] по данным сайтов YSearch [6] и FTDNA [2] были получены средняя частота мутаций маркеров и рассчитаны веса мутаций маркеров для построения
медианных сетей произвольных гаплогрупп. На основе полученных весов маркеры были разделены по скорости мутации на медленные, средние и быстрые маркеры. Полученные веса также можно использовать для вычисления времени до общего предка методом подсчета количества мутаций в выборке и в других методах ДНК- генеалогии. Прежде всего, для более точного построения филогенетических деревьев программой Network [1]. 

Благодарю Павла Шварева за обучение использования программы Network и демонстрацию метода расчета весов для медианных сетей гаплогруппы R1a. Также выражаю благодарность Анатолию Клесову за введение в общую парадигму ДНК- генеалогии.

Использованные материалы:

1. Медианные сети строились на программе Network 4.5.0.0, http:/ / www.fluxus-technology.com.

2. Опубликованные гаплотипы в фамильных, географических и гаплогруппых проектах на сайте Family Tree DNA, http:/ /www.familytreedna.com.

3. Bandelt H.-J., Forster P., Rohl A. Median-joining networks for inferring intraspecific phylogenies // Mol. Biol. Evol. 1999. V. 16. P. 37-48.

4. Материалы форума сайта dnatree.ru, сообщение Павла Шварева в теме «Относительные скорости маркеров» http://dnatree.ru/index.php?name=Forums&file=viewtopic&p=9537 #9537.

5. Материалы форума сайта dnatree.ru, сообщение Павла Шварева в теме «Относительные скорости маркеров» http://dnatree.ru/index.php?name=Forums&file=viewtopic&p=10070 #10070.

Материалы открытой базы данных YSearch, http:/