Темы

Австролоиды Альпийский тип Америнды Англия Антропологическая реконструкция Антропоэстетика Арабы Арменоиды Армия Руси Археология Аудио Аутосомы Африканцы Бактерии Балканы Венгрия Вера Видео Вирусы Вьетнам Гаплогруппы генетика Генетика человека Генетические классификации Геногеография Германцы Гормоны Графики Греция Группы крови Деградация Демография в России Дерматоглифика Динарская раса ДНК Дравиды Древние цивилизации Европа Европейская антропология Европейский генофонд ЖЗЛ Живопись Животные Звёзды кино Здоровье Знаменитости Зодчество Иберия Индия Индоарийцы интеллект Интеръер Иран Ирландия Испания Исскуство История Италия Кавказ Канада Карты Кельты Китай Корея Криминал Культура Руси Латинская Америка Летописание Лингвистика Миграция Мимикрия Мифология Модели Монголоидная раса Монголы Мт-ДНК Музыка для души Мутация Народные обычаи и традиции Народонаселение Народы России научные открытия Наши Города неандерталeц Негроидная раса Немцы Нордиды Одежда на Руси Ориентальная раса Основы Антропологии Основы ДНК-генеалогии и популяционной генетики Остбалты Переднеазиатская раса Пигментация Политика Польша Понтиды Прибалтика Природа Происхождение человека Психология Разное РАСОЛОГИЯ РНК Русская Антропология Русская антропоэстетика Русская генетика Русские поэты и писатели Русский генофонд Русь Семиты Скандинавы Скифы и Сарматы Славяне Славянская генетика Среднеазиаты Средниземноморская раса Схемы США Тохары Тураниды Туризм Тюрки Тюрская антропогенетика Укрология Уралоидный тип Филиппины Фильм Финляндия Фото Франция Храмы Хромосомы Художники России Цыгане Чехия Чухонцы Шотландия Эстетика Этнография Этнопсихология Юмор Япония C Cеквенирование E E1b1b G I I1 I2 J J1 J2 N N1c Q R1a R1b Y-ДНК

Поиск по этому блогу

четверг, 20 октября 2016 г.

Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии

Originally posted by mouglley_gen at Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии
Оригинал: Визуализация количества общих (IBD) сегментов у жителей Европы и Северной Азии
Этнокалькуляторы на базе Admixture, представляющие результат «просчета» генома испытуемого в виде смеси предковых компонентов, достигли уже очень хорошей точности. Однако у них есть и определенные недостатки. Во-первых, случается, что у двух разных народов пропорции смешения этих компонентов довольно близки, хотя близкого родства между ними не наблюдается. Обычно для исключения такого эффекта увеличивают число компонентов, то есть повышают детализацию. Однако при этом зачастую возрастает и «шумность», случайные отклонения от ожидаемых значений. Кроме того, бывает тяжело понять — смешение произошло в предыдущем поколении, или тысячу лет назад? Если человек происходит из двух отдаленных народов, он часто позиционируется в географической точке, находящейся между ними, и непохож ни на один из родительских народов. При более сложносоставном происхождении все запутывается еще сильнее.
Нет ли метода напрямую измерить уровень родства отдельного человека с той или иной популяцией? При такой постановке вопроса сразу приходит на ум один из возможных ответов — необходимо просчитать количество IBD (то есть идентичных благодаря общности происхождения) аутосомных сегментов.
Такой подход уже реализован в утилите от 23andMe под названием Countries of Ancestry, однако с рядом заметных недочетов. Используются результаты опроса пользователей сервиса о стране их происхождения, при этом непонятно, каков размер выборки от каждой страны. Да и детализация уровня «страна» для жителей России явно не подходит — зачем мешать в одну кучу карел, осетинов и якутов.

К счастью, эти проблемы можно частично устранить, используя научные выборки (либо коммерческие, однако набрать подобный объем из коммерческих выборок мне сейчас не по силам). С удешевлением процесса генотипирования количество имеющихся в открытом доступе выборок начало быстро расти. В первую очередь я использовал выборки, выложенные на сервере Эстонского биоцентра . Они стали основой. Часть пробелов была заполнена выборками из недавней работы Hellenthal , их пришлось переконвертировать из build 36 в build 37. Отдельное спасибо Вадиму Вереничу за помощь с несколькими выборками, хорошо увеличившими охват этнокарты.

Главной сложностью в работе оказалось сведение геномов из всех источников вместе. В каждой научной работе использовался свой набор снипов, часто с разной ориентацией. Коммерческие выборки тоже неоднородны — например, в FTDNA, как оказалось, существует четыре варианта файлов raw data со слегка отличающимся набором снипов и разной ориентацией примерно трех сотен из них. Добавьте к этому два варианта выравнивания и трансферы из 23andMe (у которой нашлись свои заморочки, например, дублирование одних и тех же снипов под разными названиями).
Конечно, хотелось использовать как можно большее количество снипов. Однако после ряда попыток придумать коэффициенты пересчета и прочее, стало понятно, что это методологически неверно. Пришлось оставить лишь те снипы, которые присутствовали во всех используемых выборках, в стандарте FTDNA, а также на чипе v3 от 23andMe. Вероятно, в будущем придется включить в просчет и новый, четвертый чип от этой компании, однако пока я решил с ним не связываться. В общем итоге осталось около 244 тысяч снипов — не так уж мало, я опасался худшего. От покрытия FTDNA это составляет чуть больше трети.
Компания FTDNA и сервис Gedmatch используют для фильтрации общих сегментов критерий наличия не менее 700 снипов. Однако для мелких сегментов он выполняется не так уж часто (из-за чего у клиентов FTDNA возникает иллюзия сравнительно небольшого количества таких сегментов). Поэкспериментировав, я остановился на рубеже в 150 снипов — менее него количество сегментов, являющихся статистическими артефактами, начало быстро расти. Основным показателем для отрисовки на этнокарте я взял общую сумму сегментов длиной более 3 сМ. Конечно, более длинные сегменты являются более четким показателем родства, однако их заметно меньше. А это значит, что их количество более подвержено случайным отклонениям. С другой стороны, более мелкие сегменты сливаются в общую кашу. Таким образом, выбранный критерий является компромиссом. При увеличении объема выборок на порядки станет возможно использовать только длинные сегменты и улавливать родство более четко.
Метод дает релевантные результаты при сравнении с выборками свыше 10 человек. Чем меньше размер выборки, тем сильнее влияние случайных отклонений. Из-за этого часть выборок я объединил вместе (например, литовцы и латыши стали балтами), часть исключил с карты. Однако некоторые все же пришлось оставить — в первую очередь это финны (2 человека), западные украинцы (6), башкиры (6) и австрийцы (4). Если для какой-то популяции значения явно выпадают из ряда соседей, всегда обращайте внимание на размер выборки, приведенный в сопроводительной таблице.
Одновременно достоинством и недостатком метода является сильное влияние «эффекта основателя», «множественного родства», «бутылочных горлышек» и т.д. За этим перечислением скрывается примерно одно и то же — когда популяция происходит от сравнительно небольшой группы людей, ее члены разделяют между собой большое количество общих сегментов. Наиболее известным примером являются евреи-ашкенази — достаточно иметь одного отдаленного предка из этого народа, чтобы получить множество генетических «кузенов». Таким образом, родство с народом, подвергшемуся такому эффекту, видно более четко. Но это же искажает общую картину — одинаковое количество генетических пересечений может означать совершенно разную степень близости в зависимости от истории популяции.
Я сравнил 26 человек из коммерческих выборок, представляющие различные популяции интересующих меня регионов, с набором из 1130 геномов, взятых из научных выборок. Результаты сведены в таблицу и частично визуализированы на картах. При интерпретации помните о вышеперечисленных искажениях!
Начнем с представителя народа, считающегося наиболее архетипичными восточноевропейцами в большинстве этнокалькуляторов. Это литовцы (картинка увеличивается по клику):

LithuanianIBD
Как видно, литовец оправдывает это звание и по количеству общих сегментов. Красное пятно закрывает большую часть Восточной Европы, в том числе и балтийских финнов. Условно говоря, на этой карте мы видим некий «базовый уровень родства» среди восточноевропейцев.
Пятно восточного финна практически совпадает по форме, однако распределение интенсивности иное:
Finnish-EastIBD
Я бы сказал, что в основном это более частный и специфичный вариант того же, что мы видим у литовца. Доказательством может служить высокий уровень пересечения с балтской выборкой. В то же время, существует и финская специфика, например, пересечение с саами, которые у литовца довольно бледные. Более яркое и пересечение со шведами. Скорее всего, здесь мы видим результат включения в состав шведов финского субстрата, поскольку с теми же норвежцами интенсивность явно ниже.
Крайней западной точкой у нас будет представитель российских немцев. На этнокалькуляторах Admixture он получается достаточно типичным представителем немецкого народа, поэтому версию о заметном влиянии на его наследственность русских можно исключить.
German_RussiaIBD
К сожалению, немецкой выборки у меня нет, поэтому Германия закрашена серым. Некоторым заменителем является Швеция, которая чуть ярче соседей. К некоторому  удивлению, французы и британцы не показали заметной общности с немцем, хотя ее уровень все же выше средневосточноевропейского. Частично это может объясняться тем, что в британской выборке лишь семь человек из 23 — англичане, остальные являются ирландцами. шотландцами и валлийцами. Пятно у восточных украинцев и южных русских также загадочно — неужели это след знаменитых готов?
Невозможно исследовать генетическое разнообразие восточноевропейцев и обойти при этом ашкенази. Поэтому я позволил себе небольшую некорректность и разместил их на карте в районе нынешней Одессы. Картинка для ашкенази из коммерческой выборки:
AshkenaziIBD
Ожидаемое ярко-красное пятно сходства с родной популяцией, остальные все довольно далеко (на втором месте получилась выборка сефардов, но ее на карте нет). Повышение у басков и греков показывает родство ашкенази со средиземноморскими популяциями, пятно у восточных украинцев и белорусов объяснимо длительным совместным проживанием. Однако любопытно совпадение с крымскими татарами и азовскими греками (нет на карте). Пожалуй, это способно подбросить немного дровишек в огонь споров о «хазарской гипотезе».
Перейдем к восточным славянам. Небольшой размер выборки западных украинцев не помешал им оказаться на первом месте у карпатского русина:
Carpathian_RusinIBD
Пятна на остальной территории получились довольно неровными. Я бы не стал делать из этого каких-то глубоких выводов о древних пересечениях карпатцев и финнов или эрзян.
Северо-восточная Беларусь:
BelarusianIBD
Украина (Полтава):
Ukrainian-PoltavaIBD
Обращает на себя внимание пересечение с поляками.
Человек смешанного происхождения — донские казаки и украинцы:
RuUa-CossackIBD
Тверь-Рязань:
Russian-CenterIBD
Как видно, балто-славянская общность улавливается всегда, в то время как более тонкие различия частично видны, частично скрываются шумом (случайными отклонениями).
Представители эрзи и мокши явно в своей основе близки балто-славянам. При этом балтийские финны никак не выделяются, а народы волго-уральского региона уже довольно далеки. Все это не является новостью для интересующихся темой людей, однако независимое подтверждение результатов показывает действенность методики.
Эрзя:
ErzyaIBD
Мокша:
MokshaIBD
Мокшанская выборка не помещена на карту из-за своего маленького размера (давала слишком большие случайные отклонения). У мокши «родная» выборка получилась заметно ближе эрзянской, у эрзи, соответственно, наоборот. Вероятно, это значит, что, несмотря на родственность двух групп, различие между ними с точки зрения разделяемой популяционной истории существенно (простыми словами, женились преимущественно внутри своего народа).
У северного русского видно родство как с балто-славянскими выборками, так и с балтийскими финнами:
Russian-NorthIBD
Наряду с этим, у русского из Пермского края ощущается влияние коми. Вероятно, с этим же связано и приближение других народов Урала:
Russian-PermIBD
В то же время, сами коми-зыряне скорее относятся к тому же «балто-славяно-финскому» кругу популяций:
KomiIBD
Обзор волжско-уральских популяций я хочу начать несколько издалека — с карты для селькупа из селения парабель Томской области. В какой-то мере он служит той же цели, что и литовец в предыдущей части:
Selkup-ParabelIBD
Пересечение с соседями по западной Сибири зашкаливает, как и положено для небольших групп с высоким уровнем генного дрейфа. Однако интересно не это, а выбросы на запад — к башкирам, удмуртам, марийцам. чувашам. Видно и повышение у саами. Таким образом, здесь мы наблюдаем распространение «уральского» генетического компонента.
Очень специфичной популяцией являются и марийцы. Уровень «эффекта ашкенази» получился намного выше, чем у самих ашкенази. Таким образом, все народы, имеющие хоть в сколько-нибудь заметной степени общих предков с марийцами, хорошо видны на карте:
MariIBD
В первую очередь это чуваши, сильно влияние у выборки казанских татар, удмуртов, манси и башкир. Вот это и есть «волжско-уральский круг популяций». Интересно, что коми и удмурты оказались в разных категориях, несмотря на языковое родство. Впрочем. как видно по карте коми-зырянина в предыдущей части, есть между ними и генетические пересечения.
100% чуваша из коммерческих выборок у меня нет, однако человек наполовину чувашского происхождения проявляет сходство как с чувашами, так и с марийцами. В отличие от предыдущей карты, чуваши у него на первом месте (это видно в таблице, поскольку картограф обрезал оба зашкаливающих значения до допустимого максимума) :
Chuvash-MokshaIBD
А вот нижегородские мишари более уместно смотрелись бы в предыдущей части заметки:
Mishar-NizhniyIBD
Родство с балто-славяно-финским кругом популяций явно более выражено. чем с волжско-уральским.
Татарин смешанного казанско-мишарского происхождения, южная часть Татарстана:
Tatar-SamaraIBD
Еще раз напомню — неправомерно на основании наиболее яркого пятна у марийцев говорить, что этот человек наиболее близок марийцам. Наличие общих предков с этим народом проявляется в разы ярче из-за «ашкенази-эффекта». То, что татарско-казанская выборка гораздо бледнее, объясняется тем, что татары — более крупный народ с высоким генетическим разнообразием.
Татарин с Урала (часть предков-башкиры):
Tatar-Bashkir-UralIBD
Как ни странно, я не просчитал ни одного «классического» казанского татарина, увлекшись краевыми случаями. Возможно, у него казанская выборка оказалась бы ярче. Эту задачу оставим на будущее.
Башкир:
BashkirIBD
Интересно продление пятна на северо-восток, к уральским народам вплоть до юкагиров.
У сибирского татарина видна общность с селькупами и марийцами. Вспоминая яркость на карте парабельского селькупа, степень этой общности не так уж и велика. Виден и вклад из монгольских степей.
Tatar-SiberianIBD
Неожиданно, у казаха количество общих сегментов с восточносибирскими популяциями оказалось выше, чем с собственно казахской выборкой:
KazahIBD
На ум приходят два объяснения — гетерогенность казахов и более высокий уровень «ашкенази-эффекта» у восточносибирских народов. Впрочем, я недостаточно владею информацией по этногеномике казахов, чтобы строить предположения.
Результаты казаха замыкают мое исследование. Не скажу, что в его результате я открыл для себя что-то сильно новое и неожиданное, однако общая картина стала более понятной и наглядной. Эксперимент мне понравился.