Оригинал взят у
galicarnax в Homology? Hummology!
galicarnax в Homology? Hummology!
Гомология классически определялась в биологии как "сходство, обусловленное происхождением от общего предка". В противоположность аналогии - сходству, не обусловленному происхождением от общего предка.
Но в сравнительной геномике это понятие расширилось. Во-первых, появилось деление гомологичных генов на ортологи, паралоги и ксенологи, в зависимости от того, каким образом был разделен общий предок -грудинка, огузок, через видообразование, внутривидовую дупликацию или горизонтальный перенос (кстати, слово ксенология имеет второе, очень интересное значение). Во-вторых (это меня и сподвигло на написание), понятие гомологии расширилось вплоть до отбрасывания самого сходства. Остался важным лишь факт происхождения от общего предка. Скажем, по определению недавно почившего в бозе Уолтера Фитча, "Homology is the relationship of two characters that have descended, usually with divergence, from a common ancestral character". Т.е. на первом месте - связь через общего предка, а сходство вообще явно не упоминается, лишь неявно через дивергенцию.
Таким образом, два гомологичных белка могут иметь совсем непохожие аминокислотные последовательности, если они "дивергировались" достаточно долго. И наоборот - два белка с похожими последовательностями могут быть негомологичными, в результате эволюционной конвергенции - это аналоги, а не гомологи (но таких случаев среди белков известно очень мало, если известно вообще).
Не в этом ли причина той частой ошибки, когда говорят, что "эти две последовательности гомологичны на столько-то процентов"? Говорящие так по инерции думают о схожести, тогда как ее уже нет в определении. А общий предок, конечно, либо есть, либо его нет, никаких процентов. (Можно было бы, кстати, тогда говорить и "аналогичны на столько-то процентов" о похожих последовательностях, не имеющих общего предка).
Но я вижу в таком определении проблемы поглубже. Если точнее - я вообще не вижу смысла в таком определении. Так как с ним получается, что:
1) вероятность того, что две любые нуклеотидные последовательсноти, взятые из двух любых сколь угодно удаленных друг от друга организмов, являются гомологичными, близка к 100%.
2) два белка могут быть гомологичными, даже если они никогда в эволюционной истории не имели сколько-нибудь схожую последовательность (или даже схожие участки).
Странным образом, я нигде не встречал упоминания этих двух проблем, даже среди 15 проблем, связанных с определением гомологии у самого Фитча.
А почему так получается?
1) Общепризнанно, что все организмы произошли от Луки (причем тут не так важно, был ли этот предок единичным организмом или протоклеточной коммуной вёзевского типа). Вместе с тем, не известен никакой другой механизм расширения генетического материала, кроме вставки уже имеющегося материала (через внутригеномные дупликации у эукариот и горизонтальный перенос у прокариот). Поэтому любая нуклеотидная последовательность в любом организме имеет предка в Луке. Также общепризнанно, что геном Луки был достаточно похож на прокариотический, т.е. размер его вряд ли был больше нескольких миллионов оснований. И вот из такого маленького "окошка" вылезли все нынешние геномы.
- Но позвольте, - возразит читатель. - Даже если так. Вероятность того, что любые две нуклеотидные последовательности длиной, скажем, по 100 bp из двух современных организмов "спроецируются" на одну и ту же предковую последовательность в геноме Луки мала, даже если геном Луки был длиной всего в 1 Mbp. Она равна примерно 10-4!
Во-первых, вряд ли механизм расширения генетического репертуара радикально изменился при появлении Луки. Наверняка геном до-Луки также разрастался вставками дубликатов. В принципе, мыслима даже ситуация, когда все нуклеотидные последовательности произошли от одного-единственного репликатора длиной в десятки или сотни букв (помните китайский вариант объяснения второго правила Чаргаффа?).
Во-вторых, вряд ли можно спроецировать любую современную нуклеотидную последовательность на геном Луки. За прошедшее время было столько геномных перестроек, что проецировать можно разве что по крохам. Первый кусочек спроецируется в одно место генома Луки, второй кусочек - в другое и т.п. Такой винегрет. И вероятность того, что несколько одних и тех же кусочков из Луки спроецируются в две сравниваемые последовательности, не так мала. Хотя при этом гомология между двумя генами становится еще запутаннее. Это соотносится с "recombination problem" из списка Фитча. Если бы можно было подсчитать число общих кусочков и их длину, то можно было бы уже с основанием заявить, что две последовательности на столько-то процентов гомологичны!
2) Забудем Луку. Ситуация остается запутанной, даже если мы остаемся в рамках "здесь и сейчас". Известны случаи перекрывания рамок считывания. Например, у фага phi-X174 один белок кодируется в рамке считывания, находящейся целиком в кодирующей области другого гена. Спрашивается - гомологичен ли меньший белок некоторому учатску большего белка? Схожести у этих белков нет и никогда не было, но они происходят от одной и той же предковой нуклеотидной последовательности (два белка не могут произойти от одного предкового белка напрямую). Но важно то, каким образом эта одна и та же последовательность считывается. Если бы использовалось классическое определение гомологии с упоминанием сходства, неоднозначности бы здесь, наверное, не было.
Что скажете, господа биологи? Буратино был тупой, или одно из двух?
Но в сравнительной геномике это понятие расширилось. Во-первых, появилось деление гомологичных генов на ортологи, паралоги и ксенологи, в зависимости от того, каким образом был разделен общий предок -
Таким образом, два гомологичных белка могут иметь совсем непохожие аминокислотные последовательности, если они "дивергировались" достаточно долго. И наоборот - два белка с похожими последовательностями могут быть негомологичными, в результате эволюционной конвергенции - это аналоги, а не гомологи (но таких случаев среди белков известно очень мало, если известно вообще).
Не в этом ли причина той частой ошибки, когда говорят, что "эти две последовательности гомологичны на столько-то процентов"? Говорящие так по инерции думают о схожести, тогда как ее уже нет в определении. А общий предок, конечно, либо есть, либо его нет, никаких процентов. (Можно было бы, кстати, тогда говорить и "аналогичны на столько-то процентов" о похожих последовательностях, не имеющих общего предка).
Но я вижу в таком определении проблемы поглубже. Если точнее - я вообще не вижу смысла в таком определении. Так как с ним получается, что:
1) вероятность того, что две любые нуклеотидные последовательсноти, взятые из двух любых сколь угодно удаленных друг от друга организмов, являются гомологичными, близка к 100%.
2) два белка могут быть гомологичными, даже если они никогда в эволюционной истории не имели сколько-нибудь схожую последовательность (или даже схожие участки).
Странным образом, я нигде не встречал упоминания этих двух проблем, даже среди 15 проблем, связанных с определением гомологии у самого Фитча.
А почему так получается?
1) Общепризнанно, что все организмы произошли от Луки (причем тут не так важно, был ли этот предок единичным организмом или протоклеточной коммуной вёзевского типа). Вместе с тем, не известен никакой другой механизм расширения генетического материала, кроме вставки уже имеющегося материала (через внутригеномные дупликации у эукариот и горизонтальный перенос у прокариот). Поэтому любая нуклеотидная последовательность в любом организме имеет предка в Луке. Также общепризнанно, что геном Луки был достаточно похож на прокариотический, т.е. размер его вряд ли был больше нескольких миллионов оснований. И вот из такого маленького "окошка" вылезли все нынешние геномы.
- Но позвольте, - возразит читатель. - Даже если так. Вероятность того, что любые две нуклеотидные последовательности длиной, скажем, по 100 bp из двух современных организмов "спроецируются" на одну и ту же предковую последовательность в геноме Луки мала, даже если геном Луки был длиной всего в 1 Mbp. Она равна примерно 10-4!
Во-первых, вряд ли механизм расширения генетического репертуара радикально изменился при появлении Луки. Наверняка геном до-Луки также разрастался вставками дубликатов. В принципе, мыслима даже ситуация, когда все нуклеотидные последовательности произошли от одного-единственного репликатора длиной в десятки или сотни букв (помните китайский вариант объяснения второго правила Чаргаффа?).
Во-вторых, вряд ли можно спроецировать любую современную нуклеотидную последовательность на геном Луки. За прошедшее время было столько геномных перестроек, что проецировать можно разве что по крохам. Первый кусочек спроецируется в одно место генома Луки, второй кусочек - в другое и т.п. Такой винегрет. И вероятность того, что несколько одних и тех же кусочков из Луки спроецируются в две сравниваемые последовательности, не так мала. Хотя при этом гомология между двумя генами становится еще запутаннее. Это соотносится с "recombination problem" из списка Фитча. Если бы можно было подсчитать число общих кусочков и их длину, то можно было бы уже с основанием заявить, что две последовательности на столько-то процентов гомологичны!
2) Забудем Луку. Ситуация остается запутанной, даже если мы остаемся в рамках "здесь и сейчас". Известны случаи перекрывания рамок считывания. Например, у фага phi-X174 один белок кодируется в рамке считывания, находящейся целиком в кодирующей области другого гена. Спрашивается - гомологичен ли меньший белок некоторому учатску большего белка? Схожести у этих белков нет и никогда не было, но они происходят от одной и той же предковой нуклеотидной последовательности (два белка не могут произойти от одного предкового белка напрямую). Но важно то, каким образом эта одна и та же последовательность считывается. Если бы использовалось классическое определение гомологии с упоминанием сходства, неоднозначности бы здесь, наверное, не было.
Что скажете, господа биологи? Буратино был тупой, или одно из двух?