Являясь, пожалуй, самой удивительной особенностью всех геномов – от вирусных до хомосапиенсных, - этот феномен по неведомой мне причине до сих пор остается либо недооцененным, либо вообще незамеченным даже среди эволюционных биологов и генетиков (если о нем и знают, то не в полном объеме - только о равенстве мононуклеотидов). В учебниках оно все еще не упоминается, а статей, посвященных ему, можно насчитать всего с два десятка за последние 15 лет. Неудивительно поэтому, что я случайно открыл это правило сам, а потом узнал, что оно уже открыто :) Более того, оно было переоткрыто не раз: вот первое упоминание универсальности феномена, а вот второе, через 8 лет, без ссылки на первое.
Теперь по порядку.
Первое правило Чаргаффа
В 1950-1952 гг. Чаргафф с сотрудниками проводил хроматографические исследования ДНК (уже было известно, что в состав ДНК входят четыре типа нуклеотида, но о спирали еще не знали). Результатом исследований стало первое правило Чаргаффа: в молекулах ДНК количество тимина (T) равно количеству аденина (A), а количество гуанина (G) равно количеству цитозина (C). Иногда можно встретить заявление, что первое правило Чаргаффа было объяснено в модели Уотсона и Крика. Но вернее сказать так: это правило явилось одним из ключевых результатов, на который опирались Уотсон и Крик при построении своей модели. Таким образом, если T и A, также как C и G, в целой молекуле ДНК идут всегда парами, то, разумеется, их количества будут одинаковы. Модель Уотсона-Крика прошла все испытания, и первое правило Чаргаффа быстро нашло свое объяснение. Очевидным исключением из него является однонитевая ДНК некоторых вирусов (другие организмы с однонитевым геномом науке неизвестны).
Лирическое отступление (читать не обязательно)
Эрвин Чаргафф |
Занимательный отрывок из очерка Чаргаффа “Building the Tower of Babble” (1977):
«Две недели спустя,— пишет Уотсон в своей книге “Двойная спираль”,— мы с Чаргаффом скользнули взглядом друг по другу в Париже, на Международном биохимическом конгрессе. Мы встретились во дворе Сорбонны, и только едва заметная сардоническая усмешка показала, что Чаргафф меня узнал».
Поскольку у меня в памяти удерживаются, к сожалению, лишь всякие пустяки, я действительно припоминаю встречу на биохимическом конгрессе 1952 года и неуклюжего молодого человека. Правда, мое настроение в тот момент вряд ли можно было назвать сардоническим: просто я разыскивал уборную, но какую бы дверь ни открывал, обязательно оказывался в какой-нибудь аудитории, всякий раз украшенной одним и тем же большим портретом кардинала Ришелье.
Когда в «Двойной спирали» заходит речь обо мне, то автор обычно употребляет эпитеты «саркастический» или «сардонический». На самом же деле после первой встречи в Кембридже с этой парой энтузиастов ко мне больше подошло бы определение «озадаченный»: я действительно был озадачен при виде двух человек, которые пытаются уложить нуклеотиды в спираль и рассуждают о ее шаге (двойной эта спираль стала, кажется, только после того, как я рассказал им о наших результатах), не потрудившись узнать строение соединений, из которых эта спираль должна состоять. Ужас, в который привела меня такая безграничная отвага, поймет лишь тот, кто припомнит, что в то время молекулярной биологии еще не существовало. Это сейчас в науке принято считать, что выходить за пределы своей специальности и своей компетенции полезно, и многим удается проглотить больше, чем они откусили. А тогдашнее мое отношение к этой затее правильнее было бы назвать «лаконическим», потому что, уезжая из Кембриджа, я записал для памяти: «Два бродячих торговца в поисках спирали».
Второе правило Чаргаффа
Спустя 16 лет после обнаружения первого правила, Чаргаффу удалось разделить две нити ДНК у бактерии Bacillus subtilis и проанализировать нуклеотидный состав на этот раз уже не целой молекулы ДНК, а ее отдельных нитей.
Суть второго правила Чаргаффа так же проста, как и первого. Собственно, второе правило и есть первое правило, только в применении к единичной нити ДНК. То есть оно гласит, что в отдельной нити ДНК количество A ≈ количеству T, количество G ≈ количеству C.
На самом деле, из работы Чаргаффа следовало только то, что внутри одной нити ДНК сумма A + C равна сумме T + G. Кроме того, у него речь идет о ДНК конкретной бактерии. Первые публикации, обращающие внимание на универсальность феномена в вышеуказанном определении, появились лишь в 90-х годах, когда анализ проводился уже прямым подсчетом оснований в секвенированных последовательностях, а не хроматографически.
В отличие от первого правила, в котором числа комплеменатрных оснований в двойной спирали ДНК равны точно, равенства во втором правиле приближенные. Насколько эти равенства нарушены – зависит от длины анализируемого участка. Для целой хромосомы высших эукариот ошибка в равенствах A ≈ T, G ≈ C составляет сотые доли процента, иногда еще меньше. Что касается меньших участков генома, то точность равенств держится на длинах до 70-100 тысяч пар оснований – независимо, кодирующие там области или нет, - а дальше начинает спадать. На длинах от десятков тысяч до одной тысячи правило еще держится, хотя уже с большей ошибкой, а на длинах в сотни пар оснований и меньше оно уже практически не наблюдается.
Как выяснилось, правило это универсальное. Ему подчинены геномы практически всех организмов – вирусов, бактерий, архей, эукариот. Исключениями из него явились лишь геномы некоторых органелл (особенно митохондрии позвоночных), геномы вирусов с однонитевой ДНК и геномы всех РНК-вирусов. Но я коснусь этого дела подробнее позже.
Почему правило не тривиальное? Ведь если сгенерировать длинную случайную последовательность из четырех оснований, то в ней в силу статистики будет всегда примерно A ≈ T, G ≈ C. Да, но в ней также всегда будет A ≈ C, G ≈ T и A ≈ G, T ≈ C. То есть в чисто случайной последовательности количества всех четырех нуклеотидов будут примерно равны. Но в реальных геномах не так. Там обычно либо так:
либо так:
Геномы с почти равным распределением оснований редки. Забавно, что именно такой нетипичный геном имеет самый распространенный модельный организм – кишечная палочка:
Почему у одних организмов %CG выше %AT, а у других наоборот – отдельная тема. Скажу только, что здесь тоже не все ясно.
Больше всего во втором правиле удивляет то, что ему нет дела до генов. Оно выполняется в любой части генома - и там, где кодирующих последовательностей нет совсем, и там, где их много. Приведу аналогию. Вам нужно написать осмысленный текст - сочинение страниц на 10, - но так, чтобы во всем тексте количество букв “а” равнялось количеству букв “б”, количество “в” равнялось количеству “г” и т.п.
Но и это покажется пустяком, если учесть, что второе правило Чаргаффа – частный случай более общего правила – симметрии нитей ДНК по олигонуклеотидному составу.
Техническое отступление (для чайников)
Олигонуклеотид – любая небольшая последовательность нуклеотидов. Например: AGTTCAC, CA, GAT, СССССС. Один нуклеотид – частный случай олигонуклеотида с длиной единица, поэтому он называется еще мононуклеотидом. Если оснований два – динуклеотидом, три – тринуклеотидом, и т.п. А в общем случае – олигонуклеотидом.
У каждого олигонуклеотида есть комплементарный напарник. В случае мононуклеотидов все просто – это пары A и T, C и G. Будет ли комплементарным напарником для динуклеотида AC динуклеотид TG? Нет. Дело в том, что у нитей ДНК (и РНК) есть выделенное направление чтения – от 5' к 3'. Процессы транскрипции и репликации ДНК, а также трансляции РНК всегда идут в этом направлении. Это правило одностороннего считывания соблюдается в клетках настолько строго, что им приходится жертвовать простотой процесса репликации. Было бы проще, если бы нити ДНК реплицировались в одну сторону непрерывно. Но нет – в двух нитях направления чтения противоположны, и правило 5' -> 3' позволяет непрерывно реплицироваться только одной нити, в то время как другая реплицируется в обратном направлении кусками, которые потом сшиваются.
Итак, у двух нитей в ДНК направления чтения противоположны. Рассмотрим такой участок ДНК:
5' => ATCTGACG => 3'
3' <= TAGACTGC <= 5'
Если в верхней нити выделить тринуклеотид ATC (красный цвет), то в том же месте на второй нити будет GAT, с учетом направления чтения. То есть, чтобы получить олигонуклеотид, комплементарный заданному, нужно не просто преобразовать его по правилу A <=> T, G <=> C, но еще и развернуть в обратном порядке. Обратите внимание, что олигонуклеотиды с четной длиной могут быть самокомплементарными. В случае динуклеотидов их четыре – AT, TA, GC, CG. На приведенном выше примере синим цветом выделен динуклеотид CG – видно, что он повторяет себя и сверху, и снизу.
http://galicarnax.livejournal.com/17558.html
Симметрия ДНКовых цепочек
К концу 90-х годов было уже достаточно секвенированных геномов. Тогда и обнаружилось, что равенство нуклеотидов – это частный случай общего закона, который гласит: в одной цепочке ДНК находится примерно равное количество комплементарных нуклеотидов, динуклеотидов, тринуклеотидов и т.д. до олигонуклеотидов длиной 10-15 оснований. Причем точность равенств постепенно уменьшается с увеличением длины олигонуклеотидов.
Вот пример для случая динуклеотидов. Это распределение дублетов в 10-ой хромосоме человека (распределения в других хромосомах H.Sapiens практически не отличаются от этого).
Комплементарные дублеты расставлены парами - лучше видно равенство их количеств. Последние четыре дублета самокомплементарные.
Универсальность
Как я уже говорил, второе правило универсально – ему строго подчинены все прокариоты и эукариоты, а также вирусы, содержащие двунитевую ДНК (dsDNA). Лишь геномы некоторых органелл, маленькие плазмиды (в средних и больших плазмидах правило работает) и все вирусы, кроме dsDNA, не обнаруживают этого правила. Так обычно утверждается в имеющихся немногочисленных публикациях.На самом деле, правилу подчинены абсолютно все геномы, если расширить статистику. Возьмем, например, ssDNA-вирусы (с одноцепочечной ДНК). Типичный размер их генома – 2-4 тыс. оснований. На таких маленьких интервалах правило выполняется плохо в любых организмах (см. часть 1). Но выловить его в вирусах все же можно. Для этого 4 нуклеотида комбинируем попарно тремя возможными способами (AT:GC, AG:TC, TG:AC), и посчитаем, в каком из этих случаев суммарная разница внутри обеих пар будет наименьшей. Ответ таков: в подавляющем большинстве случаев всех ssDNA-, ssRNA- и dsRNA-вирусов наименьшая разница наблюдается в случае AT:GC. Более того, некоторые однонитевые вирусы (напр., Human rhinovirus, Cherry virus A, Culex pipiens densovirus, Diatraea saccharalis densovirus) удовлетворяют второму правилу ненамного хуже других геномов (ошибка около процента).
По всей видимости, в этих геномах правило нарушается (а точнее, выполняется плохо) не потому, что они однонитевые или РНК-овые, а потому, что они маленькие. Но нужно заметить, что в невирусных геномах на этих же длинах правило выполняется все же точнее (в среднем).
То же самое касается маленьких плазмид и даже вироидов. Последние имеют размер 300-400 оснований, и в большинстве из них наименьшая разница также относится к парам AT:GC.
Гипотезы
1. Когда была известна только мононуклеотидная симметрия, было высказано мнение, что она обуславливается какой-то особенностью точечных мутаций. Но когда правило обобщилось на случай олигонуклеотидов, этот вариант отпал.
2. Для объяснения общего правила была предложена гипотеза, объясняющая его комплементарным спариванием оснований в одной нити ДНК. Такие участки имеются, например, в тРНК-овых генах - в молекулах тРНК из них образуются шпильки. Другой пример - образование крестообразных структур в молекуле сверхспирализованной ДНК. Но эта гипотеза продержалась тоже недолго – в геномах шпильки, конечно, обнаруживаются, но их слишком мало, чтобы объяснить высокую точность второго правила. Такое объяснение, пожалуй, применимо лишь к геномам вироидов – там действительно из одной нити, по-видимому, образуется вторичная структура через комплементарные участки в одной и той же цепи.
3. Гипотеза инверсий. Эта гипотеза существует в двух вариантах: инверсии с дупликацией и просто инверсии. В первом случае все очень просто – участок ДНК копируется и копия вставляется в другом месте в перевернутом виде, т.е. та последовательность, которая в оригинале находится на первой нити, в копии будет находиться на второй нити, и наоборот. Очевидно, что если такого рода перестройки будут происходить в хромосоме повсеместно, со временем вся последовательность будет удовлетворять второму правилу все лучше и лучше, т.к. в обеих цепях будут накапливаться одинаковые последовательности. Правда, геном при этом будет сильно разбухать.
На самом деле, дупликации не обязательны: инверсии сами по себе приведут к такому же эффекту. Допустим, первоначально на одной нити находится больше оснований A, чем T. Следовательно, на второй находится больше T, чем A. Случайная инверсия приведет к тому, что избыточные на первой нити A-основания перейдут на вторую нить, где их было мало, и в то же время избыточные T-основания со второй нити перейдут на первую. Подробно об этой гипотезе можно почитать на сайте одного из ее авторов. Там есть поясняющие анимированные рисунки.
В общем-то, звучит правдиво. Но немало вопросов возникает и здесь.
- Выше я указал, что вирусные однонитевые геномы также подчинены второму правилу, некоторые с хорошей точностью. Очевидно, что вариант инверсий к ним неприменим. Но тут нужно вспомнить о гипотезах происхождения вирусов. Считается, что некоторые из них произошли от транспозонов (правда, другие считают наоборот - что транспозоны произошли от вирусов). Так как транспозоны - часть клеточного генома, то в них могут содержаться следы второго правила. Но, насколько мне известно, если происхождение вирусов и связывают напрямую с клеточными организмами, то далеко не всех.
- Из математической модели инверсий следует, что количества комплементарных оснований асимптотически стремятся к среднему значению их первоначальных значений. Если в первичном геноме в одной нити было Na0 нуклеотидов A и Nt0 нуклеотидов T, то со временем их количества будут всё ближе подходить к значению (Na0+Nt0)/2. Здесь нужно вспомнить, что практически во всех геномах имеется свой перекос между AT- и GC-содержанием, т.е. между теми самыми первоначальными средними. Перекос этот, по всей видимости, оптимален для данного организма (в частности, %GC коррелирует с аэробностью/анаэробностью организма). Заранее организм не знает, к какому проценту GC приведет отбор, и не выставляет начальные содержания нуклеотидов так, чтобы их средние совпали с тем, что нужно будет в будущем. Если же к оптимальному проценту GC приводят точечные мутации под действием отбора, то почему они, приведя к огромному перекосу между AT- и GC-содержанием, сохранили высокую точность второго правила, в том числе для олигонуклеотидов?
- Если инверсия затрагивает кодирующий участок, у нее огромные шансы быть отсеянной отбором. Но в нынешних прокариотах кодирующие участки занимают 85-90% генома, т.е. у них инверсия почти всегда затронет какой-либо ген.
- Не совсем понятно, как соотносится это объяснение с тем фактом, что частоты встречаемости олигонуклеотидов примерно одинаковы не только для всех хромосом данного организма, но и для любых достаточно длинных ( ~ 1/20 часть хромосомы и более) участков генома. В начале страницы приведено распределение динуклеотидов в 10-й хромосоме человека. Примерно тот же профиль будет иметь любой достаточно длинный участок любой хромосомы H.Sapiens. Соответственно, профиль всего генома будет тоже таким же. Профиль дрозофилы будет другим, но он будет один и тот же для всех ее хромосом и их отдельных участков (была даже идея рассматривать эти профили как“геномную подпись” организмов). Достаточно ли для этого, чтобы инверсия сопровождалась транспозицией? Если да, то вероятность закрепления такого события еще меньше, чем просто локальной инверсии (в одном месте удаляется нужное, в другом вставляется ненужное).
- Многие кодирующие участки, особенно большие, сами по себе проявляют второе правило с той или иной точностью. Трудно представить эволюцию гена путем инверсий его кусочков.
4, Последняя из известных мне гипотез появилась два года назад (Zhang & Huang, 2008). Cтатья написана на китайском английском и по-китайски обстоятельна - Жанг и Хуанг не поленились расписать в ней названия четырехсот проанализированных бактерий, почти на 4 страницы, через запятую.
Если гипотеза инверсий утверждает, что второе правило выточилось в течение эволюции, то китайская гипотеза гласит прямо противоположное – второе правило является пережитком первых геномов, а инверсии в лучшем случае поддерживают его от разрушения. Первичные геномы, по мнению авторов, состояли из повторяющихся элементов, причем число прямых и обратных (комплементарных) повторов было примерно одинаково, что и являлось причиной второго правила.
Конечно, известно, что многие геномы (в частности, наш собственный) наполовину, а то и больше, состоят из повторов. Например, в каждой хромосоме человека Alu-повторыраспределены примерно поровну между двумя нитями ДНК. Если бы в хромосоме ничего больше не было, второе правило выявилось бы автоматически. Но ведь не из одних повторов состоит геном. Другой минус китайской гипотезы в том, что размеры современных геномов сильно варьируются, но правило сохраняется во всех. Т.е. при разростании геномов должен иметься механизм, приводящий ко второму правилу в их новых участках. А это возвращает нас к гипотезе №3, и необходимость в китайской гипотезе исчезает.
http://galicarnax.livejournal.com/17925.html