Джордж Гамов |
Удивительным в этой истории является то, что чисто стереохимическая проблема – как последовательность нуклеотидов в ДНК организует последовательность аминокислот в белках – на семь лет превратилась в совершенно абстрактную задачу. О химии просто забыли. Первая модель – “бубновый код” Гамова - еще как-то контачит со стереохимией. Большинство последующих моделей основано уже на абстрактной логике. В первом предложении статьи Крика так и написано: “В этой работе рассматривается математическая проблема, возникшая в связи с синтезом белков."
Перенесемся мысленно в то время. Только что стало известно, что ДНК – это двойная спираль, нити которой состоят из звеньев четырех типов. Но еще не было прочитано ни одного кусочка ДНК-вого текста. С белками ситуация была немного лучше – Сенгер в то время заканчивал секвенирование инсулина, также были известны небольшие последовательности аминокислот других белков. Уже знали, что в состав белков, исследованных на тот момент, входят только 20 аминокислот. О молекулярном аппарате трансляции, в том числе об мРНК и тРНК, ничего известно не было (знали только, что в клетках зачем-то имеется много молекул РНК). Рибосомы в микроскоп уже наблюдали, но об их функциях тоже не знали. Наконец, было известно, что 20-буквенный текст белков как-то закодирован в 4-буквенном тексте ДНК. Вопрос и состоял в том, как закодирован.
Гамовские бубны (Gamow's diamonds)
Рисунок из публикации Гамова |
В начале 1954 года в журнале Nature появляется заметка на полстраницы под названием “Возможная связь между структурами ДНК и белков”. Автор – Джордж Гамов, он же Георгий, он же Аланин, бывший одессит, а теперь гражданин США, уже успевший создать теорию альфа-распада и предсказать реликтовое излучение. Теперь он ворвался в область биологии.
Идея Гамова заключалась в том, что сборка белков происходит непосредственно на молекуле ДНК. Между двумя нитями в спирали ДНК находятся “дырки” в виде ромбов, точная конфигурация которых определяется комбинацией окружающих их нуклеотидов (точнее, оснований нуклеотидов). Каждой аминокислоте соответствует своя дырка. Если в дырку попала правильная аминокислота, то она там закрепляется, и когда заполнятся все дырки, по аминокислотам останется проехать специальным ферментом, как утюгом, и образовать белок.
Эта модель является триплетной (дублетные коды не рассматривались, так как количества возможных дублетов – 16 – не хватало для кодирования известных аминокислот). Хотя каждая дырка ограничена четырьмя основаниями, два из них всегда комплементарны, поэтому значащими являются только три из них. Поясню рисунок Гамова схемой попроще:
Идея Гамова заключалась в том, что сборка белков происходит непосредственно на молекуле ДНК. Между двумя нитями в спирали ДНК находятся “дырки” в виде ромбов, точная конфигурация которых определяется комбинацией окружающих их нуклеотидов (точнее, оснований нуклеотидов). Каждой аминокислоте соответствует своя дырка. Если в дырку попала правильная аминокислота, то она там закрепляется, и когда заполнятся все дырки, по аминокислотам останется проехать специальным ферментом, как утюгом, и образовать белок.
Эта модель является триплетной (дублетные коды не рассматривались, так как количества возможных дублетов – 16 – не хватало для кодирования известных аминокислот). Хотя каждая дырка ограничена четырьмя основаниями, два из них всегда комплементарны, поэтому значащими являются только три из них. Поясню рисунок Гамова схемой попроще:
Бубновый код Гамова является перекрывающимся. Это означает, что каждое основание (либо его комплементарный напарник) входит сразу в три разных кодона. Например, последовательность TTCATCG даст: TTC – TCA – CAT – ATC – TCG. Последние две буквы каждого триплета являются первыми двумя буквами следующего (за исключением первого и последнего). Ясно, что такой код налагает жесткие ограничения на возможные последовательности аминокислот. В лучшем случае, за данной аминокислотой может стоять одна из четырех разрешенных кодом, а не любая из двадцати. Другими словами – между аминокислотами должна существовать некоторая корреляция, что и отметил Гамов в своей заметке.
Однако накапливающиеся данные говорили о том, что между аминокислотами в белках нет корреляции, по крайней мере, такой жесткой, которая следовала из бубнового кода.
Комбинаторный код
Позже Гамов предложил другую модель генетического кода – “треугольный код”, тоже перекрывающийся, но с меньшими ограничениями. В нем все 64 триплета рассортировывались также в 20 групп. Вскоре у него появилась третья модель, еще более простая, и уже совсем оторванная от стереохимии. В ней значение триплета определялось исключительно его составом независимо от того, в какой последовательности расположены три нуклеотида. Из простой комбинаторики ясно, что и в этом случае все кодоны, распадаясь на три семейства, дают 20 групп (это число сочетаний с повторениями любых четырех объектов по три). Каждая группа отвечает одной аминокислоте.
Все три основания одинаковые | Все три основания разные | Два из трех оснований одинаковы |
1) TTT 2) AAA 3) CCC 4) GGG | 5) C,A,T (CAT, TCA, ATC, ACT, TAC, CTA) 6) C,T,G (GCT, CTG, TGC, TCG, GTC, CGT) 7) G,A,T (TGA, GAT, ATG, AGT, TAG, GTA) 8) A,G,C (CAG, AGC, GCA, GAC, CGA, ACG) | 9) T,T,C (TTC, CTT, TCT) 10) T,T,A (TTA, ATT, TAT) 11) T,T,G (TTG, GTT, TGT) 12) C,C,T (CCT, TCC, CTC) 13) C,C,A (CCA, ACC, CAC) 14) C,C,G (CCG, GCC, CGC) 15) A,A,T (AAT, TAA, ATA) 16) A,A,C (AAC, CAA, ACA) 17) A,A,G (AAG, GAA, AGA) 18) G,G,T (GGT, TGG, GTG) 19) G,G,C (GGC, CGG, GCG) 20) G,G,A (GGA, AGG, GAG) |
Итого, 20 групп => 20 аминокислот.
Хотя эта модель не требует перекрывания кодонов, в то время считали, что код все-таки должен быть перекрывающимся. Считали так потому, что 1) расстояние между двумя соседними основаниями в ДНК примерно равно размеру аминокислот и 2) все еще полагали, что синтез белков происходит непосредственно на ДНК. Поэтому трудно представить, как могла образовываться пептидная связь между двумя аминокислотами, растсавленными друг от друга далее, чем на одно основание. Более того, неперекрывающиеся коды имеют неоднозначность в считывании кодонов. С перекрывающимися кодами все понятно – считывание происходит всегда со сдвигом на одно основание. Но как быть там? Последовательность аминокислот будет зависеть не только от последовательности нуклеотидов в ДНК, но и от того, в какой рамке ее считывать. Например, участок TGGACTTGCA читается как три разные последовательности кодонов, в зависимости от того, где начинать считывание:
1) TGG – ACT – TGC – A…
2) …T – GGA – CTT – GCA
3) …TG – GAC – TTG – CA…
Какой вариант правильный?
Но накапливающиеся данные все сильнее указывали, что реальный код все-таки неперекрывающийся. Это было видно, например, по мутациям. Если в кодирующей последовательности ДНК заменяется одно основание, то в случае перекрывающегося кода в белке должны измениться три соседних аминокислоты. Но опыт показывал, что заменялась только одна. Еще немного позже точный анализ белковых последовательностей выявил, что между аминокислотами корреляции практически никакой нет. Настал период моделей неперекрывающегося кода.
Хотя эта модель не требует перекрывания кодонов, в то время считали, что код все-таки должен быть перекрывающимся. Считали так потому, что 1) расстояние между двумя соседними основаниями в ДНК примерно равно размеру аминокислот и 2) все еще полагали, что синтез белков происходит непосредственно на ДНК. Поэтому трудно представить, как могла образовываться пептидная связь между двумя аминокислотами, растсавленными друг от друга далее, чем на одно основание. Более того, неперекрывающиеся коды имеют неоднозначность в считывании кодонов. С перекрывающимися кодами все понятно – считывание происходит всегда со сдвигом на одно основание. Но как быть там? Последовательность аминокислот будет зависеть не только от последовательности нуклеотидов в ДНК, но и от того, в какой рамке ее считывать. Например, участок TGGACTTGCA читается как три разные последовательности кодонов, в зависимости от того, где начинать считывание:
1) TGG – ACT – TGC – A…
2) …T – GGA – CTT – GCA
3) …TG – GAC – TTG – CA…
Какой вариант правильный?
Но накапливающиеся данные все сильнее указывали, что реальный код все-таки неперекрывающийся. Это было видно, например, по мутациям. Если в кодирующей последовательности ДНК заменяется одно основание, то в случае перекрывающегося кода в белке должны измениться три соседних аминокислоты. Но опыт показывал, что заменялась только одна. Еще немного позже точный анализ белковых последовательностей выявил, что между аминокислотами корреляции практически никакой нет. Настал период моделей неперекрывающегося кода.
Код без запятых
Почему "без запятых"? Когда дело дошло до неперекрывающихся кодов, было непонятно, могут ли между значащими кодонами быть незначащие основания (типа, “пробелы” или “запятые”), или же кодоны располагаются вплотную друг к другу, без "запятых". К последней категории и относится модель, которую предложил Крик, Оргел и Гриффит через три года после первой модели Гамова.
Фрэнсис Крик |
К тому времени уже были веские основания считать, что синтез белков происходит не на ДНК, а на посреднике в виде молекулы РНК, которая копируется с ДНК (матричная РНК или мРНК). Кроме того, Крик уже развивал гипотезу об адаптерных молекулах, согласно которой аминокислоты не собираются непосредственно даже на мРНК, а взаимодействуют с ней через молекулу-адаптер (эта гипотеза позже подтвердилась, адаптерными молекулами оказались транспортные РНК, или тРНК). Адаптер с одного конца имеет антикодон, т.е. кодон, комплементарный кодону на мРНК, а на другом конце несет аминокислоту, соответствующую данному кодону. Сценарий синтеза белка казался тогда таким: с участка ДНК снимается копия в виде однонитевой цепочки мРНК, затем мРНК перемещается из ядра в цитоплазму. Там снуют адаптеры с прикрепленными аминокислотами. Если адаптер попадает антикодоном на кодон мРНК, и если они комплементарно сходятся, то адаптер вместе с аминокислотой прочно прилепляется к мРНК. Когда таким образом прилепятся все адаптеры, аминокислотам, торчащим с других концов, останется только образовать пептидные связи между собой – и белок готов.
Но здесь есть одна проблема – адаптер может прилепиться не в той рамке считывания. Допустим, на мРНК есть последовательностьTACGTC, которая двумя кодонами – TAC и GTC кодирует две правильные в контексте данного белка аминокислоты. Но ведь адаптеры об этом не знают. И один из них, например, имеющий антикодон, соответствующий кодону ACG, может прилепиться посередине этой последовательности и нарушить синтез белка. Поэтому в неперекрывающейся последовательности триплетов для правильного синтеза белка адаптерам необходимо знать правильную рамку считывания.
Именно эту проблему и решает модель Крика. Модель настолько остроумна, что создавалось ощущение: по-другому быть просто не может. Авторы в конце оговариваются, что не испытывают большой уверенности в правоте модели, основанной на чисто теоретических умозаключениях, но наверняка Крик уже потирал ладони в предвкушении второй нобелевки (правда, первую на тот момент ему еще не дали). Модель в итоге оказалась неверной, но это самая изящная из всех неправильных гипотез в науке 20 века.
Именно эту проблему и решает модель Крика. Модель настолько остроумна, что создавалось ощущение: по-другому быть просто не может. Авторы в конце оговариваются, что не испытывают большой уверенности в правоте модели, основанной на чисто теоретических умозаключениях, но наверняка Крик уже потирал ладони в предвкушении второй нобелевки (правда, первую на тот момент ему еще не дали). Модель в итоге оказалась неверной, но это самая изящная из всех неправильных гипотез в науке 20 века.
Идея состояла в том, что не для всех 64-х кодонов существуют адаптерные молекулы. Другими словами – только часть кодонов являются значащими (кодируют аминокислоту). Остальная часть – незначащие кодоны, “пустышки”. Задача сводится к построению такого кода, чтобы любые два значащих кодона, помещенные рядом, давали в остальных двух рамках считывания незначащие кодоны. Например, если кодоны CGT и AAG – значащие, тогда кодоны GTA и TAA должны быть незначащими, т.к. они появляются внутри последовательности CGTAAG, составленной из первых двух кодонов (в мРНК вместо тимина стоит урацил, поэтому правильнее здесь вместо T использовать U, но это не суть важно). Если же соединить два первых кодона в другом порядке: AAGCGT, то далее найдем, что незначащими кодонами должны быть также AGC и GCG. В итоге, если все кодоны, находящиеся в неверной рамке считывания, незначащие, то неоднозначность в прочтении текста мРНК исчезает, даже если этот коднеимеетпробеловилидругихразделителей.
Но остался еще важный вопрос: а сколько в таком коде может остаться значащих кодонов? Нам-то нужно как минимум двадцать. Крик со своей компанией вывел, что наибольшее число значащих кодонов в таком коде равно как раз двадцати. Первым делом замечаем, что кодоны TTT, CCC, AAA и GGG должны быть незначащими, т.к. если поместить их рядом с собой, то в других рамках считывания получится опять тот же кодон. Оставшиеся 60 кодонов делятся на группы по три кодона в каждой, внутри групп кодоны связаны циклическим односторонним сдвигом оснований. Например, одна из групп будет такой: AGT, GTA, TAG. Для формирования кода, имеющего только одну значащую рамку считывания, из каждой такой группы нужно взять не более, чем один кодон. Количество всех групп равно 60/3 = 20 штук! Но эта модель дает только максимально возможное число значащих кодонов. Однозначного решения с точным выявлением значащих кодонов она дать не может. Авторы приводят в статье несколько возможных вариантов.
Кроме описанных моделей было немало других. В одной из них, например, A и C рассматривались как синонимы, T и G - тоже. То есть код был двоичным. Триплетов в таком коде уже не хватит для кодирования 20-ти аминокислот, поэтому вводили двоичные квинтуплеты, возможное число которых – 2 в пятой степени, т.е. 32. Свой вариант кода был и у Фейнмана, который тоже был участником галстучного клуба.
Наверняка этих моделей было бы еще больше, если бы в 1961 году неожиданно не грянул гром: появилась новость, что химикам удалось-таки напрямую расшифровать один кодон. Маршалл Ниренберг на биохимическом конгрессе в Москве сообщил, что он и его сотрудник получили работающую систему трансляции в экстракте из кишечной палочки, и сумели подсунуть ей искусственную мРНК, составленную из одной буквы U (во-первых, такую мРНК легче всего было изготовить, во-вторых – плевать на рамку считывания). На выходе получилась пептидная цепь, составленная из одной аминокислоты – фенилаланина. Таким образом, стало ясно, что триплет UUU соответствует фенилаланину. В криковской же модели этот кодон должен был быть незначащим. В течение следующего года было расшифровано еще несколько кодонов, а к 1967 году расшифровка кода была полностью завершена.
Генетический код оказался не просто непохожим на теоретические модели. В то время как теоретики пытались объяснить, почему в нем используется только 20 аминокислот, в реальном коде как раз теоретически можно кодировать более двадцати штук. А выбор правильной рамки считывания производится точным позиционированием рибосомы на мРНК и специальным стартовым кодоном.
Вначале, конечно, оговаривалось, что речь идет о коде конкретного организма – кишечной палочки E. coli. Но факты свидетельствовали, что код в других организмах, по-видимому, точно такой же. Хотя со временем и было найдено несколько вариаций кода E. coli (который стал называться универсальным). На данный момент известно почти два десятка вариаций, хотя все они отличаются от универсального кода очень незначительно, и встречаются в биосфере намного реже.
http://galicarnax.livejournal.com/16972.html