Взломщики кодов все же исследовали тупиковые пути, иногда с большой элегантностью, но делали это в манере Аристотеля, сидя в кресле. Эксперимент вмешался снова и показал, что Природа не принимает наиболее элегантные, экономные схемы, которые выбрали бы люди, если бы власть была у них. Генетический код казался кодом, о котором взломщики кодов всегда мечтали, поскольку символов было так мало (четыре), а зашифрован был не приказ о наступлении, а всего лишь одна из приблизительно двадцати возможностей. В то время, в 1953 г., данных почти не было, ибо никто не знал ни одной нуклеотидной последовательности ДНК, а известные последовательности аминокислот в белках были известны весьма приблизительно: Фредерик Сэнгер (р. 1918) был близок к завершению своей дешифровки белка инсулина (которую он закончил в 1955 г.), но это было почти все. Открылось множество возможностей для неограниченного воображения.
Русский физик Георгий Гамов (1904-1968) бесспорно обладал неограниченным воображением, поскольку он инициировал теорию происхождения Вселенной в результате Большого Взрыва и придумал теорию происхождения элементарных частиц. Он интересовался всем, и вполне естественно, что его внимание привлекла самая животрепещущая проблема 50-х, генетический код. Гамов выдвинул блистательную идею: белки растут на внешней стороне двойной спирали в ромбоидальных полостях, расположенных в желобках спирали. Эти полости образованы четырьмя нуклеотидными основаниями, два из одной нити, на вершине и на дне ромба, а в двух других углах основание из той же нити и его партнер из другой. Это остроумное решение дает триплетный код, даже несмотря на то, что в него входят четыре нуклеотида, потому что два последних (пара комплементарных оснований, например, А…T) считаются за одну букву (ведь если одним основанием является А, то другим непременно будет T). Затем он представил себе, что аминокислоты располагаются в соответствующих им нишах, а пробегающие мимо ферменты скрепляют их вместе. Далее он предположил, что ромбы, связанные закручиванием горизонтально или вертикально, кодируют одну и ту же аминокислоту, и в результате остается только двадцать различных кодонов, как раз то число, которое, как он полагал, было необходимо. Изобретательность, однако, в этом случае заставила сделать ложный шаг, здесь не хватало избыточности и не было места для кодонов запуска и остановки. С оптимизмом, который порождается энтузиазмом, с оптимизмом, произошедшим из энтузиазма, Гамов думал, что он, видимо, нашел путь к решению проблемы.
Ромбический код Гамова обладает еще одним особым свойством: он является перекрывающимся кодом, в том смысле, что каждое нуклеотидное основание входит одновременно в три кодона. Так, последовательность AGTCTTG состоит из кодонов AGTCTTG, AGTCTTG, AGTCTTG, AGTCTTG и AGTCTTG. Перекрывающийся код очень эффективен и компактен, что, казалось бы, делает его для Природы привлекательным кандидатом на занятие должности. У Природы, однако, были иные идеи. Одна из проблем, создаваемых перекрывающимся кодом, состоит в том, что многие аминокислотные последовательности оказываются вне игры. Например, предположим, что мы хотим закодировать дипептид, очень маленький белок, состоящий из двух аминокислот. Его образцом является заменитель сахара аспартам, комбинация слегка модифицированных форм двух аминокислот, аспарагиновой кислоты и фенилаланина. Поскольку существуют двадцать естественно образующихся аминокислот, существует 20×20=400 возможных дипептидов. Чтобы закодировать две аминокислоты перекрывающимся кодом, необходимы четыре основания, например, CCGA, чтобы получить CCGA для аминокислоты пролина (которую означает данный триплет) и CCGA для аргинина. Но существует всего 4×4×4×4=256 возможных комбинаций из четырех нуклеотидных оснований, поэтому многие дипептиды не могут быть закодированы (аспартам является одним из них). Однако эти запрещенные комбинации начинают обнаруживать, а это показывает, что Природа не использует элегантность перекрывающегося кода: она требует большей гибкости для своих действий в непрекращающейся взыскательной игре эволюции. Сидни Бреннер (р. 1927) осуществил исчерпывающий анализ этой проблемы: он показал, что все возможные перекрывающиеся коды не совместимы с известными последовательностями аминокислот. Другим, даже более заметным гвоздем в этом, теперь уже плотно заколоченном, гробу явился тот факт, что изменение одной буквы может изменить состав белка сразу на три аминокислоты. Действительно, если бы цепочка AGTCTTG подверглась мутации AGGCTTG, то она состояла бы из кодонов AGGCTTG, AGGCTTG, AGGCTTG и так далее, возможно, со зловещими последствиями для белка и организма, который часто не может пережить замены даже одного основания.
Существовал еще один тупиковый путь среди экономичных и элегантных идей, к которым так благосклонны умозрительные физики и которые Природа с презрением отвергает. Это была проблема пунктуации. Как мы можем узнать, где начало? Даже в неперекрывающемся коде …AGTCTTG… возможны разночтения …(AGT)(CTT)(G…, …A)(GTC)(TTG)…, …AG)(TCT)(TG… и так далее. Различные выборы, представленные этими примерами, называются чтением кода скользящим окном. Крик предположил, что в клетке существуют механизмы только для определенных кодонов и что код должен быть таким, чтобы чтение скользящим окном приводило к чепухе. Предположим, что в приведенном примере правильным прочтением является …(AGT)(CTT)(G…, тогда AGT и CTT были бы подходящими кодонами, а чтение скользящим окном GTC и TCT было бы чепухой. Коды такого рода называются кодами без запятых, поскольку их можно однозначно прочесть без пунктуации. Если, имея в виду это ограничение, исследовать шестьдесят четыре кандидата в кодоны, оказывается, что легитимными могут быть только двадцать, в точности число, которое предполагалось и требовалось. Например, ТТТ не подходит, поскольку комбинация …TTTTTT… содержит неоднозначность, допускающую чтение скользящим окном: …(TTT)(TTT)… и …T)(TTT)(TT…. А раз оказалось, что этот код обеспечивает требуемое число кодонов и позволяет избежать проблемы чтения скользящим окном, он был немедленно и всеми принят.
Но только не Природой. Она раздавила своей пятой и этот вид неограниченного умозрения и остановила дальнейшее расточение пышных фантазий в 1961 г. Акт раздавливания зарегистрировали Маршалл Ниренберг и Генрих Маттей, которые показали, что TTT является вполне пригодным кодоном и что он означает фенилаланин. Так элегантный и экономный код без запятых был обращен в пыль.
Оказалось, что Природа блефовала в своей обычной бессознательной и непреднамеренно коварной манере. Она произвела самый простой код из всех возможных, не заботясь об избыточности и не обращая особого внимания на проблему чтения кода скользящим окном. Настоящий генетический код, который постепенно был собран по кусочкам в 1960-е гг., существенно избыточен, в нем до шести кодонов могут соответствовать одной и той же аминокислоте и три означают остановку (рис. 2.11). Как можно видеть задним числом, избыточность является очень умным ходом, поскольку уменьшает вероятность того, что «ошибки» копирования будут иметь фатальные последствия. Например, каждая из групп CCT, CCC, CCA и CCG кодирует пролин, так, что ошибки в последней букве не важны. Даже когда изменение одной буквы является значимым, результатом этого часто является замена одной аминокислоты на другую, ей подобную. К примеру, замена TTT на TAT приводит к замещению фенилаланина его кузеном тирозином. Код является в этом отношении почти оптимальным. В результате, поскольку все шестьдесят четыре кодона являются жизнеспособными, Природа имеет пространство для вариаций и экспериментов, как нам уже доводилось отмечать выше.
Рис. 2.11. Генетический код и структуры аминокислот в обозначениях трехбуквенных кодонов. Например, читая от центра, кодон UAC кодирует тирозин (Tyr). Заметим, что U означает урацил (рис. 2.12). Все аминокислоты имеют обозначения, показанные внутри круга. Заметим, что некоторые аминокислоты встречаются более чем в одном положении и что код существенно избыточен, особенно в своей третьей букве. Например, все тройки ACG, ACU, ACT и АСА являются кодом для треонина (Thr).
Вопрос о способе интерпретации кода внутриклеточными механизмами был третьим барьером, который надо было взять. Основная проблема состояла в том, что ДНК заключена в ядре клетки, в то время как синтез белка происходит в окружающей его цитоплазме. Молекула ДНК слишком велика, чтобы проникнуть в цитоплазму через мембрану ядра. Так каким же образом информация доставляется к месту своего использования?
В дело вступает рибонуклеиновая кислота (РНК), более примитивная версия ДНК. Рибонуклеиновые кислоты имеют ту же общую структуру, что и ДНК, состоящую из сахаро-фосфатного позвоночника с нуклеотидными основаниями, прицепленными к нему. Однако сахар является скорее рибозой, чем дезоксирибозой (поэтому Р в РНК находится на месте Д в ДНК), в которой дополнительный атом кислорода, изначально присутствующий в рибозе, не отщеплен. Кроме того, на месте тимина в РНК находится немного иной, но весьма похожий на него пиримидин урацил (U на рис. 2.12). Не вполне ясно, почему U здесь предпочтительнее, чем T, и почему в позвоночнике рибоза предпочтительнее, чем дезоксирибоза: возможно, это обусловлено несколько иной прочностью водородных связей, формирующих данную молекулу. Но главным отличием является то, что РНК состоит из одной нити. Это позволяет предположить, что первоначально РНК была субстанцией кодирования, но ее функция была перехвачена более устойчивой ДНК на ранней стадии эволюции. Такую точку зрения в определенной степени подтверждает то, что, как показывают наблюдения, РНК может иногда вести себя как фермент. Эта ее функция позволяет решить одну из проблем происхождения жизни: что бы