Краткая история всех, кто когда-либо жил — страница 36 из 54

Вообразите, пожалуйста, что вот это предложение представляет собой ген.

У него есть структура, и каждое слово выполняет определенную функцию, хотя некоторые слова (например, «пожалуйста») менее важны, чем другие, и без них предложение по-прежнему имеет смысл. Глагол в повелительном наклонении нужен, чтобы привлечь внимание, а существительные «предложение» и «ген» определяют суть. Без них смысл исчезнет или исказится.

Как мы уже видели, при обсуждении ДНК и генов часто используют языковые аналогии, безусловно, по той причине, что в обоих случаях существует алфавит, и порядок букв важен для передачи смысла. ДНК – это текст на основе буквенного кода, который с помощью клеточных механизмов превращается в белок. Жизнь состоит из белков и создается белками. Так что аналогия между языком и генами неплохо работает, но лишь до некоторого предела, в частности, поскольку написанное на этой странице предложение имеет какой-то смысл (я надеюсь). В ДНК смысл не только закодирован, но и записан неочевидным образом. Слепая и медленная эволюция, действовавшая на протяжении миллиардов лет, не пыталась облегчить расшифровку своих законов кому-то из миллиардов своих детей.

В английском языке для облегчения прочтения мы разделяем слова пробелами, но в ДНК нет пробелов и знаков препинания. Так что в форме ДНК наше предложение приняло бы такой вид:

Вообразитепожалуйстачтовотэтоп редложениепредставляетсобойген

Кроме того, гены записаны в геноме не в виде цельных «предложений». Они случайным образом разделены интронами, а места разрыва не имеют отношения к смыслу фразы:

Вообразитепожалу йстачтовотэтопредложе ниепредстав ляетсоб ойген

Фрагменты, несущие смысловую нагрузку, называются экзонами: в нужный момент они раскодируются и превращаются в белок. Интроны и экзоны состоят из одних и тех же четырех букв. Интроны бывают самой разной длины, обычно порядка тысячи нуклеотидов. В нашем примере для простоты я изображу три интрона длиной по 30 букв. Это случайный набор букв, содержащий, однако, символы начала и конца разрыва последовательности. Я использую символы СТОП и СТАРТ, что позволит нам определить, где заканчивается экзон, и начинается и заканчивается интрон.

Вообразитепожал уСТОПАНДРУФТЬЖАППВНЕТВО ОПУСТАР ТйстачтовотэтопредложеСТОПРЕИСВАУКЦРРАПФДЛОТ ТРНСТАРТниепредставСТОПРОТВРНПУЦФ ДЖАТРНЕЕУВТСТАРТляетсобойген

Кроме того, в начале и в конце гена имеются некодирующие последовательности. В начале гена часто приводятся рабочие инструкции, такие как последовательность, с которой связывается ген CHX10.

Чтобы мы с вами не перегрелись, я опять взял последовательность всего из нескольких десятков букв, задал инструкции в виде формулы ФРАЗАНАЧИНАЕТСЯ, а затем поставил слово ПОЕХАЛИ, указывающее начало гена:



Я сохранил строчные буквы в исходном предложении, так что мы по-прежнему можем его увидеть, а инструкции выделил курсивом. Однако в ДНК ничего подобного нет. В геноме все буквы имеют абсолютно равный вес. Поэтому, будь наша формула последовательностью ДНК, она выглядела бы следующим образом:



Найти смысл в этом куске текста достаточно сложно. Теперь вы понимаете, почему чтение генома непростое занятие? Это короткая фраза всего из 215 знаков на знакомом нам языке. А вот фрагмент настоящего гена:




В этом фрагменте 1086 знаков. Умножьте на три миллиона, и вы получите наш геном. Эта конкретная последовательность – маленький фрагмент гена CHX10 с хромосомы 14. На самом деле это именно тот фрагмент, в котором закодирована структура зажима, обхватывающего ДНК. Здесь всего четыре знака, и это лишь кодирующая область, без всяких прерывающих смысловую последовательность интронов. Но, как вы видите, даже в таком виде этот текст непонятен и совершенно неинтересен. Ясно, что для разгадки этой записи существует код, но расшифровать текст можно, лишь зная этот код заранее, – никаких указаний внутри текста не существует. К счастью, генетический код был расшифрован экспериментальным путем (хотя предположения о структуре кода начали появляться сразу после того, как Уотсон и Крик определили строение ДНК). Русский физик-ядерщик Джордж Гамов[94] в 1953 году предложил Крику первую версию трехбуквенного кода. Код был неправильным, но он позволил Крику понять, что происходит на самом деле.

Итак, среди трех миллиардов букв человеческой ДНК спрятано около 20 тысяч генов всех размеров, разделенных множеством интронов. Каждый ген занимает определенное место на одной из хромосом. У нас 23 пары хромосом, доставшихся нам от обоих родителей. Каждая хромосома содержит тысячи генов, но гораздо больше наполнителя. Когда в 1994 году Ли Роуэн разместила в открытой базе данных первый отсеквенированный отрезок человеческой ДНК длиной более 500 тысяч знаков, это был просто массив данных, не доступный для анализа с помощью обычных компьютеров.

Предстояла колоссальная работа. Пока мощность компьютеров не достигла такого уровня, который позволял отыскивать в геноме информативные фрагменты ДНК, вся эта работа напоминала поиски иголки в стогу сена. Представьте поле с 50 гигантскими стогами сена длиной по 100 метров. А теперь представьте 600 тысяч таких полей. И вам нужно найти в этих стогах 20 тысяч иголок. Причем иголки сделаны не из металла, а из того же сена, и разъединены на отдельные кусочки.

Однако эта работа была выполнена. С середины 1990-х годов технология начала развиваться с невероятной скоростью, и появились новые методы быстрого секвенирования. Один из наиболее популярных методов называется «методом дробовика» (shotgun sequencing); он состоит в том, что множество копий длинных фрагментов ДНК разбивают на тысячи случайных кусочков меньшего размера, и их секвенируют. Читать короткие фрагменты гораздо проще, чем длинные, а во множестве случайных фрагментов обязательно найдутся перекрывающиеся участки, что позволит воспроизвести исходную последовательность ДНК.


Двадцать шестого июня 2000 года политические игры большой науки увенчались успехом: была составлена первая карта человеческого генома. Президент Билл Клинтон выступил перед представителями международной прессы в Белом доме. С одной стороны от президента стоял руководитель проекта Фрэнсис Коллинз, с другой – руководитель частной компании, занимавшейся тем же делом, Крейг Вентер. У них за спиной на экране виднелась голова британского премьер-министра Тони Блэра, символизировавшая британское участие в проекте. Вот что сказал Клинтон по поводу первого генома: «…это самая удивительная карта, когда-либо созданная человеком… Сегодня мы изучаем язык, посредством которого Бог создал жизнь».

Думаю, для людей любого вероисповедания это заявление звучит слишком прямолинейно, и, вообще говоря, оно не совсем справедливо. Как выяснили ученые, большая часть генома – вообще не язык, который можно перевести. Смысловую нагрузку несут только гены, а все остальное либо используется как-то иначе, либо не используется вовсе. Язык генов мы разгадали уже несколько десятилетий назад, а вот разобраться в невообразимом хаосе остального материала было значительно труднее.

Я помню тот день очень отчетливо. Я не участвовал в попытках постичь божественный язык. В это время я работал над диссертацией и пытался найти в так называемом «полном геноме человека» интересовавший меня ген CHX10. Я обнаружил место на хромосоме 14, где могла располагаться большая часть гена, но далеко не все, и я не знал направления гена. В отличие от текстов, например, на английском языке, которые читаются слева направо, гены могут читаться в любом направлении: .иинелварпан мобюл в ясьтатич тугом ынег, оварпан авелс ястюатич еыроток, екызя моксйилгна ан, ремирпан, вотскет то еичилто В. Тысячи ученых всего мира находились в одинаковом положении, разыскивая «свои» гены или фрагменты ДНК, с которыми они взаимодействуют. Да, база данных давала ключ к поискам, но в 2000 году она была еще неполной и запутанной. Я нашел нечто напоминавшее CHX10 на другой хромосоме и потратил довольно много времени, пытаясь определить начало, конец и возможную функцию этой ДНК. Но однажды на моем столе оказалась статья, опубликованная исследователями из другой лаборатории, в которой этот фрагмент был расшифрован полностью. Вот такие дела.

Если это божественный язык, Богу не помешало бы обратиться к хорошему редактору. Расшифровка генома – выдающееся событие, и, я думаю, выступление президента было вполне уместно. Пожалуй, такие мероприятия в честь научных достижений нужно бы проводить почаще, поскольку это привлекает внимание (и финансовые средства) со стороны общественности. Однако прочтение генома не было завершено. На самом деле работа была очень далека от завершения. Эту версию в лучшем случае можно было считать черновиком.

Работа не была закончена в феврале 2001 года, когда журнал Nature опубликовал формальный отчет о проекте. Она не была закончена в апреле 2003 года, когда было официально заявлено о завершении проекта и расшифровке 99 % ДНК, содержащей генетическую информацию. Та же ситуация наблюдалась и в мае следующего года, когда проверка подтвердила точность полученных данных (но это касалось лишь 92 % всей ДНК). Сегодня результаты проекта «Геном человека» существуют в виде так называемого референсного генома – некой репрезентативной последовательности для проведения сравнительного анализа, которая время от времени обновляется.


Работа по секвенированию генома стала стимулом для появления новых инструментов и методов анализа ДНК. Следующим большим проектом был проект HapMap, цель которого заключалась в сканировании ДНК людей со всего мира для идентификации различий между большими группами людей и индивидуальными вариациями внутри этих групп, которые могли бы повышать риск развития тех или иных заболеваний или появления тех или иных признаков. Как мы видели, аналогия с буквами, книгами и языком часто применяется для описания ДНК, и это вполне оправдано. Из букв строятся слова, из слов предложения, из предложений абзацы и т. д. При печати буквы могут чуть заметно или довольно сильно изменяться, так что фраза принимает совершенно противоположный смысл (знаете, как полностью меняется смысл от постановки запятой во фразе «казнить нельзя помиловать»). А какие-то замены ни на что не влияют. Большинство книг при переизданиях практически не меняется, а многие живут недолго: их судьба – сохраняться на полках в библиотеке. Но есть и другие примеры: исходная версия слова Божьего, Библия, переводилась и переписывалась бесконечное число раз на протяжении нескольких тысяч лет. В ней хранится важная культурная информация, иногда изложенная поэтическим языком, и поэтому ее изучают и пересматривают. И в этом деле, как в генетике, точность перевода имеет первостепенное значение.