До сих пор мы говорили о генах, которые кодируют одиночные белки. У эукариот часто один ген может кодировать сразу несколько белков. Часто молекула РНК выходит из ядра не сразу, а после того, как она подвергнется модификации — сплайсингу. При сплайсинге некоторые участки РНК, которые называются интроны, вырезаются, а другие, экзоны, сшиваются вместе. Иногда вырезаются одни интроны, а иногда другие. Благодаря такому «альтернативному» сплайсингу увеличивается разнообразие синтезируемых клеткой белков.
В качестве примера рассмотрим самый большой белок человека — титин. Он выступает в роли своеобразной молекулярной пружины, поддерживающей структуру саркомеров — базовых сократительных единиц поперечнополосатых мышц[258]. У человека суммарная масса этого белка в мышцах может достигать 0,5 килограмма. Ген титина насчитывает 363 экзона, состоящих из 114414 нуклеотидов, кодирующих 38138 аминокислоты[259]. В разных клетках сплайсинг РНК титина может происходить по-разному, поэтому в одних мышцах может производиться полноразмерный титин, а в других — укороченный. Большинство изоформ титина состоят из 27–34 тысяч аминокислот, но есть и сравнительно короткие, длиной в 5604 аминокислоты, встречающиеся, например, в сердечной мышце.
Современным рекордсменом по количеству вариантов сплайсинга является ген DSCAM из мушки дрозофилы, способный производить 38016 разных молекул РНК[260]. DSCAM-подобные гены возникли более 600 миллионов лет назад и играют важную роль в развитии нервной системы у животных[261]. DSCAM человека не обладает таким разнообразием альтернативных РНК-вариантов, зато его чрезмерная активность, например в результате появления лишней 21-й хромосомы, на которой он у нас расположен, по-видимому, может приводить к развитию синдрома Дауна. Если генный инженер переносит в организм ген, РНК которого в норме подвергается разным вариантам сплайсинга, он может заранее вырезать последовательности интронов, чтобы ген кодировал только один белковый продукт.
Создать генетически модифицированный организм, производящий зеленый флуоресцентный белок, несложно, но с некоторыми белками возникают проблемы. Дело в том, что не только РНК, но и белки могут подвергаться существенным модификациям в клетках. Ген предшественника инсулина кодирует белок размером в 86 аминокислот. Специальный фермент вырезает из предшественника инсулина фрагмент в 35 аминокислот, после чего оставшиеся два фрагмента длиной в 21 и 30 аминокислот соединяются друг с другом. Только тогда получается готовый гормон инсулин.
Хотя некоторые белки могут вырезать из себя кусок без какой-либо дополнительной помощи[262], инсулин не из их числа. Бактерии не способны вырезать нужный фрагмент из предшественника инсулина. Поэтому, чтобы производить инсулин в бактериях, его ген разрезают на части. Одним бактериям переносят фрагмент гена, кодирующий 21-ю аминокислотную субъединицу инсулина, другим — фрагмент, кодирующий 30-ю аминокислотную субъединицу. Обе субъединицы выделяют, очищают и смешивают вместе, чтобы они связались друг с другом, и в итоге получается инсулин, идентичный инсулину человека.
Скептически настроенный к генной инженерии человек мог бы спросить: если синтаксис жизни столь сложен, если имеется столько подводных камней, то где гарантия, что генетически модифицированный организм будет производить нужный нам белок, а не какую-то ерунду? Заранее дать такой гарантии нельзя, но когда мы уже получили новый сорт или породу организма, мы можем сравнить его белки с белками исходного сорта или породы. Мы можем выделить полученный белок и убедиться в том, что это именно тот белок, который нам нужен, что он был синтезирован правильно и имеет требуемые свойства. Мы также можем проверить, правильно ли встроились сложные генные конструкции с промоторами и операторами и не натворили ли они бед в измененном нами геноме. Хотя методы встраивания генов не всегда точны, мы можем использовать методы чтения ДНК, чтобы понять, какие гены были встроены, в каком количестве и в каком геномном окружении. О том, как читаются генетические последовательности, расскажет следующая глава.
Глава 12Предъявите ваш геном. Чтение ДНК, геномный анализ, геномные войны, персонализированная медицина, метагеномика
В 1964 году американский биохимик Роберт Холли с коллегами установили последовательность нуклеотидов молекулы транспортной РНК, необходимой для присоединения аминокислоты аланина к синтезирующимся аминокислотным последовательностям белков[263]. За это открытие в 1968 году им дали Нобелевскую премию. В 1972-м в лаборатории бельгийского молекулярного биолога Вальтера Фьера впервые в истории была установлена последовательность нуклеотидов белок-кодирующего гена. Это был ген оболочки бактериофага MS2[264], а вскоре стали известны и другие последовательности генов этого вируса[79]. В те времена «прочитать» последовательность какого-нибудь гена было все еще настолько серьезным достижением, что, сделав это, можно было смело публиковать статью в престижном научном журнале Nature.
Сегодня прочитанных последовательностей ДНК различных организмов так много, что ученые не всегда успевают их обработать и проанализировать, чтобы хотя бы разобраться, где среди них гены, где регулирующие области, а где всякий ненужный мусор. Забегая немного вперед, скажу, что проект чтения генома человека обошелся в несколько миллиардов долларов и занял более тринадцати лет. С тех пор технология чтения ДНК так сильно подешевела, что при желании любой из нас, обладая средним уровнем дохода, может взять и прочитать своей собственный геном, записать его последовательность на флешку и гордо носить ее на шее. Обойдется это всего в несколько тысяч долларов, но спешить не стоит: в скором времени реализовать такую идею станет еще дешевле. А может быть, в обозримом будущем это и вовсе сделают обязательным требованием для получения медицинской страховки или посещения поликлиники.
Изменилось отношение к чтению ДНК и в научном мире: статья не то что о гене, но даже о полном геноме, содержащем тысячи генов, едва ли произведет большое впечатление и удостоится страниц самых известных научных журналов. Разве что речь пойдет о геноме какого-то совершенно уникального организма, чьи генетические данные радикально меняют представление об эволюции жизни на Земле. Как мы пришли к тому, что читать последовательности ДНК стало так легко?
В 1977 году Уолтер Гилберт и Аллан Максам предложили первый метод чтения ДНК[265]. Образец ДНК, содержащий анализируемую последовательность, помещали в четыре пробирки. В каждой из пробирок проводились химические реакции, в ходе которых нуклеотидные последовательности разрезались после разных букв. В первой пробирке молекула ДНК разрезалась после нуклеотидов А или G, во второй — после нуклеотида A, в третьей — после C, а в четвертой — после С или T. В итоге получались фрагменты всевозможной длины. Продукты реакций помещали в четыре параллельные лунки, проделанные внутри специального геля, через который пускали ток.
ДНК — дезоксирибонуклеиновая кислота, а раз это кислота, значит, в растворе она отдает протон и становится отрицательно заряженной молекулой. Поэтому при включении тока молекулы ДНК начинают бежать от отрицательного плюса к положительному. Маленькие молекулы бегут быстрее, чем длинные, которые застревают в геле, и таким образом нарезанные фрагменты ДНК выстраиваются по длине. Эта процедура упорядочивания молекул ДНК при помощи тока называется гель-электрофорезом.
До помещения в лунки ДНК помечалась радиоактивными метками. После электрофореза на гель накладывалась специальная пленка, которая засвечивалась радиоактивным излучением от меченой ДНК, и ученые получали снимок, где были видны четыре дорожки с чередующимися полосами. Глядя на эти полосы, можно было установить последовательность нуклеотидов анализируемого фрагмента ДНК. Давайте представим, как бы выглядел набор полученных полос для следующей последовательности ДНК: GATTACA.
Самый короткий фрагмент заканчивается нуклеотидом G. Он «убежит» вперед и со временем окажется ближе всех к положительному полюсу. После нуклеотида G разрезание происходило только в первой пробирке, поэтому мы видим одну полосу в крайнем левом ряду. Второй по длине фрагмент заканчивается на нуклеотид А. После этого нуклеотида разрезы происходили в первой и второй пробирках, поэтому мы видим полосы в двух левых рядах. Чтение ДНК по таким снимкам напоминало чтение музыкальных нот с листа, только в этом процессе, как правило, участвовало двое ученых: один, глядя на снимок, называл нуклеотиды, а другой записывал букву за буквой.
К сожалению, мы бы скорее успели колонизировать Марс, чем прочитать геном человека, используя этот метод. Человечество нуждалось в более совершенных методах чтения ДНК. В самой крупной базе данных научных публикаций Web of Science находится более 2,3 миллиона статей, в которых упоминается DNA (ДНК). Среди них на первом месте по количеству цитирований — статья, опубликованная все в том же 1977 году в журнале PNAS британским биохимиком Фредериком Сенгером[266]. На эту статью ссылались более 65 тысяч раз! Почти вдвое больше, чем на следующую в рейтинге. Сенгер описал метод «терминации цепи», который произвел настоящую революцию в области чтения ДНК благодаря удобной автоматизации процесса. В основе метода лежат особые «терминирующие нуклеотиды», которые отличаются от обычных тем, что стоит им встроиться в растущую нуклеотидную цепь, и синтез останавливается. Это происходит потому, что у меченых нуклеотидов нет З’-конца, к которому мог бы присоединиться следующий нуклеотид.