Простое начало. Как четыре закона физики формируют живой мир — страница 37 из 59



Пока складывается впечатление, что измененные нуклеотиды просто нарушают ход ПЦР, однако они сконструированы так, чтобы не только препятствовать удлинению ДНК, но и работать «маячками» – испускать свет одного из четырех цветов, уникальных для не-совсем-A, не-совсем-Ц, не-совсем-Г и не-совсем-T. Распознаваемым сигналом могут служить не только цвета. Сначала в секвенировании по Сэнгеру использовали радиоактивные метки, а вместо ПЦР (которую тогда еще не изобрели) для клонирования ДНК привлекали бактерий. Здесь мы описываем более поздние и эффективные разновидности метода, основанные, однако, на тех же принципах[50].

На последнем этапе плавления ДНК-дуплекс разделяется на две нити, и фрагменты разной длины оказываются маркированными на концах: теперь они напоминают те куски слов, где видно лишь последнюю букву. Ученый по-прежнему не знает длину конкретных фрагментов, и они слишком малы, чтобы наблюдать их в видимом свете. Как мы узнали из главы 1, ПЦР эксплуатирует одну из важных физических характеристик ДНК – плавление, то есть разделение двойной спирали на отдельные цепи при превышении специфической температуры. Секвенирование по Сэнгеру задействует и другое важное свойство ДНК – электрический заряд.

Как мы отметили в главе 3, описывая наматывание ДНК на гистоны, ДНК заряжена отрицательно, а значит, ее можно перемещать с помощью электрических полей: притягивать к положительно заряженным электродам и отталкивать от отрицательно заряженных2. В обычной воде кусочки ДНК движутся со сходной скоростью вне зависимости от размера. У крупных фрагментов заряд больше, а следовательно, их толкает бо́льшая электрическая сила, но и сопротивление жидкости они встречают бо́льшее. Физика масштабирования этих двух сил в зависимости от размера фрагмента сложна и неочевидна, но в итоге их эффекты почти нивелируют друг друга, и в негустой жидкости подвижность фрагмента слабо зависит от его длины. А вот в гелевых пластинах ситуация меняется. Длинные молекулярные цепочки пищевого желатина, например, спутываются и формируют пористую трехмерную сеть, пропускающую воду. Чтобы перемещаться по гелю, однонитевая ДНК (черная на рисунке) должна змейкой пробираться через поры – по-научному это называется рептацией. ДНК приходится то и дело извиваться, с чем короткие молекулы справляются гораздо быстрее, чем длинные.



Предсказуемая случайность броуновского движения – важнейшее условие для такого способа перемещения. Без нее ДНК застревала бы в геле, каким бы сильным ни было электрическое поле: попади концы нити в разные поры, молекула повисла бы на препятствии, как полотенце на веревке, и не смогла бы высвободиться. Но благодаря броуновскому движению ДНК постоянно колеблется и переориентируется, выбираясь из одного отверстия и проскальзывая сквозь другое. Статистическая прогнозируемость микроскопической случайности дает нам четко определенную и поддающуюся математической обработке скорость движения молекулы.

Итак, после амплификации ДНК с проставлением концевых меток и прогона фрагментов ДНК через гель под действием электрического поля[51] мы получаем возможность прочитать нуклеотидную последовательность. Все фрагменты одной и той же длины будут светиться одним цветом. Допустим, нити из 27 нуклеотидов заканчиваются модифицированным Ц, несущим, скажем, красную метку. А нити из 28 нуклеотидов заканчиваются модифицированным T с синей меткой. И так далее. Среди нитей из 27 нуклеотидов нет ни одной синей, поскольку все фрагменты этой длины, как точные копии друг друга, должны заканчиваться Ц, а все терминирующие Ц – красные. (Быть может, читая последние страницы, вы переживали за выпавшую из нашего поля зрения вторую исходную цепь ДНК, которая могла бы стать матрицей для второго набора молекулярных фрагментов. Не бойтесь: в секвенировании по Сэнгеру особый подбор праймеров заставляет ДНК-полимеразу работать только с одной из цепей двойной спирали, потому вторая вообще не реплицируется.)

Все фрагменты ДНК совместно попадают в тонкую трубку с гелем, проходя по которой, разделяются из-за разной скорости движения. Наблюдая за флуоресценцией проходящих через трубку точек, ученый фиксирует, например, вначале красный сигнал, затем синий, еще один синий, за ним зеленый и так далее, и интерпретирует их как последовательность ЦTTA+++++. Вот мы и прочитали ДНК.

Секвенирование по Сэнгеру и его вариации, которые совершенствовались по мере развития технологий, сегодня часто называют методами секвенирования первого поколения. В середине 1980-х они позволяли читать ежедневно около тысячи нуклеотидов, или, как принято говорить, оснований. Разницей между нуклеотидами и основаниями здесь можно пренебречь. (Но если быть точными, нуклеотид состоит из аденинового, цитозинового, гуанинового или тиминового азотистого основания, сахара под названием дезоксирибоза и нескольких атомов фосфора и кислорода, объединенных в фосфатную группу. Сахара соседних нуклеотидов связываются друг с другом через фосфатные группы, формируя нить ДНК.)

Чтобы установить последовательность всего генома, нужно виртуально соединить друг с другом все фрагменты. В 1982 году мы собрали полный геном бактериального вируса из 40 тысяч оснований, малый фрагмент которого в 1968 году прочитали Ву и Гилберт. Геном дрожжей S. cerevisiae (12 миллионов оснований) полностью секвенировали в 1996-м, а геном круглого червя C. elegans (100 миллионов оснований) – в 1998-м. Но самой желанной целью был, конечно же, геном Homo sapiens. Секвенирование по Сэнгеру в принципе могло бы справиться с этой задачей, но применение этого метода в отношении генома с миллиардами оснований представлялось огромным технологическим вызовом. Такая задача требовала усовершенствований не только в биохимии – связанных, например, с терминирующими нуклеотидами, – но и в инструментарии физической работы с ДНК: нужно было повышать скорость и надежность плавления и перемещения молекул, детекции световых сигналов и многого другого.

В 1988 году Конгресс США одобрил выделение средств на проект «Геном человека», который планировали запустить в 1990-м и потратить на его реализацию 15 лет и 3 миллиарда долларов. (Для сравнения: в 1990 году совокупные расходы федерального бюджета США на исследования вне оборонного сектора составили около 23 миллиардов.) Подобно космической программе «Аполлон» в 1960-х, проект «Геном человека» ассоциировался с покорением новых рубежей – на сей раз во внутренней вселенной клетки. Государство осуществляло финансирование и управление проектом через Национальные институты здоровья и Министерство энергетики США, хотя и при значительном участии партнеров из других стран. В 1998 году финансируемая из частного капитала группа биотехнолога Крейга Вентера объявила, что планирует самостоятельно секвенировать геном человека, причем быстрее и дешевле. Это положило начало яростной гонке. Обе группы добились успеха и в 2001 году сообщили о прочтении 90 % генома человека. В 2003-м доля покрытия выросла до 99 %, что позволило заявить о выполнении задачи, по сути, на два года раньше намеченного срока. Но нужно было дочитать еще несколько фрагментов, которые не удалось секвенировать сразу из-за сложностей типа длинных нуклеотидных повторов, и к 2004 году геном был определен уже на 99,7 %3.

Вам, возможно, интересно, чей геном тогда секвенировали. В обоих проектах геномы были коллективными: ДНК брали у нескольких человек, и разные прочитанные фрагменты от разных людей должны были дать общую для нашего вида картину. В итоге, однако, вышло так, что бо́льшая часть генетического материала принадлежала двум персонам: в проекте «Геном человека» – вроде бы анониму из города Буффало в штате Нью-Йорк, а в проекте Вентера – анониму, которым, как выяснилось позже, был… сам Крейг Вентер. Эти люди, разумеется, не представляют все человечество: чтобы изучить целый вид, нам нужно добыть его статистический портрет, то есть секвенировать гораздо больше человеческих геномов. Точно так же, если бы у меня обнаружили рак, мой врач захотел бы взглянуть на геном моих, а не средневидовых, злокачественных клеток. Чтобы преодолеть эти ограничения, требовались гораздо более быстрые и дешевые технологии. К счастью, их внедрение было уже не за горами.

Читаем много слов одновременно

При общей стоимости 3 миллиарда долларов чтение каждой пары оснований в проекте «Геном человека» обходилось примерно в доллар. Это было поразительным достижением с учетом того, что еще не сменилось даже поколение, не знавшее структуру ДНК, но все же недостаточным, чтобы применять такую технологию рутинно. В начале XXI века появилось несколько новых хитроумных методов, разработанных отчасти благодаря госфинансированию инноваций в сфере секвенирования. В совокупности эти методы второго поколения называют еще высокопроизводительными, но чаще просто секвенированием нового поколения4. В секвенировании первого поколения (по Сэнгеру) намноженные фрагменты читаются по очереди. Их смешивание обернулось бы катастрофой, поскольку мы потеряли бы уникальное соответствие между длиной оборванного субфрагмента и его меченым нуклеотидом-терминатором. В методы второго поколения изначально заложена параллельность: они позволяют анализировать множество фрагментов одновременно, а в ряде случаев даже читать цепи ДНК по мере их синтеза. Давайте познакомимся с несколькими новыми методами. Различаясь массой деталей, все они используют физические свойства ДНК и (или) связанных с ДНК материалов.

Пиросеквенирование появилось отчасти благодаря удивительным способностям светлячков5. Как мы знаем, ДНК-полимераза прикрепляет новые нуклеотиды к растущим нитям ДНК. Тщательно пересчитав атомы в составе свободного нуклеотида и в составе встроенного в нить, мы обнаружим, что соответствие между ними не полное. В ходе реакции пришивания нуклеотида к цепочке ДНК высвобождается крошечная молекула из двух атомов фосфора и семи атомов кислорода –