И теперь мы смогли использовать ассемблер Celera для секвенирования последовательности: на первом этапе результаты корректировались для достижения самой высокой точности; на втором этапе программа Screener удаляла загрязняющие последовательности из ДНК плазмиды или E. coli. Процесс сборки может быть нарушен всего-навсего какими-то 10 парами оснований «чужой» последовательности. На третьем этапе программа Screener проверяла каждый фрагмент на соответствие известным повторяющимся последовательностям в геноме плодовой мушки – данным Джерри Рубина, который их «любезно» нам предоставил. Местоположение повторов с частично перекрывающимися участками записывалось. На четвертом этапе другая программа (Overlapper) обнаруживала перекрывающиеся участки, сравнивая каждый фрагмент со всеми остальными, – колоссальный эксперимент по обработке огромного объема числовых данных. Ежесекундно мы сравнивали 32 миллиона фрагментов с целью обнаружить по крайней мере 40 перекрывающихся пар оснований с менее 6 % различий. При обнаружении двух перекрывающихся участков мы объединяли их в больший фрагмент, так называемый «контиг» – набор перекрывающихся фрагментов.
В идеальном случае этого бы вполне хватило для сборки генома. Но нам приходилось бороться со статтерами и повторами в коде ДНК, а это означало, что один фрагмент ДНК может перекрываться с несколькими различными участками, создавая ложные соединения. Чтобы упростить задачу, мы оставляли только однозначно соединенные фрагменты, так называемые «унитиги». Программа, с помощью которой мы выполняли эту операцию (Unitigger), по существу удаляла всю последовательность ДНК, которую мы не могли с уверенностью определить, оставляя лишь эти унитиги. Этот шаг не только дал нам возможность рассмотреть другие варианты сборки фрагментов, но и существенно упростил задачу. После редукции количество перекрывающихся фрагментов сократилось с 212 миллионов до 3,1 миллиона, и проблема упростилась в 68 раз. Детали головоломки постепенно, но неуклонно вставали на свои места.
А затем мы могли использовать информацию о способе спаривания последовательностей одного и того же клона, используя «каркасный» алгоритм. Все возможные унитиги со взаимно перекрывающимися парами оснований объединялись в специальные каркасы. Для описания этого этапа в своих лекциях я провожу аналогию с детским игрушечным конструктором Tinkertoys. Он состоит из палочек разной длины, которые можно вставлять в отверстия, расположенные на деревянных узловых деталях (шариках и дисках), и составить так объемную конструкцию. В нашем случае узловые детали – это унитиги. Зная, что парные последовательности располагаются на концах клонов длиной в 2 тысячи, 10 тысяч или 50 тысяч пар оснований – то есть как бы находятся на расстоянии определенного количества отверстий друг от друга, – их можно выстроить в одну линию.
В результате тестирования этой методики на последовательности Джерри Рубина, составлявшей примерно одну пятую генома плодовой мушки, мы получили всего лишь 500 пробелов. Проведя в августе испытания на наших собственных данных, мы получили в результате более 800 тысяч небольших фрагментов. Существенно большее количество данных для обработки показало, что методика работала плохо – результат оказался противоположным ожидаемому. В течение нескольких следующих дней паника нарастала, а список возможных ошибок удлинялся. С верхнего этажа корпуса № 2 адреналиновый раж просачивался в комнату, шутливо называемую «Безмятежными покоями». Однако никакого покоя и безмятежности там не ощущалось, особенно в течение по крайней мере пары недель, когда сотрудники буквально кругами слонялись в поисках выхода из создавшегося положения.
В конце концов проблему решил Артур Делчер, работавший с программой Overlapper. Он заметил нечто странное в 678-й строке кода из 150 тысяч строк, в том месте, где пустяковая неточность означала, что важная часть совпадений не записана. Ошибка была исправлена, и 7 сентября у нас было 134 клеточных каркаса, покрывавших действующий (эухроматический) геном плодовой мушки. Мы были в восторге и с облегчением выдохнули. Пришла пора объявить всему миру о нашем успехе.
Конференция по секвенированию генома, которую я начал проводить несколько лет назад, предоставляла для этого прекрасную возможность. Я был уверен, что найдется большое количество жаждущих удостовериться, сдержали ли мы свое обещание. Я решил, что рассказывать о наших достижениях, и прежде всего о процессе секвенирования, сборке генома и значении этого для науки, должны Марк Адамс, Джин Майерс и Джерри Рубин. Из-за наплыва желающих приехать на конференцию мне пришлось перенести ее из Хилтон-Хеда в более вместительный отель «Фонтенбло» в Майами. На конференции присутствовали представители крупных фармацевтических и биотехнических компаний, специалисты по геномным исследованиям со всего мира, довольно много обозревателей, репортеров и представителей инвестиционных компаний – все были в сборе. Наши конкуренты из компании Incyte потратили немалые средства на организацию приема после окончания конференции, корпоративную видеосъемку и прочее – делали все, дабы убедить публику, что именно они предлагают «самую подробную информацию о геноме человека».
Мы собрались в большом конференц-зале. Выдержанный в нейтральных тонах, украшенный настенными светильниками, он был рассчитан на две тысячи человек, но народ все прибывал, и вскоре зал заполнился до отказа. Открытие конференции состоялось 17 сентября 1999 года, и на первом заседании с сообщениями выступили Джерри, Марк и Джин. После небольшого вступления Джерри Рубин объявил, что собравшимся предстоит услышать о лучшем совместном проекте известных компаний, в котором ему когда-либо довелось участвовать. Атмосфера накалялась. Аудитория поняла, что он не стал бы говорить так высокопарно, если бы у нас не было заготовлено что-то действительно сенсационное.
В воцарившейся тишине Марк Адамс начал подробно описывать работу нашего «производственного цеха» в Celera и наши новые методы секвенирования генома. Однако при этом он ни слова не сказал о собранном геноме, словно поддразнивая публику. Затем вышел Джин, поведавший о принципах метода дробовика, о секвенировании Haemophilus, об основных стадиях работы ассемблера. С помощью компьютерной анимации он продемонстрировал весь процесс обратной сборки генома. Отведенное на выступления время заканчивалось, и многие было уже решили, что все ограничится элементарной презентацией с использованием программы PowerPoint, без предъявления конкретных результатов. Но тут Джин с ехидной улыбкой заметил, что аудитория, наверное, захочет все-таки увидеть реальные результаты и не удовольствуется имитацией.
Невозможно было представить наши результаты яснее и выразительнее, чем это сделал Джин Майерс. Он понял, что сами по себе результаты секвенирования не произведут должного впечатления, поэтому для большей убедительности сравнил их с результатами кропотливого исследования Джерри традиционным методом. Они оказались идентичными! Таким образом, Джин сравнил результаты нашей сборки генома со всеми известными маркерами, картированными на геноме плодовой мушки десятки лет назад. Из тысяч маркеров только шесть не совпадали с результатами нашей сборки. Тщательно исследовав все шесть, мы убедились, что секвенирование в Celera было верным и что ошибки содержались в работах, выполненных в других лабораториях старыми методами. Под конец Джин сообщил, что мы только что приступили к секвенированию ДНК человека, и с повторами здесь наверняка будет меньше проблем, чем в случае дрозофилы.
Последовали громкие и продолжительные аплодисменты. Не прекращавшийся и во время перерыва гул означал, что мы своего добились. Кто-то из журналистов заметил участника государственного проекта генома, сокрушенно качающего головой: «Похоже, эти мерзавцы действительно собираются все сделать»{147}. Мы покинули конференцию с новым зарядом энергии.
Оставалось решить две важные проблемы, и обе были нам хорошо знакомы. Первая – как публиковать результаты. Несмотря на подписанный с Джерри Рубином меморандум о взаимопонимании, сотрудники нашего бизнес-отдела не одобряли идею передачи ценных результатов секвенирования дрозофилы в GenBank. Они предлагали разместить результаты секвенирования плодовой мушки в отдельной базе данных в Национальном центре биотехнологической информации, где ими сможет пользоваться каждый при одном условии – не в коммерческих целях. Вспыльчивый, постоянно курящий Майкл Эшбернер из Европейского института биоинформатики был крайне этим недоволен. Он считал, что компания Celera «всех надула»{148}. (Он писал Рубину: «Что, черт подери, происходит в Celera?»{149}) Коллинз тоже был недоволен, но что гораздо важнее, недоволен был и Джерри Рубин. В конце концов я все-таки отослал наши результаты в GenBank.
Вторая проблема касалась дрозофилы – у нас были результаты секвенирования ее генома, но мы совершенно не понимали, что они означают. Нужно было проанализировать их, если мы хотели написать статью, – так же, как четыре года назад в случае с Haemophilus. Анализ и описание генома мушки могли занять более года – а у меня такого времени не было, потому что теперь следовало сосредоточиться на геноме человека. Обсудив это с Джерри и Марком, мы решили вовлечь в работу над Drosophila научное сообщество, превратив это в увлекательную научную задачу, и таким образом быстро продвинуть дело, устроить из скучного процесса описания генома веселый праздник – наподобие международного скаутского слета. Мы назвали его «Геномное Джамбори» и пригласили ведущих ученых со всего мира приехать в Роквилл примерно на неделю или дней на десять – проанализировать геном мушки. На основе полученных результатов мы планировали написать серию статей.