К сожалению, Тьюрингу не удалось развить эти новаторские идеи о вычислении закономерностей природы: через два года после публикации статьи он покончил с собой, выпив стакан растворенного цианида и закусив яблоком, чтобы сделать свой последний напиток вкуснее[337]. В течение следующих нескольких десятилетий его работа по большей части игнорировалась химиками и биологами, которые были очарованы новыми открытиями, возникшими из двойной спирали ДНК.
Лишь в 1990 г. появились убедительные экспериментальные доказательства существования закономерности Тьюринга в химии[338]. Теперь, спустя десятилетия дополнительных исследований, растущая мощь компьютеров помогла укротить уравнения в частных производных, и теория Тьюринга предложила возможное объяснение целому ряду отметин, встречающихся в природе: от зебр до жирафов, ягуаров[339] и морских ракушек, а также расположения пальцев передних и задних лап[340] и волосяных фолликулов у мышей[341]. Оживив биологию на компьютере, Тьюринг стал еще одним пионером в попытках создать виртуального человека.
Проект К
Хотя Ходжкин и Хаксли разработали одну из самых успешных моделей сложного биологического процесса, революция в молекулярной биологии, произошедшая в 1953 г. после публикации Криком и Уотсоном структуры двойной спирали ДНК затмила ее[342]. В течение следующего десятилетия научный интерес сосредоточился на том, как белки и молекулы жизни взаимодействуют внутри клетки. Изучая простые организмы, возможно, мы смогли бы понять детали жизни.
Эти амбиции можно было увидеть в статье «Проект К: Полное решение проблемы E. coli», написанной Криком в 1973 г. после обсуждений с Сиднеем Бреннером (1927–2019), одним из первых, кто обратил внимание на двойную спираль ДНК[343]. Крик и Бреннер хотели использовать новое молекулярное понимание для решения ряда биологических проблем, каждая из которых была сосредоточена на понимании различных форм жизни: вирус, поражающий бактерии, фаг лямбда (Проект L); мышь (Проект М); нематода (Проект N), за которую Бреннер получил Нобелевскую премию; и E. coli, штамм K12 кишечной бактерии (Проект K). Когда дело дошло до последнего, Крик говорил о поиске «полного решения», «объяснения» живой клетки[344].
В 1984 г., через несколько лет после того, как ученые начали использовать кропотливые методы секвенирования отдельных генов, Гарольд Моровиц из Йельского университета выбрал более легкую цель для полного объяснения живой клетки, чем кишечная палочка, – бактерию Mycoplasma («простейшая живая клетка»), чтобы исследовать то, что он называл «логикой жизни». Несмотря на ограничения компьютеров того времени, Моровиц даже подумывал использовать компьютер для создания виртуальной клетки. Он говорил о том, что компьютерная модель «осуществима, <…> и каждый эксперимент, который можно провести в лаборатории, можно провести и на компьютере»[345]. В том же году Майкл Шулер и его коллеги из Корнеллского университета создали модель сверху вниз, основанную на дифференциальных уравнениях, которая смогла воспроизвести рост отдельной клетки E. coli и популяций бактериальных клеток[346].
Вслед за этими ранними исследованиями усилия по созданию виртуальных клеток процветали благодаря растущей мощности компьютеров, подпитываемой взрывным ростом информации об основных процессах жизни из лабораторий молекулярной биологии по всему миру, а также достижениями в теории, например, как физика, управляющая образованием капель, а также происхождением пузырьков в бокале шампанского, может помочь нам понять основные принципы организации живых клеток[347].
Расцвет виртуальных бактерий
С развитием секвенирования генома и обилием подробных клеточных данных возможность моделировать более простые организмы, такие как микоплазмы, стала практической реальностью. Идея Моровица получила развитие в 1995 г., когда Mycoplasma genitalium, обитающая в половых путях человека, стала вторым свободноживущим организмом, генетический код которого был прочитан или секвенирован в ходе исследований американского пионера геномики Крейга Вентера[348].
Одну попытку превратить это молекулярное понимание в «электронную клетку» предпринял Масару Томита из Университета Кэйо, Фудзисава, Япония[349]. Весной 1996 г., работая под руководством Томиты, студенты Лаборатории биоинформатики в Кэйо нарисовали сеть метаболических взаимодействий, основанную всего на 120 генах Mycoplasma – существенное упрощение, поскольку реальная на самом деле зависит от 525 генов. Более того, они также позаимствовали 7 генов у бактерии E. coli, чтобы заставить свою виртуальную клетку работать[350].
Эта модель, опубликованная три года спустя, включала метаболизм, транскрипцию и трансляцию генов. Описывая клеточный метаболизм с помощью набора обыкновенных дифференциальных уравнений, они использовали объектно-ориентированное программирование для транскрипции и трансляции, где клеточные данные представлялись как дискретные объекты, с которыми может взаимодействовать пользователь и другие объекты. Команда разработала сотни правил, регулирующих метаболические пути: от гликолиза и транскрипции генов до синтеза белка. Для большей реалистичности ферменты и другие белки в их модели изящно «деградировали», так что их приходилось постоянно синтезировать, чтобы клетка могла поддерживать «жизнь».
Японская команда могла экспериментировать на своей виртуальной клетке, поскольку их «движок-симулятор» работал примерно на одной двадцатой темпа жизни реальной клетки. Состояние виртуальной клетки в каждый момент выражалось в виде концентраций входящих в нее веществ, а также значений объема клетки, кислотности (pH) и температуры. Они могли выбить ген и изучить последствия, даже «убить» свою виртуальную клетку, отключив важный ген, например, отвечающий за синтез белка.
Они добились значительного прогресса и опубликовали свою модель в 1999 г. Однако существовало еще много генов, функции которых не были известны. Также было сложно построить последовательную модель из обыкновенных дифференциальных уравнений. Еще одной проблемой был поиск всех параметров, которые можно включить в эти уравнения. Под руководством Коичи Такахаси из Лаборатории биологических вычислений в Осаке команда перешла к моделированию других клеток, таких как эритроциты и кардиомиоциты. Чтобы избежать рутины по сбору данных из тысяч статей для моделирования более сложных клеток, команда использует ИИ для извлечения геномных последовательностей из баз данных, прогнозирования, какие части последовательности транслируются в белки, и использования существующих знаний для определения того, что они делают и как взаимодействуют.
Совсем недавно еще одна виртуальная Mycoplasma genitalium появилась на компьютере благодаря системному биологу из Стэнфордского университета Маркусу Коверту, который сам был вдохновлен идеями Бреннера, Крика и Моровица, а также данными Вентера. Будучи аспирантом, в 1995 г. Коверт увлекся первым исследованием сравнительной геномики, когда команда Вентера сопоставила генетический код бактерий Mycoplasma pneumoniae и Haemophilus influenzae, чтобы начать разработку основного набора генов, необходимых для жизни[351]. Коверт до сих пор помнит охватившее его волнение, когда в газете он прочитал слова Клайда Хатчисона, члена команды Вентера: работающая компьютерная модель клетки станет окончательным испытанием биологического понимания.
Эти слова навсегда останутся с Ковертом, который шел за мечтой. Его команда использовала код ДНК микоплазмы Вентера вместе с данными, полученными из более чем 900 научных работ, включая почти 2000 экспериментально наблюдаемых параметров, которые отражают геном организма, транскриптом, протеом, метаболом и т. д. Они разделили M.genitalium на 28 функциональных процессов, моделируя каждый независимо в течение 1 с. Целая клетка была смоделирована с использованием алгоритма, сравнимого с теми, которые используются для численного интегрирования обыкновенных дифференциальных уравнений.
Изменение состояния виртуальной клетки рассчитывалось секунда за секундой путем многократного распределения переменных состояния между процессами, выполнения каждой из подмоделей клеточных процессов и обновления значений переменных состояния до тех пор, пока не было достигнуто заданное время или клетка не делилась. В целом модель сочетала в себе смесь булевой алгебры (сочетание логики и математики, сыгравшей ключевую роль в создании компьютеров), линейной оптимизации и обыкновенных дифференциальных уравнений, чтобы «оживить» организм.
Сложнее всего было объединить 28 функциональных процессов в единую клеточную модель. Исследователи начали с предположения, что эти процессы независимы на коротких временных интервалах – в данном случае менее 1 с. Моделирование проводилось в цикле, в котором модели подпроцессов запускались независимо на каждом временном шаге, но зависели от значений переменных, определенных другими подмоделями на предыдущем временном шаге. Таким образом, им удалось смоделировать M.genitalium до каждого из 525 генов, что стало первым моделированием всех генов организма и каждой известной функции генов.