Команда DeepMind обучила AlphaFold, используя последовательности аминокислот и полученные формы белков, хранящиеся в общедоступных данных о примерно 170 000 белковых структурах, определенных стандартными экспериментальными методами, с использованием рентгеновской кристаллографии и спектроскопии ядерного магнитного резонанса (ЯМР). Один нюанс: все эти белковые структуры верны, хотя есть опасения, что сегодня слишком много полагаются на автоматизированные методы анализа рентгеновских данных[214]. Когда дело доходит до анализа, компьютеры до сих пор не могут конкурировать с химиками, хотя методы совершенствуются. И еще одна оговорка: AlphaFold обучается на множестве структур, в которых белки связаны с другими молекулами в комплексах. И, конечно, не следует забывать, что форма, которую принимают белки в виде холодного кристалла, далека от гибких конфигураций, принимаемых в теплых пределах клетки.
AlphaFold был запрограммирован не для предсказывания взаимоотношений между аминокислотами в окончательной структуре (до 2000 аминокислот), а для того чтобы выяснять, какие аминокислоты лежат рядом друг с другом. Нейронная сеть глубокого обучения AlphaFold имеет много слоев, и ее взаимосвязи меняются по мере того, как обучающие данные о белковых структурах подаются на нижний слой – входной – и проходят через последующие уровни. В ходе обучения вес и пороговые значения связей изменяются. Удивительно, но AlphaFold даже не знал, что аминокислоты существуют в цепочке – он просто научился располагать их таким образом. Для этого он оптимизировал 100 миллионов параметров.
Это много. Если вы рассматриваете ИИ как прославленную подгонку кривой (то есть построение кривой или математической функции, которая соответствует ряду точек данных), вы можете подогнать под это число практически все. Чтобы представить эти 100 миллионов в контексте, американский пионер компьютеров Джон фон Нейман пошутил: «С четырьмя параметрами я могу выразить слона, а с пятью могу заставить его шевелить хоботом». У команды DeepMind, похоже, было достаточно параметров, чтобы дать ИИ сознание и целеустремленность.
DeepMind называет AlphaFold «нейронной сетью, основанной на внимании», способной динамически передавать информацию по мере обучения в течение нескольких недель на широком спектре известных белковых структур. Как сказал Джампер Роджеру: «Мы видим, что по мере того, как нейронная сеть начинает узнавать, какие части белка расположены близко, она способна по существу установить связь для передачи информации между различными фрагментами аминокислот. Таким образом, „внимание“ означает, что в некотором смысле каждая часть белка обслуживает или взаимодействует с другими частями белка, которые, по мнению сети, могут быть близки. Итак, вы видите, что сеть накапливает знания о структуре белка, а затем использует их, чтобы узнать еще больше о том, как он сворачивается»[215].
В 2020 г. CASP измерил точность прогнозов AlphaFold с точки зрения процента аминокислот на пороговом расстоянии от правильного положения, известного как тест глобального расстояния, и Alpha-Fold достиг медианного значения 92,4 (идеальное соответствие – 100). Используя другой показатель (среднеквадратичное отклонение всех аминокислотных остатков от их экспериментально установленных положений), AlphaFold сообщил о впечатляюще маленькой средней ошибке, составляющей примерно 1,6 ангстрем, что сравнимо с шириной атома (0,1 нм) (рис. 23).
К лету 2021 г. AlphaFold предсказала структуру почти всего человеческого набора белков, или протеома (98,5 % полного набора человеческих белков), а также почти полных протеомов различных других организмов, от мышей и плодовых мушек до рыбы-зебры и малярийного паразита[216]. Эти около 350 000 белковых структур, созданных всего за 48 ч, были обнародованы Европейской лабораторией молекулярной биологии и Европейским институтом биоинформатики в Хинкстоне, Великобритания. Демис Хассабис из DeepMind заявил, что это открытие ознаменовало самый большой на сегодняшний день вклад ИИ в науку, поскольку в июле 2022 г. число предсказаний достигло 200 миллионов структур, охватывающих известную белковую вселенную[217]. Наличие надежного метода прогнозирования трехмерных структур белков, несомненно, ускорит темпы исследований в области структурной молекулярной биологии.
Рисунок 23. Как визуализировать точность предсказаний AlphaFold: вот «матрицы расстояний» для трех белков, где яркость каждого пикселя представляет собой расстояние между аминокислотами в последовательности, составляющей белок – чем ярче пиксель, тем ближе пара. В верхнем ряду показаны реальные, экспериментально определенные расстояния, а в нижнем – среднее значение прогнозируемых распределений расстояний AlphaFold, которые с ними хорошо совпадают (DeepMind)
Когда появилась статья с описанием методов и исходного кода AlphaFold, команда из Вашингтонского университета в Сиэтле опубликовала подробности RoseTTAFold, еще одной программы прогнозирования сворачивания белков. Вдохновленная AlphaFold, RoseTTAFold приблизилась к точности своей алгоритмической музы[218]. Тот факт, что два разных подхода к машинному обучению показали такой успех в структурной биологии, обнадеживает, но мы все еще должны быть уверены, что можем доверять этим данным – их необходимо проверить и подтвердить, особенно когда речь идет об активных центрах в белках, где связывание происходит с другими молекулами, например, с теми, которые используются в качестве лекарств.
Однако AlphaFold предоставляет структуры только для определенного конформационного состояния, то есть одну статическую структуру, которая может лучше соответствовать целевой. Цель обычно выделяют с помощью рентгеновской кристаллографии в искусственных условиях, и она вполне может не представлять собой биологически значимые конформации, в отличие от структур, измеренных с помощью ЯМР, который создает более динамичный и реалистичный ансамбль структур.
Есть и другие нюансы. Структуры, предсказанные ИИ, необходимо расширить, включив в них целевые молекулы, используемые для открытия лекарств, чтобы помочь создать лекарства следующего поколения, а экспериментально определенные структуры по-прежнему будут очень необходимы, в том числе, в частности, для выявления с помощью криоэлектронной микроскопии работы больших молекулярных машин. Более того, как отметил Пол Уоркман из Института исследования рака в Лондоне, AlphaFold не справляется с «неупорядоченными» областями, которые составляют от 37 до 50 % человеческих белков, хотя иметь возможность их идентифицировать очень полезно[219].
Однако есть и более серьезный недостаток. Нам еще предстоит вся работа, направленная на открытие науки – основные аспекты биологии, химии и физики – того, как и почему белки сворачиваются. «AlphaFold окажет большое влияние на открытие новых лекарств, – заключает Уоркман, – но нет никаких сомнений в том, что после ранних стадий, на которых AlphaFold будет иметь максимальный эффект, еще многое предстоит сделать для открытия и разработки лекарств, где точная трехмерная структура белка мало чем полезна»[220].
Почему ИИ не может заменить теорию?
В отличие от пауков и пчел Бэкона, машинное обучение не стремится объяснять. Возможно, именно поэтому развитие искусственного интеллекта в последние годы привело к появлению соблазнительной идеи, которая ознаменовала поворот судьбы пауков Бэкона с их одержимостью пониманием: зачем вообще объяснять? Почему бы не покончить с теорией и вторым шагом, необходимым для создания виртуального человека? Почему бы просто не положиться на муравьев и машинное обучение?
Одна из причин заключается в том, что реальность машинного обучения прозаична: оно делает статистические выводы, своего рода прославленную аппроксимацию известных данных кривой. Как следствие, соблазнительная комбинация машинного обучения и больших данных сталкивается с теми же проблемами, что и финансовые услуги: прошлые результаты игры на фондовом рынке не являются гарантией будущих.
Также глубокое обучение часто идет наперекосяк. Например, когда дело доходит до искусственного зрения, машинное обучение может привести к причудливым результатам. Искажения, которые незаметны для людей[221], могут обмануть машину и заставить ее принять панду за гиббона[222]. Глубокая нейронная сеть может рассматривать абстрактные изображения как знакомые объекты. Несколько удачно расположенных наклеек могут заставить автомобиль с искусственным интеллектом неправильно прочитать знак «Стоп»[223]. Если эти алгоритмы не обучены на тщательно отобранных данных, они могут стать неадаптированными, часто встраивая в себя предвзятость, о которой их создатели совершенно не подозревают[224].
За использование глубоких нейронных сетей приходится платить. Для каждой связи между парой нейронов в нейронной сети вводится еще один «вес» связи. Эти параметры множатся примерно пропорционально квадрату этого числа, так что большая сеть может иметь от десятков тысяч до многих миллионов таких весов. Успех зависит от оптимизации огромного количества настраиваемых параметров во время обучения, на которую тратится большая часть вычислительных циклов.
Часто сеть можно адаптировать с помощью тщательно выбранных алгоритмов и хорошего набора данных, который не содержит слишком много разрывов или исключений, таких как маловероятные события, являющиеся большим отклонением от нормы, например событие «черного лебедя» на фондовом рынке. Но поиск «оптимальной» сети означает использование огромного количества сетей-кандидатов со всеми способами разделения вашего набора данных, обычно путем обучения сетей на одной части данных, а затем их проверки на другой, с которой они еще не сталкивались. Это нечто большее, чем процесс проб и ошибок, и требует большой мощности компьютера.