Виртуальный ты. Как создание цифровых близнецов изменит будущее человечества — страница 25 из 61

[237]. Один из многообещающих способов решения этой проблемы – не полагаться на специализированные микрочипы, а вместо них использовать аналоговую обработку, которая есть в любой физической системе, например управление светом с помощью кристалла как части глубокой нейронной сети. Команда Корнеллского университета в Итаке, штат Нью-Йорк, показала, что так называемые глубокие физические нейронные сети (PNN) могут использовать механические, оптические и электрические системы для выполнения таких задач, как классификация изображений и распознавание гласных. Обучение физическим процессам идет напрямую, в отличие от традиционного метода, в котором сначала учатся математические функции, а затем разрабатывается физический процесс для их выполнения. Теоретически PNN предлагают способ сделать машинное обучение на несколько порядков быстрее и более энергоэффективным, чем традиционное оборудование[238].

Однако, пожалуй, самая тревожная проблема заключается в том, что мы пока не знаем, как построить успешную нейронную сеть с точки зрения идеального рецепта слоев, количества нейронов, взаимосвязей, сетевой архитектуры и т. д. Создание нейронной сети остается туманным искусством: единственный способ усовершенствовать машинное обучение – это метод проб и ошибок. Пока мы не поймем, что именно происходит внутри этих черных ящиков, маловероятно, что нынешнее поколение слабого ИИ, особенно основанное на цифровых машинах, легко превратится в общий ИИ, который присутствует в таких фильмах, как «Из машины» или «Терминатор».

Мы действительно живем в эпоху больших данных, но, как мы указывали в первой главе, для описания человеческого тела требуются колоссальные данные. Биологические системы настолько сложны, что выбор определенного набора данных может повлиять на способность машинного обучения понимать, что эти данные описывают. Например, в реальной системе, в живой клетке, представляющей собой котел активности 42 миллионов белковых молекул, можем ли мы быть уверены, что получили правильные данные? Случайный поиск данных для выявления корреляций в сложных системах, таких как человеческое тело, обречен на провал, если неизвестно, какие переменные важны.

Существует постоянная проблема различения корреляции и причинно-следственной связи. Пример: вы можете думать, что нет никакой корреляции между нападениями акул и продажами мороженого, пока не поймете, что есть еще один фактор, обеспечивающий связь, – высокие температуры побуждают больше людей покупать мороженое, а также в поисках прохлады окунаться в море. Таким образом, эта «скрытая переменная» – температура – на самом деле является причиной очевидной корреляции между мороженым и травмами. Кроме того, избыток информации имеет тенденцию вести себя как недостаток. На самом деле иметь слишком много данных может быть хуже, чем не иметь данных вообще[239]. Используя результаты из различных областей математики – эргодической теории, теории Рамсея и алгоритмической теории информации, – можно точно показать, что большие базы данных содержат произвольное количество корреляций, которые быстро растут с увеличением количества, а не характера данных. Эти корреляции возникают даже в больших и случайно сгенерированных базах данных, а значит – большинство корреляций являются ложными[240].

Почему, учитывая все эти недостатки, использование ИИ для анализа больших данных так соблазнительно? Одна из причин заключается в том, что, как мы обсуждали ранее, биологические теории редко достигают уровня общности и силы, наблюдаемого в физике. Большая часть биологии и медицины опирается на объяснения post hoc – сделанные после того, как мы узнали ответ. И снова причина сводится к одному фактору: сложности. Биологические системы, особенно человеческое тело, вполне могут быть более сложными, чем огромные структуры света и тьмы, которые мы называем космосом[241].

От слабого к большому и общему ИИ

Искусственный интеллект будет играть важную роль в проектах цифровых двойников человеческого тела для создания нового поколения по-настоящему персонализированной и прогностической медицины. Искусственный интеллект, особенно машинное обучение, уже с некоторым успехом используется в медицине в различных контекстах, хотя возможности машинного обучения явно ограничены. Суррогаты ИИ также будут иметь решающее значение для виртуального человека. И, как мы отмечали ранее, сочетание ИИ и механистического понимания – большой ИИ – окажется гораздо более мощным, когда итерационный цикл позволит проверять гипотезы ИИ в симуляциях, основанных на физике, и использовать результаты физических методов для обучения ИИ[242]. Таким образом, влияние ИИ может быть трансформировано, не в последнюю очередь в проекте виртуального человека.

Большой ИИ, или машинное обучение на основе физики, уже представляет собой важное расширение обычного ИИ и широко используется от материаловедения до физики плазмы и цифровых двойников[243]. Например, в гидродинамике так называемое гибридное моделирование, сочетающее моделирование на основе физики и моделирование на основе данных, показало преимущества перед использованием моделей, основанных на чистой физике или машинном обучении[244]. В области разработки лекарств этот подход использовался, например, для прогнозирования устойчивости к противомикробным препаратам[245], классификации формы ферментов[246] и прогнозирования способа связывания белков с лекарствами-кандидатами с химической точностью[247].

В США платформа для разработки лекарств на основе искусственного интеллекта под названием ATOM является одной из целевых групп Cancer Moonshot. При поддержке фармацевтической компании GSK, лабораторий Министерства энергетики, Калифорнийского университета в Сан-Франциско и Национальной лаборатории исследования рака им. Фредерика, ATOM стремится интегрировать высокопроизводительные вычисления в передовые алгоритмы машинного обучения, чтобы быстро прогнозировать предположительно миллиарды вариантов лекарств. По словам Эрика Штальберга, директора отдела биомедицинской информатики и обработки данных лаборатории Фредерика, это может существенно сократить время и расходы на их изготовление и тестирование в лаборатории.

Штальберг стал пропагандистом использования высокопроизводительных вычислений после того, как у члена его семьи был диагностирован рак. Его поразил устойчивый разрыв между обещаниями передовых исследований и реальностью больничной помощи[248]. По его мнению, искусственный интеллект может помочь преодолеть этот разрыв. Например, чтобы спрогнозировать и оптимизировать эффективность потенциальных лекарств для конкретного пациента, ученые из Аргоннской национальной лаборатории будут обучать различные алгоритмы на данных об экспрессии генов и моделировать взаимодействие препарата с раковыми клетками на молекулярном уровне. Рик Стивенс из этой лаборатории, с которым мы встречались ранее, надеется, что ATOM «значительно изменит открытие лекарств».

В недавней работе с международной командой коллег, в том числе со Стивенсом, мы представили новый метод разработки лекарств in silico, использующий теоретические методы вместе с машинным обучением, чтобы сделать первые более ловкими, а второе более умным[249]. Одним из ключевых компонентов объединения ИИ и физического моделирования в рамках сложного рабочего процесса большого ИИ было «промежуточное программное обеспечение», разработанное Шантену Джа в Ок-Риджской национальной лаборатории и Университете Рутгерса в США.

Мы использовали этот гибридный подход для анализа нескольких миллионов соединений и применили его для перепрофилирования лекарств, найдя те, которые связываются с основной протеазой SARS-CoV-2, ферментом, который позволяет вирусу размножаться, и пока что получили обнадеживающие результаты[250]. Наш коллега Рик Стивенс возглавил американскую команду, которая использовала аналогичный подход большого ИИ, используя инфраструктуру суперкомпьютеров США для анализа более 6 миллионов молекул в поисках химического вещества под названием MCULE-5948770040, многообещающего ингибитора протеазы[251].

Хотя этот подход основан на итерациях между физическими методами и машинным обучением для оттачивания прогнозов, другой вид большого ИИ можно найти в облике так называемой нейронной сети, основанной на физике, или PINN, алгоритма глубокого обучения, разработанного Джорджем Карниадакисом и коллегами из Университета Брауна в Род-Айленде[252]. Этот алгоритм обучен и необходим для удовлетворения ряда основных физических ограничений, таких как законы движения, симметрии, сохранения энергии и термодинамики. PINN может отвечать на вопросы, когда данных недостаточно, и выводить неизвестные параметры. Короче говоря, PINN использует теорию для заполнения пробелов в данных и понимании – подход, который применялся, например, к динамике жидкостей и для улучшения моделей прогнозирования COVID-19[253].

Большой ИИ представляет собой веху в машинном обучении, которая находится где-то между нынешним поколением ИИ, обладающим сверхчеловеческими способностями, хотя и для очень узких сфер применения, и будущим общим ИИ, когда агент