Машинное обучение сопряжено с риском так называемого переобучения[225]. Под этим мы подразумеваем, что глубокая нейронная сеть хорошо работает с данными, используемыми для ее обучения, но не способна делать прогнозы, выходящие за пределы того, что она уже знает, – как перчатка, которая идеально подходит для вытянутой ладони, но недостаточно гибка, чтобы включать в себя приветствие, сжатый кулак или черчиллевский знак «V».
Вот почему машинное обучение так привлекательно и в равной степени проблематично: при достаточном количестве параметров нейронная сеть всегда может обеспечить идеальное и красивое соответствие очень сложным данным. AlphaFold использовал сотни миллионов параметров, чтобы предсказать, как линейные цепочки аминокислот в белках складываются в сложные трехмерные кристаллические структуры, но, как мы уже упоминали, он не так хорошо справился со структурой в растворе (следовательно, модель, основанная на рентгеновских лучах, является переобученной). Методы машинного обучения могут легко стать ненадежными, если их экстраполировать на новое и неожиданное, что является истинной формой прогнозирования, которой действительно жаждут все ученые. И причина, по которой мир часто ведет себя новым и неожиданным образом, заключается, конечно же, в том, что он очень нелинеен.
В последнее время исследователи стали использовать данные моделирования хаотической системы для машинного обучения прогнозированию поведения сложных систем, таких как турбулентные потоки, молекулярная динамика и другие проявления хаоса[226]. Действительно, некоторые (но не Питер и его коллеги, столкнувшиеся с пределами чисел с плавающей запятой, как мы писали ранее) полагают, что машинное обучение может предсказать будущую эволюцию хаотических систем до восьми «ляпуновских времен», что, грубо говоря, в восемь раз дальше, чем позволяли предыдущие методы[227][228].
Тем не менее многие приложения машинного обучения полагаются на округленные числа (числа с плавающей запятой одинарной и все чаще даже половинной точности) для экономии времени и затрат меньшего количества энергии. В основе лежит предположение, что цифровые данные, полученные в результате такого моделирования, надежны, но в условиях хаоса это маловероятно.
Многие приложения машинного обучения не обращают внимания на то, как данные, используемые для обучения, распределяются статистически. Сосредотачиваясь на этой важной детали, многие также предполагают, что статистические распределения хаотических данных будут колоколообразными, или гауссовыми, названными в честь великого немецкого математика Карла Фридриха Гаусса (1777–1855). Когда вы проводите серию измерений (рост людей, кровяное давление или даже ошибки в измерениях), вы обнаруживаете, что данные разбросаны, часто вокруг центрального значения, без особого смещения в сторону более высоких или низких значений. Полученная колоколообразная кривая называется нормальным распределением, потому что она очень распространена.
Хотя это «нормальное распределение» играет важную роль в науке и более широких сферах человеческой деятельности, оно далеко не универсально. Оно не может описать большинство нелинейных явлений, в которых преобладает сложность, поскольку они основаны не на случайности, а обычно формируются петлями обратной связи, взаимодействиями и корреляциями. Эти сложные системы (а есть системы сложнее, чем человеческое тело) сильно коррелированы, поэтому не подчиняются статистике Гаусса. Чтобы обнаружить такие явления, необходимо собрать и проанализировать гораздо больше данных.
Другие примеры негауссовой статистики встречаются в турбулентности, когда потоки и вихри в жидкости простираются на гораздо большие масштабы длины, чем молекулы, или в удаленной тяге гравитации в турбулентных потоках материи, которые формируют галактики и Вселенную[229]. В молекулярной динамике, когда теория используется для предсказания движений отдельных молекул, взаимодействия между молекулами выходят далеко за рамки прямых столкновений, подобных твердым сферам, когда в игру вступают электростатические силы. Другие примеры можно найти в эпидемиологии и науке о климате[230], например, великие течения, переносящие тепло по океанам. В таких системах предположительно редкие события «черного лебедя» встречаются гораздо чаще, чем если смотреть через розовые очки нормального распределения[231].
Рисунок 24. Нормальное распределение. Модифицировано из книги Притхи Бхандари The Standard normal distribution: examples, explanations, uses («Стандартное нормальное распределение: примеры, объяснения, использование») (Scribbr 2005)
Без знания того, как распределяются данные, машинное обучение может легко привести к серьезным ошибкам. Полагаясь на гауссову статистику и колоколообразные кривые, эти трудности можно усугубить. Использование несовершенных данных и ошибочной статистики для обучения ИИ тому, как предсказывать поведение системы, чрезвычайно чувствительной к взмаху крыльев бабочки, иногда может привести к искусственной глупости[232][233]. Хорошей новостью является то, что, как упоминалось ранее, ученые-компьютерщики и специалисты по вычислительной технике работают над способами уменьшения неопределенности в таких прогнозах, работая с ансамблями нейронных сетей, чтобы проверить, работают ли они статистически надежно[234].
Большинство подходов к машинному обучению исходят из другого предположения, которое обсуждается редко. Предполагается, что между рядом точек данных и измерений можно построить плавную и непрерывную кривую. Чтобы понять суть того, что происходит внутри нейронной сети, представьте себе панораму холмов и долин, где высота ландшафта эквивалентна размеру ошибки между прогнозом и предыдущими данными. В типичном приложении алгоритм обучения ищет наименьший признак (наименьшую ошибку) на этом ландшафте или в пространстве поиска.
Самый простой подход – ползти в поисках самого низкого места. Это нормально для спокойного ландшафта холмов. Но когда дело доходит до неровного горного ландшафта, можете ли вы убедить себя, что один провал среди каменистых зубцов действительно является самым глубоким, тем, что ученые называют локальным минимумом? Это звучит как простая проблема, но когда дело доходит до реальных сложностей, таких как соединение молекулы лекарства с целевым белком в организме, это «сложная» задача оптимизации, поскольку ландшафт лежит в многомерном пространстве. На эту задачу оптимизации влияет проклятие размерности: невозможно получить достаточно данных и обработать их, чтобы сделать надежные прогнозы.
Есть способы обойти ловушку локального минимума, которую мы описали в Frontiers of Complexity, в том числе использование алгоритма имитации отжига, генетических алгоритмов и машины Больцмана[235], названной в честь великого Людвига Больцмана, с которым мы столкнулись ранее. Точно так же, как случайные тепловые движения атомов во время отжига металла снимают внутренние напряжения и помогают металлическому кристаллу принять наиболее организованное атомное расположение, так и смоделированный случайный шум, генерируемый на компьютере, может вытряхнуть нейронную сеть из локального провала и направить его к самой глубокой долине на ландшафте ошибок.
Но реальный мир не всегда гладок и непрерывен. Представьте, что вы играете в гольф и используете разрозненные данные о высоте, чтобы найти 18 лунок на 300 га поля для гольфа «Сент-Эндрюс» в Шотландии (рис. 25). По самой своей природе, будучи небольшими, лунки невидимы для любого алгоритма, соединяющего точки, если только у него нет количества данных, достигающих уровня меньшего, чем лунка. Действительно, как только машинное обучение достигнет великолепно ровной зелени, его алгоритмы «градиентного спуска» вообще перестанут работать, в результате чего можно будет прийти к выводу, что лунка может быть где угодно в этой области (в квантовых вычислениях, которые мы обсуждаем в восьмой главе, этот результат называется «бесплодное плато»). И, чтобы найти лунки, нам снова придется обратиться к картам Борхеса, масштаба 1:1. Аналогичным образом аппроксимация кривой хороша для простых систем, но ее может сбить с толку сложность и нелинейность, которыми изобилует организм, от кровотока и динамики жидкости до электрической активности в сердце, реакций иммунной системы на вторжение патогена и динамики молекул.
Рисунок 25. Графики, иллюстрирующие, как свойства системы («ландшафта») могут победить подходы машинного обучения (а). В простых ситуациях, когда ландшафт относительно ровный, можно ожидать, что методы машинного обучения хорошо справятся с прогнозированием поведения. Примеры (б) и (в) показывают, когда машинное обучение может оказаться в тупике или потерпеть неудачу. Адаптировано из книги Big data need Big theory too (Peter V. Coveney, Edward R. Dougherty, and Roger R. Highfield (Phil. Trans. R. Soc. A 374, 2016))
Есть и практические проблемы: мир сталкивается с чрезвычайной климатической ситуацией и алгоритмы машинного обучения потребляют значительное количество энергии[236]. Также растет осознание того, что потребность в энергии для тренировок и проведения глубокого обучения становится настолько велика, что нам необходимо искать новые способы повышения производительности, не вызывая при этом заоблачных выбросов углекислого газа от вычислений