Одна из наиболее перспективных концепций прикладной топологии возникла, когда специалисты по чистой математике пытались написать алгоритмы, которые позволили бы компьютеру вычислять группы гомологий. Им удалось это сделать, переписав определение группы гомологий так, чтобы оно больше подходило для компьютерных вычислений. Впоследствии эти идеи оказались эффективным новым методом анализа «больших данных». При этом чрезвычайно модном подходе ко всем областям науки компьютеры используются для поиска скрытых закономерностей в численных данных. Как явствует из названия, он работает лучше всего с очень большими объемами данных. К счастью, современные датчики и электроника чрезвычайно хорошо умеют измерять, хранить и манипулировать гигантскими объемами данных. К несчастью, мы часто понятия не имеем, что делать с этими данными после того, как собрали их, но именно здесь и кроются математические загадки больших данных.
Предположим, вы наизмеряли миллионы чисел и принципиально представляете их как своего рода облако точек в многомерном пространстве переменных. Чтобы извлечь из этого облака данных осмысленные закономерности, необходимо найти выраженные структурные особенности. Первостепенна среди них форма облака. Ее невозможно определить, просто нанеся точки на экран и посмотрев на них, – может оказаться, что вы смотрите не с того направления, или важные группы точек затенены другими точками, или число переменных слишком велико, чтобы зрительная система нормально их обрабатывала. Но, как мы уже видели, «Какой это формы?» – фундаментальный вопрос в топологии. Поэтому резонно предположить, что топологические методы могут помочь отличить, скажем, примерно сферическое облако данных от тороидального с отверстием в нем. Что-то отдаленно похожее на это мы делали для проекта FRACMAT из главы 8. Там важно было, насколько компактно облако точек и является ли оно округлым или вытянутым. Более тонкие топологические детали значения не имели.
Невозможно разобраться в топологии миллиона точек данных вручную: необходимо использовать компьютер. Но компьютеры сконструированы не для того, чтобы анализировать топологию. Так что методы, которые специалисты по чистой математике разрабатывали для компьютерных расчетов групп гомологий, были перенесены в область больших данных. И, как всегда, в готовом виде они не делали работу полностью. Их нужно было адаптировать к новым требованиям больших данных, главное из которых – то, что форма облака данных не является четко определенной. Она зависит, в частности, от масштаба, в котором вы рассматриваете облако.
Представьте, например, шланг, уложенный в бухту. При взгляде с умеренного расстояния сегмент шланга похож на кривую, которая топологически есть одномерный объект. Вблизи он похож на длинную цилиндрическую поверхность. Еще ближе поверхность обретает толщину, более того, вдоль середины цилиндра проходит отверстие. Если отойти и посмотреть издалека, но под широким углом, шланг окажется свернутым как сжатая пружина. А стоит расфокусировать зрение, бухта расплывется в… тор.
Подобного рода эффект означает, что форма облака данных – не постоянное понятие. Так что группа гомологий тоже не такая уж замечательная идея. Вместо этого математики задаются вопросом о том, как воспринимаемая топология облака данных меняется с масштабом наблюдения.
Соединение точек данных, разделенных различными расстояниями, создает ряд триангуляций и вскрывает отверстия разных размеров. Постоянная гомология распознает эти эффекты
Начиная с облака и выбранной мерки длины, вы можете создать то, что топологи называют симплексным комплексом. Для этого следует соединить точки попарно ребрами везде, где они оказываются ближе друг к другу, чем предписывает выбранная мерка. Тогда ребра, которые находятся близко друг к другу, окружают треугольники, а треугольники, которые находятся близко друг к другу, окружают тетраэдры и т. д. Многомерный тетраэдр называется симплексом, а набор симплексов, объединенных определенным образом, есть симплексный комплекс. Для нас подойдет и более простое его название «триангуляция». Помните только, что треугольники могут быть любой размерности.
Если у вас есть триангуляция, существуют математические правила вычисления гомологии. Но ведь триангуляция зависит от масштаба наблюдения. Так что и гомология тоже от него зависит. Наш интересный вопрос о форме тогда приобретает вид: как меняется гомология триангуляции с изменением масштаба? Важнейшие особенности формы должны быть менее подвержены изменениям, нежели более неустойчивые черты, которые чувствительны к масштабу. Так что мы можем сосредоточиться на тех аспектах группы гомологий, которые сохраняются при изменениях масштаба. Результирующий инструмент – не просто группа гомологий, а семейство таких групп, по одной на каждый масштаб, – известен как постоянная гомология.
Здесь последовательность из шести рисунков показывает, какие точки соединяются на разных масштабах, при разных мерках длины. С увеличением мерки – а мы при этом видим все более грубые структуры – в начальном облаке отдельных точек начинают формироваться небольшие сгустки, в одном из которых мы видим столь же небольшое отверстие. Это отверстие заполняется, а сгустки растут. Затем сгустки объединяются в кольцо, открывая нашему взору большое отверстие. Его стенки постепенно утолщаются, но само оно остается большим отверстием, пока мерка длины не станет такой большой, что все заполнится целиком. Рисунок схематичен, а подробности, которые добавил бы компьютерный алгоритм, опущены для ясности. Доминантной чертой, существующей на максимальном диапазоне шкал, является большое отверстие в середине.
Штрихкод постоянной гомологии показывает, какие структуры сохраняются на каких масштабах. (Схематично.)
Обратите внимание, что это описание включает в себя не только топологию, но и информацию о расстоянии. Формально топологическое преобразование не обязано сохранять расстояния, но в анализе данных их реальные значения важны не менее, чем общая топологическая форма. Поэтому постоянная гомология обращает внимание не только на топологические, но и на метрические свойства. Один из способов представления информации, полученной при помощи постоянной гомологии, предполагает построение штрихкода, где горизонтальные линии обозначают диапазон масштабов, на которых сохраняются те или иные гомологические черты (такие как отверстия). Например, штрихкод для представленного на рисунке облака точек мог бы выглядеть примерно как штрихкод на рисунке выше. В штрихкоде схематически обобщается информация о том, как топология меняется с масштабом.
Постоянная гомология и ее штрихкоды – все это прекрасно, но для чего они могут пригодиться?
Представьте, что вы управляете бизнесом и ваши офисы располагаются на поляне в лесу. Грабители могут подойти к ним по лесу незамеченными. Поэтому вы устанавливаете вокруг датчики, каждый из которых способен регистрировать движение и поддерживать связь с соседними датчиками, и включаете эту систему по ночам. При появлении кого бы то ни было, законном или нет, датчики должны поднять тревогу, и тогда ваша служба безопасности может пойти на место и выяснить, в чем дело. Или представьте, что вы генерал и управляете военной базой в местности, где активно действуют террористические группы. Вы делаете что-то похожее, только с оружием.
Как гарантировать, что покрытие территории датчиками достаточно, что нет прорех, через которые преступник или террорист мог бы прокрасться внутрь?
Если датчиков немного, вы можете нанести их на карту и визуально оценить распределение. Если число датчиков велико или имеются различные ограничения, обусловленные рельефом местности, то такой метод становится менее реальным. Поэтому нужен способ обнаружения прорех в зоне действия датчиков… Искать прорехи? Похоже, это задача как раз для постоянной гомологии. В самом деле, это одна из тех многочисленных областей, где в настоящее время применяется эта новая идея. Аналогичное применение можно назвать «барьерным покрытием»: определить, защищает ли данный набор датчиков охраняемое здание или комплекс полностью. «Прочесывающее покрытие» относится к подвижным датчикам, а домашний, или коммерческий, вариант этого алгоритма используется в роботах-пылесосах. Весь ли пол он почистит?
Более научное применение метода реализуется совместно с методом скользящего окна для восстановления динамических аттракторов, который я упоминал в главе 8. Постоянная гомология может распознать момент, когда топология аттрактора существенно меняется. В теории динамических систем этот момент называют точкой бифуркации, он свидетельствует о серьезном изменении в динамике. Еще одно важное применение – выяснение того, как менялся климат Земли за миллионы лет, от теплых периодов к оледенениям и даже к полностью покрытой снегом и льдом Земле. Джесси Бервальд с коллегами показал, что штрихкоды облаков данных скользящего окна прекрасно помогают распознавать изменения в общем климатическом режиме{69}. Тот же метод применяется и к другим физическим системам, например в случае вибрации в станках. Фирас Хасавнех и Элизабет Манч выяснили, что временная серия измерения режущего инструмента может уловить эти вибрации, известные среди профессионалов как «дрожь»{70}. Кроме того, метод применяется и в медицинском сканировании, например для распознавания бифонирования при видеоэндоскопии гортани, которой занимаются Кристофер Трали и Хосе Переа{71}. Этот эффект возникает, когда голосовая связка производит звук сразу двух частот, и может указывать на повреждение или паралич связки. При эндоскопии гортани камера на конце оптоволоконного кабеля вводится в нос и опускается в горло. Саба Эмрани и другие{72}