Для автоматической классификации астрономических источников применяют нейронные сети.
Астрономия постепенно меняется. Все бóльшую роль играют крупные проекты, генерирующие огромное количество информации в ходе обзорных наблюдений. При этом астрономы зачастую не только не сидят у телескопов, но даже не занимаются первичной обработкой огромных потоков данных – это выполняется специальными программами (pipeline). Например, в проекте SDSS (Sloan Digital Sky Survey, Слоановский цифровой обзор неба) за одну ночь наблюдений генерируется около 200 гигабайт информации. Проекты следующего поколения будут давать уже много терабайт данных в день, так что астрофизика становится наукой, имеющей дело с «большими данными» (big data).
В проектах современных инструментов, таких как SKA, стоимость обеспечивающих работу (включая первичную обработку данных) суперкомпьютеров становится заметной частью полной сметы. У телескопов в удаленных местах, таких как Гавайские острова, возникают проблемы с передачей данных: между островами и материком нет широкополосных оптоволоконных каналов с большой пропускной способностью, а спутниковая передача не может обеспечить поток данных, соответствующий производительности будущих телескопов. При создании некоторых проектов на спутниках обсуждается установка фильтров, которые будут отсекать часть спектра (т. е. искусственно уменьшать до нуля чувствительность в некотором диапазоне длин волн), поскольку всю получаемую на детекторе информацию невозможно будет передать на Землю. Это ставит совершенно новые задачи перед астрономическим сообществом.
Многие открытия совершаются не благодаря новым наблюдениям, а благодаря более тщательному и изощренному анализу данных (data mining). А в новых наблюдательных проектах часть открытий совершается уже не людьми, а компьютерами (например, обнаружение астероидов в больших обзорах неба вроде Pan-STARRS). Это означает, что важными становятся не только технологии создания телескопов, но и технологии работы с данными (в том числе уже собранными). Появился даже новый термин – астроинформатика.
Без современной компьютерной обработки данных многие астрономические открытия никогда не были бы сделаны.
Современной тенденцией является открытый доступ к данным (постепенно это даже становится требованием). В некоторых случаях, например при обзорных наблюдениях на спутниках, данные могут сразу попадать в открытый доступ. Но обычно группам исследователей (скажем, авторам заявки на наблюдения конкретной области неба) предоставляется некоторый период времени, в течение которого данные находятся в эксклюзивном распоряжении. Однако по истечении некоторого срока (чаще всего это один год) данные попадут в открытый доступ вне зависимости от того, успели ли авторы заявки обработать и опубликовать данные, что подстегивает работу и позволяет полнее использовать полученную информацию. Все это приводит к тому, что с течением времени все астрономические данные становятся общедоступными. Например, проект SDSS является, по многим оценкам, самым продуктивным в истории астрономии именно благодаря открытому доступу к его данным. В астрономии данные часто делят на три основных уровня.
Первый – это «сырые данные» (raw data): то, что напрямую считывается с детекторов (в случае большого количества таких данных они чаще всего не хранятся). Такая информация содержит множество артефактов, связанных с деталями устройства инструмента (поврежденные пиксели на матрице, известные виды шума или паразитного сигнала, изменение чувствительности приборов со временем). Работать с такой информацией, как правило, могут только специалисты, посвятившие достаточное время обработке данных с конкретного инструмента и знающие его особенности.
Сложные методы анализа позволяют выделять слабые сигналы на фоне шумов.
Следующий уровень – это «полуфабрикаты» (data products): информация, которая уже прошла первичную обработку. Во многих современных (особенно крупных) проектах это делается автоматически. Такая информация доступна для использования уже более широкому кругу исследователей, потому что она переведена в какой-то достаточно распространенный и хорошо описанный формат (например, FITS – Flexible Image Transport System, Гибкая система передачи изображений). Эти данные имеет смысл хранить для дальнейшего использования (в том числе в отдаленном будущем).
Наконец, третий уровень – это научные данные: полученные (и обычно опубликованные) научные результаты. Однако информация может быть использована и дальше для различных целей. Как правило, здесь для работы с данными уже не требуются специфические навыки и программы.
Астрономические данные необходимо хранить как можно дольше.
Особенность астрономических данных состоит в том, что они имеют ценность в течение весьма продолжительного времени. Это разительно отличается от ситуации в других областях физики, где всегда возможно провести новые, более точные эксперименты (на более качественном оборудовании, по новым методикам и т. д.). Поэтому прямые данные физических экспериментов, проведенных десятки лет назад, имеют обычно лишь историческую ценность – самые важные результаты этих опытов так или иначе опубликованы в научных статьях. В астрономии это не так. Астрономические данные надо хранить как можно дольше, поскольку для нас могут быть интересны даже данные тысячелетней давности из каких-нибудь китайских хроник. Поэтому во многих обсерваториях десятилетиями собирались для дальнейшего использования «стеклянные библиотеки» – снимки на фотографических пластинках. Скажем, именно стеклянная библиотека ГАИШ (Государственного астрономического института им. П. К. Штернберга) МГУ позволила в середине 1960-х гг. сразу же выявить переменность первого идентифицированного квазара 3С273.
Полный объем имеющихся астрономических данных в настоящее время оценивается в петабайты, а в ближайшие годы (благодаря появлению новых больших наблюдательных проектов) он превысит несколько десятков (или даже сотен!) петабайт. Сейчас объем данных удваивается примерно за год-два, что во многом связано с совершенствованием матриц (теперь счет идет на гигапиксели).
Идеальным примером «больших данных» (big data) в науке является Большой адронный коллайдер в ЦЕРН, поток данных с которого составляет более 10 петабайт в год. В астрономии первым проектом, столкнувшимся с действительно очень большим потоком данных в рамках единой наблюдательной программы, стали гравитационно-волновые детекторы LIGO (см. раздел 13.9 «Детекторы гравитационных волн»): после модернизации за год наблюдений накапливается примерно петабайт данных. Ожидается, что этот поток данных будет превзойден проектами SKA (см. раздел 13.4 «Радиотелескопы») и LSST. Последний станет крупнейшим обзорным телескопом в истории астрономии – с зеркалом диаметром более 8 м и ультрасовременной камерой с 3,2-гигапиксельной матрицей (тоже самой большой в истории). Пиковый поток сырых данных с камеры этого инструмента будет в ходе наблюдений достигать примерно 3 гигабайт в секунду, в то время как на SKA будет достигать порядка десятка терабайт в секунду!
Поток новых астрономических данных в ближайшем будущем составит более нескольких десятков петабайт в год.
Данные могут храниться в виде файлов (например, снимок какой-то области неба) или в виде баз данных (простейший пример – каталог объектов). Эти подходы довольно сильно отличаются: в первом случае это аналогично хранению отсканированной страницы текста в виде растрового изображения, а во втором – хранению уже распознанного текста, по которому возможен поиск. Второй способ существенно удобнее для пользователей, поскольку позволяет проводить быстрый поиск нужной информации и сопоставлять ее с другими данными. Поэтому важной задачей является хранение максимально возможного количества информации именно в виде баз.
Компьютерное моделирование также является источником больших объемов информации.
Еще одним источником больших данных в астрономии является компьютерное моделирование, в первую очередь больших космологических процессов. В них расчеты начинаются на красном смещении около z = 30 (примерно 100 млн лет после начала расширения), а детализация доходит до расчетов параметров отдельных галактик в нашу эпоху. При этом получаемые в расчетах изображения вполне сравнимы с реально наблюдаемой картиной. Учитывая, что обсчитываются большие объемы пространства с большим количеством галактик, такие компьютерные модели порождают огромные объемы информации. Результаты подобных расчетов востребованы исследовательскими группами по всему миру, причем речь идет не о финальных интегральных данных, а о полном доступе: такие крупные проекты выступают в роли «искусственных вселенных», элементы которых ученые могут сравнивать с наблюдениями реальных объектов в поисках новых корреляций и закономерностей. В ходе некоторых компьютерных экспериментов специально воспроизводят «искусственные обзоры», аналогичные по своим свойствам реальным, рассчитывая наблюдаемые параметры модельных объектов.
При работе с большими данными в астрономии возникает также интересная проблема их визуализации. Это касается и данных наблюдений (например, огромные каталоги с сотнями миллионов астрономических источников), и данных компьютерного моделирования (например, визуализация эволюции крупного скопления галактик). С ростом объемов информации острота этой проблемы только возрастет. Поэтому в астрономии разрабатываются специальные пакеты программ, позволяющие эффективно работать с большими объемами данных в графическом режиме.
15.3. Численный эксперимент и моделирование
В астрономии из-за колоссальной удаленности изучаемых объектов, а также из-за их собственных масштабов невозможно проведение прямых экспериментов и измерений (исключая некоторые объекты Солнечной системы). Кроме того, многие процессы происходят на очень длинной шкале времени, из-за чего мы фактически видим лишь статичные фрагменты эволюционных последовательностей. Поэтому совершенно особое место в астрофизике занимает численное моделирование изучаемых процессов.