совокупность открытий в области искусственного интеллекта и машинного обучения, сокращающих сложность обработки большого количества информации. Параллельно с развитием мощностей вычислительной техники учеными создаются все более совершенные модели обработки информации, которые упрощают работу с данными, ускоряющими процесс и уменьшающими затраты на обработку больших объемов информации. Например, произошедший в 2012 году перелом, связанный с переосмыслением подхода к свёрточным нейронным сетям, позволил в разы увеличить скорость и улучшить качество машинного распознавания изображений, видео- и аудиоинформации, текста и т.д. Подобные нейронные сети сегодня находят применение в самых разных областях и показывают крайне высокую эффективность, позволяют по-новому рассмотреть, разобрать на составляющие и обработать изображения, видеозаписи, текст и многое другое. К примеру, уже в 2016 году нейронные сети научились распознавать изображения эффективнее человека12. Развитие искусственного интеллекта позволяет заменить множество профессий13 и кардинально изменить сложившиеся в обществе социальные отношения. Искусственный интеллект позволяет быстро обрабатывать большие данные. А большие данные, в свою очередь, почти всегда необходимы для работы искусственного интеллекта. Классическим примером здесь является беспилотный автомобиль, получающий все большее распространение в развитых странах, чье обучение обеспечено результатами анализа данных, полученных с датчиков автомобилей навигационных систем и других источников. Здесь же стоит упомянуть «наукастинг» — технологию распознавания паттернов и анализа данных в реальном времени. Анализ больших данных позволяет предсказывать будущее с высокой долей вероятности. Сегодня наукастинг обычно ассоциируют со сверхточным прогнозом погоды, вроде системы погодного анализа Deep Thunder, которая позволяет дать тщательно локализованный анализ осадков в Нью-Йорке и Рио-де-Жанейро на несколько дней вперед, прогнозируя не только погоду, но и, например, где именно могут рухнуть линии электропередачи в результате снегопада или какие этажи пострадают от грядущего наводнения14. Погода — это лишь одна из областей «наукастинга», находящаяся на самом виду. Опираясь на современный анализ данных, в перспективе наукастинг позволит предвидеть различные события практически в любой области, где датификация достигла необходимых для этого объемов.
Несмотря на невероятные достижения, совершенные нами в XXI веке, некоторые ученые со скепсисом относятся к техническому прогрессу — экспоненциальное развитие технологий не будет длиться вечно или следоватьчеткому графику. События, происходящие в мире, невероятная череда случайностей, каждый раз определяющая жизнь поколений, могут на время притормозить технологический прогресс. Однако такие изменения затронут в основном скорость его развития, но не изменят его вектор, направленный на усиление производительной мощности вычислительных машин, датификацию всех сфер человеческой жизни, внедрение искусственного интеллекта. Различные общественные события или технологические коллапсы могут лишь на непродолжительное время отсрочить и растянуть ход начавшейся революции.
Революция больших данных протекает на наших глазах и будет определять социальные отношения, политическое устройство, образ жизни всей эпохи. Сегодня мы наблюдаем лишь первые лучики ее рассвета (о которых речь пойдет дальше), но и они уже поражают общество своей новизной, ученых — своей глубиной, а бизнес — своей ценностью.
Данные и информация
Чтобы окончательно разобраться с пониманием революции больших данных, нужно определиться с ее ключевыми понятиями, какими являются данные и информация. Информация является одним из наиболее дискуссионных феноменов последних пятидесяти лет, ввиду чего имеет огромное множество определений в зависимости от подхода, контекста, научной парадигмы и прочих факторов. Поэтому, прежде всего, стоит оговориться, что описываемые определения информации и данных не претендуют на роль строгого и универсальногопонятия, а нужны нам для полноты и наглядности описания революции больших данных и ее социальных последствий.
Итак, данные сами по себе в общем смысле являются набором зафиксированных на бумаге, в человеческой памяти, на цифровом носителе или еще каким-либо образом фактов. При этом любой факт сам по себе имеет смысл только в системе фактов.
Например, сам по себе факт того, что вес Проксимы Центавра составляет 2,446Е29 килограмма, ничего не скажет человеку, мало интересующемуся астрономией. Если же мы включим описанный факт в систему фактов, например, что вес этого красного карлика и ближайшей к нашему Солнцу звезды составляет 0,123 солнечной массы, эти данные обретут смысл и станут информацией. Теперь читатель может сделать вывод о том, что Проксима Центавра примерно в девять раз меньше Солнца и является не такой уж крупной звездой. При этом, чтобы сделать подобный вывод, читатель также прежде включит новые сведения в собственную систему данных, базирующуюся на представлениях о размере Солнца, школьных знаниях математики и астрономии, рассказах родителей, популярных фильмах и многом другом.
Информация, таким образом, есть данные, включенные в систему фактов и потому обретшие смысл. Иногда описанную нами схему также дополняют «знанием» как результатом обработки и структурирования информации и глубинными знаниями (или мудростью) как вершиной пирамиды информации. Подобный подход к определению информации был сформулирован в конце 80-х годов прошлого века и называется моделью DIKW (data, information, knowledge, wisdom). Впрочем, В.И. Ленин еще в 1908 году писал, что «в теории познания, как и во всех других областях науки, следует рассуждать диалектически, т.е. не предполагать готовым и неизменным наше познание, а разбирать, каким образом из незнания является знание, каким образом неполное, неточное знание становится более точным и более полным»15.
На протяжении всей своей жизни человек оценивает происходящее и принимает решение, опираясь на информацию, получаемую в результате включения новых данных в систему «больших данных», собранных нашим мозгом за весь предшествующий период. Обобщая информацию, человеческий мозг находит в ней корреляции и зависимости, например, ребенок замечает, что плачем он привлекает к себе внимание. Как мы уже говорили, с развитием цивилизации появились средства накопления, обработки и обмена информации, люди научились сохранять ее для потомков. Например, развитие науки в широком смысле включает в себя сбор данных, включение их в релевантную систему информации (научных знаний) и закрепление их в качестве новой информации в системе научных знаний.
Человеческий мозг обладает и рядом недостатков: способен забывать и терять информацию, может ошибаться в расчетах и найденных зависимостях, хранит относительно небольшие массивы информации. В нашем веке на помощь ему приходят технологии и компьютеры, имеющие возможность хранить огромные объемы данных и обрабатывать их в миллионы раз быстрее человека. Однако для использования компьютером информация обязательно должна быть записана в цифровом формате, т.е. внешний мир должен быть сперва датифицирован и сохранен в виде набора цифровых данных.
В начале научно-технической революции середины ХХ века компьютер помогал человеку в основном в узкоспециализированных направлениях науки, люди собирали необходимые данные и вводили их в компьютер. С началом новой информационной эры количественный объем собираемых и накопленных данных и технологические возможности их обработки вышли на новый уровень, войдя в повседневную жизнь, став составляющей жизни каждого человека.
Сущность технологии Big Data и перспектив ее развития заключается в превращении практически любых данных в информацию. Такое превращение становится возможным благодаря накопленному количеству данных как общей системы, возможности их автоматической обработки и получения новой информации путем, например, нахождения корреляций, зависимостей и закономерностей.
Несмотря на то, что сегодня полноценно датифицирована лишь небольшая часть жизни среднего гражданина (его действия в Интернете и социальных сетях, платежи и переводы, телефонные разговоры и перемещение, больничная карточка, выражение лица перед камерой смартфона и т.д.), этого уже достаточно, чтобы, включив данные сведения в общую систему фактов, знать об индивиде намного больше, чем он знает о себе сам. Точно так же, как один человек, обладающий большими знаниями, может, посмотрев на какую-нибудь математическую формулу, узнать фундаментальные законы мироздания, а для другого эти же данные окажутся всего лишь набором непонятных символов, так и для компаний, владеющих и использующих большие данные, на первый взгляд не имеющие смысл наборы данных после обработки в общей системе обретают конкретное значение и становятся информацией. Например, изменение средней скорости гражданки по пути на работу, сегодня фиксируемой в хронологии гугл-карт каждого владельца смартфона, не скажет ей самой ничего, кроме того, что ей вдруг захотелось идти на работу чуть медленнее. Однако анализ ее недавнего времяпрепровождения, покупок, состояния погоды и нескольких тысяч других факторов, а также данных и корреляций о поведении миллионов других людей, оказавшихся в подобной ситуации, позволит точно установить, к примеру, ее беременность, даже если она еще не сообщила никому о столь важном событии, а то и вовсе сама о нем не знает. Подобное использование данных, кстати, не является фантастикой, а реальным случаем, произошедшим в США в 2012 году: отец беременной девушки узнал о ее беременности позже маркетинговой компании. Этот прецедент принято считать символическим началом эпохи больших данных. Для раннего определения беременности маркетинговой компании даже не потребовалась высокая вариативность данных, основой послужили лишь производимые девушкой покупки.