Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим — страница 36 из 46

На кону гораздо больше, чем принято считать. Неспособность управлять большими данными с точки зрения конфиденциальности и прогнозирования или неправильное их толкование чреваты намного более глубокими последствиями, чем нацеливание рекламных объявлений в интернете. ХХ век буквально пропитан кровавыми примерами того, как данные способствуют ужасным злодеяниям. В 1943 году Бюро переписи населения США передало адреса кварталов американцев японского происхождения (но без названий улиц и номеров, чтобы поддержать иллюзию защиты конфиденциальности) в целях содействия их интернированию. Знаменитыми всеобъемлющими голландскими записями об актах гражданского состояния воспользовались вторгшиеся нацисты для облавы на евреев. Изначальные пятизначные номера, нанесенные в виде татуировок на предплечья узников в нацистских концлагерях, соответствовали номерам перфокарт IBM Hollerith — комплексной системы учета узников концлагерей; обработка данных дала возможность совершать убийства в промышленных масштабах.[134]

Несмотря на информационное мастерство, Штази многое было не под силу. Сотрудникам министерства стоило огромных усилий узнать, кто, куда, когда перемещается и с кем разговаривает. Основную часть этой информации теперь собирают операторы мобильной связи. В ГДР не могли спрогнозировать, кто станет диссидентом. Мы тоже не можем. Но правоохранительные органы начинают использовать алгоритмические модели для того, чтобы вычислять время и место патрулирования, узнавая предполагаемый ход развития событий. При этом риски, связанные с большими данными, соразмерны самим наборам данных.

Парализующая конфиденциальность

Велик соблазн ассоциировать угрозу конфиденциальности с ростом объема цифровых данных, проводя аналогию с системой надзора в антиутопии Дж. Оруэлла «1984». На самом деле ситуация гораздо сложнее. Во-первых, не все большие данные содержат личную информацию. Ее нет в данных датчиков на нефтеперерабатывающих заводах, в данных о работе заводских механизмов, о погодных условиях в аэропортах или о взрывах в канализационных люках. Компаниям BP и Con Edison не нужна была личная информация, чтобы извлечь выгоду из выполняемого ими анализа. По сути, анализ больших данных на основе такой информации практически ничем не угрожает конфиденциальности.

И все-таки основная часть создаваемых сегодня данных и вправду содержит личную информацию. Есть ряд довольно веских оснований для того, чтобы записывать ее как можно больше и хранить как можно дольше, при этом часто используя. Данные могут быть не похожи явным образом на личную информацию, но благодаря обработке больших данных по ним можно легко проследить обратную связь с их автором.

Некоторые «умные» электросчетчики, которые внедряются в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Это гораздо больше, чем скудный поток информации о совокупном потреблении электроэнергии, который собирает обычный счетчик. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор — от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение.[135]

Однако не столько важно, увеличат ли большие данные риск нарушения конфиденциальности (а они увеличат), сколько изменится ли сам характер риска. Если угроза просто возрастет, то некоторые законы и правила о неприкосновенности частной жизни подойдут и для эпохи больших данных — потребуется лишь удвоить нынешние усилия. С другой стороны, если ситуация изменится, потребуются новые решения.

К сожалению, проблема все же приобретает новые очертания. Ценность больших данных не ограничивается первичным использованием — существенная ее часть, как мы уже поясняли, состоит во вторичном применении.

Это подрывает главную роль частных лиц в действующем законодательстве о неприкосновенности частной жизни. Сборщики данных должны сообщать им, какую информацию собирают и с какой целью. Чтобы начать сбор данных, сборщикам необходимо получить от частных лиц согласие. Хотя это и не единственный способ обработки личных данных законным путем, понятие «уведомления и согласия» стало краеугольным камнем политики конфиденциальности по всему миру. (На практике это вылилось в огромные примечания о конфиденциальности, которые мало кто читает, не говоря уже о том, чтобы понять, но это уже другая история.)

В эпоху больших данных самые инновационные способы их вторичного использования невозможно было представить на момент их сбора. Как же компаниям уведомлять о цели, которая еще не придумана? И разве станут частные лица давать информированное согласие на неизвестное? А при отсутствии согласия, для того чтобы анализировать большие данные, содержащие личную информацию, потребуется обращаться к каждому лично, спрашивая разрешение на каждое повторное применение. Вы можете себе представить, как Google пытается связаться с миллиардами пользователей, чтобы получить от них разрешение на анализ их старых поисковых запросов с целью спрогнозировать грипп? Ни одна компания не возьмет на себя такие расходы, даже если бы это было технически возможно.

Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.

Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.

Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.

В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.

Тем не менее в течение нескольких дней сотрудники New York Times, связав поисковые запросы, такие как «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», успешно установили, что пользователь № 4 417 749 — это Тельма Арнольд, 62-летняя вдова из Лилбурна, штат Джорджия. «О Господи, это же вся моя личная жизнь! — сказала она журналистам Times, когда они наведались к ней в гости. — Я понятия не имела, что за мной подсматривают». Последовавшие за этим протесты общественности привели к увольнению технического директора и еще двух сотрудников AOL.

А всего два месяца спустя, в октябре 2006 года, служба проката фильмов Netflix сделала нечто подобное, объявив конкурс Netflix Prize. Компания выпустила 100 миллионов записей о прокате от около полумиллиона пользователей и объявила приз в размере одного миллиона долларов, который достанется команде исследователей, сумевшей улучшить систему рекомендации фильмов Netflix не менее чем на 10%. Личные идентификаторы были тщательно удалены. И снова пользователей удалось разоблачить: мать и скрытая лесбиянка из консервативного Среднего Запада подала в суд на Netflix от имени псевдонима Jane Doe.[136]

Сравнив данные Netflix с другими общедоступными сведениями, исследователи из Техасского университета быстро обнаружили, что оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте Internet Movie Database (IMDb). В целом исследования показали, что всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных из полумиллиона клиентов.[137]

В исследовании AOL личности пользователей можно было раскрыть по содержанию их поисковых запросов, а в конкурсе Netflix — путем сравнения с данными из других источников. В обоих случаях компании недооценили, насколько большие данные могут способствовать деанонимизации. Тому есть две причины: мы записываем больше данных и объединяем больше данных.