Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим — страница 37 из 46

Пол Ом, профессор права в Университете штата Колорадо и эксперт по ущербу от деанонимизации, объясняет, что этот вопрос не так просто решить. При наличии достаточно большого количества данных идеальная анонимизация невозможна вопреки каким бы то ни было усилиям.[138] Хуже того, исследователи недавно показали, что не только обычные данные, но и «социальный граф» — связи между людьми в социальных сетях — также подвержены деанонимизации.[139]

В эпоху больших данных три основные стратегии обеспечения конфиденциальности (индивидуальное «уведомление и согласие», возможность отказа от участия и анонимизация) во многом утратили свою эффективность. Уже сегодня многие пользователи считают, что их частная жизнь находится под угрозой. То ли еще будет, когда практика использования больших данных станет обычным явлением!

По сравнению с ситуацией в ГДР четверть века назад теперь вести наблюдение стало проще, дешевле и эффективнее. Возможность записи личных данных зачастую встроена в инструменты, которые мы используем ежедневно — от сайтов до приложений на смартфоне. Так, «черные ящики», установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП.[140]

Конечно, когда компании собирают данные для улучшения своих показателей, нам не нужно опасаться слежки и ее последствий, как гражданам ГДР после прослушивания сотрудниками Штази. Мы не попадем в тюрьму, если Amazon узнает, что мы почитываем «красную книжечку» Председателя Мао Цзэдуна, а Google не изгонит нас за то, что мы искали Bing. Компании обладают определенным влиянием, но у них нет государственных правомочий принуждения.

Да, они не применяют таких жестких методов, как Штази, однако компании всех мастей накапливают базы личной информации обо всех аспектах нашей повседневной жизни, делятся ею с другими без нашего ведома и используют ее в неизвестных нам целях.

Не только частный сектор пробует силы в области больших данных. Государственные органы тоже. По данным расследования Washington Post в 2010 году, Агентство национальной безопасности США (АНБ) ежедневно перехватывает и сохраняет 1,7 миллиарда писем электронной почты, телефонных звонков и других сообщений.[141] По оценкам Уильяма Бинни, бывшего сотрудника АНБ, правительство собрало «20 триллионов операций» между американскими и другими гражданами: кто кому позвонил, написал по электронной почте, отправил денежный перевод и т. д.[142]

Для обработки этих данных США строят гигантские центры, такие как здание АНБ в Форт-Уильямс, Юта, стоимостью в 1,2 миллиарда долларов.[143] Все государственные органы, а не только спецслужбы по борьбе с терроризмом требуют больше информации, чем раньше. Когда список данных расширяется, включая сведения о финансовых операциях, медицинских картах, обновлениях статуса в Facebook и пр., их собирается невообразимое количество. Государственные органы не в состоянии обработать столько всего. Так зачем собирать?

Ответ на этот вопрос показывает, как изменился способ наблюдения в эпоху больших данных. В прошлом исследователи крепили щипковые зажимы к телефонным проводам, чтобы получить максимум информации о подозреваемом. Важно было как можно полнее изучить, что он собой представляет. Сегодня иной подход. Новое мышление (в духе Google и Facebook) состоит в том, что люди — совокупность их социальных отношений, взаимодействий в интернете и связей с контентом. Чтобы полностью изучить человека, аналитикам нужно просмотреть как можно более широкий круг периферических данных — узнать не только с кем он знаком, но и с кем знакомы его знакомые и т. д. Раньше это было технически трудновыполнимо, а теперь — проще, чем когда-либо.

Однако сколько бы опасений ни вызывала способность бизнеса и правительства извлекать нашу личную информацию, в связи с большими данными возникает более актуальная проблема: использование прогнозов в вынесении приговора.

Вероятность и наказание

Джон Андертон, начальник специального полицейского подразделения в Вашингтоне, округ Колумбия, одним прекрасным утром врывается в пригородный дом за считаные секунды до того, как разъяренный Говард Маркс вот-вот вонзит ножницы в тело своей жены, которую он застал в постели с любовником. Для Андертона это всего лишь очередной день профилактики тяжких преступлений. «Как представитель отдела по профилактике преступлений округа Колумбия, — произносит он, — заявляю: вы арестованы по обвинению в будущем убийстве Сары Маркс, которое должно было произойти сегодня…»

Полицейские связывают Маркса, который кричит: «Я ничего не сделал!»

Начальный эпизод фильма «Особое мнение» изображает общество, в котором предсказания выглядят настолько точными, что полиция арестовывает частных лиц за еще не совершенные преступления. Людей сажают в тюрьму не за фактические действия, а за предсказанные, даже если на самом деле преступлений не произошло. Причиной тому является не анализ данных, а видения трех ясновидящих. Мрачное будущее, изображенное в фильме, показывает именно то, к каким угрозам может привести неконтролируемый анализ больших данных: признание вины на основе индивидуальных предсказаний будущего поведения.

Мы уже видим первые ростки. Комиссии по условно-досрочному освобождению в тридцати штатах используют прогнозы, основанные на анализе данных, как фактор при принятии решений, стоит ли освобождать того или иного заключенного. Все чаще правоохранительные органы в Америке — от избирательных участков в Лос-Анджелесе до целых городов, таких как Ричмонд и Вирджиния, — используют «прогностический полицейский контроль», то есть с помощью анализа больших данных выбирают улицы, группы и частных лиц для дополнительной проверки просто потому, что алгоритм указал на них как на более склонных к совершению преступлений.

В Мемфисе программа под названием Blue CRUSH (англ. Crime Reduction Utilizing Statistical History — «снижение преступности на основе статистических данных») предоставляет полицейским относительно точные данные о зонах потенциальной угрозы с точки зрения места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Система, по всей видимости, помогает правоохранительным органам лучше распределять свои ограниченные ресурсы. Согласно одному из подсчетов, с момента создания системы в 2006 году количество основных имущественных и насильственных преступлений снизилось на четверть (хотя, конечно, нет никакой причинно-следственной связи, указывающей на то, что это как-то связано с Blue CRUSH).[144]

В рамках инициативы в Ричмонде, Вирджиния, полиция устанавливает корреляции между данными о преступлениях и дополнительными наборами данных, например датами выплаты зарплат в крупных компаниях города, а также датами местных концертов или спортивных мероприятий. Как показывает практика, они подтверждают, а иногда и уточняют подозрения полицейских о тенденциях в области преступности. Например, полиция Ричмонда давно предполагала, что за оружейными шоу следует резкий рост тяжких преступлений. Анализ больших данных доказал их правоту, но с одной оговоркой: скачок преступности происходил через две недели после события, а не сразу после него.[145]

Такие системы направлены на профилактику преступлений путем их прогнозирования вплоть до выявления частных лиц, которые могут их совершить. Большие данные здесь служат новым целям: с их помощью можно было бы предупреждать преступления. Звучит многообещающе. Разве не лучше остановить человека до совершения преступления, чем наказывать его после? Нам удалось бы избежать трагических происшествий. В итоге выиграли бы не только потенциальные жертвы, но и общество в целом.

Однако это скользкий путь. Если на основе анализа больших данных мы сможем прогнозировать возможных преступников, то вряд ли станем довольствоваться профилактикой преступлений. Вероятно, мы захотим наказать потенциальных виновников. Это вполне логично. Если мы просто вмешаемся, чтобы не допустить незаконные действия, предполагаемый преступник, освобожденный от наказания, может попробовать еще раз. Но мы надеемся удержать его от такой попытки, возлагая на него ответственность за свои действия (в том числе будущие).

Прогноз на основе наказания кажется шагом вперед по сравнению с практикой. Профилактика нездорового, опасного или незаконного поведения является краеугольным камнем современного общества. Мы ограничили условия для курящих, чтобы предупредить рак легких, требуем пристегивать ремни безопасности, чтобы предотвратить жертвы ДТП, и не пускаем на борт самолетов людей с оружием, чтобы не допустить угонов. Все эти профилактические меры ограничивают нашу свободу, но мы готовы их принять как небольшую плату взамен на прогнозирование гораздо большего ущерба.

Во многих случаях анализ данных уже работает на профилактику. С его помощью людей объединяют в группы по общему признаку, а затем соответственно оценивают их. Страховые таблицы свидетельствуют, что мужчины старше пятидесяти склонны к раку простаты. Поэтому, если вы относитесь к этой группе, возможно, вам придется больше платить за медицинскую страховку, даже если вы не больны. Студенты, бросившие вуз, воспринимаются как группа людей, склонных не погашать кредиты, так что человек без высшего образования может получить отказ в кредите или будет вынужден оплачивать более высокие страховые тарифы. Кроме того, лица с определенными отличительными признаками подвергаются дополнительной проверке при прохождении контроля безопасности в аэропорту.