Основы информационных технологий для неспециалистов: что происходит внутри машин — страница 16 из 26

Данные

Четвертая часть книги посвящена данным. В предыдущем издании, разделенном на три части, эту тему данных объединили со средствами связи, однако в последние несколько лет они стали занимать настолько важное место, что заслужили отдельной главы.

Слово «данные» часто встречается с определениями – например, большие данные, интеллектуальный анализ данных, наука о данных, – а также в названии новой профессии «специалист по обработке данных». По этим темам есть книги, учебные пособия, онлайн-курсы и даже дипломные работы в университетах. Давайте воспользуемся моментом и объясним их простым языком.

«Большие данные» означает только то, что мы имеем дело с большим объемом данных, и возразить тут сложно. Оценки того, сколько информации сейчас во всем мире, непрерывно растут. Раньше для таких прикидок вполне годились эксабайты (1018), но те времена прошли, и теперь нам нужны зеттабайты (1021). Можно с уверенностью предсказать, что в ближайшем будущем появятся йоттабайты (1024). Йотта – это приставка для самых больших значений в Международной системе единиц (СИ). Когда и ее станет не хватать, придется добавить еще один префикс, что-то вроде «за пределами йотты», вдохновившись детской книгой Доктора Сьюза «За пределами зебры!»[102]114.

Интеллектуальный анализ данных — это процесс отыскания потенциально ценной информации и полезных выводов, извлекаемых из всех этих «больших данных». Наука о данных — междисциплинарная область, которая с помощью статистики, машинного обучения и других методов пытается понять данные, установить их смысл и сделать прогнозы на их основе. Соответственно, специалист по обработке данных занимается такой деятельностью и, вероятно, надеется, что ему будут щедро платить за работу на таком модном и важном поприще.

Откуда все эти данные поступают? Что мы можем с ними сделать? Как поступить, если мы не желаем предоставлять информацию о себе?

В главе 11 мы обсудим многочисленные источники данных: как наши действия в Сети и в реальной жизни вносят вклад в так называемые «выхлопные данные» – огромный объем сведений о нас, который накапливается, пока мы просто живем в этом мире.

В главе 12 мы поговорим об искусственном интеллекте (ИИ) и машинном обучении – рассмотрим один аспект того, что делается со всеми этими горами данных. Кое-что из этого используется в наших интересах: благодаря обучению на больших данных стали возможны компьютерное зрение[103], распознавание изображений и голоса, обработка речевых сигналов, автоматический перевод и другие полезные приложения. Но недостаток здесь в том, что о нас могут узнать много информации, часто личной, которой мы бы не хотели делиться или, по крайней мере, допускать, чтобы кто-то ею воспользовался.

Машинное обучение (МаО) уже широко применяется, что порой вызывает серьезные опасения, так как компьютеры способны делать выводы на основе данных, распространяемых в поддержку расизма, дискриминации и других проблем этического толка. Приятно думать, что МаО само по себе объективно, однако во многих случаях его суждения лишь прячут скрытую предвзятость под личиной авторитетности.

В главе 13 мы обсудим варианты защиты: как уменьшить объем данных, неосознанно предоставляемых нами, и как ограничить их использование. Невозможно стать полностью невидимым или совершенно неуязвимым, но вы способны значительно улучшить вашу личную безопасность и защиту частной жизни.

11. Данные и информация

Когда вы смотрите на интернет, интернет смотрит на вас.

Приношу извинения Фридриху Ницше за искажение его слов из книги «По ту сторону добра и зла», 1886

Почти все, что вы делаете на компьютере, телефоне или с помощью кредитной карты, генерирует данные о вас. Эти сведения тщательно собирают, анализируют, хранят вечно и зачастую продают совершенно неизвестным вам организациям.

Представьте себе обычное взамодействие с Сетью. Вы ищете на компьютере или смартфоне какой-нибудь товар, место или информацию по теме, которую хотите изучить. Поисковые системы записывают, что и когда вас интересовало, куда вы заходили, на какие результаты нажимали – и, если у них получается, связывают все это конкретно с вами. Рекламодатели используют полученные данные, чтобы выводить для вас адресные уведомления о своих предложениях.

Мы все что-то ищем и приобретаем, развлекаем себя фильмами и телесериалами в Сети. Мы общаемся с друзьями и родственниками по электронной почте, через текстовые сообщения, а иногда даже голосовыми звонками. С помощью Facebook[104] или Instagram[104] мы не отдаляемся от товарищей и знакомых, LinkedIn помогает поддерживать связь с потенциальными работодателями, а сайты для свиданий – находить романтических партнеров (возможно). Мы читаем Reddit, Twitter и онлайн-новости, чтобы оставаться в курсе событий вокруг нас. Мы управляем нашими деньгами и оплачиваем счета онлайн. Мы повсюду ходим с телефоном, который точно знает, где мы находимся в любое время. Автомобили определяют наше местоположение и передают эту информацию другим. А вездесущие камеры, конечно же, в курсе, где сейчас наши машины. Домашние системы (например, сетевые термостаты, системы безопасности и умные приборы) отслеживают каждое наше движение, знают, когда мы дома и что мы там делаем.

Ни один бит этого потока персональных данных не пропадает зря. В 2018 году Cisco, ведущий производитель сетевого оборудования, выпустил прогноз, где говорилось, что годовой глобальный интернет-трафик превысит 3 зеттабайта в 2021-м115. Приставка «зетта» означает 1021, что по любым меркам целая куча байт. Откуда берутся все эти данные и что с ними делают? Ответы отрезвляют, ведь большинство сведений собирают не для нас, а о нас. Чем обширнее данные, тем больше информации о нас получают незнакомые люди, тем заметнее снижается уровень нашей безопасности и нарушается право на личную жизнь.

Я начну с веб-поиска, поскольку сбор огромного количества сведений начинается в поисковых системах. Отсюда мы перейдем к обсуждению отслеживания – наблюдения за тем, какие сайты вы посетили и что там делали. Далее я расскажу о персональной информации, которую люди непреднамеренно отдают или обменивают на развлечения или удобный сервис. Где ее всю хранят? Чтобы ответить, мы рассмотрим базы данных (БД) – коллекции данных, которые накапливают самые разные участники процесса. Здесь же мы обсудим агрегирование данных и интеллектуальный анализ, поскольку ценность сведений повышается, когда их комбинируют и получают новые выводы. Именно здесь возникает большинство проблем с конфиденциальностью: изучая сочетание информации о нас из разных источников, посторонние слишком легко выявляют то, что касается только нас. Наконец, я уделю внимание облачным вычислениям. В рамках этой услуги мы сами передаем все данные компаниям, которые обеспечивают их хранение и обработку на своих серверах, а не на наших компьютерах.

11.1. Поиск

Веб-поиск зародился в 1995 году, когда Всемирная паутина по сегодняшним меркам была еще крошечной. Количество веб-страниц и запросов быстро выросло в течение следующей пары лет, а в начале 1998-го вышла оригинальная статья Сергея Брина и Ларри Пейджа о Google – «Анатомия крупномасштабной гипертекстовой системы поиска в Сети»[105]. В ней говорилось, что AltaVista, одна из наиболее популярных поисковых систем, в конце 1997-го обрабатывала 20 миллионов запросов в день. Авторы точно предсказали, что к 2000 году сеть будет состоять из миллиарда страниц и сотен миллионов запросов в сутки116. По одной из оценок, в 2017 году подавалось уже 5 миллиардов запросов в день.

Поиск – это большой бизнес, который менее чем за 20 лет превратился из ничего в крупную индустрию. Например, компания Google, основанная в 1998 году, вышла на фондовую биржу в 2004-м, а к осени 2020-го ее рыночная капитализация составляла триллион долларов. Это меньше, чем у Apple (более 2 триллионов долларов), но намного больше, чем у таких давно известных компаний, как Exxon Mobil и AT&T, которые оценивались менее чем в 200 миллиардов долларов каждая. Google высокорентабелен, но существует высокая конкуренция, поэтому… кто знает, что может произойти дальше? (Здесь уместно кое-что раскрыть: я по совместительству работаю в Google, и у меня много друзей в этой корпорации. Но, естественно, ничто из написанного в этой книге не должно восприниматься как позиция Google по какому-либо вопросу.)

Как функционирует поисковая система (ПС)? С позиции пользователя – запрос печатается в форме на вебстранице и отправляется на сервер, который почти мгновенно возвращает список ссылок и фрагментов текста. На стороне сервера все сложнее. Он формирует список вебресурсов, содержащих одно или несколько слов из запроса, сортирует их по релевантности, «обертывает» фрагменты страниц в теги HTML и отправляет пользователю.

Однако Всемирная паутина слишком велика, чтобы каждый запрос пользователя инициировал поиск по всей Сети. Поэтому основная задача ПС – поддерживать готовность к запросам, сохраняя и сортируя на сервере информацию о страницах. Это делается с помощью индексирования Сети. В ходе него сканируются страницы, а релевантное содержимое заносится в БД, чтобы ответы на последующие запросы находились быстро. Индексирование – это широкомасштабный пример кэширования: результаты поиска основываются на предварительно вычисленном индексе кэшированной информации о странице, а не на просмотре интернет-страниц в реальном времени.

На рис. 11.1 примерно показана организация этого процесса, включая размещение рекламы на странице результатов.


Рис. 11.1. Организация поисковой системы


Проблема в масштабе. Существуют миллиарды пользователей и много миллиардов веб-страниц. Поисковик Google раньше сообщал, сколько ресурсов он проиндексировал для создания индекса, но, когда их количество перевалило за 10 миллиардов, перестал это делать.

Допустим, размер обычной веб-страницы составляет 100 Кб, а для хранения ста миллиардов ресурсов требуется 10 петабайт дискового пространства. Некоторые из них статичны и не меняются месяцами или даже годами, но значительная часть ресурсов быстро обновляется (новостные сайты, блоги, ленты в Twitter), поэтому индексирование следует вести непрерывно и эффективно. Возможности отдохнуть не будет, ведь индексируемая информация не должна устаревать. Поисковые системы обрабатывают миллиарды запросов в день, причем для каждого из них требуется просканировать БД, найти релевантные страницы и отсортировать их в правильном порядке. Также необходимо выбрать рекламу, выводимую вместе с результами, и фоном записать в журналы все данные, которые помогут улучшить качество поиска, опередить конкурентов и продать больше рекламы117.

С нашей точки зрения, ПС – отличный пример алгоритмов в действии. Но при таком объеме трафика ни один простой алгоритм поиска или сортировки не будет работать достаточно быстро.

Для индексирования используется целое семейство алгоритмов: они решают, какую страницу просматривать следующей и какую индексируемую информацию брать из нее (слова, ссылки, изображения и т. д.), а также доставляют взятые данные в конструктор индексов. Они извлекают URL-адреса, устраняют дубликаты и нерелевантные записи, а оставшиеся добавляют в список для дальнейшей проверки. Процесс усложняется тем, что поисковый робот не может посещать конкретный сайт слишком часто, поскольку это значительно увеличит нагрузку и вызовет неудобство. Возможно, поисковику даже откажут в доступе. Так как скорость изменений на страницах широко варьируется, полезно задействовать алгоритмы, способные точно оценить ее. Тогда робот сможет чаще посещать те страницы, что меняются быстрее.

Следующий компонент – построение индекса. У робота поисковой системы берутся страницы, извлекаются релевантные части каждой из них, а затем все это индексируется вместе с URL-адресом и положением фрагмента на страничке. Детали процесса зависят от контента, который нужно проиндексировать. Текст, изображения, электронные таблицы, PDF-файлы, видео и так далее – все они требуют разной обработки. По сути, индексирование готовит список ресурсов и местоположений для каждого слова или индексируемого элемента, встретившегося на какой-либо веб-странице, и сохраняет эти данные в форме, позволяющей затем быстро извлекать перечень страниц для любого конкретного элемента.

Заключительная задача – формулирование ответа на запрос. Основная идея здесь в том, чтобы собрать все слова из запроса, использовать списки индексации для быстрого поиска релевантных URL-адресов, а затем выбрать самые подходящие из них (тоже быстро). Подробности данного процесса – драгоценные секреты операторов поисковых систем, поэтому в Сети вы найдете мало конкретных сведений о применяемых методах. И снова важное значение имеет масштаб: любое запрошенное слово может появиться на многих миллионах страниц, два – на одном миллионе, и все потенциальные ответы нужно стремительно просеять, чтобы оставить только десять лучших. Чем лучше ПС выводит точные попадания в топ и чем быстрее реагирует, тем чаще люди станут обращаться к ней, а не к ее конкурентам.

Первые поисковые системы просто отображали список ресурсов, где содержались слова из запроса, но по мере роста сети результаты стали походить на нагромождение нерелевантных страниц. Оригинальный алгоритм Google PageRank присваивал каждому ресурсу показатель качества. Он придавал больший вес страницам, на которые ссылались другие ресурсы или страницы, уже имеющие высокий рейтинг. Алгоритм «считал», что они с наибольшей вероятностью будут релевантны запросу. Как говорят Брин и Пейдж, «интуитивно понятно, что страницы, на которые обширно ссылаются из множества мест в интернете, заслуживают внимания». Естественно, для получения высококачественных результатов требуется не только это, поэтому поисковые компании постоянно ищут способы превзойти конкурентов по такому показателю.

Для обеспечения полномасштабного поиска требуются огромные вычислительные ресурсы: миллионы процессоров, терабайты оперативной памяти, петабайты внешней памяти и пропускная способность, измеряемая в Гб/с, гигаватты электроэнергии и, конечно, много людей. За все это нужно как-то платить, обычно за счет доходов от рекламы.

Попросту говоря, рекламодатели платят за размещение объявлений на веб-странице, причем тариф определяется тем, сколько людей (и из каких категорий) заходят на нее. Цена может зависеть от количества просмотров ресурса («показов», которые учитывают сам факт того, что объявление появилось на странице), кликов (пользователь щелкнул на рекламу) или «конвертации», когда человек в конечном счете что-то купил. Клиенты, которые изначально могут заинтересоваться тем, что рекламируется, явно ценнее прочих, поэтому в наиболее распространенной модели владелец поисковика проводит аукцион по поисковым запросам в режиме реального времени. Рекламодатели борются там за право размещать рекламу рядом с результатами поиска по конкретному запросу. Компания, в итоге выигравшая аукцион, получает прибыль, когда пользователь щелкает по ее объявлениям.

Google Ads (ранее AdWords) позволяет легко экспериментировать с предлагаемой рекламной кампанией. Например, их инструмент оценки (см. рис. 11.2) говорит, что ожидаемая стоимость поискового слова «керниган» и связанных с ним – например, unix и «программирование на С» – будет составлять 5 центов за клик, то есть каждый раз, когда кто-то ищет один из этих терминов и затем щелкает на мою рекламу, я буду платить Google 5 центов. Инструмент также подсчитал, что по выбранным мной поисковым запросам будет совершаться 194 клика в день при ежедневном бюджете в 10 долларов (в среднем за месяц) – хотя, конечно, никому неведомо, как много людей нажмут на мою рекламу и во сколько мне это обойдется. Я никогда не пытался проверить на опыте.

Могут ли рекламодатели платить за то, чтобы результаты поиска подправлялись в их пользу? Это беспокоило Брина и Пейджа, которые написали в той же статье: «Мы ожидаем, что поисковые системы, финансируемые за счет рекламы, будут изначально предвзято относиться к рекламодателям и не станут учитывать потребности потребителей». Google получает большую часть доходов от объявлений. И хотя он разделяет результаты поиска и рекламу, как и большинство других ПС, во множестве судебных дел истцы обвиняли компанию в предвзятости и несправедливости по отношению к своим продуктам. В Google отвечают, что результаты поиска не предвзяты по отношению к чьим-либо конкурентам, а целиком базируются на алгоритмах, которые отражают предпочтения людей.

Еще одна возможная форма пристрастности появляется, когда фокус условно нейтральной выводимой рекламы слегка смещается в сторону определенных групп населения. Это предположительно основывается на создании профиля клиента в разрезе расы, религии или этнической принадлежности. Например, по некоторым именам понятно, что их обладатель относится к определенной расе или этносу, поэтому при их поиске какие-либо объявления могут показываться или, напротив, скрываться, если реклама не нацелена на данные группы.


Рис. 11.2. Оценки Google Ads для «керниган» и связанных с ним слов


В США некоторые виды рекламы считаются незаконными, если в них отдается предпочтение какой-либо расе, религии или полу. Компания Facebook[106], которая тоже получает свой основной доход от объявлений, предоставляет своим клиентам инструменты для таргетированной рекламы с обширным набором критериев. Большинство из них вполне очевидны (доход, образование), но встречаются и такие, что явно незаконны или служат ширмой для возможной дискриминации. В 2019 году Facebook[107] уладила миром тяжбу, где истец утверждал, что на ее платформе позволялось размещать рекламу, способствующую дискриминации118.

Возможно ли вообще искать что-то в сети так, чтобы ваши действия не отслеживали в таких подробностях? Поисковая система DuckDuckGo (DDG) утверждает, что не сохраняет вашу личную историю запросов и не выдает персонализированную рекламу. Поиск она отчасти выполняет самостоятельно, но в основном агрегирует результаты из большого числа ПС и других ресурсов. DDG все же получает прибыль от рекламы, но ее можно заблокировать через Adblock и другие расширения. Кроме того, этот поисковик предлагает несколько полезных руководств с советами о том, как просматривать веб-страницы и пользоваться смартфоном с меньшим риском для вашей безопасности и неприкосновенности частной жизни119.

11.2. Отслеживание

Обсуждение выше касалось поиска, но изложенные идеи применимы к любому виду рекламы. Чем точнее нацелить ее, тем значительнее вероятность, что она вызовет благоприятную реакцию зрителя, а значит, тем больше будет готов заплатить рекламодатель. Те, кто отслеживает вас онлайн – то есть наблюдает, что вы ищете, какие сайты посещаете, что делаете на них, – способны многое узнать о вас и о том, чем вы занимаетесь. В настоящее время отслеживание прежде всего ведется для того, чтобы более эффективно продавать вам что-либо, но несложно догадаться, что есть и другие способы применения столь подробных сведений. В данном разделе мы сосредоточимся в основном на механизмах отслеживания: куки-файлах, веб-жучках, JavaScript и браузерной идентификации.

Когда мы пользуемся интернетом, о нас неизбежно собирают информацию. Мы оставляем след практически при каждом действии. То же самое верно для других систем, особенно мобильников, которые во включенном состоянии всегда знают наше физическое местоположение. Когда вы не в помещении, любому аппарату с функцией GPS (а она есть во всех смартфонах) известно, где вы находитесь, с погрешностью в десять метров, и он способен в любое время передать ваши координаты. В некоторые цифровые камеры также встроена функция GPS, что позволяет им кодировать географическое положение в каждой фотографии. Это называется привязкой к местности (оно же геотегирование'). Также камеры применяют для выгрузки изображений Wi-Fi или Bluetooth. В общем, очевидно, что вас могут отслеживать и через них.

Если совместить подобные следы с нескольких устройств, удастся нарисовать подробную картину наших действий, интересов, финансов, окружения и многого другого. В самом безопасном случае эту информацию используют для более точного нацеливания рекламы, то есть нам будут показывать то, на что мы отреагируем с большей вероятностью. Но отслеживание может и не ограничиться этим, и тогда его результаты применят в менее невинных целях. Это способно привести к дискриминации, материальному убытку, краже личных данных, полицейскому надзору и даже ущербу для здоровья.

В 2019 и 2020 годах газета «Нью-Йорк тайме» опубликовала большую серию статей о конфиденциальности и отслеживании. Одна из наиболее показательных и тревожных частей – исследование БД о местоположении смартфонов на 50 миллиардов записей. База охватывала 12 миллионов человек в нескольких крупных городах США. Данные поставлялись из анонимного источника – вероятно, того, кто работал с брокером данных. Цитата из «Нью-Йорк тайме»120:

Компании, которые собирают всю информацию о ваших передвижениях, оправдывают свое занятие, выдвигая три утверждения: люди дают согласие на отслеживание, данные анонимны и находятся в безопасности.

Ни одно из трех не выдерживает проверки.

«Нью-Йорк тайме» смогла точно определить значительное число личностей, сопоставив сведения о мероприятиях, домашних и рабочих адресах и тому подобном. Журналисты работали с 50 миллиардами записей, но сообщили, что компании, занимающиеся данными о местоположении, каждый день собирают на порядок больше информации, в том числе большой объем демографических сведений, что упрощает корреляцию и идентификацию121. В теории в «анонимных» данных не содержатся сведения, позволяющие установить личность, однако на практике легко выявить связи, четко определяющие человека, особенно при объединении информации из нескольких источников. Эта статья серьезно настораживает, как и серия материалов в целом.

Как собирают сведения? Какие-то данные автоматически отправляются браузером при каждом запросе. Среди них IP-адрес, страница, которую вы просматривали (ссылающийся домен, или «реферер»), тип и версия вашего браузера («агент пользователя») и ОС, ваши языковые предпочтения. Вы можете ограниченно этим управлять. На рис. 11.3 показана некоторая отсылаемая информация, отредактированная для краткости.

Кроме того, если есть куки-файлы из домена сервера, они тоже отправляются. Но, как обсуждалось в предыдущей главе, «печеньки» возвращаются только в тот домен, откуда их прислали. Так как же один сайт может использовать эти файлы, чтобы отслеживать посещение других ресурсов?


Рис. 11.3. Некоторая информация, отправляемая браузером


Ответ скрывается в работе ссылок. Одни веб-страницы содержат ссылки на другие, в чем и состоит суть связывания через гиперссылки. Мы знакомы со ссылками, на которые нужно обязательно нажимать, чтобы перейти по ним. Но по ссылкам на изображения и скрипты не нужно кликать: они автоматически передаются из источника по мере загрузки страницы. Если ресурс содержит ссылку на картинку, то она пересылается из указанного домена. Обычно в URL-адресе изображения закодированы сведения о странице, отправляющей запрос, поэтому, когда мой браузер извлекает картинку, ее домен узнаёт, на каком ресурсе я нахожусь, и тоже может сбросить куки-файлы на мой компьютер или телефон, а также получить информацию о моих предыдущих посещениях. То же самое относится к скриптам JavaScript.

Это самая суть отслеживания, поэтому давайте разберемся более подробно. В качестве эксперимента я выключил все мои средства защиты и зашел на сайт https:// toyota.com через браузер Safari. При первом посещении мне закачались куки-файлы с более чем 25 разных сайтов, а также 45 изображений со всевозможных ресурсов и более 50 программ JavaScript общим объемом более 10 Мб.

Страница продолжала отправлять сетевые запросы все время, пока я оставался на сайте, и вообще выполняла столько фоновых вычислений, что Safari предупредил меня об этом (рис. 11.4).


Рис. 11.4. Веб-страница, которая не устает вычислять


Теперь становится понятно, почему мои студенты, когда я прошу их посчитать куки-файлы, говорят, что у них уже набрались тысячи. Это также объясняет, почему подобные страницы порой медленно загружаются. (Если хотите, поставьте опыт сами: информацию можно найти в истории браузера и настройках конфиденциальности.) Я не проверял, что получится на смартфоне, поскольку расход трафика пробил бы крупную брешь в моем скромном тарифном плане.

Обычно, когда у меня включены средства защиты – Ghostery, Adblock Plus, uBlock Origin, NoScript, запрет на куки-файлы, «не использовать локальное хранилище данных», – я вообще не получаю ни «печенек», ни скриптов.

Значительное количество картинок на той веб-странице относились к тому же типу, что изображение, выделенное на рис. 11.5. То есть на ресурсе Toyota содержится ссылка на Facebook[108], которая извлекает картинку. Изображение прозрачно, а также имеет ширину и высоту в 1 пиксель, поэтому оно полностью невидимо.


Рис. 11.5. Однопиксельное изображение для отслеживания


Такие однопиксельные изображения часто называют веб-жучками или веб-маяками. Создают их исключительно для отслеживания. Когда мой браузер запрашивает эту картинку с Facebook[108], тот ресурс узнаёт, что я смотрю на определенную страницу Toyota.com, и (если я разрешаю это) сбрасывает мне куки-файлы. Когда я посещаю другие сайты, каждая отслеживающая компания может составить представление о том, что я ищу. Если мои поиски в основном касаются машин, наблюдатели сообщают об этом потенциальным рекламодателям, и тогда мне начинают выводить объявления насчет автомобилей от дилеров, кредитов и аксессуаров. Если я заинтересуюсь несчастными случаями и купированием боли, мне будут показывать больше рекламы от ремонтных служб, юристов и терапевтов.

Компании вроде Google, Facebook[109] и многих других собирают информацию о сайтах, на которые мы заходили, после чего используют ее, чтобы продавать рекламные места клиентам вроде Toyota. Те, в свою очередь, применяют данные для целенаправленной рекламы и (возможно) сопоставляют их с другими сведениями обо мне, помимо моего IP-адреса. По мере того как я посещаю все больше веб-страниц, отслеживающие компании создают все более детальную базу данных о моих предполагаемых характеристиках и интересах. Возможно, в итоге они определят, что я мужчина, женат, мне более 60 лет, у меня две машины, я живу в центральном районе штата Нью-Джерси и работаю в Принстонском университете. Чем больше они знают обо мне, тем точнее их клиенты сумеют подбирать для меня объявления. Конечно, таргетинг как таковой – это не идентификация личности, но в какой-то момент определить ее станет довольно просто (хотя многие компании говорят, что таким не занимаются). Однако если на какой-либо странице я указываю свое имя или адрес электронной почты, то нет никакой гарантии, что эти данные не передадут кому-то еще.

В 2016 году «Вашингтон пост» опубликовала серию материалов о конфиденциальности122. Одна статья вышла под заголовком «98 персональных элементов данных, с помощью которых Facebook[110] подгоняет рекламу под вас». В этот список входят не только очевидные параметры вроде местоположения, возраста, пола, языка, уровня образования, размера доходов и капитала, но и более щекотливые, такие как «этническое сродство», что может применяться для незаконной дискриминации123.

Интернет-реклама – это продуманный рынок. Когда вы запрашиваете веб-страницу, ее публикатор уведомляет рекламную биржу (например, Google Ad Exchange или AppNexus), что есть доступное пространство на ресурсе, и сообщает информацию о вероятном посетителе: например, «одинокая женщина 25–40 лет из Сан-Франциско, которая любит технологии и хорошие рестораны». Рекламодатели предлагают цены за место, и объявление победителя размещается на странице. Весь процесс занимает пару сотен миллисекунд.

Если вам не нравится такое отслеживание, то его можно значительно ограничить, хотя кое-чем придется пожертвовать. Браузеры позволяют вам полностью отказаться от куки-файлов или отключить только сторонние. Также вы можете напрямую удалить «печеньки» в любое время. Или же поручите браузеру, чтобы он автоматически очищался от них при каждом закрытии. Крупные компании, занимающиеся отслеживанием, предоставляют механизм отказа: если они обнаружат определенный куки-файл на вашем компьютере, то не станут наблюдать за вашими действиями в целях таргетирования (хотя высока вероятность, что они продолжать собирать информацию о вас на собственных сайтах).

Еще имеется полуофициальный механизм «Не отслеживать» (Do Not Track), который больше обещает, чем делает. В браузерах, обычно в меню конфиденциальности и безопасности, есть опция с таким названием. Если ее выбрать, вместе с запросами будет отправляться дополнительный HTTP-заголовок (см. пример на рис. 11.3). Вебсайт, который соблюдает этот механизм, не будет передавать данные о вас другим сайтам, хотя может свободно сохранять информацию для собственных нужд. В любом случае никого не обязывают уважать желания посетителей, и большинство ресуров игнорируют такие предпочтения. Например, Netflix сообщает: «В настоящее время мы не реагируем на сигналы веб-браузера „не отслеживать"»124.

Приватный просмотр, или режим инкогнито, – это механизм на стороне клиента, который предписывает браузеру очистить историю, куки-файлы и другие данные о просмотре, когда сеанс завершится. В таком случае другие пользователи вашего компьютера не смогут узнать, что вы делали (вот почему это неофициально называется «порнорежим»). Однако на то, что запоминают посещенные вами сайты, данная опция нисколько не влияет: с большой вероятностью они узнают вас при следующем входе. Впрочем, некоторые ресурсы все же отказываются предоставлять контент, если вы находитесь в режиме инкогнито.

Механизмы защиты не стандартизируются между браузерами (или даже разными версиями одного браузера), а настройки по умолчанию часто выставляются так, чтобы сделать вас уязвимым.

К сожалению, многие сайты не работают без куки-файлов, но большинство отлично загружается без сторонних «печенек», поэтому их всегда стоит выключать. Некоторые виды куки-файлов используются обоснованно: веб-сайту нужно знать, что вы уже вошли в систему, или записывать, что лежит у вас в корзине покупок. Но чаще всего «печеньки» применяются для отслеживания. Это раздражает меня настолько, что я предпочитаю не посещать такие места.

JavaScript – это основной инструмент отслеживания. Браузер запустит любой код JS, найденный в исходном HTML-файле или загруженный с URL с src="name. js" внутри тэга