ост количества подписчиков Пьюдипая увеличит число игроков в Fortnite? Нет. Это снова смешивание корреляции и причинности. Дети не играют в Fortnite из-за того, что смотрят youtube-канал Пьюдипая. Если какая-то кампания по увеличению подписчиков Пьюдипая сработает, то она увеличит количество времени, которое дети будут тратить на его ролики. Она не заставит их играть в Fortnite после просмотра его видео.
А если Fortnite покупает рекламное место на канале Пьюдипая? Это может сработать: например, если некоторые игроки в Fortnite вернулись к Minecraft, Пьюдипай может привлечь их обратно. Но может ничего и не получиться. Не исключено, что интерес к Fortnite среди аудитории Пьюдипая уже находится в точке насыщения и нужно, чтобы этой игрой увлеклась Кайли Дженнер!
Если мы немного подумаем, то увидим разного рода проблемы с потенциальными выводами из наличия в наших данных корреляции Пьюдипай/Fortnite. Но когда началась революция больших данных, многие из них игнорировались. Компаниям рассказывали, что их данные весьма ценные, поскольку теперь они знают о своих пользователях всё. Но это не так.
Cambridge Analytica – яркий пример компании, которая не сумела разобраться с причинно-следственной связью.
Комитет Сената внимательно слушал то, что я им говорил по скайпу. «Cambridge Analytica собрала массу сведений о пользователях Facebook, в частности о продуктах и сайтах, где те щелкали кнопку “Нравится”. Они намеревались использовать данные для целевого информирования в соответствии с личностью пользователей. Они хотели, чтобы нервным людям показывали сообщения о защите семьи с помощью оружия, а традиционалистам рассказывали о передаче оружия от отца к сыну. Каждое рекламное сообщение должно было быть адаптировано под конкретного избирателя».
Я понимал, что мои собеседники – республиканцы из комитета, – вполне могли вообразить себе выгоды от такого инструмента для следующих выборов. А потому быстро перешел к сути. «Но по нескольким причинам это не могло сработать, – сказал я. – Во-первых, невозможно надежно определить свойства личностей по их лайкам. Таргетирование приводило к ошибкам в определении личностных качеств ненамного реже, чем давало правильные результаты. Во-вторых, тот тип невротизма, который можно найти у пользователей Facebook – любителей группы Nirvana и стиля эмо, – отличается от невротизма, связанного с защитой семьи с помощью оружия».
Я прошелся по проблемам, появляющимся из-за смешивания корреляционной зависимости и причинно-следственной связи. Когда Cambridge Analytica создавала свой алгоритм, выборы еще не состоялись. Как же они могли проверить, работает ли их реклама?
Далее я рассказал о неэффективности фейковых новостей для влияния на избирателей – еще одной теме, которую исследовал в своей предыдущей книге «В меньшинстве»[145]. Я также рассказал им, что, вопреки теории эхо-камеры[146], демократы и республиканцы на выборах 2016 года должны были слышать все стороны. Моя точка зрения противоречила взглядам либеральных СМИ, которые считали победу Трампа манипуляцией с онлайн-избирателями. Его электорат обвиняли в наивности и в том, что эти люди оказались жертвами промывки мозгов. Cambridge Analytica стала олицетворением легкости, с которой соцсети могут влиять на общественное мнение. Я не разделял такую точку зрения.
Координатор звонка сказал: «Сейчас я отключу у вас звук, пока мы обсудим то, что услышали».
Им потребовалось секунд тридцать, чтобы принять решение. «Мы хотели бы, чтобы вы прилетели в Вашингтон для дачи показаний в комитете Сената. Сможете?»
Я не ответил сразу. Я пробормотал что-то о запланированном отпуске и сказал, что мне надо подумать.
В тот момент я действительно не был уверен, стоит ли мне ехать. Но, хорошенько все обдумав, пришел к выводу, что не стоит: мой приезд в США был им нужен не для того, чтобы я объяснял сенаторам причинность и корреляцию. Они не хотели понять используемые мною модели. Они лишь хотели услышать те мои выводы, которые соответствовали их представлениям – что Cambridge Analytica и фейковые новости не сделали Трампа президентом. И я не поехал.
Однако тем летом я оказался в США. Я был в Нью-Йорке и встретился с Алексом Коганом сразу после того, как он давал показания на слушаниях в Сенате. Алекс, исследователь из Кембриджского университета, считался одним из плохих парней в истории Cambridge Analytica. Он собрал данные по 50 миллионам пользователей Facebook и продал их Cambridge Analytica. Не особо мудрый поступок, о котором он потом сожалел.
Мы познакомились с Алексом, когда я начал проверять точность методов Cambridge Analytica. Он интересный собеседник. Возможно, с ним не стоит вести бизнес, но он отлично понимает, как можно и как нельзя использовать данные. Алекс действительно пытался создать то, что Крис Уайли назвал инструментом «психологической войны», для точной фиксации избирателей, но пришел к выводу, что такое оружие невозможно разработать. Данных недостаточно.
Работая в компании, он пришел к тому же выводу о деятельности Cambridge Analytica, что и я: «Эта дрянь не работает». На слушаниях в Сенате он сказал сенаторам то же, но в более вежливой форме.
Основная «проблема» с алгоритмом компании Cambridge Analytica состояла в том, что он не работал.
В начале эры «больших данных» многие так называемые эксперты предполагали, что корреляционные матрицы могут вести непосредственно к лучшему пониманию пользователей и клиентов. Но все не так просто. Алгоритмы, основанные на корреляциях в данных, использовались не только для политической рекламы, но и при рекомендациях для тюремного заключения, оценке работ школьных учителей и для обнаружения террористов. Название книги Кэти О’Нил «Оружие математического поражения»[147] хорошо отражает возникающие проблемы[148]. Как и ядерные бомбы, алгоритмы не избирательны. Термин «таргетированная реклама» подразумевает жесткий контроль над тем, кому она показывается, но на самом деле эти методы имеют очень ограниченные возможности по надлежащей классификации людей.
Для интернет-рекламы это невелика беда. Жизнь игрока в Fortnite не рухнет, если ему покажут рекламу косметики. Но совсем другое дело – если алгоритм назовет вас преступником, плохим учителем или террористом. Это может изменить карьеру и жизнь. Алгоритмы на базе корреляций изображались объективными, потому что основаны на данных. На деле же, как я обнаружил при написании своей последней книги – «В меньшинстве», – многие алгоритмы делают почти столько же ошибок, сколько и точных прогнозов.
Нашлось и множество других проблем, которые могут возникнуть при конструировании алгоритмов, основанных на корреляционных матрицах. Например, метод представления слов Google в его поисковой системе и сервисе перевода основан на корреляции между использованием слов[149]. Для определения того, когда те или иные группы слов употребляются вместе, применяются также Википедия и базы данных для новостных статей[150]. Когда я посмотрел, как эти алгоритмы рассматривают мое имя Дэвид по сравнению с именем Сьюзен (самым популярным именем для женщин моего возраста в Великобритании), я пришел к нелестным выводам. Там, где я в качестве «Дэвида» был «смышленым», «сообразительным» и «умным», алгоритм давал для Сьюзен определения «изворотливая», «жеманная» и «сексуальная». Основная причина проблемы в том, что эти алгоритмы построены на корреляциях в наших исторических текстах, которые набиты стереотипами.
Алгоритмы, используемые для больших данных, нашли корреляции, но не поняли их причин. В результате они совершали колоссальные ошибки.
Последствия перехваливания «больших данных» были сложны, но причины просты. Помните, как мы разделили мир на данные, модели и бессмыслицу? Произошло вот что: компаниям и общественности рассказали о данных, но не обсудили модели. Когда моделей нет, верх берет бессмыслица. Александр Никс и Крис Уайли говорили бессмыслицу о таргетировании по личностным качествам и инструментам психологической войны. Компании, прогнозирующие качество работы учителей и создающие программы для вынесения приговоров, говорили бессмыслицу об эффективности их продуктов. Facebook подкреплял ложные стереотипы своей рекламой, ориентированной на этническую принадлежность[151].
У Ани Ламбрехт есть ответ. Она решает проблему причинности, вводя модель – создавая историю, например, Эммы и Джулии с их способом совершения покупок. Мы можем оценить успех рекламной кампании, если рассмотрим точку зрения потребителей, а не просто взглянем на собранные данные. Ламбрехт разделяет проблему на модель и данные (хотя и не использует таких терминов) – именно эту стратегию мы применяли в данной книге. Сами по себе данные говорят очень мало, но при их объединении с моделью можно получить многое.
Такой базовый подход к определению причинности известен как A/B-тестирование. Я уже описывал этот метод в главе 1, а сейчас мы можем применить его на практике. Компания должна попробовать на своих клиентах две разные рекламы: А) оригинальную, эффективность которой нужно проверить, и В) контрольную, например благотворительной организации, где не будет никаких отсылок к компании игрушек. Если компания продает столько же товаров пользователям, которые смотрят благотворительную рекламу, сколько тем, кто видел оригинал, то она будет знать, что ее реклама не оказывает никакого эффекта.
Исследование Ани Ламбрехт описывает множество примеров, как нам стоит подходить к причинности. В одной работе она изучала распространенную в рекламном деле идею, что если на ранней стадии привлечь внимание известных людей в соцсетях, то это может помочь продукту стать вирусным