Хакни рутину. Как алгоритмы помогают справляться с беспорядком, не тупить в супермаркете и жить проще — страница 6 из 13

Все вышесказанное может послужить в качестве отправной точки. Переходя из одного жанра в другой, мы движемся от наиболее влиятельного исполнителя ко второму по значимости и так далее. Если на каком-то этапе мы захотим сравнивать песни, то нужно будет изменить подход.


Один из способов определить, какие песни похожи на конкретную мелодию – послушать, что пели до того, как она была написана. Один из способов определить, какие исполнители похожи, скажем, на Боба Марли, – изучить аудиторию: сколько людей, которые слушают Эрика Клэптона, также слушают и Боба Марли? Сколько людей, которые слушают Стиви Уандера, также слушают и Боба Марли? И так далее. Если мы рассмотрим таким образом каждого артиста и ранжируем результаты от большего к меньшему, то у нас появится представление, кто из певцов больше всех похож на Марли. В этом процессе много тонкостей, и его можно усовершенствовать более продвинутыми методами. Например, применяя так называемый коэффициент Жаккара, а не просто считая певцов, мы избежим искажения результатов из-за исполнителей, у которых слишком много поклонников.

Вы видите результат анализа, полученного данным методом, каждый раз, когда ищете что-нибудь в поисковике. То же самое происходит, если вам вешают лапшу на уши в новостях на сайтах социальных сетей, рекомендуют «вещи, которые вы можете захотеть купить» на коммерческом ресурсе, или предлагают общаться «с людьми, которые могут вас заинтересовать» на профессиональном сайте. Газеты тоже занимаются чем-то подобным, составляя статью в стиле, используемом людьми, для которых она предназначена, и затем сравнивая, насколько эта статья похожа на другие. Все сервисы, предоставляющие услуги по просмотру видео, построены на прогнозировании и отборе роликов, которые могут понравиться подписчику, и на контенте, похожем на его любимые ролики. Недавно компания Netflix сообщила в своем блоге, что факторы, принимаемые во внимание при рекомендации фильмов и телешоу, включают в себя не только определенный тип контента (например, «Вы смотрите передачи по научной фантастике, вам может понравиться и другая такая же передача»), но также регион, в котором живет зритель («Вы смотрите кулинарное шоу, но вы находитесь в Индии, так что вам могут понравиться болливудские фильмы»). Подсчитано, что 80 % роликов, просмотренных на сайте Netflix, – это результат рекомендаций пользователям. Как мы видели в главе 4, соединение таких связей с правильным анализом могут породить открытие.[29]

Метод 2 предполагает случайную выборку. В музыкальном магазине вы подходите к коробке и вытаскиваете оттуда сразу несколько дисков. Как и при любой случайной выборке, вы не можете узнать, насколько близки выбранные диски к разделу музыки, который вам нужен. Даже если вы сразу наткнетесь на популярную музыку, вы не сможете это понять. Работая с результатами анализа связей, мы уже не должны полагаться на случайные догадки о том, с чего начать поиск.

Если бы Фою были доступны эти технологические преимущества, мы могли бы представить два метода на примере следующих графиков. Метод 1 требует в худшем случае линейного времени, а на метод 2 уйдет постоянное количество времени. Метод 2 – линейный (в худшем случае), так как Фою придется теоретически прослушать все песни в мире, прежде чем он найдет ту, которая ему нужна. Метод 1 – постоянный, потому что независимо от количества песен в мире Фой начинает свой путь с наиболее популярных произведений.

Чтобы увидеть, насколько универсален прикладной метод решения задачи Фоя, давайте рассмотрим пример из абсолютно другой сферы – политики. Вплоть до XIX века американская политическая система выглядела совершенно иначе. Во время выборов улицы были заполнены мужчинами (женщины не обладали правом голоса до 1920 года), которые проводили демонстрации, выпивали – и голосовали. Но позже голосование стало менее публичным актом, и политикам пришлось самим искать себе избирателей. В 1890 году Уильям Дженнингс Брайан придумал способ, который можно, вероятно, назвать первым примером рассылки, – что-то вроде базы данных своих сторонников. В ХХ веке такие базы распространились повсеместно, а к XXI их уже освоили все партии, поскольку они помогают воздействовать на людей, исходя из их потребительских привычек.

Эта многовековая тенденция доказывает: для политических партий, если они хотят эффективно вербовать избирателей и в конечном счете экономить деньги и время, важно знать, где искать свой электорат. Вместо того чтобы распространять агитацию на всю страну, более эффективно адресовать ее тем людям, которые с большей вероятностью поддержат их программу.

Этот подход применяется в самых разных сферах, где существует проблема охвата аудитории и влияет сегодня практически на всех пользователей популярных веб-сайтов и сервисов.

Что все это значит для Фоя? Повысил ли он свой культурный уровень, к чему так стремится? Мы не знаем этого, так как нашей задачей было помочь ему начать путешествие, а не достичь цели.

Одна из ловушек, подстерегающая того, кто вознамерился научиться чему-то новому, заключается в том, что он рискует не с того начать. Это может привести к неудачам, разочарованию в предмете интереса или же к прекращению начатого дела. Результат анализа связей, инновации, поддерживаемые Интернетом и в скором будущем, вероятно, электронными приборами, которые смогут общаться между собой, – это один из способов для любопытных людей вроде Фоя обрести новые знания. В случае с Фоем технология, которая проанализирует миллионы песен, поможет ему приобщиться к миру культурных и просвещенных людей гораздо быстрее, чем если бы он ею не пользовался. Он уже подписался на рассылку встреч местных клубов любителей музыки, поэтому все выглядит обнадеживающе.

ОСВАИВАЙ ВСЕ ЭТО, ФОЙ. ПУТИ ЖИЗНИ, КАК СКАЗАЛ БЫ УСАТЫЙ НЕМЕЦКИЙ ФИЛОСОФ, РЕДКО БЫВАЮТ ПРОСТЫМИ. НО ЗА ТРУДНОСТЯМИ СЛЕДУЕТ ВОЗНАГРАЖДЕНИЕ.

7Обнови статус

Некто Дуэйн отправился в поход по Скалистым горам Канады. Здесь кристально чистые озера с бирюзовой водой прячутся в лесной чаще, а в воде отражается все величие грандиозных гор и деревьев. Птицы щебечут, порхая в чистом небе, а с запада дует нежный бриз. В такие моменты кажется, что весь наш мир – царство тишины и покоя. Как будто нигде не льются реки крови, нет всемирного потепления и нищеты. «Идеалисты правы, – шепчет проплывающая в небе тучка, – несомненно, правы».

И все же мысли Дуэйна витают далеко отсюда. Сегодня утром, когда группа выдвинулась из Ванкувера, ему довелось стать свидетелем необычного зрелища. Он видел, как утка прохаживалась вдоль берега, виляя хвостом, как будто танцевала румбу. С тех пор нет ему покоя – он изо всех сил старается составить смешное, но в то же время короткое предложение, чтобы описать всю прелесть сцены, используя не более 140 символов. Такое ограничение диктует прибор, созданный для того, чтобы расширить нашу свободу. Дуэйн не может подвести армию незнакомцев, на чье восхищение он рассчитывает.

Мозг, как утверждают нейрологи, обладает способностью выделять во всем отличительные черты. Когда в тихой комнате вы слышите какой-то шум, ваш мозг фиксируется на нем. Если вы находитесь в шумной комнате и слышите звук, непохожий на другие шумы, то ваше сознание непременно вычленит его. Информация, которая встречается часто, обычно рассматривается мозгом как менее значимая, и он отфильтровывает ее поток.


Метод, которого придерживаются многие, печатая эсэмэски с пропуском часто встречающихся букв, например гласных, частично основан на положении из теории информации. Оно гласит, что «длжна передвться тлько инфрмция сущствнная для ншго понмния». Благодаря избыточности языка предыдущее предложение понятно, потому что пропущенные буквы можно угадать. Поэтому, когда нам надо сократить текст и не потерять суть, как в случае с Дуэйном, такой подход вовсе не так уж плох. Именно так мы делали до появления системы упрощенного набора текста.[30] Но вместе с экономией места этот подход приводит к потере данных, пусть неинформативных и несущественных.

До сих пор мы говорили о более быстрых или более медленных способах выполнения задач, а сейчас речь пойдет о вещах, которые занимают больше или меньше места. Этот баланс важен для оценки различных подходов к решению проблем: часто ученые-компьютерщики сравнивают скорость разных методов (временна́я сложность выполнения задачи), но иногда оценивают, как много памяти или места на диске эти методы занимают (пространственная сложность).

ЦЕЛЬ: СОЧИНИТЬ ОСТРОУМНУЮ ФРАЗУ-СТАТУС, КОТОРАЯ СОДЕРЖИТ НЕ БОЛЬШЕ 140 СИМВОЛОВ.

МЕТОД 1: ЗАМЕНЯТЬ ДЛИННЫЕ СЛОВА НА КОРОТКИЕ, НО МЕНЕЕ ТОЧНЫЕ.

МЕТОД 2: ОПУСКАТЬ ЧАСТО ВСТРЕЧАЮЩИЕСЯ БУКВЫ, НАПРИМЕР ГЛАСНЫЕ, В НЕКОТОРЫХ СЛОВАХ.

Поразительно, но у метода 2 есть аналог в информационных технологиях. В 1952 году ученый Дэвид А. Хаффман изобрел способ сокращения пространства, необходимого для хранения данных. В отличие от прежних методов алгоритм Хаффмана не требовал удаления информации, а концентрировался на оптимизации.

Компьютеры хранят словесную информацию, кодируя буквы алфавита, цифры и другие символы и занося их в таблицу, где им присваиваются числовые значения. Эти значения затем сохраняются в том виде, какой понимает компьютер, – он называется бинарным, или двоичным, кодом. Каждый символ в нем представлен в виде кода, который может состоять из семи бит. Например, буква «а» английского алфавита имеет значение 97, а в двоичном коде запись этого числа выглядит так:

1100001

Буква «b» имеет значение 98 и в двоичном коде она такая:

1100010

Если бы нам нужно было представить слово «hans» в двоичном коде, то оно бы выглядело так (каждая буква занимает 7 бит, всего 28 бит):

1101000 1100001 1101110 1110011

То обстоятельство, что символы имеют двойные коды одинаковой длины (в нашем случае 7 бит), позволяет легко декодировать бинарную цепочку. Все, что нам нужно сделать, – считывать каждые семь бит и затем, используя таблицу соответствий, перекодировать их в слова английского языка.