Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального — страница 37 из 82

сенаторов вдоль по одной прямой – от самого левого (Элизабет Уоррен из Массачусетса) до самого правого (Майкл Ли из Юты) – и тем самым успешно отразить большую часть их наблюдаемого поведения при голосовании. Так было на протяжении десятилетий; когда же этого не происходило, причиной был настоящий идеологический раскол в демократической партии между крылом, поддерживающим гражданские права, и преимущественно южной фракцией, остававшейся воинственно сегрегационистской. Некоторые полагают, что Соединенные Штаты движутся к новой перестройке, где традиционное разделение «левые против правых» не охватывает всей картины. Например, существует популярная «теория подковы», которая утверждает, что крайне левое и крайне правое крыло в американской политике, расположенные в чисто линейной модели максимально далеко друг от друга, на самом деле весьма близки. С геометрической точки зрения теория подковы утверждает, что политика не вписывается в прямую, а требует плоскости.



Если это правда и на противоположных концах подковы окажется достаточно избирателей, чтобы выбрать себе представителей в конгрессе, мы увидим это по данным голосований: одномерная модель конгресса будет все менее и менее точной. Пока этого еще не произошло.

Для больших массивов данных двумерного пространства редко бывает достаточно. Группа специалистов Google под руководством Томаша Миколова разработала гениальное математическое устройство Word2vec, которое можно назвать картой всех слов. Нам больше не нужно полагаться на студентов и карточки, чтобы собрать информацию о том, какие слова сочетаются между собой. Программа Word2vec, обученная на наборе текстов из Google News объемом шесть миллиардов слов, присваивает каждому английскому слову точку в трехсотмерном пространстве. Нарисовать это трудно, но помните, что точно так же, как точка в двумерном пространстве задается двумя числами (широтой и долготой), точка в трехсотмерном пространстве – это всего лишь список из 300 чисел: долгота, широта, высота, мелкота, густота, прямота, частота, круглота и т. д. и т. п., насколько вам поможет словарь рифм. В трехсотмерном пространстве тоже есть понятие расстояния, которое не особо отличается от известного нам расстояния на плоскости[328]. Цель Word2vec – разместить похожие слова в точках, находящихся недалеко друг от друга.

Что делает слова похожими? Вы можете представить, что у каждого слова есть облако соседей – слов, которые часто появляются вместе с ним в наборе текстов Google News. В первом приближении Word2vec расценивает два слова как похожие, если их облака соседей сильно перекрываются. Во фрагменте текста, окружающего слова glamour («очарование»), runway («подиум») или jewel («драгоценность»), вы можете ожидать найти слова stunning («оглушительный, ошеломительный») или breathtaking («захватывающий»), но не trigonometry («тригонометрия»). А потому слова stunning и breathtaking, в облаках которых встречаются общие слова glamour, runway и jewel, можно считать похожими, отражая тот факт, что эти два почти синонимичных слова часто встречаются в одинаковых контекстах. Word2vec ставит их на расстоянии 0,675 друг от друга. На самом деле из миллиона слов, которые умеет кодировать Word2vec, слово breathtaking – ближайшее к слову stunning. Для сравнения: расстояние от stunning до trigonometry составляет 1,403.

Как только у нас появляется представление о расстояниях, можно говорить об окружностях и кругах. (Хотя, возможно, находясь в трехсотмерном пространстве, было бы лучше говорить об их многомерных аналогах – сферах и шарах.) Круг радиуса 1 вокруг слова stunning содержит 43 слова, в том числе spectacular («зрелищный, эффектный»), astonishing («изумительный, поразительный»), jaw-dropping («крайне удивительный, феерический») и exquisite («изумительный, изысканный»). Машина явно улавливает нечто в этом слове, включая то, что оно может обозначать как красоту, так и удивление. Я должен отметить, что тут не происходит никакого численного выделения смысла слов. Это было бы настоящим подвигом. Вся стратегия строится вовсе не для этого. Расстояние от слова hideous («страшный, омерзительный») до stunning всего 1,12; хотя они почти противоположны по значению, вы вполне можете представить, что они часто появляются в общем контексте, например: «Этот свитер реально __________». Круг слов радиусом 0,9 от teh включает слова ther, hte, fo, tha, te, ot и thats – это даже не слова, не то что не синонимы, однако Word2vec правильно распознает, что все они могут появляться в контекстах с большим количеством опечаток.

Нам нужно поговорить о векторах. Формальное определение этого термина выглядит устрашающе, но его смысл можно свести к следующему. Точка – это существительное. Она отражает какую-то вещь: место, название, слово. Вектор – это глагол. Он указывает, что нужно делать точке. Милуоки (штат Висконсин) – это точка. «Двигайтесь на тридцать миль на запад и две мили на север» – это вектор. Если вы приложите этот вектор к городу Милуоки, получите город Окономовок.

Как вам описать этот вектор, переносящий вас из Милуоки в Окономовок? Вы могли бы назвать его «вектор на запад до внешнего кольца пригородов». Приложите его к Нью-Йорку[329], и получите город Морристаун (штат Нью-Джерси), или, точнее, природный парк Dismal Harmony («Мрачная гармония») непосредственно к западу от города.



Вы можете перефразировать это по аналогии так: Морристаун относится к Нью-Йорку так же, как Окономовок к Милуоки, как Буанвиль-ан-Мантуа к Парижу, Сан-Херонимо-Икстапантонго к Мехико, а Фараллоновы острова (необитаемое место, бывшая свалка отходов атомной промышленности, а сейчас территория с самой большой плотностью грызунов на планете) – к Сан-Франциско.

Это возвращает нас обратно к слову stunning. Разработчики Word2vec обратили внимание на интересный вектор: тот, который говорит нам, как перейти от слова he («он») к слову she («она»). Можете считать его вектором феминизации. Применив его к слову he, получаете слово she. Что, если применить его к слову king («король»)? Вы получаете точку, которая, как и в случае с парком Dismal Harmony, не попадет в точности в то место, для которого у вас есть слово. Но ближайшее слово – queen («королева»), как в случае парка ближайшим городом был Морристаун. Queen относится к king, как she к he. Это хорошо работает и для других слов: феминизированная версия для слова actor («актер») – actress («актриса»), а для waiter («официант») – waitress («официантка»).



А что насчет слова stunning? Представьте себе: вы получите gorgeous («пышный, великолепный»). Слово gorgeous относится к слову she так же, как stunning к he. Приложите этот вектор в другом направлении, попросив программу Word2vec маскулинизировать stunning, и получите spectacular («зрелищный»). Поскольку эти аналогии представляют собой только приблизительные числовые равенства, они не всегда симметричны: результатом обратной феминизации для spectacular действительно будет stunning, но при маскулинизации слова gorgeous получится magnificent («великолепный»).

Что это означает? Что в математическом, универсальном и совершенно объективном смысле слово gorgeousness («великолепие») – это женская версия слова stunningness («поразительность, ошеломительность»)? Естественно, нет. Программа Word2vec не знает значений слов и не имеет возможности узнать. Все, что она знает, – это огромный набор английских текстов (преобразованные в массу чисел газеты и журналы, выходившие в течение десятилетий), на которых ее обучали. Когда англоговорящие люди хотят выразить stunningness в отношении женщины, у них есть статистически обнаруживаемая привычка употреблять слово gorgeous. Когда речь идет о мужчине, такой привычки нет. Та геометрия, которую вычленила программа Word2vec, на первый взгляд может показаться геометрией смыслов, однако на самом деле это геометрия нашей манеры говорить; отсюда мы можем многое узнать как о себе и своих гендерных предрассудках, так и о нашем языке.

Баловаться с Word2vec – все равно что положить собрание сочинений англоязычного мира на кушетку психоаналитика и заглянуть в его безобразное бессознательное. Феминизированная версия слова swagger («чванство») – sassiness («дерзость»); слова obnoxious («несносный, противный») – bitchy («стервозный»); слова brilliant («блестящий») – fabulous («вымышленный, сказочный»); слова wise («мудрый») – motherly («материнский»). Женский вариант для слова goofball («дурачок, недотепа») – ditz («глупышка»), а второй предлагаемый вариант – вот честное слово! – perky blonde («бойкая блондинка»)[330]. Женский вариант для слова genius («гений») – minx («кокетка»). И тут снова несимметричность: мужской вариант от minx – scallywag («озорник, проказник»). Шаг в мужскую сторону от teacher («учитель») – headmaster («директор школы»). Шаг в мужскую сторону от имени Карен[331] – Стив[332].

Если вы возьмете bagel («бейгл») и феминизируете его, то леди-бейгл – это muffin («маффин»). Hindu bagel («индийский бейгл») – то есть то, что вы получите, если возьмете вектор, переводящий слово Jewish («еврейский»)[333] в Hindu