Девушки, о которых говорил Буш, – это операторы, выполнявшие повседневную работу по вычислениям. Как показали историки Дженнифер Лайт и Мар Хикс, этих женщин часто воспринимали как устройства для ввода данных. На самом же деле их роль была столь же важна для обработки данных и обеспечения работы систем, как и роль инженеров, проектировавших цифровые компьютеры военного времени[208]. Однако отношения между данными и обрабатывающими машинами уже представлялись как отношения бесконечного потребления. Машины будут жаждать данных, и перед ними, несомненно, откроются широкие горизонты материала, который можно будет извлечь из миллионов людей.
В 1970-х годах исследователи искусственного интеллекта в основном изучали так называемый подход экспертных систем: программирование на основе правил, направленное на сокращение поля возможных действий путем формулирования форм логических рассуждений. Тем не менее довольно быстро стало очевидно, что этот подход является хрупким и непрактичным в реальных условиях, где набор правил редко справляется с неопределенностью и сложностью[209]. Требовались новые подходы. К середине 1980-х годов в исследовательских лабораториях стали использовать вероятностные подходы, основанные на применении грубой силы. Короче говоря, они использовали много вычислительных циклов для расчета как можно большего числа вариантов, чтобы найти оптимальный результат.
Одним из значимых примеров служит группа по распознаванию речи в IBM Research. Проблема распознавания речи решалась в основном с помощью лингвистических методов, но затем теоретики информации Фред Джелинек и Лалит Бахл сформировали новую группу, куда вошли Питер Браун и Роберт Мерсер (задолго до того, как Мерсер стал миллиардером, связанным с финансированием Cambridge Analytica, Breitbart News и президентской кампании Дональда Трампа в 2016 году). Они попробовали кое-что изменить. Их методы в конечном итоге стали предшественниками систем распознавания речи, лежащих в основе Siri и Dragon Dictate, а также систем машинного перевода, таких как Google Translate и Microsoft Translator.
Они начали использовать статистические методы, ориентированные на определение частоты появления слов по отношению друг к другу, вместо того чтобы пытаться научить компьютеры подходу, основанному на грамматических правилах или лингвистических особенностях. Для того чтобы этот статистический подход работал, потребовалось огромное количество реальных речевых и текстовых данных, или обучающих данных. В результате, как пишет исследователь медиа Сяочан Ли, потребовалось «радикальное сведение речи к данным, которые можно моделировать и интерпретировать в отсутствие лингвистических знаний или понимания. Речь как таковая перестала иметь значение». Этот сдвиг оказался невероятно значительным и в результате превратился в шаблон, повторявшийся десятилетиями: сведение контекста к данным, а смысла – к статистическому распознаванию образов. Ли объясняет:
Впрочем, опора на данные, а не на лингвистические принципы, создала новый вид проблем: статистические модели неизбежно определялись характеристиками обучающих данных. В результате их размер стал главной проблемой. Большие наборы данных о наблюдаемых исходах не только улучшают оценки вероятности для случайного процесса, но и увеличивают вероятность того, что данные будут отражать более редко встречающиеся исходы. Размер обучающих данных, по сути, был настолько важен для подхода IBM, что в 1985 году Роберт Мерсер объяснил перспективы группы, просто заявив: «Нет данных лучше, чем больше данных»[210].
В течение нескольких десятилетий такой материал было очень трудно заполучить. Как описывает Лалит Бахл в интервью Ли: «В те времена… невозможно было найти даже миллион слов в читаемом компьютером тексте. Поэтому мы искали его повсюду»[211]. Они пробовали технические руководства IBM, детские книги, патенты на лазерные технологии, книги для слепых и даже напечатанную на машинке переписку сотрудника IBM Дика Гарвина, который создал первый проект водородной бомбы[212]. Их метод странным образом перекликался с рассказом писателя-фантаста Станислава Лема, где человек по имени Трурль решает построить машину, пишущую стихи. Он начинает с «восьмисот двадцати тонн книг по кибернетике и двенадцати тысяч тонн самой лучшей поэзии»[213]. Но Трурль понимает, что для программирования автономной поэтической машины нужно «повторить Вселенную с самого начала – или хотя бы большую часть»[214].
В конечном итоге группа IBM Continuous Speech Recognition нашла свой «лакомый кусочек». В 1969 году против IBM был подан крупный федеральный антимонопольный иск; разбирательство, в ходе которого было вызвано почти тысяча свидетелей, длилось тринадцать лет. IBM наняла большой штат сотрудников лишь для того, чтобы оцифровать все стенограммы показаний на перфокарты Холлерита. В итоге к середине 1980-х годов был создан корпус из ста миллионов слов. Печально известный антиправительственный журнал Mercer назвал это «случаем полезности, случайно созданной правительством вопреки самому себе»[215].
IBM оказалась не единственной группой, начавшей собирать слова. С 1989 по 1992 год группа лингвистов и компьютерщиков из Университета Пенсильвании работала над проектом Penn Treebank – аннотированной базой данных текстов. Они собрали четыре с половиной миллиона слов американского английского языка с целью обучения систем обработки естественного языка. Их источники включали рефераты Министерства энергетики, статьи из новостной ленты Доу Джонса и сообщения Федеральной службы новостей о «террористической деятельности» в Южной Америке[216]. Появляющиеся коллекции текстов заимствовали из более ранних коллекций, а затем добавляли новые источники. Начали появляться генеалогии коллекций данных, каждая из которых основывалась на предыдущей и часто импортировала те же особенности, проблемы или упущения.
Другой классический свод текстов появился в ходе расследования мошенничества корпорации Enron после объявления ею крупнейшего банкротства в американской истории. Федеральная комиссия по регулированию энергетики изъяла электронную почту 158 сотрудников в целях судебного расследования[217]. Она также решила опубликовать эти электронные письма в Интернете, поскольку «право общества на раскрытие информации перевешивает право человека на частную жизнь»[218]. Коллекция получилась необычной. Более полумиллиона фраз повседневной речи отныне можно было использовать в качестве лингвистической шахты, которая, тем не менее, отражала гендерные, расовые и профессиональные различия этих 158 работников. База Enron цитировалась в тысячах научных работ. Но несмотря на ее популярность, ее редко рассматривают с пристальным вниманием: New Yorker описал ее как «канонический исследовательский текст, который на самом деле никто не читал»[219]. Такое построение и опора на обучающие данные предвосхитили новый способ работы. Оно изменило область обработки естественного языка и заложило основы того, что станет обычной практикой в машинном обучении.
Семена последующих проблем зарождались именно здесь. Текстовые архивы рассматривались как нейтральные коллекции языка, как будто существует общая эквивалентность между словами в техническом руководстве и тем, как люди пишут коллегам по электронной почте. Весь текст подлежал повторному использованию и замене до тех пор, пока его было достаточно для обучения языковой модели, чтобы с высокой степенью успешности предсказывать, какое слово может следовать за другим. Как и изображения, текстовые корпуса работают на основе предположения, что все обучающие данные взаимозаменяемы. Но язык – это не инертная субстанция, которая действует одинаково независимо от положения. Предложения, взятые из Reddit, отличаются от тех, что составлены руководителями Enron. Перекосы, пробелы и предубеждения в собранном тексте встроены в более крупную систему, и если языковая модель основана на типах слов, сгруппированных вместе, то становится важным, откуда эти слова взяты. Не существует нейтральной языковой среды. Более того, все коллекции текстов также являются свидетельствами времени, места, культуры и политики. Языки, которые имеют меньше доступных данных, не обслуживаются этими подходами и поэтому часто остаются за бортом[220].
Очевидно, что существует множество историй и контекстов, сочетающихся в учебных данных IBM, архиве Enron или Penn Treebank. Как понять, что является и что не является значимым для понимания этих наборов данных? Как передать предупреждения типа: «База, скорее всего, отражает перекосы, потому что основана на новостях о южноамериканских террористах в 1980-х годах»? Происхождение данных, лежащих в основе системы, может иметь невероятно важное значение, и все же спустя тридцать лет все еще не существует стандартизированной практики, позволяющей отметить, откуда взялись все эти данные или как они были получены, не говоря уже о том, какие предубеждения или классификационную политику они содержат[221].
В то время как для распознавания речи все больше ценился читаемый компьютером текст, для создания систем распознавания лиц основное внимание уделялось человеческому лицу. Один из центральных примеров появился в последнем десятилетии двадцатого века и финансировался Управлением программы развития технологий борьбы с наркотиками Министерства обороны. Управление спонсировало программу (feret) для разработки автоматического метода идентификации в сфере разведки и правоохранительных органов. До начала программы feret существовало мало обучающих данных о человеческих лицах, только несколько коллекций из пятидесяти или около того снимков, чего, безусловно, недостаточно для масштабного распознавания. Исследовательская лаборатория армии США возглавила технический проект по созданию обучающего набора портретов более тысячи человек в разных позах, чтобы в общей сложности получилось 14126 изображений. Как и коллекция фотороботов NIST, feret стал эталоном – общим измерительным инструментом для сравнения подходов к распознаванию лиц.