. Или вот строка из стихотворения: Педагог в руках с указкой. Взрослый носитель языка даже при нестандартном порядке слов поймет, что речь идет об учителе, который держит указку. Но возможно и другое прочтение, более соответствующее порядку слов: некто держит учителя и указку. Но это заметит разве что ребенок, у которого еще не выработался автоматизм синтаксического анализа. А как это распознавать машине? Оказался необходимым и синтаксический анализ. А многие случаи требовали и обращения к семантике.
К 1960-м гг. выяснилось, что помимо собственно перевода необходимыми процедурами являются механизмы анализа исходного языка и синтеза языка, на который осуществляется перевод. Механизмы анализа и синтеза могут не быть жестко привязаны к одной конкретной системе и использоваться для разных систем, в которых участвует данный язык. Между структурами входного и выходного языков в систему включался так называемый язык-посредник, на который после анализа переписывался входной язык и с которого затем проводилась запись на выходной язык. Такие системы назывались системами второго поколения.
В отличие от грубых систем пословного перевода, мало связанных с собственно наукой о языке, разработка анализа и синтеза требовала решения многих теоретических вопросов лингвистики. Выше уже не раз говорилось о том, что начало второй половины ХХ в. проходило в лингвистике (структурной, затем генеративной) под знаком формализации и математизации. Научные поиски, связанные с формальной лингвистикой, стимулировались прикладными задачами. При разработке систем машинного перевода постоянно оказывалось, что достигнутый к тому времени уровень формализации недостаточен для эффективного машинного анализа и синтеза, а это требовало разрабатывать и лингвистические проблемы. При этом уровень теоретичности в США и СССР был неодинаков. Американские лингвисты, вместе с инженерами занимавшиеся машинным переводом, не отличались интересом к разработке лингвистической теории. Чаще лингвисты старались применить на практике влиятельные теоретические идеи, однако, несмотря на огромное влияние идей Хомского, они почти ничего не дали для машинного перевода и других областей компьютерной лингвистики. Больше для этого оказались пригодны концепции лингвистов, работавших вне хомскианской парадигмы, таких как Чарльз Филлмор (1926–2014). В СССР ситуация была иной: Мельчук, Апресян и другие лингвисты-теоретики активно занимались машинным переводом и прочими прикладными проблемами, между направлениями их деятельности была двусторонняя связь.
Первая половина 1960-х гг. была периодом больших ожиданий в отношении автоматического перевода, что нашло отражение даже в художественной литературе. Вот ранняя повесть братьев Стругацких «Попытка к бегству» (1962), где люди из коммунистического общества XXIII в., один из которых лингвист, попадают на чужую планету, и перед ними встает проблема общения с инопланетянами, которую лингвист, разумеется, успешно решает. Ему удается произвести дешифровку и разработать систему машинного перевода на язык внеземной цивилизации и наоборот. Разумеется, было естественно полагать, что деятельность, казавшаяся реализуемой в ближайшем будущем, через три столетия станет рутиной.
В действительности всё оказалось сложнее. В 1966 г. в США пришли к выводу о том, что существовавшие к тому времени системы машинного перевода не оправдали надежд, а обычный ручной перевод оставался дешевле машинного. После этого государственное финансирование данных работ было свернуто, хотя частные кампании его могли и продолжать, поскольку многие заказчики при очень большом объеме технической документации были заинтересованы в любых способах поиска информации, даже низкого качества. В СССР же развитие исследований продолжалось, и с 1970-х гг. начали работать промышленные системы машинного перевода. Часть из них не пережила кризис 1990-х гг., но некоторые системы разрабатываются десятилетиями, как система японско-русского перевода под руководством Зои Михайловны Шаляпиной в Институте востоковедения РАН.
Всё же современные исследователи вынуждены признать, что первоначальные надежды оказались завышенными. Разумеется, никто не ставит вопрос об автоматическом переводе художественных текстов, но и соответствующий перевод научно-технических текстов пока что за редчайшими исключениями не может осуществляться без непосредственного участия человека, хотя бы на уровне предредактирования и постредактирования. О состоянии машинного перевода (МП) пишет автор учебника «Введение в прикладную лингвистику» Анатолий Николаевич Баранов: «В настоящее время системы МП успешно функционируют в тех областях, где либо не требуется абсолютная точность перевода, либо существуют серьезные ограничения на использование структур естественного языка, где входной язык нормирован и упрощен». Используются либо системы, где не требуется высокое качество перевода, либо, если такое качество необходимо (например, при переводе официальных документов), возрастает роль этапа постредактирования. Чуть ли не единственной целиком автоматизированной системой является канадская система, переводящая тексты метеосводок с английского языка на французский; здесь перевод происходит в рамках очень сильно стандартизированного подъязыка.
Предполагалось, что с 1970-х гг. появятся системы третьего поколения, где будет не только производиться морфологический и синтаксический анализ и синтез (эта проблема более или менее решалась уже во втором поколении), но и вступят в действие семантические компоненты, в конечном итоге являющиеся главными. Надеялись на создание универсального семантического языка-посредника; если бы он был создан, то получилось бы что-то вроде универсальной логической структуры в «Грамматике Пор-Рояля» XVII в. или глубинной структуры у Хомского. Но такого языка нет и сейчас, а проблема неоднозначности решена лишь частично, поскольку она в значительной степени является семантической.
Однако компьютерная лингвистика отнюдь не сводится к трудной и лишь частично решенной проблеме машинного перевода. Здесь на полюсе, связанном с максимальной сложностью объекта, находится машинный перевод, однако далеко не всегда нам для практических нужд необходимо анализировать и переводить весь текст. На другом полюсе находятся значительно более простые и вполне решаемые проблемы, например когда нужно из большого массива текстов выбрать те тексты, в которых содержатся интересующие нас ключевые слова. В промежутке между двумя полюсами имеются системы, решающие разные другие практические задачи, не охватывающие систему языка в целом. Обычно в таких случаях говорят об информационно-поисковых системах (ИПС). Такие системы в больших количествах создавались в советских ведомственных НИИ в 1960–1980-е гг.
Эти системы так или иначе связаны с обработкой массивов текстов на естественном языке. В них не ставится задача сохранения всей имеющейся в текстах информации. Тем или иным способом осуществляется ее редукция, позволяющая найти во множестве документов то, что соответствует данному запросу. В том числе такие системы на основе заданных параметров обеспечивают составление рефератов и аннотаций обрабатываемых документов. Документы могут описываться на особом формальном информационно-поисковом языке; составляется словарь дескрипторов — слов, обозначающих категории и понятия области, в которой ведется поиск. На основе этого словаря информационная система должна выделить среди обрабатываемых текстов те, которые имеют запрашиваемое содержание. Более простые системы только выделяют нужную лексику, но в других системах может в определенных пределах проводиться и грамматический анализ.
Наряду с прикладными направлениями, сложившимися в рамках формальной лингвистики, большое место в последние десятилетия занимают и направления работ, связанные с функционализмом. Среди них надо особо выделить корпусную лингвистику.
Как определяют создатели Национального корпуса русского языка (НКРЯ), лингвистический корпус — это «информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов». Такого рода представления, конечно, создавались и раньше, прежде всего при составлении словарей. Известны огромные картотеки, вручную формировавшиеся десятилетиями на основе расписки большого количества текстов. Но теперь они создаются в электронном виде и постоянно пополняются.
Впервые лингвистический корпус был создан в США в 1960-е гг. Первые корпуса были невелики по объему, стандартом считался объем в миллион слов, что было недостаточно. Значительное развитие корпусная лингвистика получила с 1980-х гг. в связи с дальнейшим развитием вычислительной техники. В настоящее время НКРЯ (формируется с начала 2000-х гг.) содержит более 600 млн словоупотреблений, и эта цифра постоянно растет. Важна представительность и сбалансированность корпуса, в который должны включаться не только письменные, но и устные тексты. Конечно, наряду с корпусами, представляющими язык в целом, распространены и корпуса, специализированные для какой-то его части; корпуса могут отражать лишь современный язык, но могут, как НКРЯ, включать в себя и тексты на протяжении того или иного периода времени. Наряду с одноязычными корпусами существуют и многоязычные.
Корпус — не то же самое, что просто электронное собрание текстов большого объема. При его создании необходимо провести ряд операций, именуемых разметкой. Нужно разделить тексты на слова, привести каждое слово к его словарной форме, провести морфологический, синтаксический, акцентологический анализ. Серьезную проблему составляет то, что при обширном объеме корпуса в ответ на запрос может быть выдано столь большое число в основном ненужной информации, что ее невозможно охватить. Поэтому нужны также системы группировки поиска.
Данные корпусов могут использоваться в самых разных областях лингвистики. Если раньше для получения нужной информации лингвист должен был самостоятельно расписывать значительное количество текстов при отсутствии гарантии того, что удастся найти то, что нужно, то теперь всё можно узнать очень быстро. С помощью корпуса можно получить достоверные данные статистического характера. Материалы корпуса, сгруппированные по времени создания текстов, дают сведения об исторических изменениях в языке. Корпуса используются и в педагогических целях, на них все больше ориентируются учебные программы. Выдающийся американский лингвист Чарльз Филлмор писал: «Работа с любым корпусом, каким бы малым он ни был, предоставляла мне данные, которые я не смог бы найти никаким другим способом».