Профессия: переводчик — страница 24 из 28

ревода, выполняемого человеком, состоит в том, что человек, делая такой перевод, отбрасывает все неподходящие переводные эквива­ленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation

свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впи­тывать абсорбировать / амортизировать / поглощать; излучение/ радиация',

Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и пол­ноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.

Но так же, как переводчик, который совершенно не по­нимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.

Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / про­водник; всасывать / впитывать абсорбировать / аморти­зировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "ab­sorbs" и семантических отношений между ними переводя­щий автомат исключит эквиваленты "руководство" и "ли­дерство", т.е. получит на выходе:

свинец / лот / грузило / проводник; всасывать / впиты­вать / абсорбировать / амортизировать / поглощать; из­лучение /радиация.

После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:

свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).

А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасы­вает", "впитывает", "абсорбирует", "амортизирует", "погло­щает", а также между частичными синонимами "излуче­ние" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на осно­ве фоновых (т.е. специальных) знаний.

Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это пра­вильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определен­ной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать36.

Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквивален­ты. Не это важно.

Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а систе­мы второго уровня фоновую информацию использовать не могут.

Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.

Системы третьего уровня используют модели синтакси­ческого и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего ми­ра. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.

Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рас­смотрим более подробно, как они работают и как их мо­жет применить в своей работе переводчик.

Очевидно, что основой любой системы машинного пе­ревода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.

Как правило, все эти системы снабжены большими сло­варями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лекси­кой.

Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следую­щие функции:

а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка пред­ложения LEAD*ABSORBS*RADIATION.(* - пробел) бу­дет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;

6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;

в) по графемному составу слова регистрирует грамматиче­скую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который мо­жет служить формальным признаком отглагольного существительного;

г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного

слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕ­НИЕ, (N); (процесс, характеристика);

д) формирует синтаксическое и семантическое представ­ление входного текста (как правило, предложения), на­пример, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:

(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);

(radiation)=N(PROC/PARAM).

Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюст­ративный характер и ни в коей мере не претендует на пол­ноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа дру­гих модулей системы автоматического перевода.

В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая ин­формация даже носит конфиденциальный характер.

Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля авто­матического словаря и других типовых модулей перево­дящего автомата. Но вернемся к описанию функций.

Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о пере­водных эквивалентах поступают на вход второго этапа об­работки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтак­тико-семантическое представление выходного. Это преоб­разование в специальной литературе носит заимствован­ное название "трансфер".

В процессе трансфера:

1. Производится анализ синтаксиса и семантики вход­ного текста и уточняется его структура. При этом структу­ра предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.

Сейчас чаще всего используют грамматику зависимо­стей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.

Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:

N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).

2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам ма­шинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование бу­дет иметь вид:

NVN=>NV=>V.

3. Синтез синтаксической структуры выходного пред­ложения. Для нашего простого примера она может быть двоякой:

- для предложения с глаголом-сказуемым в действи­тельном залоге:

Nl(nomin) V(active) N2(accus.);

- для предложения с глаголом-сказуемым в страдатель­ном залоге:

N2(nomin) V(passive) Nl (instr.).

После этапа трансфера следует этап лексического синте­за элементов выходного предложения, т.е. выбор эквива­лентов по синтаксическим и семантическим признакам.

За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивален­тов в соответствующие текстовые формы - в нужном па­деже, лице, числе и т.д.). В результате выходное предложе­ние принимает вид:

свинец (лот / грузило / проводник) всасывает (впиты­вает / абсорбирует / амортизирует / поглощает) излуче­ние (радиацию) или

излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / гру­зилом / проводником).

Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для опреде­ленной пары языков и, как вы сами можете судить, ис­пользует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.

Как уже говорилось, большинство коммерческих пере­водящих систем работает на этом принципе. В некоторых из них синтактико-семантическая информация более пол­ная и алгоритмы анализа более тонкие, чем в других. Такие "электронные переводчики" переводят чуть лучше, чем их более примитивно устроенные "братья по классу", но в лю­бом случае без привлечения фоновой информации они не в состоянии конкурировать с человеком.

Кроме схемы трансфера в переводящих системах второ­го уровня применяется также так называемый язык-посредник. Язык-посредник (interlingua, pivot language) -это некий универсальный код, с помощью которого мож­но единым образом выразить грамматическую и семанти­ческую информацию, содержащуюся в тексте на любом языке.