ели являются количественными характеристиками отличия любой терминологической субсистемы от общеупотребительной лексики. (В системе общеупотребительной лексики они будут значительно ниже.)
Метод установления смысловых связей слов на основе статистических показателей совместной встречаемости их в тексте, разработанный А.Я. Шайкевичем [27], оказался эффективным способом построения автоматических тезаурусов [10]. По этой методике семантическая связь слов (в тезаурусе такие слова объединяются в один класс) выводится на основе наблюдения их совместной встречаемости в текстах без обращения к значению этих слов. Для анализируемых слов вычисляется абсолютная частота их в тексте и относительная в заданном интервале, при этом фиксируются все слова, встретившиеся с анализируемыми. По формуле x = np вычисляется ожидаемая встречаемость этих же встретившихся слов в том же интервале (n – число случаев появления в тексте слов, которые встретились с заданными; p – вероятность встречаемости анализируемых слов в выбранном интервале). Сравнение наблюдаемой и ожидаемой встречаемости слов выявляет существенные между ними расхождения, настолько значительные, что считать их случайными некорректно, и поэтому может быть сделан вывод о наличии между данными словами определенной семантической связи. Чем больше величина указанных расхождений, тем теснее связь между словами. Содержательная интерпретация связей показала, что в большинстве случаев это смысловые связи.
Кэмбриджская группа, работающая над автоматизацией информационного поиска, применив подобную методику для выявления связей слов, предложила вычислять коэффициент интенсивности (Aab) связи между словами a и b как отношение частоты (f) совместной встречаемости слов в заданном интервале (f(ab)) и частоты контекстов, в которых присутствует хотя бы одно из этих слов:
Aab = f(ab) / (fa + fb – fab).
Изменение длины интервалов показало, что выявление формально определяемой связи зависит от величины интервала, в котором исследуется совместная встречаемость слов. Во всех интервалах обнаруживаются связи однокорневых слов с различными словоизменительными и словообразовательными показателями. Полученные с помощью описанного статистического анализа классы слов в большинстве случаев соответствуют логико-интуитивному представлению исследователя о семантической связи слов в пределах этих классов. Следовательно, количественные методы вполне правомерно применимы при выявлении формальным путем различных типов отношений на лексическом и грамматическом уровнях языка.
До сих пор речь шла об исследованиях с помощью статистических методов системных отношений или в пределах определенных уровней языка или межуровневых связей, то есть о тех случаях анализа, когда исследователь не выходит за рамки одного языка. Описание же любого объекта как целостной системы обязательно предусматривает определение не только ее внутренних, но и внешних связей. Остановимся на целесообразности применения статистических методов и в последнем случае, а именно при типологическом анализе языков. В задачи типологического описания языков входит:
1) изучение фактов отдельных языков;
2) изучение взаимоотношений между этими фактами в различных языках;
3) определение количественных отношений данных фактов [22].
Значимость статистического анализа в типологии стала очевидной после осмысления политипологичности языков, что обусловило необходимость изучения степени проявления того или иного типологического признака в языке [14]. Установлено, например, что в случаях, когда структурные отличия у языков незначительны, наиболее информативные результаты дают количественные показатели. Первой работой, в которой были применены статистические методы в типологических исследованиях, была работа Яна Чекановского [29]. В ней для установления степени сходства славянских языков был предложен метод таблиц 2×2 из 4 клеток: одна отведена для признаков, общих у пары сравниваемых языков, вторая – для признаков, свойственных первому языку, но отсутствующих во втором, третья – для признаков, присутствующих во втором, но не свойственных первому, четвертая отводится для признаков, отсутствующих в обоих языках. Этот метод успешно применяется в типологическом сравнении фонемных систем славянских и германских языков при установлении коэффициента родства для каждой пары исследуемых языков и при вычислении степени близости каждой системы фонем языка ко всем системам фонем сопоставляемых языков [19].
В типологических исследованиях интересной является и проблема сопоставления соотношений между различными уровнями языковых систем. Исходным положением при этом является тезис о взаимозависимости различных явлений в языке. Формируется эта взаимозависимость таким образом: если в языке есть A, то предусматривается, что будет и B (например, если есть согласование, то языку свойствен свободный порядок слов в предложении и наоборот). Совокупность таких взаимозависимых явлений называется типом [22]. Обнаруживать эти типы снова-таки помогает статистика. В исследовании Н.В. Омельяновича [17] указывается, что типологически различные языки отличаются не только способом выражения пассивного значения, но и частотой его употребления. Так, свойственные английскому, русскому и бирманским языкам пассивные конструкции с наибольшей частотой употребляются в английском языке. Связано это с тем, что фиксированный порядок слов английского языка позволяет осуществить перераспределение коммуникативной роли слов в предложении лишь путем употребления пассивных конструкций, тогда как в языках со свободным порядком слов это перераспределение может быть достигнуто простой перестановкой слов (мы прочитали книгу – книгу прочитали мы). На основе приведенного объяснения расхождений в частотных характеристиках использования пассивных конструкций выводится гипотетическая универсалия: в языках с фиксированным порядком слов при развитом глагольном формообразовании широко распространены пассивные конструкции.
Особого внимания в типологических исследованиях с точки зрения применения статистических методов заслуживает квантитативный подход к морфологической типологии языков Гринберга, при котором учитывается не наличие или отсутствие в языках тех или иных признаков, а преобладающая тенденция их в языках. В основе типологии лежит сепировский принцип морфологической структуры слова. Делается попытка охарактеризовать каждый признак через отношение двух единиц, каждая из которых достаточно точно определяется путем вычисления ее относительной частоты в тексте. Например, способ связи между морфемами в слове характеризуется отношением случаев, когда элементы в слове, соединяясь, не изменяются, к числу случаев их взаимной модификации [8]. Идеи Гринберга послужили толчком к развитию реляционной типологии, основанной на вычислении корреляций между выведенными им индексами, что дает возможность глубже проникнуть в структуру языков.
Таким образом, системный подход к изучению языка, при котором качество объекта определяется не только (и не столько) природой его компонентов, сколько способами их связи, организацией их в целостную систему и внешними связями системы [26, 301 – 327], в силу диалектического единства количества и качества значительно содействует более глубокому изучению отношений в языке путем выявления количественных соотношений его элементов.
1. Ленин В.И. Философские тетради. – М.: Политиздат, 1969. – 782 с. – (Полн. собр. соч., т. 29).
2. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языкознании. – Л.: Наука, 1967. – 403 с.
3. Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. – Алма-Ата: Изд-во Казах. ун-та, 1973. – Ч. 1. 281 с.
4. Блауберг И.В., Садовский В.Н., Юдин Э.Г. Системный подход в современной науке. – В кн.: Проблемы методологии системного исследования. М.: Мысль, 1970, с. 7 – 49.
5. Богданович В.И. К определению понятия «системный параметр». – В кн.: Системные исследования. Ежегодник. М.: Наука, 1972, с. 158 – 164.
6. Гаузенблаз К., Данеш Ф. Проблематика уровней с точки зрения структуры высказывания и системы языковых средств. – (Цит. по книге: Общее языкознание. Внутренняя структура языка. М.: Наука, 1969. – 565 с.).
7. Головин Б.Н. Язык и статистика. – М.: Просвещение, 1971. – 191 с.
8. Гринберг Дж. Квантитативный подход к морфологической типологии языков. – Новое в лингвистике, 1963, вып. 3, с. 60 – 94.
9. Ермоленко Г.В. Лингвистическая статистика: Краткий очерк и библиограф. указ. – Алма-Ата: Изд-во Казах. ун-та, 1970. – 155 с.
10. Иванова Н.С. Установление смысловых связей между словами на основе статистической методики. – Вопросы лингвистики и автоматизаций лингвистических работ, 1967, вып. 1, с. 52 – 62.
11. Колшанский Г.В. Соотношение субъективных и объективных факторов в языке. – М.: Наука, 1975. – 231 с.
12. Кондратов А.М. Машинный перевод (ЭВМ и дешифровка древних письмен). – М.: Знание, 1967. – 32 с.
13. Кубрякова Е.С., Мельников Т.П. Описание языковой системы и ее главных признаков в современной лингвистике. – (Цит. по: Общее языкознание. Внутренняя структура языка. М.: Наука, 1972. – 565 с.
14. Меморандум о языковых универсалиях. – Новое в лингвистике, 1970, вып. 5, с. 31 – 44.
15. Никонов В.А. Интерпретация фонетических частот. – Учен. зап. / АН СССР. Ин-т славяноведения, 1963, 27, с. 259 – 271.
16. Никонов В.А. Статистика падежей русского языка. – Машинный перевод и прикладная лингвистика, 1959, № 3/10.
17. Омельянович Н.В. К вопросу об универсальных количественных отношениях в системе языка. – В кн.: Языковые универсалии и лингвистическая типология. М.: Наука, 1969, с. 135 – 141.