Целесообразность применения статистических методов для выявления системных отношений в языке диктуется и современными проблемами автоматической переработки текстовой информации; в ходе решения этих проблем стала очевидной недостаточность использования при разработке алгоритмов машинного перевода, информационного поиска, автоматического реферирования только методов алгебраической лингвистики и необходимость обращения к методам квантитативным [3, 9, 26]. Кроме того, моделирование механизма перехода от языка к речи также требует обращения к статистике. Оказалось, что контекстно-свободные грамматики, создаваемые на основе неколичественной математики, порождают большое число нереальных предложений для данного языка. Исключить последние возможно, лишь применив к объектам языка вероятностные характеристики (создание контекстно-зависимых грамматик) [3].
Изучение отношений в языке осуществляется опосредованно через их исследование в речи. Теоретической основой такого пути является наличие определенного соответствия между внутренней организацией языка и речью [2], которая представляет собой реализацию языковой системы. Собственно говоря, многие закономерности, законы, наблюдаемые в речи, потому и действуют там, что они обусловлены законами языка. Характер лексем, форма грамматических связей – все эти категориальные черты языка формируют речевые высказывания [11, 27]. Яркой иллюстрацией сказанному выше может служить выведенный в результате анализа двухфонемных интервокальных сочетаний согласных в словаре, представляющем собой инвентарь лексических единиц украинского языка, закон предпочтения [18, 154 – 157]. Закон этот состоит в том, что незначительная часть определенного множества языковых единиц повторяется очень часто, а бóльшая часть их является низкочастотными. Проявление этого закона в речи было замечено впервые Дьюи на материале английских текстов задолго до открытия самого закона [28]. Статистическое исследование текстов дало возможность Дьюи установить закономерную зависимость между частотой звуков текста и процентом покрываемости ими объема текста (небольшое количество звуков очень часто употребляется в текстах и покрывает бóльшую их часть, а большое количество низкочастотных звуков занимает совсем незначительную часть текста). Эта же закономерность прослеживается автором на уровне слогов и на уровне слов текста. Исследования же В.И. Перебейнос доказывают, что установленная Дьюи закономерность заложена в самой основе строения единиц языка.
Подчеркнем, что как при любом научном исследовании, так и при изучении системных отношений в языке определение количественных соотношений является лишь способом познания качественных характеристик этих отношений, что свидетельствует о диалектическом единстве количества и качества объективной действительности. Интересными с этой точки зрения представляются наблюдения В.А. Никонова [15] над существующими в языке связями между фонемным и морфемным уровнями. Автор исследует частотные характеристики элементов этих уровней. Подсчеты реализации в текстах славянских языков самых частотных согласных т, н, с показали, что частота т наибольшая в русском и болгарском языках, н – во всех остальных языках. Некорректность объяснения этого факта артикуляционными особенностями или заимствованиями из других языков В.А. Никонов доказывает, во-первых, тем, что из всех русских т лишь 5% являются результатом оглушения д, во-вторых, и в русском и в болгарском языках заимствования из венгерских языков, которым свойственно широкое распространение т, образуют очень небольшое количество слов с этой согласной фонемой. И с помощью опять-таки статистики автор доказывает, что частота фонем зависит от их морфематических функций, что именно отнесение фонем к тем или иным морфемам обусловливает их частоты в речи. Установлено, что морфологическая функция т выступать в глагольных флексиях и обеспечила т количественный перевес в русских текстах. Сочетания задненебных с и в дали в русском языке зв и цв, а в западнославянских остались как гв и кв, но эти фонетические различия не проявляются в сравнительной частоте звуков г, к, з, ц в русском и польском языках, поскольку они почти не связаны с грамматическими элементами словоизменения или словообразования (в обоих языках чаще употребляются в корнях слов). Таким образом, частота фонемы, по В.А. Никонову, в тексте, прежде всего, зависит от ее участия в средствах словообразования или словоизменения как максимально повторяемых элементах речи. В других работах исследователя [16] эта же зависимость частоты элементов одного уровня от связей его с высшим уровнем доказывается на примере анализа зависимости частоты употребления падежей от их грамматических связей, то есть связи системы падежей с синтаксисом языка. Выводы автора являются одновременно и еще одним подтверждением философского положения о взаимозависимости части и целого при доминантной роли целого.
Ярким примером того, как статистика помогает выявлению системных отношений в языке на всех его уровнях, начиная с определения инвентаря единиц самого нижнего уровня и кончая установлением грамматики языка (морфологии и синтаксиса), является применение статистических методов при дешифровке неизвестных текстов [12]. Точкой опоры в данном случае служат количественные показатели, свойственные известным языковым системам, и данные, полученные в результате статистического исследования текстов на неизвестном языке. Общее число всех разных знаков и частоты появления новых знаков дают возможность установить систему письма, то есть набор исходных единиц языка. Каждая система письма имеет свои количественные характеристики: как правило, в алфавитном письме бывает до 30 знаков-букв; в системах письма, где знак соответствует слогу, насчитывается около 50 – 80 различных знаков. В иероглифическом письме их значительно больше – около 500. Письмо, в котором каждый знак обозначает отдельное слово, должно насчитывать несколько десятков или сотен тысяч знаков. Подсчет частоты повторения знаков и их сочетаний выявляет классы знаков. Например, при алфавитной системе письма для разделения на гласные – согласные применяется алгоритм Б.В. Сухотина, в основе которого лежит гипотеза о том, что в большинстве языков за гласной следует согласная, за согласной – гласная, а инструментом служит таблица частот двухбуквенных сочетаний [24, 7 – 9]. Грамматика дешифруемого языка строится на показателях частоты повторяемости знаков (букв, иероглифов) с привлечением позиционной статистики. В любом из известных нам языков мира присутствуют два вида морфем: корневые и грамматические, служебные. Среди самых частых знаков содержатся грамматические показатели, а среди редких – корневые морфемы. Поэтому предполагается, что редко встречаемые в дешифруемых текстах знаки обозначают неизвестные корни или основы, а знаки, которые находятся в их окружении и имеют относительно большую частоту, принадлежат к классу грамматических показателей. Позиция их по отношению к корневым определяет морфологическую структуру языка. Если грамматические знаки стоят перед корневыми, то они образуют класс префиксов или предлогов. Грамматические знаки, стоящие после корневых морфем, принадлежат к классу суффиксов или флексий. Возможно и вклинивание грамматических знаков в корневые, тогда они принадлежат к инфиксам.
Грамматические знаки сочетаются не только с корневыми, но и друг с другом. Определив, каким образом тот или иной грамматический знак сочетается с другими грамматическими знаками, можно выявить и синтаксис языка.
Системный подход к изучению языка позволяет выделить определенные наборы элементов языка, которые связаны системными отношениями и образуют определенные субсистемы, представляющие собой часть соответствующего уровня языка [11]. Так, при исследовании лексического уровня русского языка Э.Ф. Скороходько в отдельную субсистему выделяет терминологию [23]. В данном случае для нас представляет интерес способ установления связей и определение степени связности терминов в пределах выделенной субсистемы. Исследователь раскрывает качественные характеристики терминологии через установление количественных отношений между единицами субсистемы. Системность терминологии, по мнению автора, предполагает системность плана содержания, то есть системность семантического наполнения терминологии; системность плана выражения, то есть системность словесного наполнения терминологии, и системность соответствия плана выражения плану содержания.
Значения терминов соотносятся с соответствующими единицами действительности, взаимосвязанными между собой. Отсюда, значения лексических единиц тоже взаимосвязаны. Среди связей каждого предмета есть такие, которые однозначно выделяют данный предмет. Фиксируются эти связи в словарных статьях (определениях) толковых или терминологических словарей как отношения между значениями слов – семемами. Совокупность семем и существующих между ними отношений образует семантическую сеть языка. В качестве одного из признаков лексической системы языка, в частности ее терминологической субсистемы, может быть выбран показатель степени взаимосвязи между значениями ее единиц, определять который Э.Ф. Скороходько предлагает на основе соотношения количества семантически связанных пар терминов, то есть таких, значения которых, отраженные в определениях, прямо или опосредствованно производны от одного и того же значения (от одной и той же семемы), и общего числа терминов в системе. Сила семантической взаимосвязи терминов определяется длиной цепочки семем, связывающих в семантической сети сопоставляемые термины с общим компонентом в их значении. Указанные параметры, вычисленные для различных терминологических субсистем, могут свидетельствовать о степени однородности выбранных субсистем. Например, низкий показатель семантической связанности терминов означает или то, что система внутренне разнородна, то есть в нее включены термины других областей, или то, что при определении некоторых из ее терминов не отображены существенные связи внеязыковой действительности. Эти же показат