алкиваемся с проблемой система — текст. Наконец и в технических дисциплинах, например в машиностроении или электронике, стоят сходные вопросы: построение из системы — конечного числа деталей или полупроводников— неисчерпаемого количества «текстов» машин, транзисторов и т. п.
Современную структурную лингвистику сравнивают иногда с лоцманом для целого ряда общественных и естественных наук. Именно она первой осознала знаковый характер языка и отличие его от речи. Систему языка структурные лингвисты стараются описать в строгих терминах математической логики и семиотики. Естественно, что тексты описаны так быть не могут. Ведь число их практически бесконечно!
Здесь вместо формул и символов нужны иные методы — и в первую очередь математической статистики, тот «жар холодных числ», о котором писал Блок в своих «Скифах», позволяющий, казалось бы, сухим колонкам цифр превращаться в яркие картины, показывающие скрытые механизмы языка, порождающего речь. Самое же ценное в этом знании — это то, что оно начинает в наши дни все чаще оказывать помощь людям в их практике, в повседневной жизни. Например, в обучении языку.
Числа, учебники и ЭВМ
Ни для кого не является секретом, что есть учебники хорошие и есть плохие. Опытный педагог порекомендует вам такой-то учебник, а такой-то брать отсоветует… Но на каком основании? На основании опыта, интуиции, наконец, своих взглядов. Но взгляды, как известно, бывают разные. Вот если бы можно было вычислять степень эффективности того или иного учебника! Тогда вместо споров о его достоинствах и недостатках можно было оперировать точными числами.
На первый взгляд все это кажется фантастикой. Однако первые попытки в этом направлении уже делаются. Не так давно в Минске с помощью ЭВМ сравнивалась эффективность учебников иностранных языков, и эта разработка белорусских ученых была удостоена серебряной медали ВДНХ… Вот вам и фантастика!
В основе знания языка — знание слов. Но сколько именно этих слов нужно дать в одном уроке учебника? И сколько слов вообще должен содержать словарный минимум? Чтобы новые слова усвоились, они должны встречаться и далее в учебнике, это очевидно. Но каким должен быть интервал между повторениями одного и того же слова?
Долгое время все эти вопросы решались на глазок, у одного педагога своя точка зрения, у второго — своя, третий считает ошибочными обе эти точки зрения и предлагает свою собственную. В наши дни союз педагогов, лингвистов, психологов, программистов и ЭВМ позволяет решать подобного рода вопросы с помощью точных чисел. Например, установлено, что темп введения новых слов не должен превосходить пяти процентов от всех слов, что встречаются в учебном тексте данного урока. А текст, содержащий 3,6 процента новых слов, оптимален — и прежние слова хорошо повторяются, и новые лучше всего усваиваются.
Чем большее число раз встретилось слово в уроке и во всем учебнике, чем более равномерно распределено оно по всему учебнику, тем учебник лучше. Интуитивно мы все понимаем это. Но как доказать интуицию числами? Попробуйте-ка произвести нужные подсчеты — и вы убедитесь, что без вычислительной машины тут никак не обойтись. Нужно подсчитать, сколько раз встретилось то или иное слово в каждом уроке и в упражнениях, сопровождающих урок. Нужно высчитать средние арифметические и средние квадрэтические отклонения для каждого слова по каждому уроку, затем суммировать данные по всему учебнику.
В одном учебнике ряд слов будет иметь лучшие показатели, чем те же показатели в другом. С другой стороны, в «худшем» учебнике будут и слова, и целые уроки с лучшими показателями, чем в первом. Параметров же, по которым вычисляем мы все эти показатели, у нас несколько. Значит, нужно еще вычислять по формулам значимость того или иного параметра… Словом, без ЭВМ во всей этой бухгалтерии не обойтись.
Вот такие подсчеты и провели белорусские исследователи, поручив ЭВМ сравнивать эффективность учебников. Разумеется, это только начало кибернетизации педагогики (ведь дело не только в количественных данных лексики, но и в ее качестве, да и не только в лексике). Трудно дать сразу ответы на все вопросы, над которыми бьется педагогика вот уже столько веков.
Еще одним конкретным примером союза лингвистики, математики, педагогики и ЭВМ являются работы, проводимые во многих странах мира и связанные со словами и числами.
Сколько нужно слов?
В любом языке мира насчитываются тысячи, десятки тысяч, а то и сотни тысяч различных слов, как, например, в русском, английском, немецком, французском и других, имеющих давнюю- письменную традицию. Все слова не знает даже носитель языка (вряд ли кто из русских знает значение тех четырехсот сорока тысяч слов, что собраны в академической картотеке Института русского языка).
Значит, изучая иностранный язык, мы должны заучить не все, а самые нужные, самые важные слова. Именно их должен включать словарь-минимум, что обязательно прилагается почти к каждому учебнику языка. Но тут возникает вопрос: сколько же слов должно быть в этом словаре-минимуме?
Одни специалисты полагают, что для чтения учебного текста достаточно и семисот пятидесяти слов, а при запасе в две с половиной тысячи можно читать простой неадаптированный текст с помощью словаря. Другие называют тысячу восемьсот — стольких слов, по их мнению, достаточно, чтобы понимать речь на чужом языке и вести на нем повседневное общение.
Шестая Международная ассоциация преподавателей современных языков рекомендует тысячу пятьсот — три тысячи слов на шесть лет обучения. Нашей программой для языковых вузов и факультетов иностранных языков установлен минимум в пять тысяч слов, причем на первом курсе должно быть усвоено восемьсот слов. Программа для неязыковых вузов рекомендует на два года обучения минимум в две с половиной тысячи слов, из них тысячу двести — для активного усвоения.
Согласимся с программой для вузов. Однако тут встает очередной вопрос: а какие именно слова нужно включать в словарь-минимум? Понятно, что самые важные, самые употребительные. Предлоги, местоимения, союзы… Правда, их не так-то уж и много в любом языке, А дальше? Какие глаголы, прилагательные, существа тельные нужно знать наизусть, а какими можно и не обременять свою память?
Казалось бы, словари-минимумы в учебниках должны совпадать. Если не полностью, то хотя бы на три четверти, хотя бы наполовину… Когда же специалисты сравнили шестнадцать разных учебников французского языка для американских школ, то обнаружили, что общими для них является примерно два процента слов! В учебниках насчитывалось в общей сложности шесть тысяч разных слов. И только сто тридцать четыре из них входили во все словари-минимумы!
Представим, что два американца, изучив французский по разным учебникам, попробуют общаться друг с другом на этом языке. Вряд ли они поймут друг друга: ведь общими у них будет менее полутораста слов.
Ту же печальную картину показал анализ и других словарей-минимумов. Десять учебников испанского языка содержали четыре с половиной тысячи слов, общими же было двести сорок девять. А в двадцати шести учебниках того же испанского языка было обнаружено тринадцать тысяч слов. Хороший же словарь-минимум для тех, кто изучает испанский язык! Требовать от новичков, изучающих иностранный язык, знания всех этих слов нелепо и бессмысленно, не всякий переводчик-профессионал их знает.
Какие же слова считать употребительными, а какие нет? Ответ на этот вопрос дает статистика, так называемые частотные словари.
Частоты и слова
Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.
Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!
В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.
Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.
Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!
Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.
Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов.