Ошибки в оценке науки, или Как правильно использовать библиометрию — страница 14 из 24

Так, академическую среду интересует прежде всего научное влияние публикаций, но нельзя пренебрегать и другими типами влияния, для измерения которых подобрать корректные показатели не так трудно. Например, речь может идти об экономическом, социетальном, культурном, экологическом и политическом влиянии научных исследований. Иначе говоря, в случае университетов исследовательская функция институции должна рассматриваться наряду с другими ее функциями. К примеру, качество преподавания не может оцениваться исключительно в свете проводимых в университете исследований без учета той среды, в которую погружены учащиеся там студенты (качество зданий, библиотечные ресурсы и т. п.). Чтобы эти параметры получили надлежащее освещение, следует избавляться от «синдрома фонаря», то есть от привычки искать ключи там, где светло, а не в том месте (пусть и темном), где они были потеряны. Таким образом, необходимо отказаться от использования легкодоступных показателей и, подробно изучив отдельные кейсы, оценить наличие некоторых из этих типов влияния для каждого из основных показателей. Такой качественный подход затратен, однако он необходим для адекватной оценки влияния исследований в различных секторах[143].

Оценка показателей

В ряду проблем, связанных с оценкой научного труда, отдельно стоит наболевший вопрос о рейтингах. Хотя оценивание и рейтингование — это не одно и то же, обе операции требуют использования показателей, при работе с которыми нужно применять некоторые базовые принципы для обеспечения их валидности. Международная экспертная группа по рейтингам (International Ranking Expert Group) утвердила так называемые берлинские принципы контроля за качеством рейтингов. Члены этой самопровозглашенной группы, состоящей из экспертов по оцениванию, однажды собрались, чтобы определить хорошие практики при составлении рейтингов. Так были сформулированы следующие принципы: 1) ясно определять цели рейтингования; 2) обеспечивать прозрачность методологии; 3) выбирать адекватные и валидные показатели; 4) четко определять веса показателей и не менять их по ходу дела; 5) признавать разнообразие и специфику различных институций[144].

На первый взгляд эта инициатива кажется похвальной и разумной. Но если присмотреться, декларируемые принципы оставляют желать лучшего. Четвертый принцип, в соответствии с которым следует четко определять веса переменных, с тем чтобы впоследствии их не изменять, представляется парадоксальным. В соответствии с этим принципом, если выяснится, что изначальное распределение весов неадекватно, его не следует менять под предлогом обеспечения преемственности, что по меньшей мере проблематично. Пятый принцип, требующий признания разнообразия институций, — лишь благое пожелание. На самом деле ни один из этих критериев не применим к существующим рейтингам университетов, в частности к так называемому Шанхайскому рейтингу. А ведь разработчики рейтинга также входят в данную экспертную группу, что не мешает им проявлять полное безразличие к тому, что их собственные показатели не следуют принципам, которые они продвигают… Третий принцип, выбор адекватных и валидных показателей, вроде бы самоочевиден, однако при этом не указывается какой-либо нормы, которой они должны соответствовать. Мы уже показали, насколько важную роль играют источники и качество информации, содержащейся в базах данных, однако не менее важно и конструирование показателей. Не нужно думать, будто главное — это качественная база данных, а «не расчет того или иного показателя, при котором, по большому счету, выбирается то, что наиболее удобно»[145]. Чтобы быть валидным, показатель должен отвечать некоторым критериям, и эта сторона дела не зависит от используемых для его расчета баз данных. Валидный показатель, на мой взгляд, должен обладать тремя свойствами.

Три главных свойства хорошего показателя

Показатель по определению является переменной, которую можно измерить и которая призвана точно репрезентировать то или иное понятие, отсылающее к измеряемому свойству объекта[146]. Типичные примеры таких понятий и показателей — инфляция, показывающая, как с течением времени меняются цены на товары, или валовый внутренний продукт (ВВП), измеряющий объем производства страны. Показатель — это не само понятие, а приблизительное представление, используемое для определения того, каким образом реальность, стоящая за этим понятием, изменяется во времени и в пространстве. Свойства показателя всегда следует сравнивать с предполагаемыми свойствами самого понятия, и это сравнение должно основываться на интуиции и предварительном знании объекта, а также на других результатах измерения того же понятия. Итак, показатель должен как можно полнее соотноситься с внутренними характеристиками понятия, которое он призван измерить.

Адекватность измеряемому объекту

Первое свойство хорошего показателя — это его соответствие объекту. Насколько точно он отражает измеряемые характеристики объекта? Достоверны ли результаты, получаемые при измерении в свете того, что уже известно о данном понятии? Так, уровень инвестиций в исследования и разработки (R&D) является в первом приближении надежным индикатором интенсивности научных исследований в данной стране. Но представим, что требуется оценить научный импакт отдельного автора. Разумеется, можно провести опрос экспертов из той же области знания и предложить им расположить данного автора на некой шкале. Можно также предположить, что показателем этого научного импакта являются ссылки на его работы. Но недостаточно просто это постановить; нужно сначала протестировать наличие этой связи, выявив отношение между результатом анализа ссылок и другим, независимым от него индикатором. И действительно, как мы показали выше, наличие корреляции между уровнем цитируемости и репутацией, оцениваемой на основании полученных премий и научных званий, с 1970-х годов было неоднократно продемонстрировано в работах по социологии науки и библиометрии[147]. Как мы уже отмечали, мнение о том, что великие ученые мало цитируются, является мифом. Однако валидность показателя цитируемости была подтверждена прежде всего в сфере естественных наук. Нельзя некритично переносить его в область социальных наук и тем более в гуманитарные науки и филологию, поскольку результаты, полученные в этих дисциплинах, публикуются в форме статьи реже, чем книги, а последние менее широко представлены в базах данных[148]. Итак, чтобы убедиться, что показатель действительно адекватен объекту, следует проводить тесты и анализировать способы производства знаний в разных дисциплинах.

Однородность

Во-вторых, хороший показатель должен быть однородным по своему составу. Например, в сфере науки однородным (для данной страны) показателем научной деятельности будет число статей, опубликованных в ведущих научных журналах. Этот показатель позволяет измерить результативность, которую можно сопоставить с вложенными ресурсами, такими как объем инвестиций в науку (выраженных в евро). По этим показателям можно сравнивать между собой страны и даже организации. С их помощью можно также картировать научную деятельность в двух разных аспектах: входящие ресурсы и результаты. Соотношение этих двух величин дает показатель производительности научного труда (затраты/выпуск). Однако если принять этот показатель за меру качества научных исследований (а не их эффективности), комбинируя его с репутационной шкалой, установленной экспертной группой, то получается неоднородный показатель, который может непредсказуемо варьироваться, причем установить точную причину этой вариации невозможно.

Шанхайский рейтинг университетов дает в этом смысле наилучший пример того, как делать не надо: в нем намешаны одновременно ссылки, Нобелевские премии и статьи в ведущих журналах, и всем этим критериям назначены веса абсолютно произвольным образом, чтобы в конечном счете получить одну цифру. Складывая столы со стульями таким образом, невозможно определить причину вариаций итогового показателя. К тому же известно, что использование весовых множителей для сложения показателей иногда дает бессмысленные результаты[149]. Критерий однородности также связан с принципами прозрачности и простоты показателей, что означает возможность их прямой интерпретации. Например, такая метрика значимости журналов, как Eigenfactor, основанная на алгоритме типа Page Rank, непрозрачным образом принимает в расчет качество цитирующих журналов[150]. Но на каком объективном основании можно заключить, что ссылка в журнале Science имеет больше веса, чем ссылка в Scientometrics? Это только добавляет произвольности уже и без того сомнительному показателю. В реальности оказывается невозможно исправить плохой показатель, комбинируя его с другими и тем самым делая его еще менее прозрачным. Следует отказаться от такого показателя и найти другой, более адекватный и простой в интерпретации.

Соответствие инерции объекта

Последнее важнейшее качество хорошего показателя состоит в том, что его значения должны варьироваться в соответствии с инерцией, свойственной измеряемому объекту, поскольку разные объекты меняются с большей или меньшей быстротой в зависимости от их внутренних свойств. Возьмем для примера термометр: предположим, что вместо старого доброго столбика с ртутью используется электронный прибор с цифровым экраном и что в непроветриваемой комнате он сначала показывает 20 градусов, минуту спустя — 12 градусов, а еще через минуту — 30 градусов. Разумеется, исходя из простого здравого смысла наблюдатель скорее придет к заключению, что прибор сломан, чем поверит в то, что температура так быстро меняется. Ведь интуитивно понятно (и это подтверждается термодинамикой), что температура в закрытой комнате не может столь резко меняться в течение трех минут! Точно так же известно, что такие крупные организации, как академические институции, сродни неповоротливым танкерам, неспособным быстро менять курс (оно и к лучшему, ведь это избавляет их от необходимости реагировать на сиюминутные, а порой и пустые требования