§ 1. Потребность в статистических методах
В предыдущей главе мы обсуждали пересчет и измерение как способы уточнения наших идей о предметах. Однако в результате этих двух процессов производятся большие совокупности численных данных, и очень скоро мы можем оказаться сбитыми с толку таким изобилием. Тогда нам потребуется некоторый метод обращения с множеством численных результатов так, чтобы мы могли осознать и ясно выразить значимые отношения между исследуемыми свойствами. Метод сопутствующего изменения, будучи примененным к большим совокупностям примеров, с очевидностью требует применения статистических методов.
Нас, к примеру, может заинтересовать рост мужчин в Соединенных Штатах, поскольку мы считаем, что рост зависит от окружающей среды. Мы можем измерить рост нескольких миллионов мужчин. Однако мы не сможем сравнить несколько миллионов чисел с такой же совокупностью данных, полученных в результате исследований окружающей среды, если мы не отыщем какой-либо способ сжатия этих наборов. Мы все имеем определенные психологические ограничения и можем одновременно удерживать в сознании лишь относительно небольшое число вещей.
Физик может столкнуться со сходной сложностью в результате многочисленных измерений длины волны определенной линии солнечного спектра. Он может использовать различные методы и пробовать каждый из них по нескольку раз. Однако в общем он не получит в точности того же самого значения при каждом измерении, и, следовательно, ему придется отыскать какой-нибудь способ суммирования результатов, если он намеревается сравнить длины волн различных спектральных линий.
Несмотря на то что во многих областях измерения могут осуществляться с определенной степенью единообразия, число независимо изменяющихся факторов, тем не менее, может быть очень большим. Поэтому может оказаться крайне сложно установить постоянные отношения между ними. Однако в тех случаях, когда имеются очень большие совокупности таких данных, можно усмотреть некоторые общие тенденции. Например, повсеместно считается, что погода переменчива. Она зависит от большой группы факторов, которые не могут быть изолированы одновременно. Тем не менее, несмотря на то что погоду нельзя предсказывать с точностью, сравнение больших совокупностей метеорологических данных позволяет нам отыскать несколько полезных соотношений. Поэтому важно исследовать те способы, которые используются для сжатия и сравнения данных, полученных при перечислении и измерении. Методы, использующиеся для оценки групповых явлений посредством анализа данных, полученных в результате перечисления и измерения, составляют науку, именуемую статистикой.
Первый шаг к упрощению численных данных заключается в классификации информации под соответствующими заголовками. Природа классификации зависит от цели исследования. Очень часто таблицы частот позволяют нам получить общий обзор материала. Так, мы можем измерить рост школьников и обнаружить, что он колеблется между 2 футами 6 дюймами и 5 футами 6 дюймами. Для большинства целей не важно знать точный рост каждого ребенка с точностью более чем дюйм. Итак, мы можем установить число детей с ростом между 2 футами 6 дюймами и 2 футами 7 дюймами, ростом между 2 футами 7 дюймами и 2 футами 8 дюймами и т. д. Нельзя дать каких-либо общих указаний относительно того, какой величины должны быть выбираемые нами интервалы при построении таблиц частот.
Распределение частот между различными интервалами всегда должно выражаться суммарным образом. Для этого используются два типа статистических чисел. Один тип обозначается как среднее статистическое число. Вообще статистическое среднее обозначает то, что может быть названо «положением при распределении», т. е. численным значением, вокруг которого центрируются различные предметы. Второй тип чисел обозначается как дисперсные, или девиантные, числа. Они указывают степень изменения предметов относительно статистического среднего. Два набора предметов могут обладать общей центральной тенденцией, хотя величина отклонений (девиаций) в этих наборах может быть разной. Так, в двух наборах чисел 3, 4, 5, 6, 7 и 1, 3, 5, 7, 11 величина дисперсии (рассеивания) является разной. Другие типы статистических чисел могут также использоваться для описания распределения вокруг центра, однако мы не будем на них останавливаться.
§ 2. Статистическое среднее
Каким образом выбирается число, представляющее центральную тенденцию, присущую группе качеств? Какие условия нужно наложить на статистическое среднее и какой значимостью оно обладает? Существует несколько видов средних чисел, каждое из которых обладает своими преимуществами и имеет свои ограничения. Ни одно среднее число не является подходящим для всех возможных целей, т. к. каждое применяется для определенной цели. Однако, в общем, средние числа используются по следующим причинам: 1) они требуются для сводной репрезентации какой-либо группы, 2) они используются как способы сравнения различных групп, 3) они используются для характеристики целой группы на основе взятых из нее образцов. Следовательно, существуют некоторые очевидные качества, которыми должны обладать средние числа.
1. Средние числа должны определяться настолько недвусмысленно, чтобы их численное значение не зависело от прихотей индивида, высчитывающего их.
2. Средние числа должны быть функцией всех предметов группы; в противном случае они не будут представлять то или иное распределение в его цельности.
3. Средние числа должны обладать сравнительно простой математической природой, чтобы их можно было без труда высчитывать.
4. Средние числа должны допускать проведение над ними алгебраических манипуляций. Если нам известна, к примеру, средняя высота для каждой из двух последовательностей высот, то мы на этом основании можем высчитать среднюю высоту большей последовательности, полученной в результате объединения двух исходных последовательностей.
5. Средние числа должны быть относительно стабильными. Если мы выберем из группы несколько подходящих образцов, то средние числа для разных примеров будут разными. Мы редко нуждаемся в среднем числе, в котором такие различия будут как можно меньшими.
Самое известное среднее число – это среднее арифметическое. Оно получается в результате сложения набора качеств и деления полученной суммы на количество членов. Если число часов сна для некоторого студента в течение недели равно 7, 6, 6, 5, 8, 7, 9, то среднее арифметическое этой суммы будет равняться 48/7, или 66/7, часа. Читатель может обратить внимание, что среднее арифметическое не равняется числу часов, которые студент просыпает в какой-либо конкретный день. Это обстоятельство с ясностью указывает на то, что средние числа представляют свойства группы и не дают никакой информации о каком-либо индивиде из группы.
Среднее арифметическое выполняет первое, второе и третье из сформулированных выше условий для средних чисел. Ниже мы увидим, что четвертое условие им также выполняется. Однако читателю не следует заблуждаться относительно кажущейся точности, якобы получаемой в результате таких арифметических манипуляций. Мы можем выразить среднее число часов, которые проспал студент, десятичной дробью и получить 6,85914 часа, или 6 часов 51 минуту и 25,7 секунды. Арифметический расчет здесь вполне точный. Однако неверно считать, что данный результат говорит о том, что время, проведенное во сне, в точности соответствует среднему арифметическому. Студент мог сообщить о времени, проведенном во сне, лишь приблизительно с точностью до часа. Он вполне мог бы посчитать 6 часов 15 минут реального времени сна как просто 6 часов. Следовательно, нам следует признать, что точность вычисления в приведенном примере будет кажущейся, если исходные наблюдения не были проведены с такой же долей точности.
Является ли среднее арифметическое удовлетворительной основой для сравнения двух групп? Если средний доход некоторой общины равен $1500, а другой – $1100, то правильно ли на основании этого умозаключать, что члены первой общины состоятельнее членов второй? Нижеследующий пример призван показать, что подобное умозаключение может оказаться ложным, если среднему арифметическому не сопутствует дополнительная информация. Предположим, что в некотором классе студенты имеют в кармане следующие суммы денег: 8 студентов имеют по 50 центов, 4 – по 75 центов, 2 – по $1,50, 1 имеет $11 и 1 имеет $27. Среднее арифметическое для всего класса равняется $3. Предположим также, что в другом классе 9 студентов имеет по 1 доллару, 4 – по $1,50, 1 студент имеет $2 и 1 – $3. Среднее арифметическое для всего класса равняется $1,662/з. Несмотря на то что среднее арифметическое первого класса выше, в нем у 12 студентов (т. е. у 2/з всего класса) меньше денег, чем у любого студента из второго класса. Если мы проанализируем способ высчитывания среднего арифметического, то мы поймем, почему оно так часто является ненадежной основой для сравнений. Дело в том, что значение среднего арифметического подвержено серьезному влиянию сильных изменений в значениях отдельных членов рассматриваемого множества. В приведенном примере наличие в группе относительно небольшого числа очень богатых студентов может существенно повысить среднее арифметическое. Иными словами, две группы могут обладать одним и тем же средним арифметическим, но область изменения внутри этих групп может быть очень разной. Среднее арифметическое не сообщает ничего относительно однородности группы. Поэтому в статистике также требуется и измерение дисперсии.
Несмотря на этот недостаток, среднее арифметическое является важным средним числом в силу его математических свойств и простоты получения. Над ним можно проводить алгебраические манипуляции. Так, предположим, что некий студент получает в течение года следующие оценки по некоторому предмету: 80, 75, 95, 60, 70; среднее арифметическое равняется 74. Во второй год он получает 80, 70, 60, 75, 65, и среднее арифметическое равно 70. Каково среднее арифметическое его оценок за два года? Мы можем сложить десять полученных оценок и разделить результат на 10. Но мы также можем сложить и два средних арифметических и разделить их на 2. В результате мы получим среднюю оценку за два года, равную 72. Данное алгебраическое свойство среднего арифметического очень удобно.
Среднее арифметическое также связано с математической теорией вероятности. Предположим, некий химик проводит несколько сотен измерений веса кислорода. Каждое измерение дает разный результат. Каково «истинное значение» веса кислорода? Если мы примем ряд допущений о том, каким способом могут изменяться значения измерений, например, если мы допустим, что все измерения были проведены с одинаковой точностью, то наиболее вероятное значение веса кислорода будет представлять именно среднее арифметическое.
Во многих примерах использование среднего арифметического не поможет. Так, преподаватель может разделить на две части работу, рассчитанную на семестр. Он может вызывать некоторого студента к доске пять раз в течение первой половины семестра и поставить ему следующие оценки: 10, 9, 8, 10, 8. Во второй половине семестра он может вызвать его всего лишь дважды и поставить ему 0 и 4. Теперь предположим, что преподавателю нужно высчитать итоговую оценку, и для этого он высчитывает среднее арифметическое за первую половину семестра, которое равно 9, среднее арифметическое за вторую половину семестра, равное 2, а затем находит среднее арифметическое для двух половин. Итоговая оценка студента в таком случае будет равняться 5,5. Справедливо ли это? Если предположить, что работа, проделанная в первой половине семестра, является такой же важной и сложной, как работа, проделанная во второй половине, то студент будет прав, если посчитает такую оценку несправедливой. Он сможет требовать, чтобы средние оценки за каждую половину семестра взвешивались соответственно тому количеству раз, которые он выходил к доске. Тогда истинная итоговая оценка будет высчитываться следующим образом:
и тогда она будет удовлетворительной. Числа 5 и 2, на которые умножаются средние арифметические, называются весами.
Однако очевидно, что в данном примере использование весов не было необходимым, поскольку студент мог высчитать итоговую оценку, отыскав среднее арифметическое всех полученных оценок. В подобных примерах взвешивание используется только из соображений арифметического удобства. Более показательным применением среднего взвешенного будет установление изменения прожиточного минимума на протяжении периода в несколько лет. Рассмотрим несколько абсурдный пример. Предположим, что для следующих 5 пунктов цена в 1910 году была номинальной или равной 100, а в 1920 году пшеница стоила 120, говядина – 110, железо – 105, ювелирные изделия – 50, средство для волос – 40. Среднее арифметическое этих предметов для 1920 года равнялось 85. Мы не можем заключить, что прожиточный минимум снизился, поскольку перечисленные предметы обычно не рассматриваются как равнозначные. Поэтому мы можем приписать им различные веса для обозначения того, что мы понимаем под относительной важностью. Предположим, мы решим, что следующие числа означают важность указанных пунктов в том порядке, в котором они были перечислены: 10, 9, 7, 2, 1. Среднее взвешенное высчитывается следующим образом:
и будет равняться 105,7, что указывает на рост уровня прожиточного минимума. Определение весов в подобных случаях – крайне сложная задача; в их установление с неизбежностью включается случайный элемент. Относительная важность является несуммируемым свойством, и если нам удастся расставить предметы в порядке их относительной важности (что само по себе непросто), то приписывание числовых значений тем или иным пунктам осуществляется исключительно под влиянием конвенциональных и субъективных факторов. Однако при использовании различных систем придания весов среднее взвешенное все равно изменяется лишь незначительно, если, конечно, мы не имеем дела с какой-то необычной системой установления весов. Мода
Moda – это предмет группы, встречающийся наиболее часто. Поэтому мода нередко считается «типичным» представителем группы. Когда говорят о среднестатистическом человеке, указывают именно на такого, который является модой. По количеству денег в кармане студентов из примера на с. 416 модой будет 50 центов.
Каковы отличительные преимущества моды? Как и все средние показатели, она представляет распределение свойств внутри группы. Однако она также может представлять природу группы даже лучше, чем среднее арифметическое, поскольку она указывает на самую большую подгруппу некоторой совокупности и, таким образом, указывает на то, какое свойство будет встречаться наиболее часто. Когда офицер, ответственный за снабжение полка, заказывает форму, он исходит из измерений, являющихся модой для роста и талии людей, которые будут эту форму носить. Значение моды не подвержено влиянию резких флуктуаций внутри группы и поэтому может служить справедливой основой для сравнения различных групп. Если природа совокупности определяется через верно сделанную выборку, то использование моды может быть более результативным, чем использование среднего арифметического, поскольку мода является более стабильным средним показателем.
Однако мода не выполняет большинства условий, сформулированных нами для средних показателей (см. с. 412–415). Во-первых, мода недвусмысленно определяется как наиболее часто присутствующий предмет, а положение наиболее частого присутствия может изменяться в зависимости от типа классификации предметов данной группы. Так, предположим, что при рассмотрении успеваемости 47 студентов оценки распределились следующим образом:
Мода находится между 60 и 80, т. е. является больше 60 и меньше или равной 80. Однако интервалы могли бы быть выбраны и иначе. Предположим, что классификация была следующей:
Теперь мода находится между 70 и 90, т. е. больше 70 и меньше или равна 90. Если бы порог удовлетворительной оценки был бы ниже, чем интервал моды, то большее число студентов не получило бы моду при втором методе, чем при первом.
Очень часто бывает так, что в группе нет какого-либо единственного хорошо определенного типа. Это может произойти либо потому, что частота, с которой присутствуют те или иные предметы, примерно одна и та же, либо потому, что в данной группе можно усмотреть несколько различных частотных тенденций. Например, если мы изучаем статистику зарплат, то мы можем отыскать два или более перечня ставок зарплаты, имеющих относительно высокую частоту. В подобных случаях мы не можем говорить о какой-либо единственной моде. Существование нескольких «тенденций» (peaks) в распределении зарплаты указывает на отсутствие однородности в исследуемой группе. Может случиться и так, что будут иметь место несколько различных видов оценки труда, для каждого из которых будет существовать своя мода; однако когда эти различные виды объединяются, то распределение зарплат проявит несколько тенденций.
Более того, мода может оказаться не типичной, даже если она, действительно, соответствует наиболее часто присутствующему предмету в группе. Так, допустим, что в некой общине доход ее членов существенно разнится. Может случиться так, что двенадцать человек получают $1500, тогда как зарплата всех остальных членов, исчисляемых несколькими сотнями, не совпадает ни для кого из них. Тогда зарплата в $1500 будет модой, но при этом вовсе не будет типичной.
Нам следует также отметить, что мода не является функцией всех членов группы, т. к. элиминация нескольких членов может никак не отразиться на моде. Несмотря на то что зачастую данное свойство является преимуществом, тем не менее случается и так, что требуется значение, которое будет зависеть от значений всех членов группы. Более того, не существует какого-либо простого арифметического процесса, описывающего вычисление моды, поэтому на практике детерминация моды зачастую оказывается сложной и неточной. Наконец, мода составной группы не может высчитываться на основании мод тех групп, которые составляют общую группу. Для теоретических исследований данное свойство представляет серьезный недостаток. Главное же достоинство моды заключается в ее относительной стабильности при повторяющихся выборках. Однако данное преимущество является несущественным, когда о группе известно, что она является однородной. Поэтому в таких случаях применяются другие средние показатели.
Медиана – это средний термин в последовательности терминов, расставленных по мере их увеличения. Из сказанного следует, что нечетная совокупность предметов всегда будет обладать медианой. Медианой чисел 3, 4, 4, 5, 5, 5, 6 является число 5. Когда же число членов является четным, то медиана обычно определяется как среднее арифметическое двух средних терминов. Медианой группы 40, 50, 50, 60, 70, 90 является 55. Таким образом, медиана – это тот термин в некоторой последовательности терминов, упорядоченных по мере увеличения, которому предшествует столько же терминов, сколько и следует после.
В отличие от среднего арифметического, медиана не подвержена сильному влиянию значительных флуктуаций внутри группы. Поэтому она является относительно стабильным средним показателем и может использоваться для сравнения упорядоченных групп относительно положения их среднего термина. А, в отличие от моды, медиана может определяться с точностью и без труда. Однако медиана, в основном, используется в тех областях, где теоретические или систематические соображения обладают наименьшей значимостью. У нее нет алгебраических свойств, которые позволяли бы высчитывать медиану для некоторой группы на основании медиан составляющих ее подгрупп. Она получила популярность в измерениях в области социологии и психологии, поскольку в этих областях не всегда возможно осуществить фундаментальные измерения, но зато довольно часто можно установить порядок последовательности или шкалу свойств. Это объясняется тем, что медиана определяется по положению соответствующего термина в данной последовательности, а не в силу суммируемых свойств всех терминов. Таким образом, среднее арифметическое IQ некоторой группы детей ничего не говорит об этой группе и совершенно бесполезно для определения уровня интеллекта группы в целом. Однако медиана может использоваться в таких случаях в качестве основы для сравнения; возможность расположения детей по мере увеличения их способностей представляет достаточную значимость. Таким образом, если медианой IQ одного класса является число 95, а другого класса – 105, то при обычных условиях мы можем сказать, что во втором классе больше детей, способных соответствовать некоторому специальному стандарту, чем в первом.
Иногда считается, что числа, большие и меньшие, чем медиана, встречаются в группе с одинаковой частотой. Это не всегда так, особенно в тех случаях, где исследуемые свойства не представляют непрерывной последовательности. Таким образом, когда было рассмотрено 337 лютиков на предмет количества находящихся на них лепестков, было обнаружено, что 312 из них имеют 5 лепестков, 17—6 лепестков, 4–7, 2–8 и 2–9 лепестков. Медиана равнялась 5. Однако очевидно, что количество членов группы, содержащей по 5 лепестков, не равно количеству членов группы, содержащей большее количество лепестков.
§ 3. Виды измерения дисперсии
Мы видели, что группы могут отличаться друг от друга не только своими центральными тенденциями, но также и степенью разброса составляющих их значений.
Амплитуда вариации
Простой способ указать степень разброса значений в группе – это установить амплитуду вариации. Она представляет собой численную разность между максимальными и минимальными значениями признака в рассматриваемой группе. Если доходы в Соединенных Штатах варьируются от $500 до $10 ООО ООО, то амплитуда вариации будет равна $9 999 500. Однако этот метод не является удовлетворительным, поскольку, во-первых, крайние значения вариации могут быть неизвестны, а во-вторых, поскольку добавление или элиминация нескольких зарплат на краях совокупности могут существенно изменить амплитуду вариации. Более того, амплитуда вариации не говорит нам о том, как именно распределяются различные доходы внутри группы. Две группы чисел 1, 5, 5, 6, 6, 7, 7, 7, 10 и 1, 2, 2, 2, 2, 10 имеют одинаковую амплитуду вариации, хотя форма распределения в каждой из этих совокупностей является разной.
Можно найти и более точные методы для обозначения степени вариации. Предположим, рост мужчин в определенной группе, измеренный в дюймах, таков: 61, 63, 64, 65, 65, 66, 67, 68, 69, 72. Средний рост равен 66 дюймам. Теперь высчитаем отклонение каждого роста от среднего роста путем вычитания последнего из каждого отдельного роста. (Можно взять любой средний показатель в качестве основы для высчитывания отклонений. Мы же для простоты ограничимся средним арифметическим.) Отклонения таковы: -5, -3, -2, -1, -1, 0, 1,
2, 3, 6. У нас может возникнуть желание высчитать среднее арифметическое этих чисел. Однако это бесполезно, поскольку сумма отклонений от среднего значения всегда равна нулю. Однако мы можем пренебречь отрицательными знаками в отклонениях и высчитать среднее арифметическое. Полученный результат будет называться средним отклонением, или средней ошибкой. Среднее отклонение в нашем случае равняется 24/10, или 2,4.
Среднее отклонение приписывает одинаковую значимость как большим, так и малым отклонениям. Вообще, чем меньше среднее отклонение, тем более сконцентрированы исследуемые предметы вокруг среднего значения. Все факторы, упоминавшиеся при обсуждении среднего арифметического, также релевантны и в случае со средним отклонением.
Однако нам следует обратить внимание на то, что большое среднее отклонение не является необходимым признаком большой флуктуации в значениях группы. Быть большим можно только относительно некоторого стандарта. Если мы многократно измерим высоту горы, то среднее арифметическое наших измерений может равняться 5000 футов, а среднее отклонение – 10 футам. По сравнению со средним арифметическим среднее отклонение является маленьким числом. Однако если бы мы измеряли длину квартала в городе, то среднее отклонение в 10 футов было бы существенным. По этой причине среднее отклонение иногда делится на средний показатель, относительно которого измеряются отклонения. Получившийся результат называется «коэффициент дисперсии». В предыдущем примере об измерении роста людей этот коэффициент равнялся 2,4/66, или 0,036+.
Для многих целей, особенно тех, в которых преобладают элементы теории вероятности, в качестве меры дисперсии рассматривается стандартное отклонение. Оно вычисляется путем деления суммы квадратов отклонений от среднего показателя на количество предметов в группе и извлечения из получившегося результата квадратного корня. В примере с измерением роста мы получаем
что равняется 9 и является средним арифметическим суммы квадратов отклонений. Стандартное отклонение равняется
, или 3. Если x1, х2, хn являются отклонениями от среднего арифметического из n значений, то σх, т. е. стандартное отклонение, равно
Стандартное отклонение, построенное указанным образом, демонстрирует экстремальные значения отклонений. При возведении отклонений в квадрат наибольшие из них обретают больший вес в общей сумме по сравнению с меньшими отклонениями. Относительно полезности стандартного отклонения нельзя сказать ничего до тех пор, пока не станут известными предположения, сделанные относительно группы значений, для которых оно высчитывается. Однако в целом стандартное отклонение является измерением дисперсии, которое в наименьшей степени подвержено влиянию флуктуаций в выборке по сравнению с другими измерениями. Если распределение в группе является примерно симметричным и если расстояние, равное стандартному отклонению, отграничено с каждой стороны среднего показателя, то около 2/3 всех предметов группы будут находиться внутри отграниченной области. В нашем примере с измерением роста эти отграничения выражаются записью: 66 ± 3. И действительно, около 2/3 величин находится между 63 и 69. Квартильное отклонение
Еще один способ измерения отклонения можно получить в результате расстановки предметов по мере их увеличения и отыскания тех трех значений (item), которые делят общую последовательность на четыре равные части. Эти значения называются «первый квартиль», «второй квартиль» (или медиана) и «третий квартиль». Если Q1 – это первый квартиль, a Q3 – третий, то квартильное отклонение определяется как (Q3 – Q1) / 2. Очевидно, что половина значений группы должна лежать между первым и третьим квартилями. По этой причине квартильное отклонение иногда также называется «вероятностной ошибкой». Если мы используем запись 65,5 ± 2 (где 65,5 является термином, находящимся посередине между первым и третьим квартилем, а 2 – квартальным отклонением), то внутри указанных границ (63,5 и 67,5) будет столько же значений, сколько и снаружи. Иными словами, предполагается, что когда мы произвольно выбираем какие-либо значения группы, то вероятность того, что мы выберем значение, находящееся внутри указанных границ, равна вероятности того, что мы выберем значение за их пределами. Однако выбор термина «вероятностная ошибка» здесь не вполне удачен и сбивает с толку, т. к. в литературе по данной теме этим термином принято обозначать и другие вещи.
§ 4. Измерение корреляции
Целью всех научных исследований является отыскание значимых отношений внутри изучаемой предметной области. Цель же статистических исследований заключается в том, чтобы облегчить процесс данного открытия и дать возможность выразить отношения между различными группами признаков. Мы собираем статистические данные относительно вопросов, связанных с жизнью, для того чтобы сравнивать такие вещи, как рождаемость, смертность, бедность и т. д., за два различных года. Мы собираем данные о числе несчастных случаев и количестве часов нахождения на рабочем месте на нескольких промышленных предприятиях для того, чтобы установить отношение (если таковое имеется) между этими двумя наборами явлений. Это делается для того, чтобы установить, связаны ли эти обстоятельства причинно-следственной связью или же являются частично или полностью независимыми друг от друга.
Мы уже рассмотрели средние показатели и меры дисперсии, которые обусловливают возможность более или менее точного сравнения групп. Для многих целей рассмотренные статистические числа – это все, что нам нужно. Так, мы можем сравнить доход некоторой общины на протяжении различных лет, используя один из средних показателей и измерения разброса. Иногда становятся полезными процентные отношения. Росла ли численность населения Германии быстрее, чем численность населения Франции между 1900-м и 1910 г.? Увеличение численности населения в процентах в большинстве случаев будет служить мерой такого роста. Существует ли отношение между орлиной формой носа и еврейским происхождением? Недвусмысленный ответ на этот вопрос был получен из данных, согласно которым в достаточно представительных выборках евреев лишь 14 % обладало «характерным еврейским носом».
Однако бывают ситуации, когда никакой из рассмотренных статистических методов не является удовлетворительным. Предположим, мы исследовали несколько сотен листьев с деревьев на предмет соответствия их длины и ширины. Существует ли связь между длиной и шириной листа? На основании наших общих впечатлений мы можем сформировать убеждение о том, что чем длиннее лист, тем он и шире. Однако когда нам приходится рассмотреть множество листьев, то мы уже не можем опираться на поверхностные впечатления, поскольку мы не можем ни запомнить все рассмотренные листы, ни установить между ними значимые отношения. В таком случае мы можем попробовать разложить листья в порядке увеличения их длины, для того чтобы посмотреть, увеличивается ли при этом их ширина. Если две последовательности совпадают, то мы, без сомнения, сможем заключить, что существует определенное отношение между длиной и шириной листа. Если две последовательности совпадают не полностью, а лишь частично, то мы все равно можем подозревать наличие некоторого отношения. Однако нам потребуется некоторая численная мера для соотнесения длин и ширин листьев. Считается, что переменные являются коррелированными, если в последовательности соответствующих примеров этих переменных увеличению или уменьшению в значениях одной из них сопутствует увеличение или уменьшение в значениях другой, будь то в едином направлении или в разных направлениях. Когда значения переменных изменяются в одном направлении (вместе увеличиваются или вместе уменьшаются), корреляция является положительной; когда значения переменных изменяются в противоположных направлениях (одни увеличиваются, а другие уменьшаются), то корреляция является отрицательной.
Существует несколько видов измерения корреляции. Мы рассмотрим только один такой вид, называемый коэффициентом Пирсона. Однако мы не будем рассматривать способ получения этого коэффициента, в силу того что используемый для этих целей аргумент является техническим. Мы просто приведем его определение и продемонстрируем, как он используется. Пусть h1, h2… hn будут значениями переменной h, a w1, w2… wn будут соответствующими значениями переменной w. Это означает, что когда h стоит в значении hlf w стоит в значении и т. д. Далее пусть х1, х2… хn представляют отклонения значений первой переменной от среднего арифметического в n примерах, а у1, у2…уn представляют соответствующие отклонения значений второй переменной. Символы σх и σy будут, как обычно, представлять стандартное отклонение для двух последовательностей. В таком случае коэффициент Пирсона будет обозначаться как
где Σ(ху) обозначает сумму всех произведений соответствующих отклонений, и данная формула читается так: среднее арифметическое произведений отклонений, деленное на произведение двух стандартных отклонений.
Высчитаем данный коэффициент для определения меры корреляции между возрастами мужей и жен в группе из двадцати пар. Таблица на с. 429 представляет необходимую информацию. Следовательно,
Коэффициент Пирсона построен таким образом, что его численное значение положительно, когда корреляция положительна, и отрицательно, когда корреляция отрицательна. Более того, его значение всегда лежит между +1 и -1, где «+ 1» обозначает прямолинейную положительную корреляцию, а «-1» – прямолинейную отрицательную корреляцию. Коэффициент 0 указывает на отсутствие корреляции; в таком случае на основании имеющегося знания о том, как происходят изменения значений одной переменной, мы не можем ничего вывести о том, как происходят изменения значений второй переменной.
§ 5. Опасности и ошибки при использовании статистических методов
Несмотря на свою большую ценность, статистические данные могут быть неправильно использованы и неверно проинтерпретированы, если не учтены допущения, требующиеся для их использования. Поэтому мы должны предостеречь читателя от приведенных ниже элементарных, но часто встречающихся ошибок.
1. Статистические данные предлагают в суммарном виде информацию о признаках некоторой группы значений. Они не предлагают никакой информации ни об одном конкретном элементе группы. Из знания о том, что рождаемость мужчин примерно равна половине от общего показателя рождаемости, мы не можем ничего вывести относительно пола ребенка, который родится следующим.
2. Средние статистические показатели не могут без дополнительного изучения интерпретироваться как представляющие строго неизменные отношения внутри конкретной группы. Бокль в своей работе «История цивилизации в Англии» из статистических данных об убийствах, самоубийствах, браках и письмах, находящихся в Бюро невостребованных писем выводил заключение о том, что «убийства совершаются с такой же регулярностью и связаны таким же единообразным отношением с некоторыми известными обстоятельствами, как приливы и отливы и смена времен года… Убийство является всего лишь следствием общего состояния общества, и… каждый отдельный преступник является лишь исполнителем того, что на самом деле является необходимым следствием предшествующих обстоятельств. В данном состоянии общества определенное число людей должны совершить самоубийство. Это является общим законом, а вопрос о том, кто именно совершит преступление, является специальным и поэтому зависит от специальных законов, которые, однако, в своей совокупности должны подчиняться большому социальному закону, которому все они подчинены. Могущество большого закона столь неотразимо, что ни любовь к жизни, ни страх иного мира не способны никак повлиять на его осуществление… Даже число браков, заключаемых ежегодно, определяется не чувствами или желаниями индивидов, а большими общими фактами, неподчиненными отдельным индивидам… Теперь мы можем даже доказать то, что провалы в памяти также являются следствиями этого общего признака необходимого и неизбежного порядка» [94] . Заключения Бокля не подтверждаются основаниями, которые он приводит. Число ежегодных самоубийств может оставаться неизменным на протяжении лет, однако из этого не следует, что определенное число самоубийств должно происходить каждый год, поскольку, во-первых, нам не известны точные факторы (если таковые вообще существуют), обусловливающие самоубийство, а во-вторых, мы не знаем, проявятся ли данные факторы и в последующие годы.
3. Коэффициенты корреляции можно подвергнуть сходной критике. К примеру, коэффициент Пирсона определяется настолько общим образом, что на предмет степени корреляции можно рассмотреть любые две группы, даже если нам известно из других источников, что данные группы на самом деле независимы друг от друга. Таким образом, в использованной нами записи х может обозначать отклонения в возрасте мужчин, перечисленных в биографическом словаре, а у может обозначать число страниц в книгах из каталога Библиотеки Конгресса так, чтобы первое имя из словаря сопоставлялось с первой книгой каталога, и т. д. Коэффициент при этом может иметь большое численное значение. Однако это обстоятельство не будет означать наличия какой-либо значимой связи между двумя группами. Нет сомнения в том, что при достаточном терпении можно высчитать очень много корреляций. Было показано, что расходы на Британские ВМС существенным образом коррелировали с ростом в потреблении бананов, а распространение рака в Англии – с увеличением импорта яблок. Однако известно или, по крайней мере, предполагается, что большинство подобных корреляций являются случайными и не имеющими никакой причинно-следственной значимости.
Высокие коэффициенты корреляции не представляют достаточных оснований для установления неизменных связей, поскольку зачастую оказывается нелегко проинтерпретировать некоторый коэффициент, поскольку его значение может согласовываться более чем с одной интерпретирующей гипотезой. Предположим, мы установили, что в течение нескольких лет имеет место увеличение числа арестов. Можем ли мы на основании этого заключить, что увеличилось число преступлений? Разве не может данный результат быть следствием ужесточения мер по обеспечению законности? Отклонения в численности людей, классифицируемых как бедняки (в силу того, что они получают общественную помощь), могут быть соотнесены либо с изменениями в правилах выдачи общественной помощи, либо с изменениями в возрастном распределении бедняков, либо с изменениями в заработной плате, ценах или трудовой занятости. Какая из этих возможных корреляций главная? Можно ли достоверно утверждать наличие причинно-следственной связи между климатом и характером цивилизации на том лишь основании, что цивилизации определенного вида располагаются в регионах с определенным климатом? Разве не может природа цивилизации также быть сопоставлена с относительной свободой для доступа иностранных торговцев на рынки данного региона?
4. Совсем несложно совершить ошибку, заключающуюся в вере в существование значимой связи между двумя типами событий на основании наблюдения, согласно которому два события часто ассоциируются друг с другом. Так, предположим, мы обнаружили, что 90 из 100 рыжеволосых людей свойственно переменчивое настроение. Можем ли мы из этого вывести утверждение о том, что рыжие волосы и переменчивое настроение связаны каким-либо особым образом? Разумеется, нет, до тех пор пока мы не получим информацию об относительном числе людей, не имеющих рыжих волос, но обладающих при этом переменчивым настроением. Ведь может случиться так, что 90 из 100 людей с другим цветом волос также будут обладать переменчивым настроением. Следовательно, если мы захотим открыть связь между признаком А и признаком В, то нам нужно будет обнаружить не только пропорцию тех А, которые являются В, но также и суждение об индивидах А (не обладающих свойством А), которые также являются В. Из знания о том, что из тысячи глухонемых 29,6 являются слабоумными, мы не можем обоснованно вывести заключение о том, что слабоумие и свойство быть глухонемым являются взаимозависимыми признаками, если у нас при этом нет знания о том, что отношение слабоумных к общему числу населения меньше, чем 29,6, т. е., скажем, 1,5 на тысячу. Было замечено, что полнолуние и ясная погода зачастую сопутствуют друг другу; однако если мы заметим, что отсутствие полнолуния и хорошая погода ассоциируются друг с другом столь же часто, то мы не сможем проинтерпретировать любую из этих двух пар событий как значащую что-либо конкретное.
5. Существенные корреляции иногда получаются просто в силу смешения двух наборов данных, относительно которых не было установлено никакой корреляции. Если, к примеру, в какой-либо из двух общин отсутствует корреляция в возрастах мужей и жен, то строго доказать то, что при смешении списков в получившейся совокупности можно будет отыскать некоторую корреляцию, можно будет только в том случае, если среднее арифметическое возрастов мужей и жен не является одним и тем же в обеих общинах. Данная корреляция является следствием чисто математических свойств двух групп и не может рассматриваться в качестве основания для существования неизменной связи.
Здесь возникают сложности, происходящие из проведения выборки. Все корреляции могут высчитываться только для групп с конечным числом значений. Однако мы почти всегда стремимся использовать значение коэффициента для обозначения уровня корреляции между группами, которые являются более объемлющими, чем те, которые изначально были рассмотрены. Однако очевидно, что из коэффициента в 0,856 для корреляции между возрастами мужей и жен в одной общине вовсе не следует того, что данная корреляция сохраняется в более многочисленной общине или же в общине с иными социальными обычаями. Как и все статистические показатели, коэффициент подвержен воздействию флуктуаций значений выборки. В некоторых случаях относительно высокая корреляция может в целом оказаться случайной. Так, если пара костей бросается 100 раз и коэффициент корреляции высчитывается относительно числа выпавших значений, то г может обладать значением, которое будет существенно больше 0, хотя если кости являются независимыми друг от друга, то г должен строго равняться нулю. Только из одного г нельзя установить, указывает ли такое отличное от 0 значение г на наличие какой-либо зависимости.
6. Много ошибок совершается при построении умозаключений на основе значений выборки, поскольку сознательно или нет, но эти значения могли бы быть отобраны так, чтобы не являться значимыми репрезентантами всей совокупности. Этот источник ошибки особенно часто встречается в тех случаях, где были взяты лишь несколько значений или где наше знание предмета и его релевантных факторов является недостаточным.
При сравнении различных групп всегда существует опасность получения нерепрезентативной выборки. Ответственный за набор рекрутов в армию убедит большинство людей в правоте следующего аргумента: уровень смертности в американских ВМС во время Испано-американской войны равнялся 9 из 1000, тогда как уровень смертности за то же самое время в Нью-Йорке равнялся 16 из 100; следовательно, безопаснее быть служащим ВМС во время войны, чем мирным жителем Нью-Йорка. Однако внимательное рассмотрение оснований для данного заключения демонстрирует, что в двух указанных уровнях смертности нет той кажущейся большой значимости. Уровень смертности в Нью-Йорке включает в себя смертность младенцев, стариков, людей, находящихся в больницах и приютах; при этом известно, что среди стариков, младенцев и больных уровень смертности сравнительно велик. ВМС, с другой стороны, укомплектованы мужчинами в возрасте от 18 до 35 лет, каждый из которых был освидетельствован на медицинском осмотре как здоровый. Из этого следует, что упомянутые два уровня смертности не приводят к заключению о том, что ВМС безопаснее Нью-Йорка. Для адекватного обоснования подобного заключения потребовалось бы сравнение двух групп, которые были бы однородными по возрасту, полу и состоянию здоровья.
Можно привести множество других примеров, содержащих данную ошибку. В одном из университетов было обнаружено, что студенты одного цвета кожи получали более высокие оценки, чем студенты другого цвета кожи. Можем ли мы из этого заключить, что одна раса более способна к обучению, чем другие расы? Подобное умозаключение было бы крайне необоснованным, особенно если при этом предполагается существование барьеров между расами. Различия в оценках могут с легкостью объясняться повышенными требованиями при поступлении, выдвигаемыми к представителям одной расы. Следовательно, студенты такой расы будут представлять более избранную группу и поэтому будут получать более высокие оценки. Сходным образом открытие того, что женатые мужчины в Италии требуют меньше медицинского внимания, чем неженатые, не доказывает того, что брак содержит какую-либо гигиеническую ценность. Указанное различие может происходить из нежелания хронически больных мужчин жениться, и в таком случае лучшее здоровье женатых мужчин будет объясняться именно способом отбора исследуемого материала.
7. Распространенной ошибкой при сравнении групп является использование конкретных чисел вместо процентов. В одной известной книге по теории социализма автор пытался показать, что предсказания Маркса относительно прогрессивной элиминации малых коммерческих предприятий и распространения больших предприятий не соответствовали фактам. Для сравнения числа коммерческих предприятий в Германии за два отрезка времени автор использовал данные, приведенные в нижеследующей таблице, без высчитывания процентного отношения.
Автор пришел к заключению о том, что, вопреки утверждениям Маркса, число малых предприятий увеличивалось. Однако если мы высчитаем процентную долю каждого предприятия, то данная таблица покажет нам нечто совершенно иное. Числа в правой части каждой из колонок означают долю в процентах каждого типа предприятий в общем числе всех предприятий; эти числа не приводятся автором книги. Очевидно, что данная таблица не доказывает мысли автора, поскольку если в 1882 году малые мастерские составляли 61 % общего числа предприятий, то в 1895-м они составляли уже 47,6 %. Более того, несмотря на то что число малых предприятий увеличилось на 6 %, число средних предприятий увеличилось на 83 %, больших – на 90, а очень больших – на 107 %.
8. Очевидные сложности возникают и в тех случаях, когда мы осуществляем сравнение на основе единиц или классификаций, которые не обладают одним и тем же значением для каждой из сравниваемых групп. Бесполезно сравнивать число осуждений за кражу в разных странах, если нам не известно, что основа классификации действия как кражи и принципы работы судов являются одинаковыми в сравниваемых странах. Только из того, что в XX веке демократических стран стало больше, чем в XIX, с необходимостью вовсе не следует то, что в XX веке люди обрели больше свободы, поскольку несмотря на то, как именно классифицируются те или иные правительства, по своей сути они все равно могут мало чем отличаться от своих предшественников.
При сравнении доходов, полученных на протяжении нескольких лет, следует учитывать изменения в реальной стоимости денежной единицы. Из того обстоятельства, что в 1853 году 0,263 % населения Германии платили налоги на прибыль свыше 3 000 марок, а в 1902 году таким налогом облагались уже 1,301 % населения, нельзя заключить, что экономическое состояние немцев за указанный период улучшилось. Вполне возможно, что в 1902 году человек мог купить на 3000 марок примерно столько же, сколько он мог бы купить в 1853 году на 2000 марок, поскольку за это время произошли важные изменения прожиточного минимума.
Сходное затруднение происходит при сравнении уровня благосостояния внутри некоторой страны на основании увеличения числа приобретаемых акций. Так, за два отдельно взятых периода в Соединенных Штатах количество акционеров нескольких железных дорог соответствовало данным нижеследующей таблицы:
Что доказывают приведенные данные относительно общего числа людей, владеющих акциями? Если мы не можем быть уверены в том, что один человек не может быть одновременно акционером нескольких компаний, то мы не можем заключить и того, что большее число людей являлось акционерами в 1908 году по сравнению с 1904-м. Однако мы знаем, что многие финансисты хранят деньги в ценных бумагах более чем сотни различных корпораций. Более того, даже если бы имело место реальное увеличение числа акционеров, то концентрация акций, а вместе с ней концентрация богатства и власти могли бы быть большими во второй период, чем в первый.
9. Коварным источником ошибок является неспособность отличить изменения в предметной области от изменений в методах сбора статистических данных. Учащаются ли заболевания раком или же мы всего лишь точнее стали их отслеживать? Увеличивается ли уровень смертности от сердечно-сосудистых заболеваний, или, быть может, фиксируемые изменения являются лишь следствиями того, что сообщения о смертях от этих заболеваний неверны, и эти смерти вызываются некоторой другой болезнью, например, острым кишечным расстройством, которому следует придать отдельную классификацию? Уровень смертности среди младенцев определяется следующим образом: (число умерших младенцев до года) / (число новорожденных) х 1000. Однако, в силу того что чем меньше знаменатель, тем больше дробь, можно уменьшить уровень смертности среди младенцев, не спасая при этом ни одного ребенка, посредством улучшения подсчета новорожденных [95] . Можно ли из того обстоятельства, что, согласно результатам переписи 1900 года, в Соединенных Штатах увеличился процент малых коммерческих предприятий по сравнению с 1890 годом, вывести заключение о том, что относительное число малых предприятий увеличивается? Разумеется, нет! Даже в самой переписи 1900 года читатель предостерегается от подобного заключения, поскольку в 1900 году перечисление предприятий было более подробным, чем в 1890-м.
10. Использование различных единиц при сравнении нередко приводит к различным описаниям имеющей место социальной ситуации. Зачастую нелегко узнать, как именно следует измерять те или иные признаки. Имеет ли место растущая концентрация промышленности, прогрессивное исчезновение малых предприятий и появление нескольких больших корпораций? Однако как именно нам следует измерять подобную концентрацию: в терминах численности наемных работников или же в терминах количества продукции, производимой предприятием? По мере развития сложного производственного оборудования последний показатель может становиться более корректным. Так, например, было показано, что в то время как между 1904-м и 1909 годами в Соединенных Штатах имело место увеличение числа предприятий, ежегодно производящих товары на $20 ООО или меньше, то в 1904 году на долю таких предприятий приходилось лишь 6,3 % общей стоимости всех производимых товаров, а в 1909 году – только 5,5 %.
11. Мы уже отмечали, что точность, которая привносится в статистику использованием математических методов, является кажущейся. Точность измерительного прибора не увеличится, если мы увеличим точность среднего арифметического нескольких измерений до мельчайших дробей. Тем не менее, статистические методы могут показать, что исходное расположение значений по таблице является неточным, указав на их несовместимость друг с другом. Если, к примеру, мы изучаем 1000 индивидов и обнаруживаем, что 550 из них являются мужчинами и 500 – женщинами, то мы наверняка знаем, что была допущена ошибка. Однако иногда несовместимость данных не столь очевидна, и требуются более сложные методы для проверки совместимости данных. Так, рассмотрим следующую таблицу для группы из 1000 студентов:
Хотя, на первый взгляд, в этих цифрах нет ничего неверного, можно показать, что они являются несовместимыми. Дело в том, что эти данные имплицируют, что число незамужних студенток, не являющихся первокурсницами, должно равняться 57, что абсурдно. Однако обсуждение вопроса о проверке на совместимость является слишком техническим для первоначального знакомства.