Этот пробел в передаче научного знания не остался незамеченным в сообществе ученых, занимающихся вычислительной наукой, и, словно мы вернулись во времена Бойля, раздается все больше голосов, призывающих к установлению новых стандартов научной коммуникации. На этот раз предлагается включить в набор публикуемой информации данные и программы. Невоспроизводимые вычислительные результаты экспериментов в области генетики, проводившихся в последние годы в Университете Дьюка, привлекли серьезное внимание к этой проблеме и привели к появлению отчета Национальной академии медицины, в котором рекомендовались новые стандарты клинических испытаний – в частности, особая процедура одобрения для вычислительных тестов, возникающих в процессе вычислительных исследований.
Отчет впервые в истории науки рекомендовал, чтобы информация о программах, которые будут использоваться в том или ином вычислительном тесте, была опубликована в самом начале исследования, то есть стала бы «устойчиво доступной». На прошедшем после публикации отчета семинаре в Университете Брауна на тему «Воспроизводимость в вычислительной и экспериментальной математике» (в котором я выступила одним из соорганизаторов) были сформулированы рекомендации относительно того, какую информацию следует включать при публикации вычислительных выводов (в частности, речь шла о доступе к программам, данным и деталям исполнения). В данном контексте под воспроизводимостью следует понимать вычислительную воспроизводимость (computational reproducibility).
Эту вычислительную воспроизводимость следует отличать от эмпирической воспроизводимости или описанной Бойлем передачи сведений в рамках невычислительных научных экспериментов. Это различие крайне важно, поскольку и у традиционных эмпирических исследований имеется немало проблем с точки зрения повторяемости и доверия к результатам. Как отметил лауреат Нобелевской премии (и постоянный участник дискуссий на Edge.org) Даниэль Канеман, говоря о невоспроизводимости определенных психологических экспериментов, «впереди нас может ждать серьезная катастрофа».
Постепенно становится все более ясным, что наука более не может считаться надежным источником «проверяемых фактов» (в данном случае речь идет об эмпирической, а не вычислительной воспроизводимости). Однако то, что мы называем оба эти понятия одним и тем же словом «воспроизводимость», лишь запутывает обсуждение, в результате которого мы хотели бы принять воспроизводимость в качестве стандарта. И я считаю, что существует как минимум еще один явный источник невоспроизводимости – «статистическая воспроизводимость» (statistical reproducibility).
Решение вопроса воспроизводимости путем открытия информации о методах и инструментах исследователя – это, безусловно, важно, но этого совершенно недостаточно. Помимо этого, нам нужно выработать новые критерии для оценки надежности и постоянства статистических выводов, в том числе новые показатели надежности, расширить поле неопределенности при количественной оценке. Это позволит нам сформулировать новые показатели статистической неопределенности и лучше понять возможные источники ошибок, особенно когда в дело вовлечены большие наборы данных из множества источников или масштабные модели. Мы также можем лучше выявлять искажения, возникающие из-за правил статистической отчетности, разработанных задолго до компьютерной эры.
Проблем с любым из этих трех типов воспроизводимости – эмпирической, вычислительной и статистической – может быть вполне достаточно для того, чтобы сорвать любую работу по установлению научных фактов. Каждый из этих типов требует своего «лечения» – улучшения существующих стандартов передачи научного здания и научной отчетности (эмпирическая воспроизводимость); большей доступности информации о вычислительной среде (вычислительная воспроизводимость); и статистической оценки повторных результатов с целью их валидации (статистическая воспроизводимость).
Мои предложения носят довольно общий характер, и каждый тип воспроизводимости может потребовать различных действий, в зависимости от деталей контекста того или иного научного исследования. Но если мы будем и дальше путать между собой эти не похожие друг на друга аспекты научного метода, то так и не сможем найти решение для старого спора, который начался около недостроенной вакуумной камеры Бойля.
Среднее значениеНиколас Кристакис
Профессор социальных и естественных наук, Йельский университет; соавтор (с Джеймсом Фаулером) книги Connected: The Surprising Power of Our Social Networks and How They Shape Our Lives[103].
Различные статистические техники, позволяющие нам достаточно правильно оценивать различие между средними значениями для двух групп, были изобретены более 100 лет назад, и с тех пор мы постоянно вводим себя в заблуждение, считая, что единственно важные различия – а то и просто единственные – это заметные различия. Мы потратили целое столетие на наблюдение этих различий и их интерпретацию. Это похоже на одержимость, и это необходимо остановить.
Да, мы можем с достаточной степенью уверенности говорить о том, что мужчины в среднем выше женщин; что норвежцы богаче шведов; что ребенок-первенец обычно умнее, чем второй ребенок в семье. Также мы умеем проводить эксперименты, направленные на выявление крошечных различий в средних значениях – между группами, подверженными и не подверженными влиянию вируса, или между группами, имеющими и не имеющими определенной разновидности какого-то гена. Однако это слишком простой и слишком узкий взгляд на природу.
Нам следует отказаться от своей привычной концентрации на средних значениях – или хотя бы отказаться от нее на какое-то значительное время. И нам стоит потратить это время на выявление другого типа различий между группами, которому прежде не уделялось должного внимания. Нам стоит сконцентрироваться на сравнении различий в дисперсии между группами – учитывающей разброс или диапазон измеряемых значений.
Отчасти мы придаем такое большое значение средним величинам из-за того, что статистические инструменты для их расчета и сравнения средних значений довольно просты и уже хорошо разработаны. Гораздо сложнее определить, насколько дисперсия одной группы отличается от дисперсии другой. Однако в этой связи нам стоит вспомнить анекдот про пьяницу, который ищет потерянный ключ от дома не там, где он его потерял, а под фонарем – просто потому что там больше света. Опьяненные силой статистики, мы убедили себя в том, что среднее значение в распределении представляет собой самое важное свойство последнего. Но ведь часто это совсем не так.
К примеру, мы часто фокусируемся на различиях в среднем уровне благосостояния у различных групп – например, при оценке того, насколько США богаче других стран и с чем могут быть связаны причины этого, или же того, зарабатывают ли банкиры больше денег, чем бизнес-консультанты, и как это влияет на выбор профессии выпускниками колледжей. Однако распределение богатства в группах может играть столь же важную роль в объяснении коллективных и индивидуальных исходов и выборов.
Даже если в США и Швеции одинаковый (грубо говоря) средний доход на душу населения, то дисперсия дохода (то есть степень неравенства в доходах) в Штатах значительно выше. Именно этот факт – в большей степени, чем любые различия средних значений – может помочь нам объяснить, что происходит с людьми в этих обществах. К примеру, для здоровья группы в целом и (в среднем!) для здоровья отдельных ее представителей может оказаться лучше, если доход в группе распределен более равномерно – даже если при этом средняя величина дохода окажется ниже. Думается, в этом случае мы предпочли бы бо́льшую степень равенства большему богатству.
Позвольте привести гипотетический пример, который влечет за собой совершенно иные практические заключения относительно неравенства: какой принцип формирования экипажа морского судна предпочтительнее? Такой, при котором у всех 10 моряков имеется одна и та же степень близорукости и средний показатель зрения на уровне 20/200? Или такой, при котором у 9 моряков зрение еще хуже, зато у 1 оно идеальное? Средний показатель будет одинаковым для обеих групп, однако с точки зрения эффективности плавания и выживания экипажа гораздо лучше иметь больше неравенства, чем меньше. В этой ситуации мы бы предпочли неравенство в уровне зрения.
Давайте рассмотрим еще один пример важности дисперсии строчки зрения медицины. Существуют две болезни с одинаковым средним уровнем прогноза – скажем, СПИД в прогрессирующей стадии и цирроз печени в прогрессирующей стадии, – однако доктора чаще дают рекомендацию «не реанимировать» в случае СПИДа. Конечно, очень соблазнительно сделать вывод о том, что врачи, возможно, избегают реанимации больных СПИДом по дискриминационным причинам. Однако подлинная причина может заключаться в том, что дисперсия состояний в группе больных СПИДом значительно выше и в этой группе может оказаться больше пациентов, которые неминуемо умрут. Врачи могут обращать больше внимания на этот факт, а не на показатель средней выживаемости у 2 групп.
Хорошее знакомство с дисперсией могло бы также помочь нам разобраться с известной и противоречивой гипотезой о том, что в крупных университетах больше мужчин – преподавателей математики: в среднем уровень математических способностей может быть одинаковым у мужчин и женщин, однако дисперсия интеллекта у мужчин выше. Это означает, что в самой нижней части распределения окажется больше мужчин (и факты подтверждают, что мальчики примерно в 3 раза чаще оказываются умственно отсталыми, чем девочки). Но также это будет означать, что и в верхней части распределения имеется больше мужчин.
Концентрируясь исключительно на средних значениях, мы упускаем шанс заметить интересные и важные вещи. И подобное ограниченное ви́дение имеет неблагоприятные практические и научные последствия. Хотим ли мы жить в более богатом и менее справедливом обществе? Хотим ли мы, чтобы образовательные программы обеспечивали бо́льшую равномерность результатов на экзаменах или же давали более высокое среднее значение? Согласятся ли пациенты на онкологическую терапию, которая одному помогает выжить, но другого убивает, – и пусть при этом средние показатели выживаемости не меняются? Для того чтобы полностью понять суть подобных компромиссов, мы должны не только освоить статистические инструменты, но и развить ви́дение, позволяющее сконцентрироваться на дисперсии.