Подавляющее большинство экспертов PAI, с которыми проводились консультации, согласились с тем, что нынешние инструменты оценки рисков не готовы к использованию при принятии решений о задержании или продолжении задержания обвиняемых по уголовным делам без использования индивидуального слушания. Одна из целей исследования состоит в том, чтобы сформулировать причины такого почти единодушного взгляда на вкладчиков и помочь наладить диалог с политиками, рассматривающими вопрос об использовании этих инструментов. Члены PAI и более широкое сообщество ИИ, однако, не имеют единого мнения о том, можно ли когда-либо совершенствовать инструменты статистической оценки риска, чтобы справедливо задерживать или продолжать задерживать кого-либо на основе их оценки риска без индивидуального слушания. Для некоторых из наших членов проблемы остаются структурными и процедурными, а также техническими. Независимо от расхождений во взглядах на эти конкретные вопросы, в этом отчете кратко изложены технические проблемы, проблемы взаимодействия человека с компьютером и проблемы управления, которые коллективно определены сообществом.
Некоторые противоречия по поводу инструментов оценки риска проистекают из различных базовых показателей, по которым оцениваются инструменты оценки риска. У политиков есть много возможных исходных условий, которые они могут использовать при принятии решения о приобретении и использовании этих инструментов, включая следующие вопросы:
А. Достигают ли инструменты оценки риска абсолютной справедливости? Это вряд ли будет достигнуто какой-либо системой или учреждением из-за серьезных ограничений в данных, а также нерешенных философских вопросов о справедливости;
В. Являются ли инструменты оценки риска настолько справедливыми, насколько они могут быть основаны на доступных наборах данных? Это может быть достижимо, но только в контексте (а) выбора конкретной меры справедливости и (б) использования наилучших доступных методов для смягчения социальных и статистических ошибок в данных. Однако на практике, учитывая ограничения в доступных данных, это часто приводит к игнорированию систематических ошибок в данных, которые трудно устранить;
C. Являются ли инструменты оценки риска улучшением по сравнению с текущими процессами и лицами, принимающими решения? Инструменты оценки риска могут быть сопоставлены с эффективностью процессов, учреждений и практик принятия решений людьми, существовавшими до их внедрения, или аналогичными системами в других юрисдикциях без инструментов оценки риска. Такие оценки могут быть основаны на измеримых целях (таких как лучшее прогнозирование явки в суде или рецидив) или на отсутствии предрасположенности к человеческим предубеждениям. В этом смысле инструменты оценки риска могут не достигать определенного понятия справедливости, а быть сравнительно лучше, чем статус-кво;
D. Являются ли инструменты оценки риска улучшением по сравнению с другими возможными реформами системы уголовного правосудия? Другие реформы могут быть направлены на достижение тех же целей (например, повышение общественной безопасности, снижение вреда содержания под стражей и снижение издержек и бремени судебного процесса) при более низких затратах, большей простоте реализации или без учета интересов гражданских прав.
Базовые показатели А и В полезны для фундаментальных исследований алгоритмической справедливости и для эмпирического анализа производительности существующих систем, но они обязательно дают неоднозначные результаты из-за существования оправданных, но несовместимых определений справедливости. Тем не менее, они могут обеспечить полезную основу для понимания философских, правовых и технических вопросов с помощью предлагаемых инструментов.
Базовая линия С является одной из широко распространенных точек зрения экспертов, работающих в космосе. Это может быть уместно для политиков и юрисдикций, покупающих инструменты в соответствии с законодательными полномочиями вне их контроля, или в ситуациях, когда политические ограничения означают, что базовый уровень D неприменим. Тем не менее, мы должны подчеркнуть, что во всех обсуждениях, проведенных PAI, базовый уровень D широко рассматривался как более фундаментально правильный и подходящий как цель выработки политики и стандарт оценки для инструментов оценки риска. Поэтому законодательные органы и судебные органы должны применять базовый уровень D всякий раз, когда это возможно для них.
§ 2. Минимальные требования к ответственному использованию инструментов оценки риска в уголовном правосудии
Что такое точность?
Точность представляет производительность модели по сравнению с принятой базовой линией или предварительно определенным правильным ответом на основе доступного набора данных. Чаще всего некоторые данные, используемые для создания модели, будут зарезервированы для тестирования и настройки модели. Эти зарезервированные данные обеспечивают новые оценки, которые помогают производителям инструментов избежать «переоснащения» в процессе экспериментов.
Точность измерения включает оценку того, выполнила ли модель наилучшую возможную работу по прогнозированию на тестовых данных. Сказать, что модель предсказывает неточно, значит сказать, что она дает неправильный ответ в соответствии с данными, либо в конкретном случае, либо во многих случаях.
Поскольку точность сфокусирована на том, как инструмент работает с данными, зарезервированными из исходного набора данных, он не решает проблемы, которые могут подорвать разумность самого набора данных (обсуждается в разделе о достоверности). Действительно, поскольку точность рассчитывается относительно принятого базового уровня правильности, точность не учитывает, являются ли данные, использованные для проверки или проверки модели, неопределенными или оспариваемыми. Такие вопросы обычно принимаются во внимание при анализе достоверности. Несмотря на то, что точность часто находится в центре внимания создателей инструментов при оценке эффективности их моделей, обоснованность и предвзятость часто являются более актуальными проблемами в контексте использования таких инструментов в системе уголовного правосудия.
Что такое валидность?
Узкое внимание к точности может привести к тому, что лица, принимающие решения, будут слепы к важным фактическим соображениям, связанным с использованием инструментов прогнозирования. С любой статистической моделью, и особенно той, которая используется в таком критическом контексте, как оценки рисков в области уголовного правосудия, важно установить достоверность модели или ее точность в реальном мире. То есть, если оценки риска направлены на то, чтобы измерить вероятность того, что человек может не появиться или стать объектом будущего ареста, то это должно быть в том случае, если полученные оценки фактически отражают соответствующие вероятности. В отличие от точности, валидность принимает во внимание более широкий контекст, кающийся того, как данные были собраны и какой вывод делается.
Отдельно от данных и статистических проблем инструмент также может быть недействительным, потому что инструмент на самом деле не отвечает на правильный вопрос. Поскольку валидация всегда проводится в отношении конкретного контекста использования и конкретной задачи, перед которой ставится система, валидация инструмента в одном контексте мало говорит о том, является ли этот инструмент допустимым в другом контексте. Например, оценка риска может достаточно хорошо предсказать будущие аресты применительно к отдельным лицам в досудебном контексте, но довольно плохо применительно к лицам после вынесения приговора, или она может хорошо предсказать будущий арест в одном юрисдикции, но не в другой. Точно так же разные модели, построенные на основе одних и тех же данных, созданные с использованием разных решений и допущений при моделировании, могут иметь разные уровни достоверности. Таким образом, различные виды предсказаний (например, неявка, бегство, рецидивизм, насильственный рецидивизм) в разных контекстах требуют отдельной проверки. Без такой проверки даже устоявшиеся методы могут давать ошибочные прогнозы. Другими словами, только потому, что инструмент использует данные, собранные из реального мира, не делает автоматически его выводы достоверными.
Основные проблемы с использованием данных на уровне группы для оценки отдельных лиц
Фундаментальный философско-правовой вопрос заключается в том, допустимо ли определять свободу личности на основе данных о других в их группе. В сообществах ИИ прогнозирование отдельных лиц на основе данных на уровне групп известно как этическая ошибка. Хотя инструменты оценки риска используют данные о человеке в качестве входных данных, связь между этими входными данными и прогнозируемым результатом определяется шаблонами в обучающих данных о поведении других людей.
В контексте вынесения приговора подсудимые имеют конституционное право определять приговор на основании того, что они сделали сами, а не того, что сделали другие, имеющие сходство с ними. Эта обеспокоенность возникла, например, в деле Висконсин против Лумиса, где суд запретил использование показателей риска в качестве решающего фактора при принятии решений о свободе, отметив, что «молодой преступник, безработный, имеет ранний арест на раннем возрасте и историю неудачи в надзоре. Это приведет к средней или высокой оценке по шкале риска насилия, даже если преступник никогда не совершал насильственного преступления»[7].
Этическая ошибка особенно проблематична в системе уголовного правосудия, учитывая социальные предрассудки, которые отражаются в данных уголовного правосудия. Таким образом, вполне вероятно, что решения, принимаемые инструментами оценки риска, частично принимаются в зависимости от того, к какому защищенному классу может принадлежать физическое лицо, что вызывает серьезные опасения по поводу положения о равной защите.