• Неявное смещение. Повторюсь, алгоритмы основаны на связях, а это может означать, что в итоге они используют признаки, которые мы, как правило, считаем не имеющими отношения к рассматриваемой задаче. Например, когда один алгоритм машинного зрения обучали отличать изображения хаски от немецких овчарок, он был эффективен, пока его не применили к хаски, которых содержали в квартирах в качестве домашних питомцев, – оказалось, что его эффективность основывалась на идентификации снега на заднем плане[144]. Менее тривиальные примеры включают алгоритм для определения красоты, которому не нравится темная кожа, и еще один алгоритм, идентифицирующий чернокожих людей как горилл. Некоторые алгоритмы способны серьезно повлиять на жизнь человека – например, присваивающие кредитный рейтинг или решающие вопросы страхования. Можно запретить использование расы в качестве одной из предикторных переменных, но применение почтовых индексов для указания местожительства может быть не менее мощным индикатором расы.
• Недостаток прозрачности. Некоторые алгоритмы могут быть непрозрачными из-за своей явной сложности. Но даже простые алгоритмы на базе регрессии становятся совершенно непостижимыми в случае закрытости (например, если речь идет о частном коммерческом продукте). Это одна из главных жалоб на алгоритмы, определяющие вероятность рецидива, такие как COMPAS компании Northpointe или LSI-R у MMR[145]. Они дают оценки или категории риска, которые можно использовать для принятия решений об условном осуждении или вынесении приговора, но при этом способ взвешивания различных факторов неизвестен. Более того, поскольку собирается информация и о воспитании, и о прошлых соучастниках, решения принимаются на основании не только личной истории, но и с учетом фоновых факторов, которые (как было показано) должны быть связаны с будущими преступными действиями, даже если они обусловлены таким фактором, как бедность и лишения. Конечно, если бы все, что имеет значение, давало точный прогноз, то можно было бы использовать любой признак, даже расовую принадлежность. Однако многие утверждают, что справедливость требует, чтобы такие алгоритмы были контролируемыми, прозрачными и подлежали обжалованию.
В какой-то степени можно объяснить даже собственные (проприетарные) алгоритмы – при условии, что мы можем экспериментировать с различными входными сигналами. При покупке онлайн-страховки предлагаемая сумма рассчитывается по некой неизвестной формуле, подчиняющейся только определенным юридическим ограничениям: например, в Великобритании расценки при страховании автомобиля не могут опираться на информацию о расе или на генетические данные (за исключением болезни Хантингтона[146]) и так далее. Однако мы все же можем получить представление о влиянии различных факторов, раз за разом давая ложные ответы и наблюдая, как меняются расценки: это предоставляет некоторую возможность обратного инжиниринга[147] для алгоритма – увидеть, какие факторы определяют предлагаемую сумму.
Необходимость в контролируемости алгоритмов, влияющих на жизнь людей, растет, и требования, чтобы выводы имели понятное объяснение, включаются в законодательство. Такие требования препятствуют использованию сложных черных ящиков и могут приводить к предпочтению (довольно старомодных) регрессионных алгоритмов, в которых влияние каждого фактора предельно ясно.
Однако, рассмотрев темную сторону алгоритмов, уместно закончить весьма полезным и обнадеживающим примером.
Какова ожидаемая польза от адъювантной терапии после операции при раке молочной железы?
Почти всем женщинам, у которых диагностирован рак молочной железы, делают операцию, хотя степень хирургического вмешательства может быть ограниченной. Критический вопрос – выбор адъювантной терапии[148] после операции, чтобы уменьшить вероятность рецидива и последующей смерти от рака. Возможны различные варианты – радиотерапия, гормональная терапия, химиотерапия и другие лекарственные средства. В терминологии цикла PPDAC это проблема.
План британских исследователей состоял в разработке алгоритма, который помогал бы принять такое решение с помощью данных о 5700 прошлых случаях рака молочной железы, имеющихся в канцер-регистре страны. Анализ включал построение алгоритма, использующего подробную информацию о конкретной женщине и ее опухоли для вычисления ее шансов на выживание в течение 10 лет после операции и их изменения в зависимости от различных методов лечения. Однако при анализе прошлых результатов требуется осторожность, поскольку причины выбора методов лечения неизвестны и мы не можем использовать видимые результаты из базы данных. Вместо этого создается регрессионная модель с выживаемостью в качестве результата, но эффект лечения оценивается по обзорам крупномасштабных клинических испытаний. Получившийся алгоритм общедоступен, а его разделительная эффективность и калибровка проверены на независимых наборах данных, включавших 27 тысяч женщин[149].
Созданное программное обеспечение называется Predict 2.1, и результаты его работы выдаются в виде доли схожих по анамнезу женщин, которые, как ожидается, проживут 5 и 10 лет при различных видах адъювантной терапии. В табл. 6.5 приведены некоторые результаты для воображаемой женщины, а на рис. 6.7 – кривые выживаемости из Predict 2.1 для периода до 15 лет после операции.
Таблица 6.5
С помощью алгоритма Predict 2.1 определялась ожидаемая доля 65-летних женщин, которые проживут 10 лет после операции при раке молочной железы, когда при обследовании была обнаружена опухоль 2-й стадии размером 2 см, с двумя метастазами узлов и положительными индексами ER, HER2 и Ki-67. Показана кумулятивная ожидаемая польза для различных методов адъювантной терапии, хотя они могут иметь побочные эффекты. Доля выживаемости для «женщин без рака» отражает наилучшую возможную выживаемость с учетом возраста женщины
* Трастузумаб – противоопухолевый препарат. Герцептин – его торговое название. Прим. пер.
Рис. 6.7
Кривые выживаемости из Predict 2.1 для периода до 15 лет после операции – для женщин с признаками, перечисленными в подписи к табл. 6.5. Показано совокупное увеличение выживаемости в зависимости от дополнительных видов терапии. Область над пунктирной линией отображает процент женщин с раком молочной железы, умерших от других причин
Программа Predict 2.1 не совершенна, и данные в табл. 6.5 могут использоваться только в качестве примерных ориентиров: они отображают, что (как можно ожидать) случится с женщинами, обладающими признаками, включенными в алгоритм, но для какой-то конкретной женщины нужно учитывать дополнительные факторы. Тем не менее Predict 2.1 регулярно используется для десятков тысяч случаев в месяц как на консилиумах, где обсуждаются варианты лечения, так и для передачи этой информации пациентке. Для женщин, желающих активно участвовать в своем лечении, используется процесс, известный как «совместный уход», когда пациентке предоставляется информация, обычно доступная только врачам, что может помочь ей лучше контролировать свою жизнь. Этот алгоритм не запатентован и представляет собой программное обеспечение с открытым исходным кодом, поэтому система регулярно обновляется, чтобы предоставлять дополнительную информацию, в том числе о и негативных последствиях лечения.
Искусственный интеллект
С момента появления в 1950-е годы идея искусственного интеллекта (ИИ) периодически переживает всплески ажиотажа и энтузиазма и последующие волны критики. Я работал над диагностикой с помощью компьютера и неопределенностью в ИИ в 1980-е, когда в целом эта тема обсуждалась в рамках конкуренции между различными подходами: как основанными на вероятности и статистике или на экспертных «правилах» для суждений, так и теми, которые пытались эмулировать когнитивные способности с помощью нейронных сетей. Сейчас эта область стала более зрелой, подход к ее основополагающей философии – более прагматичным и универсальным, хотя ажиотаж не исчез.
Демонстрируемый машинами интеллект – весьма широкая идея. Она намного масштабнее, чем ограниченная проблема алгоритмов, обсуждаемая в этой главе, и статистический анализ – всего лишь один компонент для построения систем ИИ. Однако, как показывают последние выдающиеся достижения в компьютерном зрении, речи, играх и так далее, главную роль в успехах в «узком» ИИ играет статистическое обучение. Такие системы, как Predict, которые ранее считались системами принятия решений на базе статистики, теперь можно с полным основанием именовать ИИ[150].
Многие из вышеописанных проблем сводятся к алгоритмам, моделирующим только связи и не имеющим понятия о процессах, лежащих в основе. Джуда Перл, благодаря которому повысилось внимание к причинным связям в ИИ, утверждает, что такие модели позволяют всего лишь отвечать на вопросы типа «Мы наблюдаем X, чего мы можем ожидать от следующего наблюдения?» В то же время общий ИИ нуждается в причинно-следственной модели того, как реально функционирует мир, что позволило бы ему отвечать на вопросы человеческого уровня, касающиеся результатов вмешательства («Что будет, если мы сделаем X?») и контрфактуального мышления («Что было бы, если бы мы не сделали X?»). Пока мы весьма далеки от искусственного интеллекта, обладающего такой способностью.
Эта книга подчеркивает классические статистические проблемы малых выборок, систематические ошибки (в статистическом смысле) и невозможность обобщения на новые ситуации. Список задач для алгоритмов показывает, что хотя беспокоиться о величине выборки можно меньше ввиду наличия колоссальных объемов данных, другие проблемы имеют тенденцию усугубляться и мы сталкиваемся с дополнительной проблемой – объяснением для обоснования алгоритма. Огромные массивы данных только увеличивают проблемы при получении надежных выводов. Смирение при построении алгоритмов крайне важно.