Максимальный репост. Как соцсети заставляют нас верить фейковым новостям — Борислав Козловский

Простой выход из положения: созвать консилиум из многих врачей, пусть даже мегаэрудированного доктора Хауса среди них и нет. Каждый врач знает все про три-четыре случайных симптома и делает все выводы только на их основе. Потом врачи голосуют, и консилиум записывает мнение большинства. Если, скажем, шесть из десяти говорят «везти в больницу» – больного везут в больницу. В машинном обучении это называют «ансамбль случайных деревьев».

Но можно опрашивать врачей и по очереди. Спросили первого про сотню пациентов. Второму предъявляем в основном пациентов, на которых ошибся первый, и уточняем его диагнозы. Третьему – тех, на которых ошибся второй. И так далее. Выглядит все так, как будто по поводу каждого нового больного эти врачи тоже голосуют, но их голоса весят по-разному. Примерно так работает «градиентный бустинг на деревьях» – кажется, самый мощный класс алгоритмов после нейросетей.

В чем его слабость? Он хорошо справляется с десятками и сотнями признаков, но дальше начинает буксовать. Тексты, в которых десятки тысяч разных слов, или картинки, где пикселей миллионы, – неподъемная для него информация. Вся она поддается обработке только в полупереваренном виде, когда текст или картинку кто-то уже превратил в ограниченный набор признаков: «доля красного на картине», «число жирафов на снимке», «длина текста в словах», «как часто в тексте встречаются местоимения». Но как раз со всем этим на порядок лучше обращаются нейронные сети. Они же – глубинное обучение, deep learning.

Логическая многоэтажка: нейросети

Корень «нейро» в названии нейросетей намекает на прототип – нейроны, то есть нервные клетки живого мозга. С точки зрения математики каждый нейрон по отдельности – все та же линейная модель: он получает электрические сигналы от других нейронов, оценивает их (в условных баллах) и выдает суммарную оценку в виде собственного электрического сигнала.

Но один нейрон редко принимает окончательное решение: в мозгу они часто организованы в слои, и ответ будет готов, когда нервный импульс пройдет их все насквозь, от верхних к самым глубоким. Нейроны первого слоя получают «сырые» сигналы – например, они могут быть палочками или колбочками сетчатки, которые реагируют на свет. Каждый нейрон второго слоя будет обрабатывать импульсы от многих клеток первого и сформирует свой электрический импульс, чтобы передать его дальше.

Возвращаясь к «тестам» и «баллам», можно представить себе другую картину: вместо слоев нейронов – этажи офисного здания, где сидят HR-специалисты. И на первом этаже они заставляют людей проходить разные тесты – на IQ, на эмоциональный интеллект и на то, как хорошо кандидат разбирается в покемонах. Каждый тест оценивается в баллах.

Кадровики на втором этаже не видят уже никакой информации о том, как соискатель ответил на какой-нибудь конкретный вопрос. Все, что у них есть, – это набор итоговых оценок за тесты. Например: «IQ высокий, эмпатия низкая, в покемонах не разбирается». Каждый кадровик со второго этажа делает на основании этих признаков свой вывод. Один может решать, годится ли соискатель в уборщики, другой – есть ли у него задатки менеджера. Эти свои соображения они передают на третий этаж, где директор по кадрам на основе признаков вроде «хороший уборщик» или «посредственный менеджер» и секретного списка открытых вакансий принимает окончательное решение – брать или не брать человека на работу.

Нейросети на разных своих «этажах» извлекают признаки разной степени обобщения. Если на входе картинка, то самые первые слои, глядя на отдельные пиксели, будут отвечать на вопрос «есть ли здесь перепад яркости?» или «какой наклон у линии?», более глубокие – на вопрос «есть ли на небольшом участке картинки глаз или ухо?», а самые последние предельно конкретны: «собака на фото – это пудель? или той-терьер?».

C 2012 года, когда благодаря нейросетям случился прорыв в компьютерном зрении, компьютеры лучше человека справляются с ответом на вопрос, кто изображен на фотографии – собака или кошка. А программа AlphaGo (создана в 2015 году) всухую обыгрывает лучших мастеров игры го благодаря нейросетям, которые оценивают расстановку фишек на доске и выбирают оптимальный ход.

Почему бы не доверить нейросетям вообще все? Потому что крупным нужны слишком большие вычислительные мощности: «многоэтажные» алгоритмы требуют более громоздких расчетов, чем «одноэтажные». В ноябре 2016 года Google переключил на нейросети свою систему машинного перевода (и то – сначала для небольшого набора языков), но пользователи нуждаются в переводе текстов все-таки реже, чем обновляют ленту Facebook. А в мае 2017 года в блоге компании Twitter появилась новость, что теперь нейросети участвуют и в ранжировании твитов (то есть решают, какие показывать выше, а какие ниже). Ключевое слово здесь «участвуют»: они по-прежнему берут на себя только часть работы. Поэтому судьбу нашей френд-ленты по-прежнему решает более простая математика.

Стоит ли верить роботам: «исследование» и «эксплуатация»

Если нейросети такие умные, а линейные модели чуть-чуть им уступают в качестве, то почему бы не доверять им больше, чем собственному мозгу, от рождения склонному к ошибкам? Отвечает служба знакомств OkCupid.

Этот сервис, куда ежедневно заходит больше 1 млн человек, запустили еще в 2004 году. «Вы – больше, чем ваше селфи», – сообщает главная страница сайта. Его цель – помочь не тратить время на свидания с людьми, с которыми вам будет не о чем поговорить. Алгоритмы оценивают сходство, сравнивая ответы на вопросы длинной анкеты и, разумеется, историю поведения онлайн: как часто вы отвечаете и кому. Про каждого, с кем вы подумываете сходить на свидание, сообщается, на сколько процентов он вам подходит: на 94 % – идеально, на 30 % – подумайте дважды.

Представьте, что однажды вы видите рядом с чьей-то фотографией «90 %» – и удивляетесь, заглянув к нему в профиль. Допустим, этот кто-то слушает прогрессивного рэпера Икс и все свободное время уделяет занятиям кроссфитом, а сами вы любите романы Джейн Остин, кошек и теплый клетчатый плед. Но роботы со своей математикой решили, что вам непременно надо выпить вместе кофе – так почему бы и нет? И действительно, в кафе вы обнаруживаете, что искусственный интеллект и в самом деле знает про вас что-то такое, и вам стоит присмотреться друг к другу получше. Нейросети – тонкая вещь, за искусственным интеллектом – будущее.

На самом деле вы просто попали в выборку, на которой OkCupid проводил эксперимент. Вскоре после скандала с экспериментом Facebook в блоге OkCupid появилась запись «Да, мы ставим опыты на людях»{98}. Некоторым своим пользователям сервис месяцами подсовывал «плохие пары» (с уровнем совпадения 30 %) под видом «хороших» (90 %). Что удивительно, пользователи довольно охотно поддавались на манипуляцию: чаще вступали в переписку и чаще обменивались телефонами – что, как правило, означало свидание в близком будущем.

Зачем обманывать людей? В машинном обучении есть известная дилемма «исследование – эксплуатация» (exploration/exploitation). «Эксплуатация» – это использовать лучшую информацию из имеющейся. Например, чтобы порекомендовать пользователю партнера, кино или музыку. Но тогда мы не будем знать, например, как пользователи реагируют на совершенно новые фильмы или альбомы, по которым статистика еще не собрана. В каком-то смысле все новое будет худшей рекомендацией, чем проверенное старое, – но если его никому не рекомендовать, мы так и не узнаем, кому оно подходит, а кому нет. Поэтому вторая стратегия, «исследование» – это раздавать некоторые рекомендации наобум и смотреть, кто на что среагирует.

Вторая причина рекомендовать наобум – смотреть, сильно ли отличаются в лучшую сторону умные алгоритмы от попугая, который вынимает клювом из шляпы фокусника бумажку со случайным предсказанием будущего. В таких сравнениях нужна контрольная группа – как при испытаниях лекарств, где половина подопытных обязательно получает таблетку-пустышку. И в качестве рекомендации от сервиса, который разрекламирован как территория сплошного искусственного интеллекта, кто-то неизбежно будет получать советы, вытянутые из шляпы вслепую.

Допустим, «пустышка» – одна рекомендация искусственного интеллекта из ста. Тогда, может быть, все не так и страшно? Логика обычно другая: если не повезет, то конкретно вы будете получать 100 % вредных советов. Или читать у себя в ленте 100 % записей друзей, отобранных экспериментаторами с умыслом. В том же блоге OkCupid можно найти статью с малопонятным техническим названием «Недостатки A/B-тестирования в соцсетях»{99}, где объясняют: если пользователь оказался внутри эксперимента, проще всего его оттуда не выпускать, по крайней мере временно. И вот почему. Предположим, что сервис интересует реакция на два разных дизайна страницы – один, например, в красных тонах, другой – в синих. Если человек будет по очереди видеть у себя на экране то одно, то другое, то необъяснимая смена синего на красный введет его в ступор. Поэтому лучше сделать так, чтобы одни видели только синий сайт, а другие только красный. Ясно, что такой подход годится не только для экспериментов с дизайном.

В отличие от эксперимента Facebook, в случае OkCupid речь идет уже не об испорченном настроении на ближайшие пару дней. Свидание может иметь последствия длиной в десять, двадцать и даже тридцать лет – и на совести авторов эксперимента наверняка какое-то количество несостоявшихся свадеб людей, которые друг другу подходят, и несчастливых отношений среди тех, кого искусственный интеллект убедил, что они идеальная пара друг другу.

Плохо, если вас подводят алгоритмы сайта знакомств, но гораздо хуже, когда такой алгоритм определяет все ваши жизненные перспективы. Правительство Китая несколько лет назад запланировало запустить к 2020-му «систему социального кредита» на основе машинного обучения, которая вычисляет для каждого гражданина страны специальный рейтинг

Предыдущая Стр. 25 из 26 Следующая

Оглавление