Вероятности и неприятности. Математика повседневной жизни — страница 22 из 40

то не определены. Однако круговой аналог этого распределения ведет себя хорошо, интегрируется и имеет вычислимые значения среднего и дисперсии. Это распределение встречается, например, в физике — при анализе явления дифракции.

Меняет свои свойства при зацикливании и нормальное (гауссовское) распределение. Его циклический аналог уже не будет устойчивым, а суммы случайных величин начнут сходиться не к нему. На окружности эту роль играет распределение фон Мизеса с такой функцией плотности вероятности:

Среднее значение для этого распределения равно μ, а величина 1/k влияет на дисперсию. В приведенном выражении I0 — модифицированная функция Бесселя, одна из целого семейства специальных функций. Функции Бесселя обычно появляются, если в задаче есть осевая симметрия. Например, с их помощью описывается профиль круговых волн, разбегающихся по воде от упавшей капли.

Впрочем, когда дисперсия данных мала и x незначительно отклоняется от среднего значения μ, косинус можно разложить в степенной ряд, в котором главную роль играет квадратичный член. Таким образом, когда влияние цикличности становится незначительным, то и распределение фон Мизеса оказывается похожим на «обычное» гауссовское. Никуда от него не денешься — в отличие от мифического «среднего пилота» или усредненной «идеальной женщины», случайные величины, подчиняющиеся нормальному распределению, встречаются повсеместно!

Сравниваем и ищем с помощью вероятности

Наш опыт работы с вероятностным подходом учит тому, что вероятность можно вычислить, но дать ей однозначную интерпретацию непросто. Еще сложнее измерить эту характеристику явления или процесса. Хорошо, когда можно применить частотную интерпретацию: пронаблюдать достаточно долго за процессом или его моделью и получить оценку распределения управляющих параметров. Но вероятности возникают и по-другому.

В самом начале книги упоминался спам-фильтр, который каждому сообщению в электронной почте ставит в соответствие вероятность того, что это спам — назойливая реклама, рассылаемая безадресно. Это что за вероятность? К какому множеству сообщений она относится? Когда эксперт в интервью утверждает, что вероятность победы того или иного кандидата на государственный пост составляет, скажем, 75 %, сколько раз он собирается проводить выборы, чтобы реально измерить это число и проверить свои выводы? А если это нельзя измерить, как проверять утверждение? Понятно, что в случае с выборами утверждение о вероятности чисто умозрительное и к математике не имеет отношения — число здесь отражает в лучшем случае некую «уверенность по стобалльной шкале». Но бесстрастные автоматы, классифицирующие сообщения в почте, изображения с городских камер или предаварийные состояния сложной техники, выдают результат именно на языке вероятностей.

Эти вопросы заставляют рассуждать о вероятности уже не только как о мере, но и как о характеристике, позволяющей сравнивать трудно сравнимые вещи.

Спам-фильтр сообщает нам о степени благонадежности текста, честно вычисляя условную вероятность того, что сообщение рекламное, исходя и из частотности характерных слов, и, что очень важно, спама среди прочих сообщений (это позволяет избежать ошибок вроде тех, что обсуждались в главе 3: про тест на содержание алкоголя в крови и истинность научных публикаций). А в результате мы получаем некое число, по которому можем ранжировать сообщения, имея в виду степень «близости» или «похожести» текста на спам. Причем оно не показывает степень близости к какому-то одному «идеальному спаму», его и не существует вовсе; спам — некое очень сложное подпространство в пространстве возможных сообщений.

Можно посчитать, какая доля сообщений, принятая фильтром за спам, действительно им оказалась. Однако это измерение покажет некоторую суммарную характеристику эффективности фильтра и его настроек, например выбранного порога близости к спаму, но ничего не скажет о частотной интерпретации результата: «с вероятностью 87 % данное сообщение — спам».

Вероятность в такой роли используется в современном подходе к поиску самолета или судна, потерпевшего крушение в океане. Эта методика называется байесовским поиском, поскольку в ее основе лежит понятие условной вероятности, рассчитываемой согласно теореме Байеса. В начале поисково-спасательных работ обследуемый участок территории разбивается на отдельные клетки (квадраты), потом с учетом направления движения судна или самолета строится априорное распределение вероятности того, что искомый объект находится в том или ином квадрате. Поисковые работы далее проводятся в двух основных направлениях: проверка наиболее вероятных квадратов и отсечение маловероятных. Таким образом, вероятность превращается в метрику, позволяющую сравнивать квадраты между собой: не просто прочесывать местность, перебирая их по порядку, а сосредоточиваться на наиболее вероятных участках, экономя драгоценное время.

Во время поисковых работ квадраты, оказавшиеся пустыми, отсекаются. При этом они не просто вычеркиваются — остается некоторая ненулевая вероятность того, что искомый объект все же находился там, но не был обнаружен. Регулярно производится пересчет вероятностей для всех клеток с учетом этой новой информации, и карта меняется: на ней более отчетливо проступают области приоритетного поиска. Такие итерации могут продолжаться долго, сама длительность поиска тоже добавляет информации к вычисляемым вероятностям. В конце концов, если искомое будет найдено, оно, скорее всего, окажется в квадрате, для которого вычисленная таким образом вероятность заметно меньше единицы. И вовсе не обязательно заветный квадрат будет иметь наибольшую вероятность оказаться «тем самым».

Здесь можно вспомнить закон Бука из книги о законах Мёрфи: «Ключи всегда находишь в последнем кармане». Перебирая карманы в поиске ключей на пороге дома, вы не вычисляете вероятность их наличия в карманах, оставшихся не проверенными. Скорее всего, вы начинаете с самых привычных, потом переключаетесь на более оригинальные места (задние и внутренние карманы), а не найдя там, видимо, вновь станете перепроверять уже обследованные карманы. Интуитивно мы решаем задачу поиска ключей так же, как ведутся современные поисково-спасательные работы. Так что упоминавшийся в самом начале книги закон Бука, гласящий, что ключ всегда в последнем кармане, конечно, тривиален, но это связано с очень сильным упрощением процесса. Ключ запросто может оказаться в кармане, который вы уже проверили, но недостаточно аккуратно.

* * *

Сравнивайте разумно, не ищите в жизни норму и не бойтесь отклонений от нее. Сама математика подсказывает нам, что в сложном мире людей корректно говорить можно лишь о степени подобия, но не о сравнении. Так что нет резона вести нескончаемые споры в поисках истины, стоит прислушаться и постараться услышать иное мнение, увидеть взгляд из другого, сопряженного пространства, обогащая тем самым свое восприятие мира.

Мудрецы правы: все мы уникальны и в своей уникальности абсолютно одинаковы.

Глава 6. Почему уж не везет так не везет?

Говорят, жизнь похожа на зебру: то белая полоса, то черная… А еще бывает, что к одной неприятности добавляется другая: и так все непросто в жизни, а тут еще кошка рожать принялась! То густо, то пусто! Одно к одному! Но самое печальное, что когда становится хорошо и в жизни наступает светлая полоса, то мысли закрадываются нехорошие: ох, не сглазить бы… ох, не придется ли за счастье расплачиваться… Знакомое ощущение? Об этом говорит один из законов мерфологии — второй закон Чизхолма:

Когда дела идут хорошо, что-то должно случиться в самом ближайшем будущем.

Но поскольку Френсис Чизхолм в своей оригинальной работе не дает детального анализа или доказательства этого закона, мы постараемся сами выяснить, кроется ли за этим какая-либо закономерность или нам так только кажется. А если это причуды математики, можно ли определить характерную длительность или частоту полосок на теле нашей зебры и от чего эти параметры зависят?

В жизни то и дело происходят события. Иногда они вовсе не связаны друг с другом, иногда образуют цепочки причинно-следственных взаимоотношений. Рассуждения об этих связях, цепочках и предопределенности жизненного пути могут увести нас очень далеко, мы поговорим о них позже. А пока попробуем, как всегда, обойтись наименьшим количеством исходных данных для анализа нашего закона. Рассмотрим последовательность никак не связанных между собой событий и посмотрим, что удастся из нее добыть.

Синтезируем злодейку-судьбу

Наступление событий, которые никак не связаны между собой и происходят во времени случайно, описывается с помощью хорошо известного пуассоновского потока. Он соответствует многим случайным явлениям — от землетрясений до прихода покупателей в магазин.

Предположим, выполнены такие естественные условия.

1. Если есть два непересекающихся отрезка времени [t1,t2] и [t3,t4], то число событий в первом отрезке не зависит от числа событий во втором (отсутствие последействия).

2. Количество событий, произошедших на каком-либо отрезке времени, зависит только от длины отрезка, но не его положения (стационарность).

3. Вероятность, что два события происходят одновременно, пренебрежимо мала (ординарность).

Тогда можно показать, что число событий, попадающих на отрезок длины t, подчиняется распределению Пуассона. То есть вероятность Pm того, что на этом отрезке произойдет m событий, определяется так:

Число λ называется интенсивностью или плотностью потока и имеет смысл «среднего» числа наблюдений. Например, при измерении времени в днях значению параметра