Следовательно, информация равна степени, в которую надо возвести 2 для того, чтобы получить N, т. е.
J = log2N.
Эта величина называется логарифмом N по основанию 2 или двоичным логарифмом числа N.
Конечно, число возможных вариантов правильного ответа необязательно должно быть целой степенью числа 2. Это не должно нас смущать, потому что количество информации необязательно должно выражаться целым числом.
Таблица 1
Зависимость количества полученной информации от вероятности правильности ответа
Например, если число вариантов равно пятидесяти, то, когда мы узнаем единственный правильный ответ, полученная информация будет равна степени, в которую надо возвести двойку для того, чтобы получить число 50. Нетрудно выяснить, что эта информация будет равна с точностью до третьего знака 5,644 бита.
Полученная формула информации практически в точности соответствует формуле Больцмана для энтропии (§ 8). Напрашивается предположение, что между энтропией и информацией существует большое сходство.
Рассмотрим этот вопрос подробнее. От чего зависит максимальная информация, которую можно получить, установив абсолютно точный ответ на поставленный вопрос? Чем более неопределённым было наше знание, чем меньше была вероятность угадать правильный ответ, тем большую информацию содержит сообщение, из которого мы этот ответ узнаем. По сути, наибольшая информация, которую мы можем получить из сообщения, равна количеству нашего первоначального незнания правильного ответа. Это первоначальное незнание можно измерить энтропией по той же формуле, по которой измеряется информация. Обозначив энтропию буквой Н, получаем:
H = log2N.
Мы видим, что формула такой энтропии совпадает с формулой Больцмана и, так же как и она, выражает степень беспорядка. Только если в термодинамике речь шла о беспорядке в расположении и движении молекул, то в теории информации этот беспорядок характеризует степень нашего незнания, неосведомлённости в данном вопросе, хаотичность и беспорядочность в поиске выбора верного ответа. Энтропия по существу представляет собой отрицательную информацию, и её точно так же можно измерять в битах.
Когда мы получаем сообщение, содержащее неизвестную прежде информацию, энтропия нашего незнания уменьшается. Величина этого уменьшения как раз и определяет количество полученной информации. Если до получения сообщения энтропия как мера нашего незнания была H0, а после его получения стала H1, то содержащаяся в сообщении информация будет равна H0 – H1.
Большая часть экзаменационных тестовых заданий построена так, что требуется выбрать один правильный ответ из четырёх предложенных. Если вам ничего не известно по заданному вопросу и у вас нет никаких предположений о верности любого из вариантов, то энтропия задания для вас равна двоичному логарифму четырёх, т. е. 2. Когда вы узнаете точный ответ, энтропия станет равной нулю, и вы получите два бита информации. Теперь представим себе более сложный вид теста. Предлагается пять вариантов ответов и сообщается, что три из них верны. Количество способов, которыми можно выбрать три варианта из пяти, равно десяти[4]. Энтропия этого задания, следовательно, составляет для вас log2 10, что приблизительно равно 3,3. Как видно, эта энтропия выше, чем в предыдущем случае, и решение этого теста содержит больше информации. Узнав точный ответ, вы получите 3,3 бита. Допустим, что какая-то «добрая душа» подсказала вам, что варианты ответов А и В верны. Если предположить, что вы доверяете этой подсказке, сколько бит информации вы получили? Для этого надо выяснить, какой стала для вас энтропия теста после получения подсказки. Вам теперь известно, что единственный оставшийся правильный ответ надо выбрать из вариантов Б, Г и Д, а следовательно, энтропия равна log2 3, что равняется примерно 1,6. Подсчитаем убыль энтропии, которая будет равна количеству содержащейся в подсказке информации. До получения подсказки энтропия задания была Н0 = 3,3 бита. После её получения она составила H1 = 1,6 бита. Отсюда получаем, что подсказка содержит 3,3 – 1,6 = 1,7 бита информации. Но пока вы продолжаете думать над тестом, другая «добрая душа» подсказывает, что ответ Д неверен. Сколько информации содержится в этом сообщении? Вы теперь не знаете ответа только на варианты Б и Г, один из которых верен, а другой – нет, и вероятность правильности любого ответа равна 1/2. Значит, оставшаяся энтропия теста составляет для вас 1 бит, в то время как до получения второй подсказки она равнялась 1,6 бита. А это означает, что последняя подсказка содержала 0,6 бит информации.
1. Какая связь существует между полученной информацией и числом необходимых вопросов, которые требуется задать для получения точного ответа?
2. Что измеряется энтропией в теории информации?
3. Как связано изменение энтропии с полученной информацией?
1. На экзамене задан вопрос: «Какая из планет Солнечной системы находится ближе всех к Солнцу?» Названия планет экзаменуемому известны, но об их положении он ничего не знает. Какова энтропия экзаменуемого по этому вопросу? Какое количество информации он получит, узнав, что это Меркурий?
2. Экзаменуемому подсказывают, что ближайшая к Солнцу планета – это не Земля и не Марс. Сколько информации содержит эта подсказка?
§ 11 Свойства информации и двоичная система счисления
Все люди делятся на десять категорий: на тех, кто понимает двоичную систему счисления, и на тех, кто её не понимает.
Мы рассмотрели случаи, когда вероятности всех возможных исходов представляются одинаковыми. Но так бывает далеко не всегда. Очень часто один вариант представляется нам более вероятным, а другой – менее вероятным. Какова будет энтропия в этом случае? К. Шеннон вывел формулу, которая позволяет вычислить энтропию при этом условии. Предположим, что имеется всего два варианта. Вам сегодня надо сдавать экзамен, на котором могут задать 10 вопросов, из которых 9 вы знаете блестяще, а по одному совсем не подготовились. Вероятность удачной сдачи экзамена равна, таким образом, 9/10, а провала соответственно 1/10. В назначенное время вы приходите на экзамен и получаете вопрос. Этот вопрос может либо обрадовать вас, либо расстроить. Какой будет информация в том и другом случае? Мы знаем, что информация тем больше, чем сильнее вы удивитесь, узнав результат. Естественно, удивление, а значит и полученная информация, будет больше, если вам достанется «неудачный» вопрос. Поскольку информация равна двоичному логарифму вероятности того, что полученный вопрос будет «удачным» или «неудачным», взятому с обратным знаком, то в первом случае Jудачи = -1og29/10 = 0,15, а во втором JНеудачи = -1og21∕l0 = 0,33 Как видно, информация, полученная в случае маловероятной «неудачи», более чем в два раза выше той, которую мы получим в случае гораздо более вероятной «удачи». Теперь с учётом всего, что нам известно, подумаем, какова была для нас энтропия, касающаяся исхода экзамена. Мы знали, что, скорее всего (с вероятностью 0,9), получим небольшую информацию, но в одном случае из десяти можем получить (в нашем случае, к сожалению) информацию, значительно большую. Это означает, что, чем большей окажется информация, тем меньше её вероятность, т. е. тем реже мы будем её получать. На этом и основана формула Шеннона для энтропии. Она выражает среднюю информацию, которую мы будем получать, если повторять испытание многократно. Для двух вариантов результата она выглядит так:
H = – (Рудачи•lоg2Pудачи+ Pнеудачи•lоg2 Р неудачи).
Вычислим энтропию для нашего примера со сдачей экзамена. Вероятность успешной сдачи составляет 0,9, а её двоичный логарифм равен -0,15.
Вероятность провала равна 0,1, а её логарифм по основанию 2 соответствует -0,33. Значит, энтропия равна:
Н = – [0,9 (-0,15) + 0,1 • (-0,33)] ≈ 0,17.
Эта величина выражается в битах и означает степень нашей неосведомлённости по поводу результата экзамена.
Предположим теперь, что мы имеем дело с неизвестным учащимся, про степень подготовки которого мы абсолютно ничего не знаем. Как мы оценим вероятность его успеха или провала? Логично предположить, что надо считать и ту и другую равными 0,5, как говорится, «пятьдесят на пятьдесят». Просто у нас нет никаких оснований считать иначе. Какова будет энтропия в этом случае? Как нам известно, в случае равновероятных исходов энтропия равна двоичному логарифму их количества. Таких исходов у нас два – либо сдаст, либо не сдаст. Значит, в этом случае степень нашего незнания результата экзамена равна 1 биту, что значительно больше, чем в предыдущем случае. Почему так получилось? Потому что про второго экзаменуемого нам не было ничего известно, в то время как в отношении себя мы знали, насколько различаются вероятности успешной или неуспешной сдачи экзамена. Это знание вероятностей и снизило энтропию. На сколько? Очевидно, на величину разницы энтропий для двух различных случаев, т. е. на 1 – 0,17 = 0,83 бита. Формула Шеннона показывает, что чем больше степень нашего незнания, тем большей получается величина энтропии.
В реальной жизни при выборе решения мы почти всегда исходим из того, что обладаем некоторой предварительной информацией по этому вопросу. Эта информация снижает исходную энтропию выбора. Например, нам пришлось задать всего одиннадцать вопросов для того, чтобы узнать, что загадан именно Ньютон. Предварительная информация перед угадыванием заключалась в том, что задуманным должен быть человек, скорее всего известный как загадывающему, так и отгадывающему. Вряд ли игрок имел в виду младшего сына любимого р