Капеллан дьявола — страница 24 из 63

избыточна. Можно сэкономить деньги, записав сообщение и избавившись от этой избыточности. «Избыточность» — это еще один специальный термин, который Шеннон определил как нечто обратное информации. Оба его определения математического свойства, но интуитивный смысл того, что Шеннон имел в виду, можно передать словами[119]. Избыточность — это та часть любого сообщения, которая неинформативна потому, что она уже известна получателю (и ничуть его не удивит), либо потому, что она повторяет другие части того же сообщения. В предложении «Ровер — собака породы пудель» слова «собака» и «породы» избыточны, потому что слово «пудель» уже говорит нам, что Ровер — собака соответствующей породы. Из телеграммы эти слова можно было бы убрать для экономии, тем самым увеличив информативность сообщения. Сообщение «Приб ДжФК пт веч пжлст встр БЭ кнкрд» несет ту же информацию, что и более длинное, но более избыточное «Я прибываю в аэропорт им. Джона Ф. Кеннеди в пятницу вечером; пожалуйста, встречайте „Конкорд“ компании „Бритиш эйрвеэйз“». Очевидно, что послать краткий вариант, записанный в телеграфном стиле, будет дешевле (хотя получателю, возможно, и придется изрядно потрудиться, чтобы его расшифровать — у избыточности есть свои достоинства, если забыть об экономичности). Шеннон хотел найти математический способ передать идею, что любое сообщение можно разбить на информацию, избыточность (которую можно — и экономически выгодно — исключать из сообщения, потому что получатель может при желании ее восстановить) и шумы (просто случайная белиберда).

Сообщение «В Оксфорде на этой неделе ежедневно шел дождь» несет сравнительно мало информации, потому что получателя оно не удивит. С другой стороны, количество информации в сообщении «В пустыне Сахара на этой неделе ежедневно шел дождь» намного больше и вполне стоит того, чтобы подороже заплатить за его пересылку. Шеннон хотел как-то передать этот смысл количества информации как «меры удивительности». Он связан с другим смыслом (как «того, что не продублировано в других частях сообщения»), потому что повторы теряют свою способность удивлять. Заметьте, что шенноновское определение количества информации не зависит от того, истинна ли она. Придуманная им мера информации была остроумна и интуитивно соответствовала задаче. Давайте, предложил он, оценим количество незнания или неопределенности знаний получателя до получения сообщения, а затем сравним его с количеством оставшегося незнания после получения сообщения. Сокращение количества незнания и будет количеством переданной информации. Шенноновская единица измерения информации — бит (bit), от binary digit (двоичная цифра). Один бит определяется как количество информации, необходимое, чтобы первоначальная неопределенность сократилась вдвое, как бы велика она ни была (читатели-математики заметят, что бит, таким образом, относится к логарифмическим единицам измерения).

На практике вначале нужно найти способ измерения априорной неопределенности — той, что сокращается, когда поступает информация. Для некоторых разновидностей простых сообщений это легко сделать с помощью вероятностей. Будущий отец с нетерпением наблюдает через окошко за рождением своего ребенка. Ему не видно почти ничего, поэтому одна из медсестер согласилась показать ему розовую карточку, если родится девочка, или голубую, если родится мальчик. Сколько информации передается, когда сестра показывает счастливому отцу, скажем, розовую карточку? Ответ — один бит (априорная неопределенность сократилась вдвое). Отец знает, что родился какой-то ребенок, поэтому неопределенность его знаний сводится к двум возможностям (мальчик или девочка), которые для целей этого обсуждения можно считать равновероятными. Розовая карточка вдвое сокращает априорную неопределенность от двух возможностей до одной (девочка). Если бы никакой розовой карточки не было, а из родильной комнаты вышел бы врач, пожал бы новоиспеченному отцу руку и сказал: «Поздравляю, старина, я очень рад, что мне выпала честь первым вам сообщить, — у вас родилась дочь», то количество информации, переданной этим сообщением в семнадцать слов, составило бы по-прежнему один бит.

Компьютерная информация содержится в последовательностях нолей и единиц. Есть только два возможных варианта, поэтому 0 или 1 в каждом положении содержит один бит информации. Объем памяти компьютера или емкость диска или ленты часто измеряется в битах и представляет собой суммарное число нолей или единиц, которые это устройство может содержать. Для некоторых целей более удобной единицей измерения служит байт (восемь бит), килобайт (тысяча байт), мегабайт (миллион байт) или гигабайт (тысяча миллионов байт)[120]. Заметьте, что эти числа относятся к суммарной имеющейся емкости. Это максимальное количество информации, которую можно записать на данное устройство. Реальное количество записанной информации — это нечто иное. К примеру, емкость моего жесткого диска — 4,2 гигабайт. Из них в настоящий момент около 1,4 гигабайт реально использованы для хранения данных. Но даже это не настоящее количество информации (в шенноновском смысле слова) на моем диске. Настоящее количество информации меньше, потому что ту же информацию можно записать экономнее. Некоторое представление о настоящем количестве информации можно получить, воспользовавшись одной из замечательных программ-архиваторов вроде Stuffit. Эта программа ищет избыточность в последовательности нолей и единиц и ощутимо сокращает эту последовательность путем перекодировки, очищая ее от внутренней предсказуемости. Максимального сжатия информации можно было бы добиться (на практике это, по-видимому, невозможно), если бы каждая единица или ноль удивляли бы нас в равной степени. Прежде чем передавать большие объемы информации через интернет, ее обычно архивируют, сокращая ее избыточность[121].

Все это хорошо с точки зрения экономики. Но с другой стороны, сохранять некоторую избыточность в сообщениях, ради исправления ошибок, тоже неплохая идея. Если в сообщении, совершенно лишенном избыточности, произошла ошибка, восстановить его исходный смысл уже никак невозможно. В машинные коды часто преднамеренно включают избыточные «биты контроля четности», помогающие находить ошибки. У ДНК тоже есть различные механизмы исправления ошибок, основанные на избыточности. Когда я перейду к разговору о геномах, я вернусь к разнице между упомянутыми тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации.

Открытие Шеннона состояло в том, что информацию любого рода, независимо от ее смысла, ее истинности или ложности, ее физического носителя, можно измерять в битах и переводить на любой другой носитель. Великий биолог Джон Б. С. Холдейн использовал теорию Шеннона, чтобы подсчитать число бит информации, передаваемое рабочей пчелой своим соседям по улью, когда она «танцует», сообщая о местоположении источника пищи (около трех бит, чтобы сообщить направление на этот источник, и еще три бита, чтобы сообщить расстояние до него). В тех же самых единицах, как я недавно подсчитал, мне понадобилось бы сто двадцать мегабит машинной памяти моего лэптопа, чтобы записать торжественные вступительные аккорды симфонической поэмы Рихарда Штрауса «Так говорил Заратустра» («тема из „Космической одиссеи 2001 года“»), которые я хотел проиграть в середине одной лекции об эволюции. Экономический метод Шеннона также позволяет сосчитать, сколько модемного времени потребуется, чтобы послать полный текст книги издателю в другую страну. Спустя пятьдесят лет после открытия Шеннона его идея информации как предмета потребления, такого же измеримого и взаимопревращаемого, как деньги или энергия, окончательно вступила в свои права.

ДНК переносит информацию очень по-компьютерному, и емкость генома тоже можно, если захочется, измерять в битах. В ДНК используется не двоичный код, а четверичный. В то время как в компьютере единица информации — это 1 или 0, в ДНК это T, A, C или G. Сколько информации будет передано от меня к вам, если я сообщу вам, что в определенном месте последовательности ДНК стоит T? Начнем с измерения априорной неопределенности. Сколько открыто возможностей до поступления сообщения «T»? Четыре. Сколько возможностей остается после его поступления? Одна. Стало быть, можно подумать, что было передано четыре бита информации, но на самом деле их только два. И вот почему (исходя из того, что все четыре буквы встречаются с равной вероятностью, как четыре масти в колоде карт). Вспомним, что шенноновская мера касается наиболее экономного способа передачи сообщения. Представьте ее себе как число вопросов, предполагающих ответ «да» или «нет», которые понадобилось бы задать, чтобы свести исходную неопределенность из четырех возможностей к определенности, если предположить, что вопросы будут сформулированы самым экономным способом. «Идет ли эта таинственная буква по алфавиту перед D[122] Нет. Это сводит неопределенность к вариантам T и G, и теперь нам понадобится только один дополнительный вопрос, чтобы узнать разгадку. Итак, в соответствии с этим методом измерения, информационная емкость каждой «буквы» ДНК составляет два бита.

Во всех случаях, когда априорную неопределенность знаний получателя можно выразить как число равновероятных альтернатив N, количество информации в сообщении, сводящем эти альтернативы к одной, составляет log2N (степень, в которую нужно возвести двойку, чтобы получить число альтернатив N). Если выбрать карту — любую карту — из обычной колоды, то сообщение, какая это карта, будет нести log252, или 5,7 бит информации. Иными словами, если бы мы сыграли в большое число игр на угадывание, нам потребовалось бы в среднем 5,7 вопроса, требующих ответа «да» или «нет», чтобы угадать эту карту, при условии, что мы будем задавать вопросы самым экономным способом. Первые два вопроса позволили бы нам узнать масть (например, «Она красная?» и «Это бубны?»), а оставшиеся три или четыре — успешно разделить и проверить всю эту масть («Старше шестерки?» и тому подобное), в итоге неминуемо придя к искомой карте. Когда априорная неопределенность представляет собой своего рода смесь альтернатив, которые не равновероятны, формула Шеннона преобразуется в немного усложненную формулу для расчета взвешенного среднего, которая, впрочем, по сути аналогична. Кстати, шенноновская формула взвешенного среднего — это именно та формула, которую физики с XIX века используют для расчета энтропии. Отсюда следуют интересные вещи, но здесь я не буду их рассматривать