Формула Шеннона: вероятностная оценка количества информации

Информация играет важную роль в нашей жизни. Но как измерить количество информации в сообщении? Для этого используется формула Шеннона - универсальный инструмент оценки информации с учетом вероятности событий. Давайте разберемся, как она работает и где применяется на практике.

Предпосылки создания формулы Шеннона

Первые попытки оценить количество информации в сообщении были предприняты в 1928 году Клодом Шенноном, который разработал простую формулу Хартли.

Однако формула Хартли имела существенный недостаток - она предполагала, что все возможные события равновероятны. А на практике это далеко не всегда так.

Например, при подбрасывании несимметричной монеты выпадение "орла" и "решки" будут иметь разные вероятности. Или при анализе текста на естественном языке встречаемость разных букв и слов тоже сильно отличается.

Таким образом, возникла потребность в более точной формуле, которая бы учитывала вероятности отдельных событий. И такую формулу в 1948 году предложил Клод Шеннон.

Трехмерная гистограмма

Описание и вывод формулы Шеннона

Формула Шеннона для вычисления количества информации имеет следующий вид:

I = -Σpilog2pi

где I - количество информации в сообщении, pi - вероятность i-го события, а суммирование ведется по всем возможным событиям.

Эту формулу можно получить, исходя из формулы Хартли для равновероятных событий. Вспомним, что формула Хартли имеет вид:

I = log2N

где N - число возможных равновероятных событий. Тогда вероятность каждого события равна p = 1/N.

Подставив это выражение для вероятности в формулу Хартли, после преобразований получим как раз формулу Шеннона для случая неравных вероятностей.

Таким образом, формула Шеннона является обобщением формулы Хартли на случай событий с различными вероятностями. При этом чем меньше вероятность события - тем больше информации несет сообщение о его наступлении.

Применение формулы на практике

Рассмотрим конкретный пример использования формулы Шеннона для оценки количества информации.

Пусть имеется несимметричная игральная кость с вероятностями выпадения граней:

  • 1 - 0.2
  • 2 - 0.1
  • 3 - 0.1
  • 4 - 0.2
  • 5 - 0.3
  • 6 - 0.1

Вычислим по формуле Шеннона количество информации для каждого варианта выпадения грани кости:

  1. I1 = - log2 0.2 = 2.32 бита
  2. I2 = I3 = - log2 0.1 = 3.32 бита
  3. I4 = - log2 0.2 = 2.32 бита
  4. I5 = - log2 0.3 = 1.74 бита
  5. I6 = - log2 0.1 = 3.32 бита

Видно, что наименьшее количество информации (1.74 бита) несет сообщение о самом вероятном событии - выпадении пятерки. А наибольшее количество информации (3.32 бита) - о наименее вероятных событиях выпадения двоек и троек.

Линейчатая диаграмма

Решение задач на формулу Шеннона

Рассмотрим пример решения задачи на применение формулы Шеннона.

Имеется урна с 20 шарами, из которых 5 - красные, 10 - синие и 5 - зеленые. Требуется найти количество информации при вынимании шара каждого цвета.

Решение:

  1. Найдем вероятности для каждого события:
      p(красный) = 5/20 = 0.25 p(синий) = 10/20 = 0.5 p(зеленый) = 5/20 = 0.25
  2. Подставим вероятности в формулу Шеннона:
        I(красный) = -log
    2
        0.25 = 2 бита I(синий) = -log
    2
        0.5 = 1 бит I(зеленый) = -log
    2
      0.25 = 2 бита

Ответ: наибольшее количество информации несет сообщение о вынимании красного или зеленого шара (по 2 бита), наименьшее - о вынимании синего шара (1 бит).

Автоматизация решения задач в Excel

Ручные вычисления по формуле Шеннона довольно громоздки. Удобнее автоматизировать расчеты с помощью электронных таблиц.

Рассмотрим создание универсальной таблицы в Excel для решения задач на вычисление информации по формуле Шеннона.

Структура таблицы

Таблица должна содержать:

  • Столбец с перечнем событий
  • Столбец с их вероятностями
  • Столбец для вычисления количества информации по формуле

Заполнение формулами

В ячейку с формулой количества информации заносится:

=ЕСЛИ(B2=0;"";-ЛОГ(1/B2;2))

Где В2 - ячейка с вероятностью текущего события.

Пример расчетов

Далее приведен пример заполнения таблицы для задачи с урной и шарами разного цвета:

Событие Вероятность Количество информации
Красный 0.25 =ЕСЛИ(B2=0;"";-ЛОГ(1/B2;2))
Синий 0.5 =ЕСЛИ(B3=0;"";-ЛОГ(1/B3;2))
Зеленый 0.25 =ЕСЛИ(B4=0;"";-ЛОГ(1/B4;2))

Расширение функционала таблицы

Созданная таблица позволяет автоматизировать вычисления для отдельной задачи. Но можно расширить ее возможности для решения сразу нескольких задач.

Для этого добавим возможность задавать количество событий и вероятности программно.

Динамическое изменение количества строк

В отдельной ячейке задается число N - количество учитываемых событий.

На основе N строятся нужное количество строк таблицы, например, с помощью цикла и конкатенации.

Круговая диаграмма

Генерация случайных вероятностей

Для автоматического заполнения вероятностей можно использовать генератор случайных чисел.

Сумма сгенерированных вероятностей при этом нормируется к 1.

Удобный пользовательский интерфейс

Для управления параметрами таблицы удобно создать отдельную панель с элементами управления:

  • Поле для задания числа событий N
  • Кнопка генерации вероятностей
  • Кнопка пересчета количества информации

Сохранение результатов в отдельный лист

Для каждой задачи можно копировать полученные результаты в новый лист таблицы.

Это позволит сохранять и сравнивать результаты для серии задач.

Визуализация результатов

Полученные численные значения количества информации мало что дают в чистом виде.

Гораздо нагляднее представить результаты с помощью диаграмм.

Линейчатые и круговые диаграммы

Удобно построить линейчатую диаграмму, отражающую количество информации для каждого события.

А круговая диаграмма наглядно покажет соотношение их вероятностей.

Трехмерные гистограммы

Еще более наглядное представление дают объемные гистограммы со столбцами, пропорциональными информационному весу событий.

Анимация процесса

Можно реализовать анимацию последовательного "выпадения" случайных событий с заданными вероятностями.

При этом будут динамически обновляться соответствующие диаграммы.

Анализ и интерпретация результатов

Полученные количественные и графические результаты должны сопровождаться их анализом и качественными выводами.

Это позволит проверить правильность расчетов и глубже понять закономерности информационных процессов.

Линейчатые и круговые диаграммы

Удобно построить линейчатую диаграмму, отражающую количество информации для каждого события.

А круговая диаграмма наглядно покажет соотношение их вероятностей.

Трехмерные гистограммы

Еще более наглядное представление дают объемные гистограммы со столбцами, пропорциональными информационному весу событий.

Статья закончилась. Вопросы остались?
Комментарии 0
Подписаться
Я хочу получать
Правила публикации
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.