Это выражение и представляет собой формулу Хартли для количества информации.
При увеличении длины числа в два раза количество информации в нем также должно возрасти в два раза, несмотря на то, что количество чисел во множестве возрастает при этом по показательному закону (в квадрате, если числа двоичные), т.е. если
N2=(N1)2,
то
I2 = 2 * I1,
F(N1*N1)= F(N1) + F(N1).
Это невозможно, если количество информации выражается линейной функцией от количества
элементов во множестве. Но известна функция, обладающая именно таким свойством: это Log:
Log2(N2) = Log2(N1)2= 2 * Log2(N1).
Это второе требование называется требованием аддитивности.
Таким образом, логарифмическая мера информации, предложенная Хартли, одновременно удовлетворяет условиям монотонности и аддитивности. Сам Хартли пришел к такому представлению меры информации на основе эвристических соображений, подобных только что изложенным. Но в настоящее время строго доказано, что логарифмическая мера для количества информации однозначно следует из этих двух постулированных им условий. Минимальное количество информации получается при выборе одного из двух равновероятных вариантов. Это количество информации принято за единицу измерения и называется бит (от англ. Binary digit — двоичная цифра, то есть два возможных значения).
Клод Шеннон основывается на теоретико–вероятностном подходе. Это связано с тем, что исторически шенноновская теория информации выросла из потребностей теории связи, имеющей дело со статистическими характеристиками передаваемых сообщений и каналов связи.
Пусть существует некоторое конечное множество событий (состояний системы): X={x1, x2, …, xN},
которые могут наступать с вероятностями: p(xi), соответственно, причем множество вероятностей удовлетворяет естественному условию нормировки:
Исходное множество событий характеризуется некоторой неопределенностью, т.е. энтропией Хартли, зависящей, как мы видели выше, только от мощности множества. Но Шеннон обобщает это понятие, учитывая, что различные события в общем случае не равновероятны. Например, неопределенность системы событий: {монета упала "орлом", монета упала "решкой"}, значительно выше, чем неопределенность событий: {монета упала "орлом", монета упала "ребром"}, так как в первом случае варианты равновероятны, а во втором случае вероятности вариантов сильно отличаются.
Если измерять количество информации изменением степени неопределенности, то шенноновское количество информации численно совпадает с энтропией исходного множества
Следуя [391], приведем вывод выражения Шеннона (4.2) непосредственно из выражения Хартли для количества информации: I=Log2(N).
Пусть события исходного множества мощности N равновероятны:
тогда учитывая, что непосредственно из формулы Хартли получаем
Остается предположить, что это выражение верно и для случая, когда события неравновероятны [391]. В этом предположении и состоит обобщение Клода Шеннона, составившее целую эпоху в развитии современной теории информации.
Чрезвычайно важным и принципиальным является то обстоятельство, что для построения меры Хартли используется лишь понятие многообразие, которое накладывает на элементы исходного множества ишь одно условие (ограничение): должна существовать возможность отличать эти элементы один от другого.
В теории Шеннона существенным образом используется статистика, причем предполагается, что случайные события (состояния системы) распределены по нормальному закону.
Таким образом, различие между подходами Хартли и Шеннона к построению теории информации соответствует различию между непараметрическими и параметрическими методами в статистике. Если говорить более конкретно, то, очевидно, что мера Шеннона асимптотически переходит в меру Хартли при условии, что вероятности всех событий (состояний) равны. В статистике доказано фундаментальное свойство энтропии случайного процесса, состоящее в том, что при условии нормальности распределения и достаточно больших выборках все множество событий можно разделить на две основные группы:
· высоковероятные события (считающиеся заслуживающими изучения);
· маловероятные события (считаются __________не заслуживающими особого внимания).
Причем высоковероятные события с высокой точностью равновероятны. При увеличении размерности выборки доля "заслуживающих внимания" событий неограниченно уменьшается, и мера Шеннона асимптотически переходит в меру Хартли. Поэтому можно считать, что при больших нормально распределенных выборках мера Хартли является оправданным упрощением меры Шеннона.
Очевидно, что для кодирования информации достаточно использовать любые два различных значения, например, цифры 0 и 1 (да и нет, истина и ложь и т. п.). В этом случае применительно к кодировке чисел мы имеем дело с так называемой двоичной системой счисления. В общем случае, необходимо говорить о кодировке любых символов (не чисел!), не смешивая эти две разные задачи.
Для измерения количества информации используют 1 бит – один символ двухбуквенного алфавита, состоящего из нулей и единиц {0, 1}.
Кроме этого используются также следующие единицы:
1 байт=8 бит,
1024 байт=1 Кбайт,
1024 Кбайт=1 Мбайт,
1024 Мбайт=1 Гбайт.
Целые числа в системе счисления с любым основанием (2, 10, 16 и т.д.) всегда представляются точно.
Так, любое целое число представляется в виде суммы степеней числа, лежащего в основании системы счисления с соответствующими коэффициентами — от 0 до 9 в десятичной, 0 и 1 в двоичной, от 0 до F (15) в шестнадцатеричной системах. Для определенности остановимся на двоичном представлении. При этом, как показано выше, чем большее количество двоичных разрядов отводится под хранение целого числа, тем больше возможный диапазон изменения его значений. Минимальное количество использующихся двоичных разрядов (применительно к компьютерным технологиям) равно 8, что составляет 1 байт.
Легко убедиться, что 8 двоичных разрядов позволяют закодировать числа от 0 до 255. Если же отвести один из разрядов под хранение знака числа, то те же 8 разрядов обеспечат возможность кодировки целых чисел от -128 до 127.
Для кодировки вещественных чисел, когда необходимо учесть и десятичную часть числа, используется особая форма представления — с плавающей точкой:
X = M * 2P
Здесь M — так называемая мантисса, Р — порядок.
При хранении чисел с плавающей точкой выделяется определенное количество разрядов под хранение мантиссы и под хранение порядка. Точность представления вещественного числа зависит от разрядности мантиссы, а возможный диапазон изменения — от количества разрядов, выделенных для хранения порядка.
Кодировка символов применительно к компьютерным приложениям базируется обычно на системе кодировки ASCII (American Standard Code for Information Interchange- Американский стандартный код для обмена информацией) — 256 различных, упорядоченных по коду (номеру) символов. Значения кода — целые числа от 0 до 255.
Для кодирования одного символа используется 8 битов, или 1 байт. В этом легко убедиться, если записать значения кодов в двоичной системе. Существует много систем кодировки, основанных на выделении 1 байта для кодирования одного символа (ANSI, KOI-8 и т.д.). В последнее время получила распространение система Unicode, использующая для кодировки одного символа 2 байта. Это резко расширило возможности, позволив кодировать более чем 65000 различных символов уникальными кодами.
Под изображением будем понимать прямоугольную область, закрашенную непрерывно
изменяющимся цветом. Поэтому для представления изображений в целых числах необходимо отдельно дискретизировать прямоугольную область и цвет.
Для описания области она разбивается на множество точечных элементов – пикселов [pixel]. Само множество называется растром [bit map, dot matrix, raster] (см. рис. 1.3), а изображения, которые формируются на основе растра, называются растровыми.
Рис. 1.4 Дискретизация области изображения.
Число пикселов называется разрешением [resolution]. Часто встречаются значения 640х480, 800х600,
1024х768, 1280х1024. Каждый пиксел нумеруется, начиная с нуля слева направо и сверху вниз.
Для представления цвета используются цветовые модели.
Цветовая модель [color model] это правило, по которому может быть вычислен цвет. Самая простая цветовая модель – битовая. В ней для описания цвета каждого пиксела (чёрного или белого) используется всего один бит. Для представления полноцветных изображений используются несколько более сложных моделей.
Известно, что любой цвет может быть представлен как сумма трёх основных цветов: красного, зелёного и синего. Если интенсивность каждого цвета представить числом, то любой цвет будет выражаться через набор из трёх чисел. Так определяется наиболее известная цветовая RGB-модель. На каждое число отводится один байт. Так можно представить 224 цвета, то есть примерно 16,7 млн. цветов. Белый цвет в этой модели представляется как (1,1,1), чёрный – (0,0,0), красный (1,0,0), синий (0,0,1). Жёлтый цвет является комбинацией красного и зелёного и потому представляется как (1,1,0).
Цветовая модель RGB [Red-Green-Blue] была стандартизирована в 1931 г. и впервые использована в цветном телевидении. Модель RGB является аддитивной моделью, то есть цвет получается в результате сложения базовых цветов. Существуют и другие цветовые модели, которые для ряда задач оказываются более предпочтительными, чем RGB-модель.