Особым образом при этом выделяют организованную информацию – знания. Они в отличие от данных представляют собой информацию не о каком-то единичном и конкретном факте, а о том, как устроены все факты определенного типа.
Знание – совокупность специализированных (ориентированных на решение многих задач из определенной предметной области) фактов, правил обработки фактов, условий применения этих правил к конкретным фактам, методов получения новых фактов и способов организации процесса логического вывода.
Свойства знаний:
1) внутренняя интерпретируемость (сопоставление исходных данных, понятий и отношений с некоторыми математическими или логическими объектами и отношениями между ними);
2) понимание смыслового содержания информационных единиц в ЭВМ;
3) активность (переосмысливание известных фактов при появлении новых сведений);
4) связность (возможность установления функциональных, структурных, семантических и других отношений между фактами и правилами);
5) конвертируемость (изменение формы представления знаний в процессе принятия решений).
Не программы управляют данными, а появление новых сведений приводит к вызову программ обработки информации, уже имеющейся в системе.
Знания – это "живая", диалектическая система; они передаются другим людям, материализуются и существуют в трех формах:
- "живые" (квалификация);
- овеществленные;
- информация (сообщения).
Наряду с понятием "информация" в информатике часто употребляется понятие "данные", которые можно рассматривать:
1) как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся;
2) информация, представленная в виде, пригодном для обработки автоматическими средствами при возможном участии человека [4];
3) факты, понятия или команды, представленные в формализованном виде, позволяющем осуществлять их передачу, интерпре-тацию или обработку как вручную, так и с помощью систем автоматизации [12].
Если появляется возможность использовать эти данные для уменьшения неопределенности о чем-либо, они превращаются в информацию, поэтому можно утверждать, что информацией являются используемые данные. Например: Напишите на листе десять номеров телефонов в виде последовательности десяти чисел и покажите их вашему другу. Он воспримет эти цифры как данные, так как они не предоставляют ему никаких сведений. Затем против каждого номера укажите название фирмы и род деятельности. Для вашего друга непонятные цифры обретут определенность и превратятся из данных в информацию, которую он в дальнейшем мог бы использовать.
Когда говорят об автоматизированной работе с информацией посредством каких-либо технических устройств, обычно в первую очередь интересуются не содержанием сообщения, а количеством символов, которое содержит это сообщение.
1.4.2 Меры информации
Важным вопросом теории информации является установление меры количества и качества информации (рис. 1.1).
Синтаксическая мера оперирует объемом данных и количеством информации Ia, выраженной через энтропию (понятие неопределенности состояния системы).
Семантическая мера оперирует количеством информации, выраженной через ее объем и степень содержательности.
Прагматическая мера определяется ее полезностью, выраженной через соответствующие экономические эффекты.
Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.
На сегодняшний день наиболее известны следующие способы количественного измерения информации: объемный, энтропийный, алгоритмический.
Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.
Объем информации – это количество символов в сообщении. Поскольку одно и то же число может быть записано многими разными способами, т. е. с использованием разных алфавитов, например двадцать один – 21– XXI– 11001, то этот способ чувствителен к форме представления (записи) сообщения. В вычислительной технике вся обрабатываемая и хранимая информация вне зависимости от ее природы (число, текст, отображение) представлена в двоичной форме (с использованием алфавита, состоящего всего из двух символов "0" и "1").
В двоичной системе счисления единица измерения – бит (bit – binary digit – двоичный разряд).
В теории информации бит – количество информации, необходимое для различения двух равновероятных сообщений; а в вычислительной технике битом называют наименьшую "порцию" памяти, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд. Это слишком мелкая единица измерения, на практике чаще применяется более крупная единица – байт, – равная 8 бит, необходимых для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 28).
Широко используются также еще более крупные производные единицы информации:
1 килобайт (кбайт) = 1024 байт = 210 байт;
1 Мегабайт (Мбайт) = 1024 кбайт = 220 байт;
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление следующие производные единицы:
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт;
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
В десятичной системе счисления единица измерения – дит (десятичный разряд).
Пример.
Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 1011 1011 имеет объем данных VД = 8 бит.
Сообщение в десятичной системе в виде шестиразрядного числа 275 903 имеет объем данных VД= 6 бит.
В теории информации и кодирования принят энтропийный подход к измерению информации. Получение информации о какой-либо системе всегда связано с изменением степени неосведомлен-ности получателя о состоянии этой системы. Этот способ измерения исходит из следующей модели.
Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. После получения сообщения b получатель приобрел некоторую дополнительную информацию I(b), уменьшившую его неосведомленность. Эта информация в общем случае недостоверна и выражается вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от совокупности этих вероятностей. Количество информации в сообщении определяется тем, насколько уменьшится эта мера после получения сообщения.
Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации i, содержащееся в выбранном сообщении, определяет как двоичный логарифм N (формула Хартли):
.Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется:
, т. е. сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицам информации.Другие примеры равновероятных сообщений:
1) при бросании монеты "выпала решка", "выпал орел";
2) на странице книги "количество букв четное", "количество букв нечетное".
Нельзя ответить однозначно на вопрос, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский ученый Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе (формула Шеннона):
,где
– вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.Легко заметить, что если вероятности
… равны, то каждая из них равна и формула Шеннона превращается в формулу Хартли.