I=log2N.
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется:
I=log2100≈6,644.
Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Другие примеры равновероятных сообщений: при бросании монеты - «выпала решка», «выпал орел»; на странице книги - «количество букв четное», «количество букв нечетное».
Существуют и другие подходы к определению количества информации. Важно помнить, что любые теоретические результаты применимы лишь к определенному кругу случаев, очерченному первоначальными допущениями.
Можно рассмотреть обратную задачу: «Какое количество различных двоичных чисел N можно записать с помощью I двоичных разрядов?»
В общем случае количество различных двоичных чисел (кодов) можно определить по формуле:
N=2I
Данная формула является очень значимой, она связывает между собой количество возможных исходов N и количество информации I (является обратной формуле Хартли).
В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).
Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений («орел—решка», «чет—нечет» и т. п.).
В вычислительной технике битом называют наименьшую «порцию» памяти компьютера, необходимую для хранения одного из двух знаков 0 и 1, используемых для машинного представления данных и команд.
За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.
Поскольку бит — слишком мелкая единица измерения, на практике чаще применяется более крупная единица — байт, равная восьми битам. В частности, восемь бит требуется для того, чтобы закодировать любой из 256 символов основного компьютерного кода ASCII (256 = 28).
Используются также более крупные производные единицы информации:
Килобайт (Кбайт) = 1024 байт = 210 байт;
Мегабайт (Мбайт) = 1024 Кбайт = 220 байт;
Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление такие производные единицы, как:
Терабайт (Тбайт) = 1024 Гбайт = 240 байт;
Петабайт (Пбайт) = 1024 Тбайт = 250 байт;
Экзобайт = 1018 Мбайт и пр.
Для описания скорости передачи данных можно использовать термин бод. Число бод равно количеству значащих изменений сигнала (потенциала, фазы, частоты), происходящих в секунду. Первоначально бод использовался в телеграфии. Для двоичных сигналов нередко принимают, что бод равен биту в секунду, например, 1200 бод = 1200 бит/с. Однако единого мнения о правильности использования этого термина нет, особенно при высоких скоростях, где число битов в секунду не совпадает с числом бод.
2. Способы представления информации для ввода в ЭВМ.
Современные технические средства информатизации выполняют функции обработки и хранения числовой, текстовой, графической, звуковой и видеоинформации с помощью компьютера. Для работы с информацией, столь разной по физической сущности, необходимо привести ее к единой форме. Все эти виды информации кодируются в последовательности электрических импульсов: есть импульс — 1, нет импульса — 0, т.е. в последовательности нулей и единиц. Такое кодирование информации в компьютере называется двоичным кодированием, а логические последовательности нулей и единиц — машинным языком.
Двоичное кодирование числовой информации заключается в том, что числа в компьютере представлены в виде последовательностей 0 и 1, или бит. В начале 1980-х гг. процессоры компьютеров были 8-разрядными, за один такт работы процессора компьютер мог обработать 8 бит, т.е. максимальное обрабатываемое целое десятичное число не могло превышать 11111111 в двоичной системе. При дальнейшем повышении разрядности процессоров до 64-разрядных возросла и величина максимального числа, обрабатываемого за один такт.
При двоичном кодирование текстовой информации используют для кодирования каждого символа 1 байт (8 двоичных разрядов), что позволяет закодировать N=28=256 различных символов, которых обычно бывает достаточно для представления текстовой информации: прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы. Присвоение символу конкретного двоичного кода произведено в соответствии с принятым соглашением, зафиксированным в кодовой таблице.
В различных кодировках одному и тому же двоичному коду соответствуют различные символы. Каждая кодировка задается своей собственной кодовой таблицей.
В задачу пользователя не входит решение проблемы перекодировки текстовых документов. При работе в приложениях Windows предусмотрена возможность автоматической перекодировки документов, созданных в приложениях MS-DOS. При работе в Internet с использованием браузеров Internet Explorer и Netscape Communication происходит автоматическая перекодировка Web-страниц.
При двоичном кодировании текстовой информации каждому символу соответствуют своя уникальная последовательность из восьми нулей и единиц, свой уникальный двоичный код от 00000000 до 11111111 (десятичный код от 0 до 255).
Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т.д.). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.
В настоящее время существуют пять различных кодовых таблиц для русских букв, поэтому тексты, созданные в одной кодировке, не будут аналогично отображаться в другой.
Одним из первых стандартов кодирования русских букв на компьютерах был код КОИ-8 (код обмена информацией 8-битный), который применяется на компьютерах с операционной системой UNIX.
Наиболее распространенной является стандартная кириллическая кодировка Microsoft Windows, обозначаемая СР1251 (СР — Code Page — кодовая страница), которую поддерживают все Windows-приложения, работающие с русским языком.
В среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft — кодировка СР866.
Для компьютеров Macintosh фирма Apple разработала свою собственную кодировку русских букв (Мас).
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка кодировку, называемую ISO 8859-5.
Новый международный стандарт Unicode отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, a N=216 = 65 536 различных символов. Эту кодировку поддерживает платформа Microsoft Windows @ Office 97.
Как определить числовой код символа.
Проще всего, конечно, воспользоваться кодовой таблицей, но если ее нет под рукой, а есть компьютер на платформе Windows, загрузите текстовый редактор Word. Выберете команду меню [Вставка-Символ…]. На экране появится диалоговое окно <Символ>
Центральную часть диалогового окна занимает таблица символов для определенного шрифта (например, Times New Roman Cyr). Символы располагаются последовательно слева направо и построчно, начиная с символа Пробел в левом верхнем углу и кончая буквой я в правом нижнем углу таблицы.
Для определения числового кода символа в кодировке Windows (СР1251) достаточно с помощью мыши или клавиш управления курсором выбрать нужный символ (например, заглавную букву А русского алфавита) и затем активизировать кнопку Клавиша.
Появится диалоговое окно <Настройка>, в котором в нижнем левом углу содержится десятичный числовой код данного символа, в данном случае 192.
Как определить символ по числовому коду.
Запустите любое приложение на платформе Windows&Office, например, Блокнот. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} введите число 0224, отпустите клавишу {Alt}, в документе появится символ а. Повторите процедуру для числовых кодов от 0225 до 0233, в документе появится последовательность из 10 символов (абвгдежзий) в кодировке Windows (CP1251).
С помощью дополнительной цифровой клавиатуры при нажатой клавише {Alt} введите число 224, отпустите клавишу {Alt}, в документе появится символ р. Повторите процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 10 символов (рстуфхцчшщ) в кодировке MS-DOS (CP866).
Двоичное кодирование графической информации представляет собой достаточно сложный процесс, поскольку такая информация весьма разнообразна: от простых чертежей до видеофильмов. Однако любая графическая информация на экране монитора представляется в виде изображения, которое формируется из точек (пикселов). В случае обычного черно-белого изображения (без градаций серого цвета) каждая точка экрана может иметь лишь два состояния — «черная» или «белая», т.е. для хранения ее состояния необходим 1 бит.
Цветные изображения могут иметь различную глубину цвета, определяемую числом бит на точку: 4, 8, 16, 24. Каждый цвет можно рассматривать как возможное состояние точки, и тогда по формуле N=2I может быть вычислено количество цветов, отображаемых на экране монитора.
Размер изображения определяется числом точек по горизонтали и по вертикали. В современных персональных компьютерах (ПК) обычно используются четыре основных размера изображения, или разрешающих способностей экрана: 640 х 480, 800 х 600, 1024 х 768 и 1280x1024 точки.
Графический режим вывода изображения на экран определяется разрешающей способностью экрана и глубиной цвета. Полная информация обо всех точках изображения, хранящаяся в видеопамяти, называется битовой картой изображения.