Министерство образования и науки Украины
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
к курсовому проекту
на тему: "Методы сжатия цифровой информации. Метод Лавинского"
по курсу "Кодирование и защита
информации"
2004
Содержание
Введение
1. Постановка задачи
2. Обзор существующих методов решения задачи
2.1 Сжатие и кодирование информации в информационно вычислительных комплексах (ИВК)
2.2 Сжатие с восстановлением
2.3 Методы сжатия цифровой информации с повторяющимися фрагментами
3. Выбор и обоснование решения задачи
4. Теоретическое обоснование метода Лавинского
5. Программное обеспечение и информационный выбор метода
Заключение
Библиографический список
Приложение А
Приложение Б
В наши дни все большее распространение получает обработка и хранение информации при помощи ЭВМ. При этом одной из важнейших задач является сохранение ее целостности, т.е. защита от потери данных, как при их передаче, так и в некоторых случаях при хранении.
Метод Лавинского относится к простейшим методам сжатия информации (числовых массивов) и он осуществляет сжатие путем уменьшения разрядности числа (исходного). Метод тем лучше функционирует, чем больше массив и разность между числами в нем составляет малую величину.
1. Постановка задачи
Составить программу сжатия по методу Лавинского, показать её возможности на выбранном Вами примере.
Программный продукт предусматривает сжатие массива, прочитанного из файла, по методу Лавинского, т.е. уменьшения разрядности чисел содержащихся в исходном файле. Это достигается путем преобразования символов файла в биты и запись их в новый файл.
Деархивация строится на основе того, что в новый (сжатый файл) перед каждым символом записывается номер границы к которой это число относится, а размер для каждой границы есть константа умноженная на номер границы.
2. Обзор существующих методов решения задачи
2.1 Сжатие и кодирование информации в информационно вычислительных комплексах (ИВК)
ИВК – это набор, состоящий из одного или нескольких ЭВМ, снабженных устройствами хранения, ввода вывода и передачи информации. ИВК имеет отдельные устройства, разнесенные между собой.
Информационная сеть представляет собой набор ИВК, соединенных между собой каналами передачи информации (каналы могут быть любой протяженности). Для того, чтобы сеть могла функционировать, она снабжается набором протоколов и интерфейсов.
Протокол – некоторое множество информационных функций и алгоритмов обработки информации, которые приняты в той или иной сети.
Интерфейс – некоторое соединение или канал между отдельными функциональными частями сети. Интерфейсы бывают физические и программные.
Физический интерфейс – набор шин, для передачи сигналов, и электрических устройств для управления прохождения сигналов по этим шинам. Большинство физических интерфейсов - стыки.
Программный интерфейс – часть программного обеспечения сети, отвечающая за передачу информации от узла к узлу.
Сети могут быть гомогенными и гетерогенными (однородными и разнородными).
В гомогенных сетях используются однотипные ЭВМ и однотипные программное обеспечение.
В гетерогенных сетях протоколы, кроме всего прочего, согласуют разнородное программное обеспечение, а интерфейсы согласуют физические пороги сигналов.
Все универсальные сети являются гомогенными.Сеть чаще всего является открытой системой.
Открытой называется такая система, которая может взаимодействовать с другими системами. Для того, чтобы открытая система нормально функционировала она должна обеспечивать семь уровней этого функционирования:
прикладной
представительский
сеансовый
транспортный
сетевой
канальный
физический
Прикладной уровень функционирования предполагает унификацию и
Ф1 и Ф2 – флаги;
А – адрес;
З О – защита от ошибок.
Представительский уровень унифицирует форму представления информации, то есть тип сигналов, вид кодов, способы защиты от ошибок и правила семиотики (науки о знаках) для выбранной знаковой системы.
Сеансовый уровень унифицирует длительность сеансов связи между узлами сети, служебную информацию для вызова или организации таких сеансов, способ стыковки между функциональными частями при сеансе связи.
Транспортный уровень унифицирует собственно передачу информации, то есть ее скорость или время, способ передачи (параллельно, последовательно или смешанно) информации и виды модемов и аппаратуры передачи данных.
Сетевой уровень унифицирует (стандартизует) прохождение сигналов по очередям, вид этих очередей, способ обслуживания, разновидности персональной защиты и доступа (ключи, пароли, шифры).
Канальный уровень унифицирует прохождение сигналов по каналу с помощью унификации инициализации, синхронизации и аппаратуры защиты от ошибок.
Физический уровень проводит унификацию физических сигналов по уровню (амплитуде), частоте, фазе и по виду модуляции сигналов.
В открытых сетях, в виду огромных объемов проходящей информации, производится сжатие информации. Существует сжатие без восстановления и с восстановлением. Сжатие без восстановления предполагает, что передается алфавитно-цифровая информация, которая тем или иным способом уменьшается в объеме и на приемной стороне принимается сжатый объем. А при сжатии с восстановлением приемник получает исходный текст, при условии, что передавался сжатый текст. В общем случае, сжатие (компрессия) данных представляет собой процесс выделения из исходного информационного массива его информативной части путем отбрасывания некоторых символов, несущих минимальное число этой информации. Сжатие производится до тех пор, пока информативность сохраняется. Простейший способ сжатия без восстановления для текстовой информации на естественном языке, предполагает наличие словаря запретов, который поддерживается сетью и доводится до всех абонентов. В него входят одно, двух и трехбуквенные слова с минимальной информативностью, которые из текста исключаются. Из текста, начиная от конца слова к началу, убирают все гласные и часть согласных до наличия еще в слове необходимого смысла. Первые три согласные несут 84% информации.
Если информация представлена в цифровом виде, то в этом случае задают длину блока, до которого необходимо ее сжать.
Весь текст бьется на блоки заданной длины или меньшей и затем производится либо сложение их по модулю два, либо двоичное сложение и передается их сумма.
Если информация не цифровая, а текстовая, то можно использовать тот же метод, если каждую букву закодировать некоторым кодом равномерной длины.
2.2 Сжатие с восстановлением
Методы сжатия с восстановлением должны обеспечить переход к исходному сообщению при заданном КСЖ.
n1 – число символов в исходном сообщении
n2 – число символов в сжатом сообщении
Простейшим способом такого сжатия является способ хранения атрибутов в виде битовой матрицы.
Передаются только единицы, которые оговариваются либо частотой, либо временем и т. д.
2.3 Методы сжатия цифровой информации с повторяющимися фрагментами
Предполагается, что информация записывается в файлы. Первая часть применима для тех информационных массивов, в которых повторяющиеся фрагменты стоят в начале строки. В этом случае используется символ пропуска r , весь массив передается одной строкой.
123456 r 7 r 41 r 2
Восстановление начинается от конца к началу, при известном количестве символов в строке. Запись каждой строки производится до символа пропуска.
Далее сверху вниз записываем символы предыдущей строки.
Второй способ используется для тех массивов, в которых повторы не только в начале строки: используется символ r и символ конца строки k.
Если массив строк одинаковой длины содержит несколько повторяющихся фрагментов в различных местах строки, то в этом случае вводятся символы, обозначающее количество пропусков и можно не использовать символ r конца строки.
Восстановление начинают с первой исходной строки, где количество пропусков определяется предыдущей строкой.