Министерство Образования и Науки Украины
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
к курсовому проекту
на тему:
“Компрессия информации и упорядочение дерева по алгоритму Виттера”
по курсу “ Кодирование и защита информации. ”
Пояснительная записка содержит описание разработанной программы и руководство по ее использованию. Также в ней приводится описание используемых методов компрессии информации.
Содержание
Аннотация...................................................................................................... 2
Введение......................................................................................................... 4
1. Постановка задачи................................................................................... 5
2. Основные обозначения............................................................................. 6
3. Обзор и характеристика существующих методов сжатия информации, основанные на процедуре кодирования хаффмена.................................. 7
3.1. Динамическое кодирование хаффмена............................................... 7
3.2. Алгоритм динамического кодирования методом fgk....................... 8
3.3. Алгоритм динамического кодирования виттера................................ 9
Программная реализация........................................................................... 13
Руководство пользователя........................................................................ 13
Заключение.................................................................................................. 15
Библиографический список....................................................................... 16
Приложения.................................................................................................. 17
В настоящее время большое внимание уделяется информации, недаром наш век называют “информационным”. Во время того, как люди познают технологии хранения и передачи информации, встает вопрос о ее компрессии.
Производительность существующих компьютерных сетей может быть заметно увеличена за счет повышения скорости передачи данных по каналам связи, которое обеспечивается использованием методов сжатия информации (эффективное кодирование). Для решения этой проблемы было разработано большое количество разнообразных методов кодирования информации, которые могут быть реализованы программно. Данная разработка представляет собой программный модуль, обеспечивающий комрессию и декомпрессию информации.
1. Постановка задачи
Необходимо разработать программу для кодирования и декодирования непрерывно поступающей информации. Для компрессии использовать алгоритм динамического кодирования Виттера. Разработать удобный интерфейс общения с пользователем.
m-размер алфавита источника сообщений;
zj - j-й символ алфавита;
M(k) =z(1), z(2), …, z(k) - первые к символов в сообщении;
k - число символов в сообщении, обработанных до текущего момента времени
K-количество различных символов, обработанных на текущий момент времени;
Wj-вес символов zj, поступивших на момент обработки сообщения.
lj - расстояние от корня дерева до zj – го листа.
3. Обзор и характеристика существующих методов сжатия информации, основанные на процедуре кодирования хаффмена
Алгоритм динамического кодирования Виттера представляет собой усовершенствование динамического кодирования Хаффмена.
Класический метод кодирования Хаффмена предпологает до начала преобразования знание вероятностей появления символов на выходе источника информации. Символы упорядочиваются по убыванию вероятностей их возникновения. На передающей и приемной сторонах должны быть известны кодовые деревья для каждого сообщения. Таким образом для его реализации требуется два прохода кодируемого массива. При 1-м просмотре вычисляются вероятности появления каждого знака в сообщении и составляется таблица кода Хаффмена. На следуещем этапе осуществляется кодирование на основании статистической структуры дерева Хаффмена и передача символов в сжатом виде. Выйгрыш полученный за счет сжатия данных может заметно снижаться, особенно при передачи коротких сообщений, в связи с необходимостью передавать декодеру дополнительную информацию о кодовом дереве. Еще один недостаток это наличие задержки от момента поступления данных от источника до выдачи соответствующих кодовых комбинаций, что ограничивает использование неравномерного кодирования в системах реального времени.
3.1. Динамическое кодирование хаффмена
В начале 70-х годов были разработаны однопроходные методы сжатия информации. Суть состоит в том, что передатчик строит дерево Хаффмена в темпе поступления данных от источника. В процессе кодирования происходит “обучение” кодера на основе статистических характеристик источника сообщений в ходе которого вычисляются оценки исходных вероятностей сообщения и производится модификация кодового дерева Хаффмена. Т. к. происходит непрерывное изменение дерева, этот процесс получил название динамического кодирования Хаффмена. Декодер должен непрерывно “учиться” наряду с кодером осуществляя синхронное изменение дерева. Для обеспечения синхронности процессов кодирования и декодирования кодер выдает символ в несжатом виде, если он впервые появился на выходе источника, и отмечает его на кодовом дереве. При повторном появлении символа на входе декодера он передается неравномерной кодовой комбинацией, определяемой позицией символа на текущем кодовом дереве.
На одном уровне не может быть меньше 2-х узлов, пара узлов является дочерней, т.к. имеет общий родительский узел, вес которого равен сумме весов дочерних узлов.
Хаффменское дерево должно обладать следующими свойствами:
Листья имеют неотрицательный вес W>0, каждый родительский узел имеет дочерние узлы, а его вес равен сумме дочерних весов.
На каждом уровне дерева, кроме корневого должно быть не менее одной пары узлов, имеющих общий родительский узел.
Все узлы нумеруются в возрастающем порядке, узлы с номерами (2j-1) и 2j являются узлами одного уровня для 1<=j<=m-1, их общий родительский узел имеет более высокий уровень.
3.2. Алгоритм динамического кодирования методом fgk
Суть алгоритма состоит в процедуре вычисления листьев и построения бинарного дерева с минимальным весом пути åWjlj.
На 1-м этапе дерево Хаффмена преобразуется в эквивалентное исходному, которое может быть преобразовано в хаффменовское дерево для M(k+1).
1-й этап начинается после получения от источника символа z(k+1), который получает статус текущего узла. Затем происходит обмен текущего узла (включаю поддерево) с узлом имеющим наибольший порядковый номер с таким же весом. В качестве нового текущего узла иницилизируется родительский узел последнего текущего узла. Обмен в случае необходимости многократно повторяется пока не будет достигнут корень дерева. Максимальное количество перестановок, которые могут понадобиться равна высоте дерева. На 2-м этапе инкрементируется лист дерева соответствующий обрабатываемому символу и последующие промежуточные узлы, расположенные на пути движения от листа к корню дерева.
3.3. Алгоритм динамического кодирования виттера
Данный алгоритм позволяет построить динамическое хаффменское дерево таким образом, что бы минимизировать сумарную длину внешнего пути и расстояние от корня дерева до листа. Число обменов узлов в процессе модификации сводится к минимуму. Минимизация высоты дерева h= max{ lj} позволит предотвратить образование длинных кодовых комбинаций при кодировании очередного символа в сообщении.
Алгоритм Виттера обладает следующими преимуществами по сравнению с алгоритмом FGK:
Количество обменов узлами, при котором текущий узел перемещается в верх по кодовому дереву в процессе его модификации ограничивается еденицей.
Алгоритм Виттера минимизирует длину внешнего пути дерева lj и гарантирует дерево минимальной высоты h= max{ lj} при условии минимизации суммарной длины внешнего пути дерева.
По алгоритму Виттера осуществляется так называемая неявная нумерация (implicitnumbering) узлов кодового дерева. При неявной нумерации узлы хаффменского дерева нумеруются в порядке увелечения по уровням слева направо и снизу вверх. Важнейшим условием неявной нумерации является соблюдение необходимого условия построения дерева:
Для каждого веса W все листья дерева с весом W должны предшествовать всем внутренним узлам веса W.
Структурная схема алгоритма динамического кодирования Виттера приведена на рисунке 1.
На рисунке 2 приведена структурная схема процедуры скольжения и приращения.
Программная реализация
Для разработки программы был выбран язык программирования высокого уровня Delphi 5.0 (ObjectPascal).
Он весьма полно выражает идеи структурного программирования. Это проявляется в том, что Delphi может успешно использоваться для записи программ на разных уровнях ее детализации, не прибегая к помощи блок-схем или специального языка проектирования программ. Средства языка Delphi позволяют осуществлять достаточный контроль правильности использования данных различных типов и программных объектов как на этапе трансляции так и на этап ее выполнения.
Delphi позволяет без особых трудностей реализовать удобный пользовательский интерфейс, не пребигая к написанию низкоуровневого кода.
В проекте предпологается кодирование непрерывно поступающей информации, поэтому программа позволяет пользователю вводить исходное сообщение с клавиатуры, которое кодируется и отображает структуру кодового дерева хаффмена.
Декодировку сообщения можно производить по символьно и по битам.
В программе есть так же возможность считать данные для кодирования из фыйла.