Линейная авторегрессионная модель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее время наибольшее распространение. Для этой модели
где М — порядок модели;
Авторегрессионная модель речевого сигнала описывает его с достаточно высокой степенью точности и позволяет применять развитый математический аппарат линейного предсказания. При этом обеспечивается более высокое качество декодированной речи, устойчивость к входному акустическому шуму и ошибкам в канале связи по сравнению с системами с иными принципами кодирования.
В рамках данной модели наиболее перспективными методами кодирования считаются методы «анализа через синтез» с использованием многоимпульсного возбуждения. Новизна многоимпульсного возбуждения заключается в том, что в сигнале остатка линейного предсказания выбираются такие его значения, которые наиболее важны для повышения качества синтезированной речи. При этом используемая в процедуре анализа через синтез схема кодирования, помимо учета ошибок квантования, включает критерии субъективной оценки качества речевого сигнала, что обеспечивает естественное звучание синтезированной речи.
При многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и положение этих импульсов определяются на покадровой основе (кадр за кадром). Основным преимуществом многоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не требуется знаний ни о вокализованности данного сегмента, ни о периоде основного тона.
Методы анализа через синтез используют синтезатор (декодер) речевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи параметров речи, проводимой в соответствии с некоторым критерием рассогласования между исходным и декодированным сигналами. Для учета специфики слухового восприятия в качестве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка
где
где
В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра
Для этой цели применяется также дополнительный фильтр с характеристикой
с коэффициентом предсказания
В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:
с возбуждением прореженной последовательности импульсов — MPLP (Multi Pulses Linear Prediction);
ссамовозбуждением — SELP (Self Excited Linear Prediction);
с кодовым возбуждением — CELP
Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.
CELP наиболее эффективно применяется при передаче речевого сигала в диапазоне скоростей от 4 до 6 кбит/с.
По существу, в алгоритме CELP производится векторное квантование последовательности
Поиск оптимальных значений
Являясь одной из самых распространенных, схема с линейным предсказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяющимися во времени параметрами для выделения грубой и точной спектральной информации. Возбуждение выполняется путем перебора всех векторов из возбуждающей кодовой книги. Векторная последовательность, обеспечивающая минимальную взвешенную ошибку, считается оптимальным возбуждением. Процедура AbS в CELP требует больших вычислительных ресурсов, а основная кодовая книга является результатом очень большой исследовательской работы. Хотя CELP является сложным методом, он способен синтезировать речь с высоким качеством даже на низких скоростях. Вариант кодирования CELP выбран для многих систем голосовой связи.
Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемлемость и для высоких скоростей. Стандарт для скорости 16 кбит/с с малой задержкой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже.
Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоростях для компрессии речевых или других аудиосигналов в средствах мультимедиа. В кодере, реализующем рекомендации G.723.1, принципиальным приложением является низкоскоростная видеотелефония как часть общего семейства стандартов Н.324.
Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и более низкая скорость обеспечивает хорошее качество и предоставляет разработчикам систем связи дополнительные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность переключения скоростей. Возможно также изменение рабочей скорости с использованием прерывистой передачи и заполнение шумом пауз.
Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограниченной полосе. Музыка и другие аудиосигналы также могут быть подвергнуты компрессии с использованием этого кодера, однако, не с таким же высоким качеством, как речь.
Кодер G .723.1 преобразует речь или другие аудиосигналы во фреймы длительностью 30 мс. Кроме того, существует возможность просмотра фреймов на скорости 7,5 мс, что приводит к общей алгоритмической задержке 37,5 мс. Дополнительные задержки возникают из-за:
времени, затрачиваемого на обработку данных в кодере и декодере;
времени передачи по линии связи;