где
- коэффициенты усиления фильтра или коэффициенты модели предсказания.Величины коэффициентов
выбираются таким образом, чтобы минимизировать среднеквадратическую ошибкуПри использовании для кодирования речи метода ДИКМ число бит квантования на выборку снижается до 4-6 (32-48 кбит/с).
Дальнейшее снижение скорости цифрового потока на выходе кодера достигается за счет использования адаптивного варианта ДИКМ.
Адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ либо ADPCM) – один из наиболее общепринятых и широко используемых стандартов сжатия (кодирования) речи со скоростью 24-32 кбит/с.
Кодеры на основе ДИКМ разрабатываются в предположении, что выход источника сообщений стационарен. В действительности речь – это нестационарный случайный процесс, т.е. ее дисперсия, спектр и автокорреляционная функция меняются во времени. Поэтому для эффективного кодирования необходимо постоянно отслеживать такого рода изменения. В методе АДИКМ в отличие от ДИКМ производится адаптивная настройка шага квантования сигнала ошибки предсказателя, а также автоматическая настройка коэффициентов нерекурсивного фильтра предсказателя в соответствии с изменением текущего спектра речевого сообщения. Данные меры позволяют минимизировать динамический диапазон ошибки предсказания и необходимое число уровней квантования.
При кодировании речи с использованием АДИКМ для високого качества восстановленной речи требуется использовать всего лишь 3-4 бит на выборку.
Дельта-модуляция (ДМ).
Дельта модуляцию можно рассматривать как разновидность ДИКМ, в которой используется двухуровневый квантователь в соединении с предсказателем первого порядка. Таким образом спрогнозированное значение – это просто задержанный на один такт прошлый отсчет.
Данный вид кодирования является эффективным в случае, когда разность амплитуд между соседними отсчетами мала. Этого достигают стробируя аналоговый речевой сигнал с частотой в 4-6 раз большей, нежели частота Найквиста. Тогда скорость выдачи информации кодером составляет 32-48 кбит/с.
Речевому кодеру на основе Дельта-модуляции свойственно два вида искажений:
- перегрузка по наклону
Вызывается размером шага квантования, который слишком мал, чтобы отслеживать сигнал с резким наклоном.
- шум дробления
Вызывается размером шага квантования, который слишком велик, чтобы отслеживать сигнал с малым наклоном.
Для устранения указанных недостатков используют переменный шаг квантования, т. е. изменяют его адаптивно тем либо иным методом в направлении минимизации общего среднего квадрата ошибки от двух указанных факторов.
3. Дискретная модель речеобразования
Исследование статистических характеристик речевых сигналов базируется на математическом описании акустического процесса речеобразования, который в свою очередь основывается на физических процессах речеобразования.
Рис. 5
В представленной модели можно выделить две системы – модель возбуждения и модель излучения (рис.5).
В случае вокализованных звуков источник возбуждения должен формировать квазипериодическую последовательность импульсов с частотой основного тона. Поэтому модель возбуждения для случая вокализованных звуков можно представить в виде (рис. 6):
Рис. 6
В случае невокализованных источник возбуждения формирует случайное шумовое колебание. Тогда модель возбуждения для случая невокализованных звуков представима в виде (рис. 7):
Рис. 7
Коэффициенты усиления
и определяют интенсивность голосового возбуждения (громкость звука).Аналогичным образом модель излучения может быть представлена в виде (рис. 8):
Рис. 8
Модель голосового тракта полностью характеризуется передаточной функцией
, полюсы которой соответствуют резонансам (формантам) речевого сигнала, а нули - антирезонансам (провалам) в спектре речевого сигнала. Причем модель голосового тракта с учетом только лишь полюсов уже дает в большинстве случаев довольно точное описание голосового тракта для большинства звуков речи.Таким образом результирующая передаточная функция процесса речеобразования записывается в следующем виде:
Для вокализованных звуков, медленно изменяющихся во времени, рассмотренная модель речеобразования оказывается достаточно точной. Для невокализованных звуков, быстро изменяющихся во времени (поскольку они шумоподобные), данная модель будет адекватной только для очень коротких во времени реализаций (фрагментов) речи. В любом случае параметры модели речеобразования (частоту основного тона, коэффициенты усиления, параметры голосового тракта) обновляют в течение каждых 10-20 мс. Для этого используется так называемый кратковременный анализ речи.
Основной задачей большинства систем синтеза и анализа речи (в том числе и систем кодирования речи с использованием вокодеров) является оценка параметров в модели речеобразования по реальной речи.
4. Метод кратковременного анализа
Как уже было сказанно, речь – это нестационарный случайный процесс. Однако на интервалах 10-20 мс ее можно рассматривать как локально стационарный случайный процесс. Согласно методу кратковременного анализа поток отсчетов речевого сигнала разбивается на временные окна, называемые также сегментами или окнами анализа. Эти временные окна могут в принципе соответствовать как отдельным фонемам, так и слогам и даже целым словам, но для обеспечения большей эффективности анализа выбираются в пределах стационарности речи (10-20 мс). Каждый сегмент речи подвергается анализу, в процессе которого вычисляются такие его характеристики как энергия, число пересечений нуля, текущий спектр.
Например, энергия фрагмента речи, состоящего из
отсчетов определяется выражением: ,где
- значение амплитуды -го отсчета.Число пересечений нуля может быть вычислено по формуле:
,где
На основе вычисления энергии фрагмента речи и числа пересечений нуля каждое окно анализа можно отнести к одному из трех типов:
1. вокализованное – окно V
2. невокализованное – окно N
3. пауза – окно P
Алгоритмы разделения временных окон по типам V, N, P как правило основываются на сравнении полученных значений энергии и числа пересечений с некоторыми пороговыми значениями, полученными экспериментально.
Например:
1. Если
, то окно типа P.2. Если
, то если - окно типа VИначе – окно типа N.
После разбиения потока отсчетов речевого сигнала на окна V, N, P в пределах каждого окна вычисляются параметры модели речеобразования, которые используются для кодирования речи в передатчике и для синтеза речи в приемнике.