2. Комплексный кепстр речи
Модели сигналов, с одной стороны, и методы анализа во временной области – с другой, можно объединить и эффективно использовать в теории гомоморфной фильтрации речи. Вспомним, что модель речеобразования обязательно состоит из линейной системы с медленно изменяющимися во времени параметрами и сигнала возбуждения в виде последовательности импульсов или белого шума. Поэтому короткий сегмент вокализованного речевого сигнала целесообразно рассматривать как результат воздействия сигнала возбуждения в виде последовательности импульсов на линейную систему с постоянными параметрами. Аналогично короткий сегмент невокализованного сигнала можно представить как результат возбуждения линейной системы с постоянными параметрами случайным шумом.
Короткий сегмент вокализованной речи можно представить в виде
(13)где
– периодическая импульсная последовательность с периодом Npотсчетов; – импульсная характеристика линейной системы, отражающая эффект формы источника возбуждения g(n), импульсную характеристику речевого тракта и импульсную характеристикуКороткий сегмент невокализованной речи можно представить в виде
(14)где
– сигнал возбуждения в виде случайного шума; – импульсная реакция системы, объединяющая воздействие речевого тракта и излучения.Для случая вокализованной речи передаточная функция линейной системы имеет вид
(15)
Для невокализованной речи получаем
(16)
Комплексный кепстр быстро затухает с ростом п. Кроме того, отметим, что вклад в комплексный кепстр от периодического возбуждения проявится в наличии импульсов в точках, кратных периоду возбуждения. Пример анализа (рис.6) иллюстрирует основные особенности вокализованного речевого сигнала.
а) б)
в) г)
д) е)
Рис. 6. Гоморфный анализ вокализованный речи: а) взвешенный речевой сигнал; б) логарифм модуля кратковременного Фурье; в) значение фазы; г) «развернутая» фаза; д) комплексный кепстр; е) кепстр
На рис. 6,а показан сегмент вокализованного сигнала, взвешенный с окном Хемминга. На рис.6,б представлен логарифм модуля дискретного преобразования Фурье. В этой функции имеется периодическая компонента, обусловленная периодическим характером входного сигнала. На рис.6,в представлен разрывной характер главного значения фазы, а на рис. 6,г – фазовая кривая, лишенная разрывов. Результат преобразования Фурье в комплексный кепстр кривых на рис.6,б и 6,г представлен на рис.6,д.
Отметим наличие пиков в положительном и отрицательном времени и быстрое затухание компонент в области малых времен, что обусловлено совместным воздействием речевого тракта, источника возбуждения и излучением. Кепстр, являющийся обратным преобразованием Фурье логарифма амплитуды модуля спектра, показан на рис.6,е. В данном случае сохранены все основные особенности комплексного кепстра, поскольку он является четной частью комплексного кепстра.
Последовательность графиков на рис.6 показывает, как можно использовать гомоморфную фильтрацию для анализа речевого сигнала. Прежде всего отметим, что импульс в кепстре, обусловленный квазипериодическим возбуждением, оказывается отделенным от остальных компонент. Это приводит к соответствующей системе гомоморфной фильтрации речевого сигнала, представленной на рис. 7.
Рис. 7. Реализация системы гомоморфной фильтрации речи
Сегмент речевого сигнала взвешивается с некоторым окном и требуемые компоненты кепстра выделяются с использованием «окна по кепстру»
. Если выбрать в соответствии ссотношением (17)где
выбрано меньшим, чем период основного тона , то выходной сигнал аппроксимирует импульсную реакцию, определяемую (13). Этот вид фильтрации иногда называют «частотно-инвариантной линейной фильтрацией».Если выбрать 1{п) таким образом, чтобы восстановить компоненты возбуждения, т. е.
(18).то выходной сигнал аппроксимирует импульсную последовательность возбуждения, амплитуды которой затухают в соответствии с весами окна Хемминга, примененного при взвешивании входного сигнала.
В результате взвешенный комплексный кепстр подвергается обратному преобразованию для получения требуемых компонент.
Таким образом, с помощью гомоморфной фильтрации можно выделить ряд важных компонент речевого сигнала. Чаще сталкиваются с необходимостью оценки таких параметров, как период основного тона и частоты формант. Для этих целей кепстральный анализ весьма эффективен. Для вокализованного сегмента речи пик в кепстре возникает при задержке, соответствующей периоду основного тона. Для невокализованного сегмента такие пики в кепстре не возникают. Это свойство кепстра может быть использовано для классификации вокализованный/невокализованный и для периода основного тона на вокализованной речи.
Частоты формант также можно определить с использованием логарифма модуля передаточной функции речевого тракта, которая вычисляется по кепстру с помощью кепстрального окна (17).
3. Оценивание основного тона на основе кепстра
Метод оценивания основного тона на основе кепстрального анализа достаточно прост. Вычисленный кепстр исследуется с целью отыскания пика в области возможных значений основного тона. Если пик в кепстре превышает порог, то сегмент классифицируется как вокализованный, а координата пика дает хорошую оценку периоду основного тона. Если максимум кепстpaнe превышает -порога, то сегмент классифицируется как невокализованный. Изменение во времени типа возбуждения и периода основного тона можно оценить с использованием зависящего от времени кепстра, что достигается на основе вычисления зависящего от времени преобразования Фурье. Обычно кепстр вычисляется 1 раз через каждые 10 – 20 мс, поскольку в нормальной речи параметры возбуждения не изменяются быстрее.
Гомоморфный анализ позволяет построить очень простой и эффективный алгоритм выделения основного тона и классификации речи на вокализованную/невокализованную. К сожалению, имеется ряд практических вопросов и трудностей, которые возникают при построении кепстральных анализаторов основного тона.
Во-первых, наличие выброса в кепстре в диапазоне 3—20 мс очень точно указывает на то, что данный сегмент является вокализованным. Однако отсутствие пика или наличие слабого пика не означает, что данный сегмент является невокализованным. Амплитуда или даже просто существование пика в кепстре зависит от целого ряда факторов, включая длину окна, используемого для взвешивания входного сигнала, и формантной структуры самого сигнала. Заметим,, что наибольшая амплитуда пика в кепстре равна единице. Это достигается только в случае абсолютного совпадения периодов основного тона. Это, конечно, совершенно не достижимо в реальном случае, даже если использовать прямоугольное временное окно, включающее целое число периодов. Прямоугольные временные окна применяются весьма редко вследствие худших результатов, даваемых ими при оценивании спектра. В случае, например, окна Хемминга очевидно, что как протяженность окна, так и его относительное расположение по отношению к речевому сигналу будут оказывать значительное влияние на величину наибольшего пика в кепстре.
Как крайний случай предположим, что окно имеет протяженность менее двух периодов основного тона. Очевидно, что при этом трудно ожидать точного оценивания периодичности по спектру или кепстру сигнала. Таким образом, протяженность окна может оказаться такой, что с учетом уменьшения амплитуды данных к границам выборки, по крайней мере, два периода основного тона пропадут во взвешенных данных. Для мужской речи с низкой частотой основного тона требуется окно порядка 40 мс. Для голосов с более высокой частотой основного тона требуются пропорционально меньшие окна. Желательно, конечно, выбирать окно настолько малым, насколько это возможно, чтобы избежать значительных изменений параметров сигнала на протяжении используемого сегмента. Чем длиннее окно, тем значительнее изменения параметров в пределах окна и тем больше отклонение от принятой модели анализа. Один из способов выбора окна, при котором оно было и не слишком длинным и не слишком коротким, состоит в адаптации длины окна с учетом предшествующих (или возможно среднего значения) оценок периодов основного тона.