Преимущество использования фонем в качестве МРЕ очевидно – малый размер словаря и простота фонетической модели. Для построения малого словаря в исследовательских целях нет необходимости в использовании большой базы данных для обучения, что так же является значительным преимуществом, в силу высоких материальных затрат, необходимых для создания большой обучающей базы.
Признаком. называется отображение
, где - пространство возможных значений признака. Вектор , называется вектором признаков., отождествляемым с самим объектом, и является математическим описанием образа в системах классификации. Пространство называется пространством признаков. В зависимости от пространства возможных значений признаков существует несколько обобщенных типов признаков таких, как бинарные, номинальные, порядковые и количественные. Наиболее часто используются количественные признаки, пространством возможных значений которых является пространство рациональных чисел.В качестве критерия выбора используемых признаков принят принцип наибольшей информативности признака, для получения более устойчивых алгоритмов классификации.
Традиционно, вектора признаков речевых сигналов получают в результате спектрального анализа исследуемого сигнала с использованием преобразования Фурье На данный момент ведутся исследования по извлечению векторов признаков с использованием вейвлет преобразований, однако значительных результатов в данной области на сегодня не достигнуто. Для построения векторов признаков широко используются знания о психоакустическом восприятии человеком звуковых сигналов.
В рамках данной работы разработан следующий алгоритм извлечения векторов признаков для речевых сигналов на основе вейвлет-анализа Определим набор двумерных фильтров в пространстве «частота-время»:
, (1)Ширина фильтра во временной области может быть найдена из следующего выражения:
, (3)Ширина фильтра в частотной области может быть найдена из выражения
, (4)Тогда вектор признаков может быть сформирован как
, (5)Существует большое множество методов решения задачи распознавания речевых сигналов, все они могут быть разделены на два наиболее общих подхода – дискриминантный и структурный. Исторически первым был дискриминатный подход, который в литературе так же называют эталонным или теорико-информационным [10]. Суть данного подхода – формирование пространства признаков речевых образов, в котором схожие речевые образы формируют генеральные совокупности – таксоны или кластеры. Для описания собственных областей таких кластеров используются функции плотности вероятности, которые в своих реализациях приобретают экстремальные значения. Параметры, а также внешний вид функций плотностей вероятностей определяются в ходе обучения на обучающей выборке. Принадлежность поступившего речевого образа к какому-либо конкретному кластеру в ходе процесса распознавания определятся при помощи решающего правила, которое в большинстве случаев записывается в виде дискриминантной функции.
Данный подход обладает рядом недостатков. Во-первых, в силу ограниченности мощности обучающей выборки приводит к использованию оценок вместо истинно статистических характеристик функций плотности вероятностей для каждого кластера, что влечет за собой нарушение условий оптимальности классификаторов, построенных на статистических решающих критериях, а, следовательно, и к ошибкам распознавания. Во-вторых, данный метод не может напрямую применяться к речевым сигналам в задачах распознавания слитной речи в силу высокой вариативности естественной речи и, как следствие, невозможности составления актуальной обучающей выборки со всеми возможными прецедентами.
Данных недостатков лишен структурный подход. Структурный подход – это метод распознавания речевых образов на основе теории формальных грамматик, когда конечный речевой сигнал представляется в виде иерархического набора структурных единиц.
Точность определения отдельной минимальной акустико-фонетической единицы речи, как правило, не высока и не превышает 80% [9], а значит большой вклад в точность окончательного распознавания вносят принятые фонетические, синтаксические и лексические модели языка. Основным преимуществом структурного подхода является тот факт, что акустико-фонетических единиц на несколько порядков меньше, чем всех возможных словоформ, что значительно уменьшает временные затраты полученных алгоритмов, в сравнении дискриминантным подходом.
Задача классификации МРЕ представляет собой классическую задачу распознавания образов, которая может быть сформулирована следующим образом. Пусть имеются
- множество признаковых описаний МРЕ, - множество наименований классов МРЕ, - целевая зависимость, значения которой известны для объектов обучающей выборки . Требуется построить алгоритм , который будет аппроксимировать целевую зависимость на всем пространстве .В данной работе в качестве алгоритма классификации был выбран МОВ [2], что отличается от широко распространенного подхода с использованием скрытых Марковских моделей. Данный подход аргументирован тем фактом, что СММ фактически не является классификатором и не обладает разделяющей способностью. В ходе обучения СММ минимизируются внутриклассовые расстояния, но не максимизируются межклассовые расстояния, в силу чего алгоритм классификации не позволяют распознавать фонемы расположенные рядом на плоскости классификации «место-способ». Предполагается, что МОВ обеспечит более высокую точность классификации близко расположенных фонем в силу максимизации межклассовых отступов в процессе обучения.
В рамках данной работы проведена серия экспериментов по поиску оптимальных характеристик разработанных методов и алгоритмов анализа и распознавания речевых сигналов. Для проведения данных экспериментов был реализован перечень программ на языке высокоуровнего программирования С++.
Для разработанного алгоритма извлечения векторов признаков эксперимент по определению оптимального числа фильтров в частотной области N. В ходе данного эксперимента исследована зависимость точности классификации изолированной фонемы в зависимости от N . Для проведения эксперимента была сформирована база данных из 300 звуковых реализаций фонемы [а] и 700 звуковых реализаций согласных фонем. Выбор фонем в обучающей выборке обусловлен тем фактом, что акустические сигналы фонемы [а] и согласных фонем значительно отличаются, следовательно, в качестве критерия нахождения оптимального параметра можно установить достижение абсолютной разделимости обучающей выборки, то есть достижение стопроцентной точности при тестировании. Для тестирования была сформирована выборка из 50 звуковых реализаций фонемы [а] и 50 реализаций различных согласных фонем. Обучающая и контрольная выборки представляют собой непересекающиеся множества. В качестве классификатора выбран МОВ с ядром eRBF. В качестве базисной функции вейвлет-преобразования использовался вейвлет Хаара. Результаты эксперимента представлены на рисунке Рисунок 1