Смекни!
smekni.com

«Разработка алгоритма распознавания фонем русского языка с использованием вейвлет анализа и метода опорных векторов» (стр. 3 из 4)

Рисунок 1 Зависимость точности классификации от параметра N

Анализ результатов эксперимента показывает, что оптимальным значением является N = 20 при точности классификации в 97%.

Так же был проведен эксперимент по сравнению характеристик разработанного алгоритма с традиционным подходом с использованием МЧКК. Для данного эксперимента была сформирована обучающая выборка из 1000 звуков различных фонем русского языка, из которых 500 соответствуют фонеме [а] и тестовая выборка из 200 звуковых реализаций фонемы [а] русского языка. Тестовая и обучающая выборки представляют собой непересекающеюся множества. В качестве классификатора использовался нелинейный МОВ с подбором оптимальных параметров методом кросспроверки. Точность классификации с использованием разработанного алгоритма составила 81.3%, что на 2% превышает точность классификации с использованием МЧКК Таким образом, точность классификации с использованием МЧКК и разработанного алгоритма на основе вейвлет-преобразования отличается незначительно, однако, методика извлечения признаков из речевых сигналов с использованием вейвлет–преобразования обладает более высоким потенциалом для оптимизации.

3.2. Исследование разработанного алгоритма распознавания речевых сигналов.

Так же проведена серия экспериментов по распознавания акустически схожих речевых сигналов для алгоритма описанного в разделе 2.2. Данная серия экспериментов включает эксперимент по классификации фонем по группам и эксперимент по точной идентификации фонемы внутри группы. Разделение процедуры идентификации фонемы на два этапа вызвано тем, что точность классификации отдельной фонемы среди всех фонем русского языка не превышает 82%, как показали предыдущие эксперименты. В связи с этим, сделана попытка разделить фонемы на группы близкорасположенных в признаковом пространстве фонем, а в последствии разделить фонемы в группе дополнительным классификатором. Для проведения данного эксперимента была сформирована обучающая выборка из 4500 звуковых реализаций фонем, в среднем 100 реализаций на каждую фонему. В качестве тестовой выборки использовались 100 реализаций на каждую из четырех фонем: [а, м, н, д]. Фонемы сегментированы на 9 групп по расположению на плоскости классификации «место-способ». Обучение классификаторов первого этапа осуществлялось по схеме «каждый против всех», второго этапа – «каждый против каждого». Оптимальные параметры нелинейных классификаторов определялись методом кросспроверки с использованием 25% обучающей выборки в качестве контрольных данных.

Для сравнения характеристик разработанных алгоритмов проведено сравнительное тестирование с использованием алгоритма на основе нейронных сетей (НС). Результаты экспериментов приведены в таблицах Таблица 1, Таблица 2, Таблица 3.

Таблица 1 – Результаты эксперимента по точности идентификации фонемы с использованием МЧКК

[а] [м] [н] [д]
Точность определения группы, % 97 91 90 91
Точность определения фонемы внутри группы, % 89 84 83 89

Таблица 2 – Результаты эксперимента по точности идентификации фонемы с использованием разработанного алгоритма извлечения векторов признаков.

[а] [м] [н] [д]
Точность определения группы, % 99 92 93 92
Точность определения фонемы внутри группы, % 99 94 93 95

Таблица 3 – Суммарная точность предложенного алгоритма и классификации с использованием НС.

[а] [м] [н] [д]
Суммарная точность предложенного алгоритма, % 89 85 83 85
Точность классификатора на основе НС, % 85 79 76 77

Анализ результатов данных экспериментов показал, что точность классификации фонем с использованием разработанного алгоритма превышает точность традиционного алгоритма на основе нейронных сетей в среднем на 6%.

Глава 4. Заключение

В ходе данной работы были получены следующие результаты.

Сформирована база акустических сигналов размером в 5000 звуковых реализаций различных фонем.

Разработан и исследован новый метод формирования векторов признаков на основе вейвлет преобразования Использование данного метода показало результаты, превосходящие результаты использования широко используемых методов формирования векторов признаков МЧКК на 2% при классификации фонем в общем случае и на 10% при классификации близкорасположенных в признаковом пространстве фонем.

Разработан алгоритм двухэтапной классификации фонем на основе каскадов нелинейных МОВ с использованием разработанного алгоритма извлечения векторов признаков на основе вейвлет-преобразования, использование которого продемонстрировало результаты, превосходящие результаты алгоритма с использованием НС в среднем на 6%.

Результаты данной работы были представлены на международной научно-технической конференции, посвященной 45-летию МРТИ-БГУИР, на IX международной межвузовской научно-технической конференции студентов, магистрантов и аспирантов «Исследования и разработки в области машиностроения, энергетики и управления», VI Всероссийской научной конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» и приняты к публикации в научных журналах «Речевые технологии» №3,4 2009 (Москва), «Электроника инфо» №5 2009.

Библиографический список

Список использованных источников

1. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования // Военный университет связи, - Санкт-Петербург, 1999.

2. Местецкий Л.М. Математические методы распознавания образов // Курс лекций, МГУ ВМиК, кафедра «Математические методы прогнозирования», - Москва, 2002-2004.

3. Пилипенко В.В. Технология распознавания большого количества образов на примере распознавания речи из сверхбольшого словаря // SpeechCon, - Москва, 2006. - C 53-54

4. Солдатов С. Lip Reading: Preparing Feature Vectos // International Conference Graphicon, - Москва, 2003.

5. Раев А.Н. Области применения систем идентификации дикторов, использующих разные первичные описания речи (MFCC и положение формант) // Biometrics AIA 2006 LEGS.

6. Фанг Г. Акустическая теория речеобразования: Пер. с англ. // Москва, Наука, 1964, - С 284.

7. Фланаган Джеймс Л. Анализ, синтез и восприятие речи // Связь, - Москва, 1968.

8. Barket J.M., Deng Li, Historical development and future directions in speech recognition and understanding // Report of Speech Understanding Working Group, MINDS 2006-2007.

9. Chen J.K., Lee L.S., Soong F.K. Large vocabulary, word-based mandaring dictation system // Speech communication and technology: European conf. ESCA – Madrid, 1995, p. 285 – 288.

10. Luettin Juergen, Visual speech and speaker recognition // Department of Computer Science University of Sheffield, 1997.

Список публикаций

1. А. Сорока А.М., Янь Цзинбинь, У Ши, Егоров В.Н., Трус А.А. Использование синтезатора речи по тексту в задачах образования // Тезисы международной научно-технической конференции, посвященной 45-летию МРТИ-БГУИР, - Минск, 2009 - С. 291.

2. А. Сорока А.М., Алиев Р.М., Трус А.А., Многокомпонентная система на платформе .NET для настройки и оптимизации алгоритмов анализа аудиосигналов // Труды VI Всероссийской научной конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» - Москва, 1-2 апреля 2009г., - С 53-54.

3. А. Сорока А.М., Янь Цзинбинь, У Ши, Трус А.А. Классификация аудиосигналов с использованием одноклассового метода опорных векторов для систем поиска информации в мультимедиа архивах // «Речевые технологии» №4 (факт. вр. публ. - август 2009г.), - Москва, 2008 - С 15-24.

4. А. Сорока А.М., Янь Цзинбинь, Трус А.А., Хейдоров И.Э., Верификация ключевых слов на основе мер доверительности и метода опорных векторов // «Электроника инфо» №5 – Минск, 2009 - С 44-49.

5.-А.Сорока А.М., Трус А.А. Алгоритм построения векторов признаков на основе вейвлет-преобразования для классификации фонем русского языка // Труды 52-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», - Москва-Долгопрудный, 2009 - С 103–106.

6.-А.Сорока А.М., Янь Цзинбинь Разработка метода создания сети спутывания // Труды 52-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», - Москва-Долгопрудный, 2009, - С 118-120.

Предметный указатель

А

Аллофон, 5, 6, 7

комбинаторный, 7

позиционный, 7

В

Вектор признаков, 8, 9

Д

Дискриминантный подход, 10

Дифон, 6

М

мелчастотные кепстральные коэффициенты, 14, 17

метод опорных векторов, 5, 12, 13, 14, 16

Минимальная речевая еденица, 6

Минимальная речевая единица, 7, 8, 12

П

Преобразование

вейвлет, 5, 9, 13, 14, 17

Фурье, 9

Признак, 8, 9

С

скрытая Марковская Модель, 5, 12

Структурный подход, 10

Т

Таксон, 10, 11

Трифон, 6

Ф

Фонема, 5, 7, 8, 13

Э

Эффект

коартикуляции, 8

редукции, 8

Интернет ресурсы в предметной области исследования

1. http://www.machinelearning.ru/ - профессиональный информационно-аналитический ресурс, посвященный машинному обучению, интеллектуальному анализу данных и распознаванию образов. Содержит большое количество научных статей, постоянно обновляется. В рамках данного ресурса функционирует проект «Полигон», целью которого является создание распределенной системы тестирования алгоритмов классификации.