Рисунок 1 Зависимость точности классификации от параметра N
Анализ результатов эксперимента показывает, что оптимальным значением является N = 20 при точности классификации в 97%.
Так же был проведен эксперимент по сравнению характеристик разработанного алгоритма с традиционным подходом с использованием МЧКК. Для данного эксперимента была сформирована обучающая выборка из 1000 звуков различных фонем русского языка, из которых 500 соответствуют фонеме [а] и тестовая выборка из 200 звуковых реализаций фонемы [а] русского языка. Тестовая и обучающая выборки представляют собой непересекающеюся множества. В качестве классификатора использовался нелинейный МОВ с подбором оптимальных параметров методом кросспроверки. Точность классификации с использованием разработанного алгоритма составила 81.3%, что на 2% превышает точность классификации с использованием МЧКК Таким образом, точность классификации с использованием МЧКК и разработанного алгоритма на основе вейвлет-преобразования отличается незначительно, однако, методика извлечения признаков из речевых сигналов с использованием вейвлет–преобразования обладает более высоким потенциалом для оптимизации.
Так же проведена серия экспериментов по распознавания акустически схожих речевых сигналов для алгоритма описанного в разделе 2.2. Данная серия экспериментов включает эксперимент по классификации фонем по группам и эксперимент по точной идентификации фонемы внутри группы. Разделение процедуры идентификации фонемы на два этапа вызвано тем, что точность классификации отдельной фонемы среди всех фонем русского языка не превышает 82%, как показали предыдущие эксперименты. В связи с этим, сделана попытка разделить фонемы на группы близкорасположенных в признаковом пространстве фонем, а в последствии разделить фонемы в группе дополнительным классификатором. Для проведения данного эксперимента была сформирована обучающая выборка из 4500 звуковых реализаций фонем, в среднем 100 реализаций на каждую фонему. В качестве тестовой выборки использовались 100 реализаций на каждую из четырех фонем: [а, м, н, д]. Фонемы сегментированы на 9 групп по расположению на плоскости классификации «место-способ». Обучение классификаторов первого этапа осуществлялось по схеме «каждый против всех», второго этапа – «каждый против каждого». Оптимальные параметры нелинейных классификаторов определялись методом кросспроверки с использованием 25% обучающей выборки в качестве контрольных данных.
Для сравнения характеристик разработанных алгоритмов проведено сравнительное тестирование с использованием алгоритма на основе нейронных сетей (НС). Результаты экспериментов приведены в таблицах Таблица 1, Таблица 2, Таблица 3.
Таблица 1 – Результаты эксперимента по точности идентификации фонемы с использованием МЧКК
[а] | [м] | [н] | [д] | |
Точность определения группы, % | 97 | 91 | 90 | 91 |
Точность определения фонемы внутри группы, % | 89 | 84 | 83 | 89 |
Таблица 2 – Результаты эксперимента по точности идентификации фонемы с использованием разработанного алгоритма извлечения векторов признаков.
[а] | [м] | [н] | [д] | |
Точность определения группы, % | 99 | 92 | 93 | 92 |
Точность определения фонемы внутри группы, % | 99 | 94 | 93 | 95 |
Таблица 3 – Суммарная точность предложенного алгоритма и классификации с использованием НС.
[а] | [м] | [н] | [д] | |
Суммарная точность предложенного алгоритма, % | 89 | 85 | 83 | 85 |
Точность классификатора на основе НС, % | 85 | 79 | 76 | 77 |
Анализ результатов данных экспериментов показал, что точность классификации фонем с использованием разработанного алгоритма превышает точность традиционного алгоритма на основе нейронных сетей в среднем на 6%.
В ходе данной работы были получены следующие результаты.
Сформирована база акустических сигналов размером в 5000 звуковых реализаций различных фонем.
Разработан и исследован новый метод формирования векторов признаков на основе вейвлет преобразования Использование данного метода показало результаты, превосходящие результаты использования широко используемых методов формирования векторов признаков МЧКК на 2% при классификации фонем в общем случае и на 10% при классификации близкорасположенных в признаковом пространстве фонем.
Разработан алгоритм двухэтапной классификации фонем на основе каскадов нелинейных МОВ с использованием разработанного алгоритма извлечения векторов признаков на основе вейвлет-преобразования, использование которого продемонстрировало результаты, превосходящие результаты алгоритма с использованием НС в среднем на 6%.
Результаты данной работы были представлены на международной научно-технической конференции, посвященной 45-летию МРТИ-БГУИР, на IX международной межвузовской научно-технической конференции студентов, магистрантов и аспирантов «Исследования и разработки в области машиностроения, энергетики и управления», VI Всероссийской научной конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» и приняты к публикации в научных журналах «Речевые технологии» №3,4 2009 (Москва), «Электроника инфо» №5 2009.
1. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования // Военный университет связи, - Санкт-Петербург, 1999.
2. Местецкий Л.М. Математические методы распознавания образов // Курс лекций, МГУ ВМиК, кафедра «Математические методы прогнозирования», - Москва, 2002-2004.
3. Пилипенко В.В. Технология распознавания большого количества образов на примере распознавания речи из сверхбольшого словаря // SpeechCon, - Москва, 2006. - C 53-54
4. Солдатов С. Lip Reading: Preparing Feature Vectos // International Conference Graphicon, - Москва, 2003.
5. Раев А.Н. Области применения систем идентификации дикторов, использующих разные первичные описания речи (MFCC и положение формант) // Biometrics AIA 2006 LEGS.
6. Фанг Г. Акустическая теория речеобразования: Пер. с англ. // Москва, Наука, 1964, - С 284.
7. Фланаган Джеймс Л. Анализ, синтез и восприятие речи // Связь, - Москва, 1968.
8. Barket J.M., Deng Li, Historical development and future directions in speech recognition and understanding // Report of Speech Understanding Working Group, MINDS 2006-2007.
9. Chen J.K., Lee L.S., Soong F.K. Large vocabulary, word-based mandaring dictation system // Speech communication and technology: European conf. ESCA – Madrid, 1995, p. 285 – 288.
10. Luettin Juergen, Visual speech and speaker recognition // Department of Computer Science University of Sheffield, 1997.
1. А. Сорока А.М., Янь Цзинбинь, У Ши, Егоров В.Н., Трус А.А. Использование синтезатора речи по тексту в задачах образования // Тезисы международной научно-технической конференции, посвященной 45-летию МРТИ-БГУИР, - Минск, 2009 - С. 291.
2. А. Сорока А.М., Алиев Р.М., Трус А.А., Многокомпонентная система на платформе .NET для настройки и оптимизации алгоритмов анализа аудиосигналов // Труды VI Всероссийской научной конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» - Москва, 1-2 апреля 2009г., - С 53-54.
3. А. Сорока А.М., Янь Цзинбинь, У Ши, Трус А.А. Классификация аудиосигналов с использованием одноклассового метода опорных векторов для систем поиска информации в мультимедиа архивах // «Речевые технологии» №4 (факт. вр. публ. - август 2009г.), - Москва, 2008 - С 15-24.
4. А. Сорока А.М., Янь Цзинбинь, Трус А.А., Хейдоров И.Э., Верификация ключевых слов на основе мер доверительности и метода опорных векторов // «Электроника инфо» №5 – Минск, 2009 - С 44-49.
5.-А.Сорока А.М., Трус А.А. Алгоритм построения векторов признаков на основе вейвлет-преобразования для классификации фонем русского языка // Труды 52-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», - Москва-Долгопрудный, 2009 - С 103–106.
6.-А.Сорока А.М., Янь Цзинбинь Разработка метода создания сети спутывания // Труды 52-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», - Москва-Долгопрудный, 2009, - С 118-120.
А
Аллофон, 5, 6, 7
комбинаторный, 7
позиционный, 7
В
Вектор признаков, 8, 9
Д
Дискриминантный подход, 10
Дифон, 6
М
мелчастотные кепстральные коэффициенты, 14, 17
метод опорных векторов, 5, 12, 13, 14, 16
Минимальная речевая еденица, 6
Минимальная речевая единица, 7, 8, 12
П
Преобразование
вейвлет, 5, 9, 13, 14, 17
Фурье, 9
Признак, 8, 9
С
скрытая Марковская Модель, 5, 12
Структурный подход, 10
Т
Таксон, 10, 11
Трифон, 6
Ф
Фонема, 5, 7, 8, 13
Э
Эффект
коартикуляции, 8
редукции, 8
1. http://www.machinelearning.ru/ - профессиональный информационно-аналитический ресурс, посвященный машинному обучению, интеллектуальному анализу данных и распознаванию образов. Содержит большое количество научных статей, постоянно обновляется. В рамках данного ресурса функционирует проект «Полигон», целью которого является создание распределенной системы тестирования алгоритмов классификации.