Модель речевого сигнала, рассматриваемая в данной работе, предполагает классификацию речевого сегмента с точки зрения возможности декомпозиции его на гармоническую и шумовую компоненты. Признаком такой возможности является вокализованность сегмента (рис. 1).
В такой модели важнейшим аспектом является корректное определение гармонической и шумовой компонент. Существуют различные подходы к их разделению. Так, например, в [2] сегмент речи представлен суммой гармонической и шумовой составляющих, спектры которых находятся соответственно до и после так называемой максимальной частоты вокализованности. Подход [4] характеризуется определением вокализованности в определенных частотных полосах.
Рисунок 1. Схема декомпозиции речевого сигнала в вокодере, основанном на раздельном кодировании гармонической, шумовой и переходной компонент
Данные подходы не вполне адекватно описывают речевой сигнал, поскольку в них используются бинарные решения о вокализованности сигнала в целой полосе частот. Отличие рассматриваемой модели анализа–синтеза речи от вышеупомянутых состоит в использовании для декомпозиции речевого сигнала дискретного преобразования Фурье, согласованного с изменением контура частоты основного тона [5–7]. Этот подход позволяет разделить гармоническую и шумовую составляющие во всем речевом спектре.
Математическая модель упрощённа в аналитическом виде может быть представлена следующим образом:
где F0 — частота основного тона; Ak — амплитуда k-й гармонической компоненты; θk — фаза k-й гармонической компоненты; M — количество гармоник; Fs — частота дискретизации.
Реализовать данную модель позволил мощнейший инженерный пакет программ MATLAB. А конкретнее пакет инструментов данного приложения: Signal Processing Toolbox. В частности алгоритмы ДПФ реализовывались встроенными функциями fft и ifft. Реализация фильтров, преобразования линейных систем, статистическая обработка сигналов и спектральный анализ, всё это смоделировано в приложении MATLAB [9]
Основным результатом данной работы должен стать самостоятельный программный модуль, интегрируемый в систему цифрового осциллографа. Задачей этого модуля и станет обеспечение дополнительного канала связи между оператором и устройством. В идеале, обмен информацией по голосовому каналу планируется двусторонний. Однако реализация такой схемы достаточно объёмная и, во многом, нетривиальная задача. Поэтому основной упор будет сделан на разработку системы, относящейся к классу систем речевого ответа. Цифровой осциллограф сможет озвучивать результаты измерений, а также голосом выдавать собственные аналитические заключения.
Практическое значение данной работы таково, что разработанная система речевого сопровождения измерительной информации может быть применена в проекте «Smart Home», разрабатываемого на кафедре системного анализа факультета радиофизики и электроники Белорусского государственного университета, а также в проекте «Цифровой осциллограф» кафедры информатики того же факультета. Кроме того разработанная система может стать удобным и простым помощником при отладке сложных микропроцессорных систем. А также результаты данной дипломной работы будут использоваться в лабораторном практикуме, связанном с микроконтроллерами.
А главное созданная система даёт большие возможности для дальнейшей оптимизации и адаптации под конкретные нужды пользователя.
1. Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.
2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.
3. Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.
4. Griffin D., Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223–1235.
5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2–12.
M
MATLAB, 8
P
PC, 3
S
Signal Processing Toolbox, 8
Г
Гармонический сигнал, 6
И
Измерительная информация, 3
М
Модель речевого сигнала, 7
П
Преобразования Фурье, 7
Р
Речь, 6
С
Слух, 3
Ц
Цифровой осциллограф, 8
1. http://ru.wikipedia.org/wiki/Интерфейс - Доступное и понятное определение сущности интерфейса в самой популярной интернет энциклопедии Wikipedia.
2. http://blogs.pcmag.ru/node/1105 - Несколько интересных обзорных статей, сравнивающих наиболее доступные на данный момент голосовые интерфейсы.
3. http://usethics.ru/blog/lib/future_ui/ - Ресурсы, посвящённые обсуждению и обзору новых видов интерфейсов.
4. http://weblinks.ru/blog/technopark/1794.html - Самые удачные примеры VUI по версии разработчиков.
5. http://googlesworld.wordpress.com/2006/04/12/voice-interface-for-a-search-engine-patent-won/ - Обсуждение вопросов использования голосового интерфейса в технологии интернет поиска
6. http://www.biometricnews.net/articles/Biometrics_Article_Voice_Recognition.pdf - Обсуждения использования распознавания голоса в биометрических технологиях
7. http://www.sasked.gov.sk.ca/docs/physics/u5c42phy.html - Страница, посвящённая рассмотрению роли гармонического анализа голоса.
8. http://journals.aip.org/ - Ссылка на сайт он-лайн журнала американского акустического общества.
http://nastya-sheybak.narod.ru/ - личный сайт, посвящённый магистерской работе автора.
магистранта Шейбак А.Н. факультета Радиофизики и Компьютерных технологий
специальности компьютерная безопасность
(аппаратное и программно-техническое обеспечение информационной безопасности)
Смежные специальности |
Основная специальность
05.13.19 – методы и системы защиты информации, информационная безопасность, физ.-мат. |
1. Математические модели. 2. Проблемы безопасности информационных технологий. |
Сопутствующие специальности
05.11.01 – приборы и методы измерения по видам измерений (измерения механических величин) |
1. Разработка методов обработки, хранения и воспроизведения результатов измерений и контроля физических величин, определяющих геометрические, кинематические, динамические параметры технических средств. |
05.13.01 – системный анализ, управление и обработка информации, физ.-мат., техн. |
1. Методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений в технических, экономических и социальных системах. |