Смекни!
smekni.com

«Применение информационных технологий для разработки голосового интерфейса измерительных приборов» (стр. 2 из 2)

Модель речевого сигнала, рассматриваемая в данной работе, предполагает классификацию речевого сегмента с точки зрения возможности декомпозиции его на гармоническую и шумовую компоненты. Признаком такой возможности является вокализованность сегмента (рис. 1).

В такой модели важнейшим аспектом является корректное определение гармонической и шумовой компонент. Существуют различные подходы к их разделению. Так, например, в [2] сегмент речи представлен суммой гармонической и шумовой составляющих, спектры которых находятся соответственно до и после так называемой максимальной частоты вокализованности. Подход [4] характеризуется определением вокализованности в определенных частотных полосах.

Рисунок 1. Схема декомпозиции речевого сигнала в вокодере, основанном на раздельном кодировании гармонической, шумовой и переходной компонент

Данные подходы не вполне адекватно описывают речевой сигнал, поскольку в них используются бинарные решения о вокализованности сигнала в целой полосе частот. Отличие рассматриваемой модели анализа–синтеза речи от вышеупомянутых состоит в использовании для декомпозиции речевого сигнала дискретного преобразования Фурье, согласованного с изменением контура частоты основного тона [5–7]. Этот подход позволяет разделить гармоническую и шумовую составляющие во всем речевом спектре.

Математическая модель упрощённа в аналитическом виде может быть представлена следующим образом:

где F0 — частота основного тона; Ak — амплитуда k-й гармонической компоненты; θk — фаза k-й гармонической компоненты; M — количество гармоник; Fs — частота дискретизации.

Реализовать данную модель позволил мощнейший инженерный пакет программ MATLAB. А конкретнее пакет инструментов данного приложения: Signal Processing Toolbox. В частности алгоритмы ДПФ реализовывались встроенными функциями fft и ifft. Реализация фильтров, преобразования линейных систем, статистическая обработка сигналов и спектральный анализ, всё это смоделировано в приложении MATLAB [9]

Глава 3 Основные результаты

Основным результатом данной работы должен стать самостоятельный программный модуль, интегрируемый в систему цифрового осциллографа. Задачей этого модуля и станет обеспечение дополнительного канала связи между оператором и устройством. В идеале, обмен информацией по голосовому каналу планируется двусторонний. Однако реализация такой схемы достаточно объёмная и, во многом, нетривиальная задача. Поэтому основной упор будет сделан на разработку системы, относящейся к классу систем речевого ответа. Цифровой осциллограф сможет озвучивать результаты измерений, а также голосом выдавать собственные аналитические заключения.

Заключение

Практическое значение данной работы таково, что разработанная система речевого сопровождения измерительной информации может быть применена в проекте «Smart Home», разрабатываемого на кафедре системного анализа факультета радиофизики и электроники Белорусского государственного университета, а также в проекте «Цифровой осциллограф» кафедры информатики того же факультета. Кроме того разработанная система может стать удобным и простым помощником при отладке сложных микропроцессорных систем. А также результаты данной дипломной работы будут использоваться в лабораторном практикуме, связанном с микроконтроллерами.

А главное созданная система даёт большие возможности для дальнейшей оптимизации и адаптации под конкретные нужды пользователя.

Список литературы к реферату

1. Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.

2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.

3. Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.

4. Griffin D., Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223–1235.

5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2–12.

Предметный указатель к реферату


M

MATLAB, 8

P

PC, 3

S

Signal Processing Toolbox, 8

Г

Гармонический сигнал, 6

И

Измерительная информация, 3

М

Модель речевого сигнала, 7

П

Преобразования Фурье, 7

Р

Речь, 6

С

Слух, 3

Ц

Цифровой осциллограф, 8


Интернет ресурсы в предметной области исследования

1. http://ru.wikipedia.org/wiki/Интерфейс - Доступное и понятное определение сущности интерфейса в самой популярной интернет энциклопедии Wikipedia.

2. http://blogs.pcmag.ru/node/1105 - Несколько интересных обзорных статей, сравнивающих наиболее доступные на данный момент голосовые интерфейсы.

3. http://usethics.ru/blog/lib/future_ui/ - Ресурсы, посвящённые обсуждению и обзору новых видов интерфейсов.

4. http://weblinks.ru/blog/technopark/1794.html - Самые удачные примеры VUI по версии разработчиков.

5. http://googlesworld.wordpress.com/2006/04/12/voice-interface-for-a-search-engine-patent-won/ - Обсуждение вопросов использования голосового интерфейса в технологии интернет поиска

6. http://www.biometricnews.net/articles/Biometrics_Article_Voice_Recognition.pdf - Обсуждения использования распознавания голоса в биометрических технологиях

7. http://www.sasked.gov.sk.ca/docs/physics/u5c42phy.html - Страница, посвящённая рассмотрению роли гармонического анализа голоса.

8. http://journals.aip.org/ - Ссылка на сайт он-лайн журнала американского акустического общества.

Действующий личный сайт в WWW

http://nastya-sheybak.narod.ru/ - личный сайт, посвящённый магистерской работе автора.

Граф научных интересов

магистранта Шейбак А.Н. факультета Радиофизики и Компьютерных технологий

специальности компьютерная безопасность

(аппаратное и программно-техническое обеспечение информационной безопасности)

Смежные специальности

Основная специальность

05.13.19 – методы и системы защиты информации, информационная безопасность, физ.-мат.

1. Математические модели.

2. Проблемы безопасности информационных технологий.

Сопутствующие специальности

05.11.01 – приборы и методы измерения по видам измерений (измерения механических величин)
1. Разработка методов обработки, хранения и воспроизведения результатов измерений и контроля физических величин, определяющих геометрические, кинематические, динамические параметры технических средств.
05.13.01 – системный анализ, управление и обработка информации, физ.-мат., техн.
1. Методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений в технических, экономических и социальных системах.

Тестовые вопросы

по предмету «Основы информационных технологий»

Вопрос 1. Какие виды интерфейсов взаимодействия человека и компьютера можно отнести к графическим?

1. Интерфейс командной строки

2. GUI

3. Touch screen

4. VUI

Вопрос 2. Перечислите интернет технологии которые появились с приходом Web 2.0.

1. Flash

2. Javascript

3. AJAX

4. OpenID

Презентация магистерской диссертации

Презентацию магистерской диссертации можно скачать по ссылке в Интернете или посмотреть в приложении.

Список литературы к выпускной работе

1. Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.

2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.

3. Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.

4. Griffin D., Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223–1235.

5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2–12.

6. Petrovsky A., Zubricki P., Savicki A. // Proc. Europ. Conf. on Circuit Theory and Design. 2003. Vol. 3. P. 169–172.

7. Sercov V., Petrovsky A. // Proc. EUROSPEECH’99. 1999. P. 1479–1482.

8. Gersho A., Gray R.M. Vector Quantization and Signal Compression. Kluwer

9. Солонина А.// Цифровая обработка сигналов. Моделирование в MATLAB, 2008, М.

Приложение

Презентация магистерской работы