Смекни!
smekni.com

«Применение информационных технологий для разработки голосового интерфейса измерительных приборов» (стр. 1 из 2)

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по предмету

«Основы информационных технологий»

3ФР73

Аспирант (магистрант)

кафедры информатики

Шейбак Анастасия Николаевна

Руководители:

Доцент Афанасьев Геннадий Константинович,

Доцент Кожич Павел Павлович

Минск – 2010 г.

Оглавление

Список обозначений ко всей выпускной работе. 2

Реферат. 3

Введение. 3

Глава 1 Обзор литературы.. 4

Глава 2 Методика исследования и описание системы.. 6

Глава 3 Основные результаты.. 8

Заключение. 8

Список литературы к реферату. 9

Предметный указатель к реферату. 10

Интернет ресурсы в предметной области исследования. 11

Действующий личный сайт в WWW... 12

Граф научных интересов. 13

Тестовые вопросы.. 14

Презентация магистерской диссертации. 15

Список литературы к выпускной работе. 16

Приложение. 17

Список обозначений ко всей выпускной работе

БПФ – быстрое преобразование Фурье

FFT (fast Fourier transform) – от англ. Быстрое преобразование Фурье

GUI (Graphic user interface) – от англ. Графический интерфейс пользователя

VUI (Voice user interface) – от англ. Голосовой интерфейс пользователя

Реферат

на тему «Применение информационных технологий для разработки голосового интерфейса измерительных приборов»

Введение

Посредством звука человек получает до 16% информации при взаимодействии со своим окружением. Таким образом, слух является вторым по важности органом чувств, благодаря которому мы познаём мир. XXI век стал поистине веком информации. Веком, когда человек постоянно взаимодействует с многочисленными искусственными информационными системами практически во всех сферах своей жизни. Самым распространённым каналом обмена информации при этом по праву является визуальный. Однако возможность получения информации посредством сразу двух дополняющих друг друга каналов позволило бы качественно преобразовать взаимодействие человека с информационными системами. Таким образом, благодаря созданию речевого сопровождения различного рода данных, открывается дополнительный канал обмена информации.

Одним из наиболее актуальных направлений применения речевого сопровождения является измерительная информация. То, что измерено всегда лучше не только увидеть, но и прослушать. Это позволило бы ускорить восприятие информации, а в ряде случаев и распараллелить восприятие сразу из нескольких источников, оптимизируя тем самым работу с измерительными приборами.

Эксплуатация второго канала связи становится необходимостью в случае, когда отображение информации графически либо сильно ограничено, либо вообще невозможно. Примером здесь может служить стартовый этап загрузки PC, когда ещё до возможности отобразить что-либо на мониторе, BIOS подаёт звуковые сигналы во время выполнения процедуры POST, обозначающие контрольные точки тестирования оборудования и подготовки к началу работы, инициализации в памяти начальных данных. Целым направлением деятельности, соответствующем подобному случаю является отладка сложных микропроцессорных систем на основе микроконтроллеров. Зачастую такие системы имеют весьма ограниченный набор средств, отображающих информацию о том, что в данный момент происходит в контроллере. Следует отметить, что в условиях высокой производительность современных процессоров, за очень короткие времена в устройстве совершаются гигантское количество операций, отследить которые при имеющихся на платах средствах крайне затруднительно. Для этого используются специальные анализаторы и устройства синхронизации, которые по сложности порой превосходят отлаживаемую систему. Голосовые знаки, распознаваемые человеком, могли бы позволить отслеживать работу программных алгоритмов, проистекающих в микроконтроллерной системе, создавая тем самым удобную поддержку отладки в существенно новом качестве.

Таким образом, для открытия второго канала получения данных из информационного устройства необходимо создать систему, относящуюся к классу систем речевого ответа [2].

При этом надо отдавать отчёт в том, что каждая информационная система, а особенно это касается микроконтроллеров, имеют свои собственные специфические задачи, на которые должна выделяться основная часть аппаратных ресурсов разрабатываемого устройства. Поэтому, создавая системы, реализующие речевую поддержку информации, необходимо до предела уменьшить используемые ресурсы, чтобы минимально влиять на выполнение основных функций и алгоритмов, для которых создавалось устройство.

Для создания реально действующей системы обмена информацией между оператором и системой необходимо привлечение самых передовых информационных технологий. Это, в первую очередь, технология объектно-ориентированного программирования, необходима для написания качественного программного обеспечения. Кроме того широчайшее использование программного пакета для инженеров MATLAB позволит реализовать весь необходимый в расчётах математический аппарат.

Глава 1 Обзор литературы

Голосовой интерфейс для взаимодействия с компьютером – давно не новость. Он годами присутствует, к примеру, в дистрибутивах Windows. Вот только пользоваться им, как показывает опыт немногочисленных пытливых исследователей, пока не слишком удобно.

Хотя в последних версиях самой популярной операционной системы ситуация обещает измениться. В новой операционной системе Windows 7 используется важная инновация – голосовой интерфейс. Эта функция будет доступна и в других версиях программных продуктов Microsoft, в частности – в будущей версии офисного пакета Microsoft Office 2010. Распознавание речи позволит применить в программных продуктах новый тип интерфейса – голосовой, с помощью которого можно управлять компьютером без клавиатуры и мыши.

«Голос является новым типом интерфейса для операционных систем. Такой тип интерфейса представляет собой результат естественной эволюции современных способов управления компьютером вслед за клавиатурой и сенсорным экраном, – отмечает Зиг Серафин (Zig Serafin), руководитель группы распознавания голоса Microsoft. – Скоро голосовое управление станет таким же привычным способом задать команду компьютеру, каким еще недавно были клавиатура и мышь. Концепция, впервые сформулированная Биллом Гейтсом более 10 лет назад, сегодня стала реальностью».

Функция распознавания речи в Windows 7 является продолжением интерфейса, появившегося еще в Windows Vista, только улучшенного и более функционального.

Наиболее органичным выглядит внедрение нового способа общения человека с машиной в мобильных устройствах связи. Наибольшего успеха в этой сфере добилась фирма Apple, создавшая новую версию своего знаменитого смартфона iPhone: iPhone 3G S. Благодаря передовым технологиям разработки распознавателей голоса, данная модель позволяет выбирать абонента либо композицию в плейере по речевому сообщению, поступившему на динамик.

Не отстаёт в этой сфере и интернет. Продолжая экспансию на просторах сети Интернет, Google пытается сделать всю информацию как можно более доступной и легко находимой. Продвигаясь в этом направлении, Google разработал голосовой интерфейс для поисковых систем. Патент номер 7.027.987, выданный 11 апреля 2006 года Бюро Патентов и Торговых Марок США, стал для SEO-сообщества настоящей сенсацией. Это событие может показаться неожиданным, но для него были серьезные предпосылки.

Во-первых, давайте обратимся к патенту, а именно к его авторам. Моника Хензингер, Александр Франц, Брайан Мильх и Сергей Брин. Эти имена, несомненно, стоит запомнить.

Патент предлагает следующее описание интерфейса: «система, представляющая поисковые результаты по голосовым запросам». Получив устный запрос от пользователя, система выводит одну или несколько гипотез оптимального различения, каждая из которых ассоциируется с весом запроса. После этого формируется взвешенный булевый запрос на основе оптимального различения гипотез. Затем данный запрос адресуется поисковой системе, которая в свою очередь предоставляет возможные результаты поиска пользователю.

Это более сложный процесс, чем описанный в работе Александра Франца и Брайана Мильха — «Голосовой поиск в Сети», появившейся в 2002 г. Тогда авторы проанализировали трудности, возникающие на пути создания интерфейса голосового поиска. Результатом этого труда было утверждение, что интерфейс сможет правильно представить устный запрос в 10 первых гипотезах, т.е. приблизительно в 60% случаев. Для того времени это был прорыв. Прошло 4 года, за которые многое изменилось и усовершенствовалось.

Глава 2 Методика исследования и описание системы

Большинство сигналов в природе, включая речь и музыку, могут быть описаны при помощи гармонической модели, которая определяется следующим набором параметров: фундаментальной частотой, амплитудой и фазой каждой частотной компоненты. Гармонический сигнал генерируется серией синусоид или гармонических компонент, частоты которых являются целочисленным кратным некоторой фундаментальной частоты. Данная модель является весьма эффективным решением для большого количества приложений кодирования сигнала, так как позволяет представить сигнал с помощью достаточно компактного набора параметров.

Некоторые сегменты речевого сигнала сложно разделить на периодическую и апериодическую составляющие, используя гармоническую и шумовую модели. Это происходит при попадании в сегмент взрывных звуков, наличии в сегменте одновременно гласных и глухих согласных, присутствии каких-то локальных явлений. Следующей ступенью развития представления речевого сигнала стала гибридная модель [3], предусматривающая три возможных класса для сегмента речи — вокализованный, невокализованный, переходный. Особенностью ее является анализ–синтез переходных сегментов во временной области, в то время как вокализованные и невокализованные сегменты обрабатываются в частотной области.