Таллиннский Технический Университет

Реферат на тему N⁰199:

Распознавание речи в системах отлова данных

Подготовил студент

3-его курса

группы LAS-62:

Денис Курочкин 001597

Таллинн 2003

ВВЕДЕНИЕ

Программы распознавания речи и преобразования ее в текст. Позволяют диктовать компьютеру на определенном языке для быстрого введения текстов в компьютер практически в любом редакторе под Windows. Позволяют вводить тексты со скоростью от 600 до 1000 знаков в минуту. При этом возможна корректировка введеной информации. Программы распознования речи нашли свое применение и в области телефонии, что позволило мне наиболее ярко описать принцип их работы, устройства и т.д.

Распознавание речи в телефонии

Технология распознавания речи позволяет строить приложения телефонных услуг, в которых абонент осуществляет выбор в меню не тональным набором, а произнося голосовые команды. Система стала привлекательнее для абонента за счет более дружественного и естественного интерфейса.

Использование распознавания речи позволяет создавать такие системы, которые было практически невозможно реализовать, имея в качестве интерфейса только тональный набор. Например, система автоматического бронирования авиабилетов по телефону подразумевает выбор из большого числа городов, и тональное меню здесь практически нереализуемо. При использовании же распознавания речи, диалог системы с пользователем может выглядеть примерно так:

Система: Назовите город вылета
Абонент: Москва
Система: Назовите город прилета
Абонент: Хабаровск
Система: Назовите дату
Абонент: 15 июля

т.е. максимально естественно и приближенно к обслуживанию живым оператором.

Такие системы уже много лет широко внедряются на Западе, однако до недавнего времени не было системы распознавания русской речи, которую можно было бы использовать в телефонных системах с достаточным для коммерческой эксплуатации качеством. Такая система появилась в 2002 г.

Один из ведущих производителей систем распознавания речи в телефонии, компания Philips Speech Processing (подразделение Philips, занимающееся технологиями распознавания речи), добавила русский язык к списку языков, поддерживаемых их продуктом SpeechPearl^R.

SpeechPearl - это программный инструментарий для реализации функций распознавания речи в телефонных приложениях с использованием оборудования компьютерной телефонии Intel.

Основные характеристики:

Дикторонезависимое распознавание. Если необходимо, возможен также и дикторозависимый режим работы.
Без необходимости настройки на голос. Если необходимо, возможен также и режим работы с настройкой на голос.
Распознавание непрерывной речи - поддержка технологии Intel Continuous Speech Processing (CSP - "непрерывная обработка речи").
45 поддерживаемых языков, включая русский, английский, немецкий, испанский, французский и др.
Произвольный словарь распознаваемых слов, составляемый разработчиком приложения самостоятельно.

Максимальный размер возможного словаря в одном приложении - 1,500,000 (полтора миллиона) распознаваемых слов (применяется в городских телефонных справочных и т.п.)

Построение систем с распознаванием речи

Для практической реализации телефонного приложения с функциями распознавания речи необходимы следующие аппаратные и программные компонетны:

Платы с соответствующими ресурсами
Firmware CSP
Модуль распознавания

Платы

Intel Dialogic предлагает целый ряд плат со специализированными DSP ресурсами, способными выполнять функции непрерывной обработки речи. Это голосовые платы серии "J", а так же платы семейства DM3 серии "A".

На сегодняшний день доступны следующие платы "J-серии" и DM3 платы "A-серии":

Модели	CSP ресурсов	Голосовых ресурсов	Интерфейс с линией	Прочее
D/41JCT-LS	4	4	4 аналог.	4 softfax *)
D/120JCT-LS	12	12	12 аналог.	4 softfax
VFX/41JCT-LS	4	4	4 аналог.	4 факс. ресурса
D/42JCT-U	4	4	4 циф. PBX	1 softfax
D/82JCT-U	8	8	8 циф. PBX	2 softfax
D/600JCT-1E1	30	30	1 E1	4 softfax
DM/V600A-2E1	60	60	2 E1	60 конф. ресурсов
DM/V1200A-4E1	120	120	4 E1	120 конф. ресурсов
DM/V2400A	120	240	-	120 конф. ресурсов

*) Функции softfax и CSP нельзя использовать одновременно.

Все платы имеют шину H.100 CTbus. Функциональность плат постоянно развивается с выходом новых версий драйверов. Кроме названных, выпускаются новые модели плат. Следите за изменениями в таблице.

В принципе, используя программный модуль распознавания, можно создавать системы с распознаванием речи и на любых других голосовых платах, таких как D/41ESC, D/300SC-2E1 и т.п. Но тогда либо будет невозможно использовать функцию barge-in, и придется строить меню в виде "после звукового сигнала назовите....", либо выносить barge-in функциональность на хост-процессор, что отрицательно скажется на качестве и на производительности системы.

Firmware CSP

Бортовое программное обеспечение firmware, реализующее CSP-функциональность на платах серии "J" и "A", входит в комплект драйверов и SDK Intel Dialogic, распространяемых бесплатно.

Модуль распознавания речи

Для распознавания произносимых абонентом слов используется программный модуль распознавания речи. Русскоязычное распознавание с поддержкой CSP реализуется продуктом Philips SpeechPearl^R.

Технология непрерывной обработки речи CSP

CSP (Continuous Speech Processing) - технология непрерывной обработки речевого сигнала, разработанная и реализованная Intel для высокопроизводительных систем распознавания речи. CSP предоставляет разработчикам речевых приложений следующие преимущества:

Экономичность - снижает стоимость платформ распознавания речи
Производительность - уменьшает задержки и повышает скорость ответа
Точность - повышает точность распознавания
Масштабируемость - делает возможным поэтапный переход от малых систем к крупным
Емкость - позволяет строить системы с большим числом портов

Barge-In

Ключевым функциональным преимуществом, которое дает CSP, является barge-in - возможность перебивать систему, произнося команды, не дожидаясь окончания проигрывания приветствий и/или меню. Это позволяет абонентам, уже знакомым с системой, не тратить время на прослушивание всех проигрываемых пунктов меню, а произносить команды немедленно. Поэтому с такой системой значительно приятней общаться, не говоря уже о том, что это экономит время звонящего и позволяет системе обслужить большее количество абонентов.

В таблице приведен типичный сценарий работы системы с barge-in.

Событие/действие Направление Описание 1. Клиент звонит в компанию АБВком

Звонок попадает в Call-центр компании АБВком с функциями распознавания речи 2. Клиент слышит приветствие и меню: "Здравствуйте, Вы позвонили в компанию АБВком. Назовите технологию, которая Вас интересует или сотрудника, с которым Вы хотите связаться. Для связи с секре[!!!]тарем скажите "помощь" в любое время. Вы можете выбрать одну из следующих технологий: ..."

Клиенту проигрывается приветствие и меню первого уровня 3. Клиент перебивает меню: "Иван Петров"

Выполняются следующие функции CSP:

Воспроизведение прекращается
Входящий сигнал очищается от эха
Выделенный голосовой сигнал "Иван Петров" и речевой буфер отправляются на хост-процессор модулю распознавания

4. Клиент слышит: 'Идет соединение с Иваном Петровым"...

Модуль распознавания распознает произнесенные слова, и Call центр соединяет клиента с Иваном Петровым

Ключевой момент происходит в п.3, когда клиент перебивает систему на слове "секретарь", что в таблице помечено знаком [!!!]. Воспроизведение меню немедленно прекращается, и происходит переход к п.4. При этом клиент не теряет времени на прослушивание уже не интересующей его части меню (выделенной курсивом в п.2)

Принцип работы CSP

Обычно, когда абонент произносит что-то во время воспроизведения, входящий сигнал представляет собой смесь из голосового сигнала, эха от воспроизведения и шума в линии. Для обработки такого сигнала требуется большая вычислительная мощность. CSP берет эти функции на себя, выполняя их на DSP-процессорах плат Dialogic, и таким образом разгружая хост-процессор компьютера. Проводя предварительную обработку сигнала, CSP отправляет модулю распознавания, выполняемому на хост-процессоре компьютера, "чистый" речевой фрагмент, готовый к распознаванию. Это позволяет значительно повысить общую производительность системы, увеличить размер распознаваемых словарей и существенно повысить емкость решения.

Итак, CSP - это набор функций бортового программного обеспечения firmware плат Intel Dialogic, отвечающих за обработку звукового сигнала. Функции CSP в режиме реального времени определяют, что данный звуковой сигнал представляет собой человеческую речь, производит предварительную его обработку и передает на хост-процессор компьютера в "удобном" для модуля распознавания виде.

Такой подход позволяет существенным образом разгрузить хост-процессор компьютера. Без использования CSP хост-процессор непрерывно получает данные от DSP платы Dialogic со всех ее телефонных портов, получая тем самым серьезную загрузку. Кроме того, этот получаемый от DSP сигнал никак не обработан, и хост-процессору нужно самостоятельно обрабатывать его еще до того как отдать на вход модулю распознавания (например, определять, представляет ли этот сигнал человеческую речь или посторонний звук). Все это дает лишнюю нагрузку на хост, ухудшает производительность и качество распознавания, снижает возможную емкость системы и заставляет устанавливать более мощные и дорогостоящие процессорные ресурсы. Всего этого удается избежать при использовании плат с firmware CSP.

на тему N (стр. 1 из 2)