Таллиннский Технический Университет
Реферат на тему N0199:
Распознавание речи в системах отлова данных
Подготовил студент
3-его курса
группы LAS-62:
Денис Курочкин 001597
Таллинн 2003
Программы распознавания речи и преобразования ее в текст. Позволяют диктовать компьютеру на определенном языке для быстрого введения текстов в компьютер практически в любом редакторе под Windows. Позволяют вводить тексты со скоростью от 600 до 1000 знаков в минуту. При этом возможна корректировка введеной информации. Программы распознования речи нашли свое применение и в области телефонии, что позволило мне наиболее ярко описать принцип их работы, устройства и т.д.
Технология распознавания речи позволяет строить приложения телефонных услуг, в которых абонент осуществляет выбор в меню не тональным набором, а произнося голосовые команды. Система стала привлекательнее для абонента за счет более дружественного и естественного интерфейса.
Использование распознавания речи позволяет создавать такие системы, которые было практически невозможно реализовать, имея в качестве интерфейса только тональный набор. Например, система автоматического бронирования авиабилетов по телефону подразумевает выбор из большого числа городов, и тональное меню здесь практически нереализуемо. При использовании же распознавания речи, диалог системы с пользователем может выглядеть примерно так:
Система: Назовите город вылета
Абонент: Москва
Система: Назовите город прилета
Абонент: Хабаровск
Система: Назовите дату
Абонент: 15 июля
т.е. максимально естественно и приближенно к обслуживанию живым оператором.
Такие системы уже много лет широко внедряются на Западе, однако до недавнего времени не было системы распознавания русской речи, которую можно было бы использовать в телефонных системах с достаточным для коммерческой эксплуатации качеством. Такая система появилась в 2002 г.
Один из ведущих производителей систем распознавания речи в телефонии, компания Philips Speech Processing (подразделение Philips, занимающееся технологиями распознавания речи), добавила русский язык к списку языков, поддерживаемых их продуктом SpeechPearlR.
SpeechPearl - это программный инструментарий для реализации функций распознавания речи в телефонных приложениях с использованием оборудования компьютерной телефонии Intel.
Основные характеристики:
Максимальный размер возможного словаря в одном приложении - 1,500,000 (полтора миллиона) распознаваемых слов (применяется в городских телефонных справочных и т.п.)
Для практической реализации телефонного приложения с функциями распознавания речи необходимы следующие аппаратные и программные компонетны:
Intel Dialogic предлагает целый ряд плат со специализированными DSP ресурсами, способными выполнять функции непрерывной обработки речи. Это голосовые платы серии "J", а так же платы семейства DM3 серии "A".
На сегодняшний день доступны следующие платы "J-серии" и DM3 платы "A-серии":
Модели | CSP ресурсов | Голосовых ресурсов | Интерфейс с линией | Прочее |
D/41JCT-LS | 4 | 4 | 4 аналог. | 4 softfax *) |
D/120JCT-LS | 12 | 12 | 12 аналог. | 4 softfax |
VFX/41JCT-LS | 4 | 4 | 4 аналог. | 4 факс. ресурса |
D/42JCT-U | 4 | 4 | 4 циф. PBX | 1 softfax |
D/82JCT-U | 8 | 8 | 8 циф. PBX | 2 softfax |
D/600JCT-1E1 | 30 | 30 | 1 E1 | 4 softfax |
DM/V600A-2E1 | 60 | 60 | 2 E1 | 60 конф. ресурсов |
DM/V1200A-4E1 | 120 | 120 | 4 E1 | 120 конф. ресурсов |
DM/V2400A | 120 | 240 | - | 120 конф. ресурсов |
*) Функции softfax и CSP нельзя использовать одновременно.
Все платы имеют шину H.100 CTbus. Функциональность плат постоянно развивается с выходом новых версий драйверов. Кроме названных, выпускаются новые модели плат. Следите за изменениями в таблице.
В принципе, используя программный модуль распознавания, можно создавать системы с распознаванием речи и на любых других голосовых платах, таких как D/41ESC, D/300SC-2E1 и т.п. Но тогда либо будет невозможно использовать функцию barge-in, и придется строить меню в виде "после звукового сигнала назовите....", либо выносить barge-in функциональность на хост-процессор, что отрицательно скажется на качестве и на производительности системы.
Бортовое программное обеспечение firmware, реализующее CSP-функциональность на платах серии "J" и "A", входит в комплект драйверов и SDK Intel Dialogic, распространяемых бесплатно.
Для распознавания произносимых абонентом слов используется программный модуль распознавания речи. Русскоязычное распознавание с поддержкой CSP реализуется продуктом Philips SpeechPearlR.
CSP (Continuous Speech Processing) - технология непрерывной обработки речевого сигнала, разработанная и реализованная Intel для высокопроизводительных систем распознавания речи. CSP предоставляет разработчикам речевых приложений следующие преимущества:
Ключевым функциональным преимуществом, которое дает CSP, является barge-in - возможность перебивать систему, произнося команды, не дожидаясь окончания проигрывания приветствий и/или меню. Это позволяет абонентам, уже знакомым с системой, не тратить время на прослушивание всех проигрываемых пунктов меню, а произносить команды немедленно. Поэтому с такой системой значительно приятней общаться, не говоря уже о том, что это экономит время звонящего и позволяет системе обслужить большее количество абонентов.
В таблице приведен типичный сценарий работы системы с barge-in.
Событие/действие Направление Описание 1. Клиент звонит в компанию АБВком Звонок попадает в Call-центр компании АБВком с функциями распознавания речи 2. Клиент слышит приветствие и меню: "Здравствуйте, Вы позвонили в компанию АБВком. Назовите технологию, которая Вас интересует или сотрудника, с которым Вы хотите связаться. Для связи с секре[!!!]тарем скажите "помощь" в любое время. Вы можете выбрать одну из следующих технологий: ..." Клиенту проигрывается приветствие и меню первого уровня 3. Клиент перебивает меню: "Иван Петров" Выполняются следующие функции CSP:
|
Ключевой момент происходит в п.3, когда клиент перебивает систему на слове "секретарь", что в таблице помечено знаком [!!!]. Воспроизведение меню немедленно прекращается, и происходит переход к п.4. При этом клиент не теряет времени на прослушивание уже не интересующей его части меню (выделенной курсивом в п.2)
Обычно, когда абонент произносит что-то во время воспроизведения, входящий сигнал представляет собой смесь из голосового сигнала, эха от воспроизведения и шума в линии. Для обработки такого сигнала требуется большая вычислительная мощность. CSP берет эти функции на себя, выполняя их на DSP-процессорах плат Dialogic, и таким образом разгружая хост-процессор компьютера. Проводя предварительную обработку сигнала, CSP отправляет модулю распознавания, выполняемому на хост-процессоре компьютера, "чистый" речевой фрагмент, готовый к распознаванию. Это позволяет значительно повысить общую производительность системы, увеличить размер распознаваемых словарей и существенно повысить емкость решения.
Итак, CSP - это набор функций бортового программного обеспечения firmware плат Intel Dialogic, отвечающих за обработку звукового сигнала. Функции CSP в режиме реального времени определяют, что данный звуковой сигнал представляет собой человеческую речь, производит предварительную его обработку и передает на хост-процессор компьютера в "удобном" для модуля распознавания виде.
Такой подход позволяет существенным образом разгрузить хост-процессор компьютера. Без использования CSP хост-процессор непрерывно получает данные от DSP платы Dialogic со всех ее телефонных портов, получая тем самым серьезную загрузку. Кроме того, этот получаемый от DSP сигнал никак не обработан, и хост-процессору нужно самостоятельно обрабатывать его еще до того как отдать на вход модулю распознавания (например, определять, представляет ли этот сигнал человеческую речь или посторонний звук). Все это дает лишнюю нагрузку на хост, ухудшает производительность и качество распознавания, снижает возможную емкость системы и заставляет устанавливать более мощные и дорогостоящие процессорные ресурсы. Всего этого удается избежать при использовании плат с firmware CSP.