CSP firmware обеспечивает выполнение DSP-процессорам платы следующих функций:
Остановимся более подробно на ключевых элементах.
Без аппаратного эхоподавления, обеспечиваемого CSP, модуль распознавания в приведенной выше в таблице иллюстрации получил бы смесь сигнала "Иван Петров" с эхом от проигрываемого сообщения "~секре~" и, соответственно, правильное распознавание было бы невозможно. Поэтому в такой системе без CSP пункт 2 должен был бы звучать как "После звукового сигнала назовите сотрудника....", и клиент должен был бы дожидаться на линии окончания всего длинного меню, пока не услышит beep, разрешающий говорить.
Как видно из таблицы, при использовании функции эхоподавления CSP, клиент может в любой момент перебить систему. При этом произнесенные им слова будут очищены от эха и отправлены на хост в виде, пригодном для успешного распознавания.
VAD является одним из компонентов CSP, который детектирует и исследует звуковую активность, выясняя, достаточно ли звуковой энергии содержит сигнал, похож ли он на речь человека или посторонний шум в линии (треск и т.п.) Для настройки VAD доступны несколько конфигурируемых параметров. Например, можно устанавливать порог громкости, при которой система должна реагировать на сигнал. Причем эти пороги могут быть разными для случаев, когда слово произносится на фоне проигрываемого сообщения и когда абонент начинает говорить после завершения проигрывания сообщения.
Обычно голосовой сигнал не определяется VAD немедленно при возникновении. Часто энергия сигнала плавно возрастает до тех пор, пока не достигнет установленного порога, на который реагирует VAD. Например, когда произносится имя "Степан", оно начинается с тихого шипящего звука "сь". Поэтому когда VAD среагирует и даст команду передавать сигнал хост-процессору, начальные звуки слова с низкой энергией будут потеряны и распознавание может быть некорректным. Во избежание этой проблемы в CSP firmware предусмотрен предварительный буфер, в котором хранится очищенный от эха сигнал, поступающий до момента реакции VAD. И после срабатывания VAD содержимое буфера отправляется модулю распознавания вместе с остальной частью сигнала. Таким образом, речевой буфер является неотъемлемой частью VAD.
Каждому порту выделен свой речевой буфер, который может содержать речевой сигнал длиной до 250 ms (при 64Kb/s PCM кодеке).
Система эхоподавления и VAD позволяют реализовывать функции barge-in, что позволяет звонящему начинать говорить, не дожидаясь окончания проигрывания приветствия или меню. Функция barge-in аппаратно прерывает проигрывание, чтобы не мешать говорить абоненту. В то же время возможны сценарии, когда система должна реагировать только на конкретное слово звонящего, поэтому можно отключить автоматическое прерывание воспроизведения, чтобы оно не прерывалось, пока не будет распознана конкретная команда абонента.
SpeechPearl - это интегрированная среда разработки телефонных приложений с распознаванием речи. В состав этой среды входит набор инструментов, оптимизированных для создания, тестирования и настройки приложений распознавания речи.
Встроенный графический интерфейс предоставляет дружественный интерфейс для создания, настройки и тестирования грамматик и языковых ресурсов.
После того, как разработчик приложения создал диалоги и определил задачи распознавания, SpeechPearl предоставляет соответствующий инструмент для создания и оптимизации грамматик и языковых ресурсов.
Основные компоненты SpeechPearl:
Разработка крупных многорежимных систем с распознаванием речи требует интеллектуального управления распределенной архитектурой речевых серверов. Это необходимо для надежности, масштабируемости и эффективности использования ресурсов.
SpeechPath - это контроллер ресурсов. Это программный модуль, выполненный в клиент-серверной TCP/IP архитектуре. Модуль может распределять множество параллельных запросов различных типов, что позволяет осуществлять прозрачную интеграцию различных речевых модулей в сети. Балансировка нагрузки оптимизирует использование всех имеющихся в сети ресурсов распознавания речи. Интеллектуальные механизмы восстановления дают возможность строить отказоустойчивые конфигурации.
Компании Comptek (http://www.comptek.ru) и Philips Speech Processing (подразделение Philips, занимающееся речевыми технологиями) подписали дистрибьюторский контракт, в соответствии с которым Comptek будет распространять продукцию Philips Speech Processing на территории России и стран СНГ. Главный продукт западной фирмы, SpeechPearl, представляет собой набор программных модулей, библиотек и утилит для разработки систем распознавания речи для телефонных приложений, включающий поддержку русского языка на основе русских фонем.
Системы распознавания естественной речи довольно популярны и уже много лет широко внедряются на Западе. Однако до настоящего времени не было продукта для русскоязычных пользователей, который обеспечивал бы необходимое качество для его коммерческой эксплуатации в в телефонных системах. SpeechPearl обеспечивает "дикторонезависимое" распознавание, которое не требует настройки на конкретный голос, а также распознавание непрерывной речи. Система может использоваться практически во всех существующих телефонных интерактивных приложениях, в которых абонент прежде осуществлял выбор из меню тональным набором. Теперь пользователь может использовать голосовые команды, что делает интерфейс общения более естественным, повышает эффективность диалога и способствует увеличению количества звонков в систему обработки вызовов.