Функциональность CSP

CSP firmware обеспечивает выполнение DSP-процессорам платы следующих функций:

Полнодуплексный режим работы - позволяет одновременно проигрывать и записывать звук на каждом из каналов
Эхоподавление - до16 ms
VAD - Voice Activity Detection определяет начало звукового сигнала в линии
Речевой буфер - существенно облегчает проблему "рваной речи" и повышает качество распознавания
Сигнализация голосового события - работая совместно с VAD, позволяет CSP firmware посылать сообщения хост-приложению
Voice-activated streaming/recording - отправляет поток голосовых данных на хост только при определении голосовой энергии в канале

Остановимся более подробно на ключевых элементах.

Эхоподавление

Без аппаратного эхоподавления, обеспечиваемого CSP, модуль распознавания в приведенной выше в таблице иллюстрации получил бы смесь сигнала "Иван Петров" с эхом от проигрываемого сообщения "~секре~" и, соответственно, правильное распознавание было бы невозможно. Поэтому в такой системе без CSP пункт 2 должен был бы звучать как "После звукового сигнала назовите сотрудника....", и клиент должен был бы дожидаться на линии окончания всего длинного меню, пока не услышит beep, разрешающий говорить.

Как видно из таблицы, при использовании функции эхоподавления CSP, клиент может в любой момент перебить систему. При этом произнесенные им слова будут очищены от эха и отправлены на хост в виде, пригодном для успешного распознавания.

Детектор голосовой активности (VAD)

VAD является одним из компонентов CSP, который детектирует и исследует звуковую активность, выясняя, достаточно ли звуковой энергии содержит сигнал, похож ли он на речь человека или посторонний шум в линии (треск и т.п.) Для настройки VAD доступны несколько конфигурируемых параметров. Например, можно устанавливать порог громкости, при которой система должна реагировать на сигнал. Причем эти пороги могут быть разными для случаев, когда слово произносится на фоне проигрываемого сообщения и когда абонент начинает говорить после завершения проигрывания сообщения.

Речевой буфер

Обычно голосовой сигнал не определяется VAD немедленно при возникновении. Часто энергия сигнала плавно возрастает до тех пор, пока не достигнет установленного порога, на который реагирует VAD. Например, когда произносится имя "Степан", оно начинается с тихого шипящего звука "сь". Поэтому когда VAD среагирует и даст команду передавать сигнал хост-процессору, начальные звуки слова с низкой энергией будут потеряны и распознавание может быть некорректным. Во избежание этой проблемы в CSP firmware предусмотрен предварительный буфер, в котором хранится очищенный от эха сигнал, поступающий до момента реакции VAD. И после срабатывания VAD содержимое буфера отправляется модулю распознавания вместе с остальной частью сигнала. Таким образом, речевой буфер является неотъемлемой частью VAD.

Каждому порту выделен свой речевой буфер, который может содержать речевой сигнал длиной до 250 ms (при 64Kb/s PCM кодеке).

Система эхоподавления и VAD позволяют реализовывать функции barge-in, что позволяет звонящему начинать говорить, не дожидаясь окончания проигрывания приветствия или меню. Функция barge-in аппаратно прерывает проигрывание, чтобы не мешать говорить абоненту. В то же время возможны сценарии, когда система должна реагировать только на конкретное слово звонящего, поэтому можно отключить автоматическое прерывание воспроизведения, чтобы оно не прерывалось, пока не будет распознана конкретная команда абонента.

SpeechPearl

SpeechPearl - это интегрированная среда разработки телефонных приложений с распознаванием речи. В состав этой среды входит набор инструментов, оптимизированных для создания, тестирования и настройки приложений распознавания речи.

Встроенный графический интерфейс предоставляет дружественный интерфейс для создания, настройки и тестирования грамматик и языковых ресурсов.

После того, как разработчик приложения создал диалоги и определил задачи распознавания, SpeechPearl предоставляет соответствующий инструмент для создания и оптимизации грамматик и языковых ресурсов.

Основные компоненты SpeechPearl:

SpeechXpert^R - графическая среда для разработки, компиляции и оптимизации грамматических и лексических блоков распознавания, проверки и редактирования лексиконов и конфигурирования серверов SpeechPearl.
Transcription Station - позволяет протоколировать диалоги из работающего приложения в виде, удобном для оценки качества распознавания и подстройки системы.
SPEval (SpeechPearl Evaluation) - инструмент оценки качества работы системы. Эта среда позволяет проверить, покрывается ли слово, сказанное абонентом, соответствующей грамматикой, устанавливать точки останова на разных уровнях в соответствии с разными режимами оценок, находит оптимальные "уровни уверенности" и измеряет производительность для различных наборов параметров распознавания.
SPTrain - позволяет создавать "тренируемые" языковые модели, что повышает производительность и ускоряет сам процесс распознавания.
SpeechPath

Разработка крупных многорежимных систем с распознаванием речи требует интеллектуального управления распределенной архитектурой речевых серверов. Это необходимо для надежности, масштабируемости и эффективности использования ресурсов.

SpeechPath - это контроллер ресурсов. Это программный модуль, выполненный в клиент-серверной TCP/IP архитектуре. Модуль может распределять множество параллельных запросов различных типов, что позволяет осуществлять прозрачную интеграцию различных речевых модулей в сети. Балансировка нагрузки оптимизирует использование всех имеющихся в сети ресурсов распознавания речи. Интеллектуальные механизмы восстановления дают возможность строить отказоустойчивые конфигурации.

Распознавание русской речи в телефонии

Компании Comptek (http://www.comptek.ru) и Philips Speech Processing (подразделение Philips, занимающееся речевыми технологиями) подписали дистрибьюторский контракт, в соответствии с которым Comptek будет распространять продукцию Philips Speech Processing на территории России и стран СНГ. Главный продукт западной фирмы, SpeechPearl, представляет собой набор программных модулей, библиотек и утилит для разработки систем распознавания речи для телефонных приложений, включающий поддержку русского языка на основе русских фонем.

Системы распознавания естественной речи довольно популярны и уже много лет широко внедряются на Западе. Однако до настоящего времени не было продукта для русскоязычных пользователей, который обеспечивал бы необходимое качество для его коммерческой эксплуатации в в телефонных системах. SpeechPearl обеспечивает "дикторонезависимое" распознавание, которое не требует настройки на конкретный голос, а также распознавание непрерывной речи. Система может использоваться практически во всех существующих телефонных интерактивных приложениях, в которых абонент прежде осуществлял выбор из меню тональным набором. Теперь пользователь может использовать голосовые команды, что делает интерфейс общения более естественным, повышает эффективность диалога и способствует увеличению количества звонков в систему обработки вызовов.