Программа Monologue, предназначенная для озвучивания текста, находящегося в буфере обмена MS Windows, использует систему ProVoice. ProVoice- компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность TD-PSOLA. Рассчитан на американский и британский английский, немецкий, французский, латиноамериканскую разновидность испанского и итальянский языки. Инвентарь сегментов компиляции - смешанной размерности: сегменты- фонемы или аллофоны. Компания FirstByte позиционирует систему ProVoice и программные продукты, основанные на ней, как приложения с низким потреба пением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьютеры систему артикуляторного синтеза PrimoVox для использования в приложениях телефонии. Для разработчиков: Monologue Win32 поддерживает спецификацию MicrosoftSAPI.
Синтезатор русской речи
В качестве примера рассмотрим разработку «Говорящая мышь» клуба голосовых технологий научного парка МГУ.
В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, подающие пока менее естественное озвучивание текста. Это, прежде всего параметрический (формантный'' синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустика-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.
Инструментарий синтеза русской речи
Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вспух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.
Что дальше?
А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд пи в ближайшие несколько лет стоит ожидать появления систем распознавания речи по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известие, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...
Думаю не будет секретом то , что любой находящийся в этой аудитории человек если он болен машиной , если он фанатик врятли воспринимает её как неодушевлённый предмет , как мебель . Скорее в кучку железа под таинственным названием компьютер мы вкладываем душу ,вкладываем себя посредством непрерывного общения в прямом смысле этого слова . Лично я не раз замечала за собою безсознательные вещи : набивая текст, составляя программу ,инсталируя приложения я регулярно бросаю компьютеру нелестные отзывы о ней же.Типа: Чего ты еще хочешь Захлопнись , или Ну и кретин же ты. Наивно пологая что когда нибудь она меня всё-таки услышит и на реплику : «Какой же ты балбес» ласково произнесет питание компьютера отключено , потеря всех не сохраненных данных . Именно по-этому темой своего реферата я выбрала близкую мне : Речевые технологии .Хотя я назвала бы ее более лирично : Узнай меня по голосу . В своем выступлении я хотела бы осветить не только проблемы и перспективы развития речевого интерфейса, но по рассуждать о том нужен ли он вообще и ой как не скоро окупят надежды потери времени и денег.