Смекни!
smekni.com

Речевые технологии (стр. 3 из 5)

А дальше все многозначитель­но замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успе­хах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели це­лую кучу претендентов на универ­сальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возмож­но поэтому фонемы ничем не луч­ше букв. А фоноиды, аллофоны и прочая - лишь усовершенство­ванная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь услы­шим. А технически-то сигнал со­стоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель ме­ханизма восприятия звуков речи. Большой интерес для ученых, работающих в облас­ти распознавания речи, представ­ляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к ус­пешному созданию систем распознавания .

Главные трудности фонемного подхода

Темп речи варьируется в широ­ких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­ся не пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых зву­ков есть свои закономерности. (По­лугласные - это звуки при гене­рации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в оби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков свя­зано с шипением и прочими эф­фектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведе­ны звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-вре­менные распределения энергии. Это справедливо даже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффект проявляется при сравнении спек­трограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четко­сти произношения является при­чиной коартикуляционной нестационарности, означающей изме­нение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольно непросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либо имеют нечеткие границы.

Многообразие видов

Существующие системы распо­знавания речи можно классифи­цировать по разным признакам.

По назначению:

1) командные системы

2) системы диктовки текста.

По потребительским качествам:

1) диктороориентированные (тре­нируемые на конкретного диктора)

2) дикторонезависимые (рискую предложить термин «омнивойс»)

3) распознающие отдельные слова

4) распознающие слитную речь.

По механизмам функциониро­вания:

1) простейшие (корреляционные) детекторы

2) экспертные системы с различ­ным способом формирования и обработки базы знаний

3) вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удоб­ный показатель качества работы системы распознавания речи. Наи­более просто такой показатель ка­чества вводится для командных систем. При тестировании в слу­чайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитыва­ется количество правильно распознанных команд и делится на об­щее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в задан­ной при эксперименте акустиче­ской обстановке. Для систем дик­товки похожий показатель качест­ва может вычисляться при диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ный показатель качества. В дейст­вительности мы сталкиваемся с са­мыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тре­нировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы осно­вано на гипотезе о том, что спек­трально-временные характеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо. Акустическая модель такой систе­мы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и мо­жет служить типичным примером изобретательского подхода. В са­мом простом случае команда ло­кализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить огра­ниченное число команд плюс еще одну, которая означает все осталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дель строится как алгоритм поиска максимума функционала от вход­ного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания и его метрики может широко варьиро­ваться разработчиком.

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В на­стоящее время на рынке представ­лено множество коммерческих сис­тем распознавания речи с гораздо большими возможностями:

- Voice Type Dictation , Voice Pilot , ViaVoice от IBM

- Voice Assist Creative от Techonology

- Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice) спо­собны, как заявляют разработчи­ки, вводить слитную речь.

Лингвистические блоки совре­менных систем реализуют слож­ную модель естественного языка. Иногда она основана на математи­ческом аппарате скрытых цепей Маркова, иногда использует по­следние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых сис­тем пытается моделировать естест­венный слуховой аппарат.

Речевой вывод.

Речевой вывод информации из компьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая часть речевого интерфей­са, без которой разговор с компь­ютером не может состояться. Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранее записанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестной информации.

Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новато было бы передать рисунок голосом. Но вот услышать элек­тронную почту или результат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенно если в это время взгляд за­нят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу (может быть, даже подкра­шивать ногти ) в то время как ком­пьютер будет читать вслух по­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается время заранее назначен­ной деловой встречи.

С точки зрения пользователя, наиболее разумное решение про­блемы синтеза речи - это вклю­чение речевых функций (в перс­пективе - многоязычных, с воз­можностями перевода) в состав операционной системы. Компьютеры будут озву­чивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечанием пользо­ватель должен иметь достаточные возможности по настройке голоса компьютера, в частности, при же­лании, суметь выключить голос совсем.

Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всех остальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительно снизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас не стоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом ком­пьютере. Осталось ждать, может быть, год или два.

Методы синтеза речи

Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст, например, эту статью. Текст состоит из слов, раз­деленных пробелами и знаками препинания. Произнесение слов зависит от их расположения в пред­ложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа приме­няемой грамматической конструк­ции: в ряде случаев при произне­сении текста слышится явная пауза, хотя какие-либо знаки препи­нания отсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните, например, выбор од­ного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».

Обобщенная функциональная система синтеза

Структура идеализированной сис­темы автоматического синтеза ре­чи может быть представлена блок- схемой, изображенной на рис.1.


Ввод текста