Смекни!
smekni.com

Речевые технологии (стр. 2 из 5)

Даже Билл Гейтс, являющий со­бой в некотором смысле идеал праг­матизма, оказался не свободен от исторически сложившихся стерео­типов. Начав в 95-96 году с разра­ботки собственной универсальной системы распознавания речи, он, окрыленный первыми и, пожалуй, сомнительными успехами, в 97-м провозгласил очередную эру по­всеместного внедрения речевого ин­терфейса. Средства речевого ввода планируется включить в стандарт­ную поставку новой версии Windows NT- чисто офисной операционной системы. При этом руко­водитель Microsoft упорно повто­ряет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT аку­стические шлемы вроде тех, кото­рые используют военные летчики и пилоты «Формулы 1». Кроме того, неужели в ближайшем бу­дущем прекратится выпуск Word, Ехсеl и т. д. ? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, бо­лее чем затруднительно.

Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследова­телей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «чело­век-компьютер». Основная ра­бота еще впереди.

Базовая технология

Не следует путать термины «понимание» и распознавание» речи. В то время как второй непосредственно относится к техноло­гии преобразования акустических речевых сигналов в последова­тельность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представле­ния о смысловом содержании высказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческому успеху узкоспециализированных систем, ни в малейшей степени не нуждающихся, напри­мер, в модуле анализа контекста высказывания.

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала. преобразованного в электрическую форму Обычно частота дискретизации составляет 10-11 кГц. разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно со­провождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.

На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.

Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в резуль­тате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предоб­работки основана, в частности, система распознавания речи, разра­ботанная в конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс) интервал вычисления был определен и обос­нован экспериментально еще на заре развития технологии авто­матического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сиг­нал считается стационарным, то есть на таком временном интер­вале параметры голосового тракта значительно не изменяются.

Следующий этап- распознавание. Хранимые в памяти компь­ютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень суще­ственной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную пробле­му позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Осо­бенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений , что ускоряет процесс перебора эталонов и повышает надежность распознавания.

Что такое распознавание речи?

На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно .На самом деле за столь простой идеей кроются огромные сложно­сти.

Почему же между постановкой задачи и ее решением лежит дис­танция огромного размера? Рас­познавание речи - молодая, раз­вивающаяся технология. Ее очер­тания пока зыбки и изменчивы. Поэтому в статье пока больше во­просов, чем ответов. Я попытаюсь немного рассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.

Немного о терминах

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны раз­личать такие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может ис­пользоваться для обратного вос­произведения речи. То есть можно поставить знак эквивалентности ме­жду звуковой речью и ее представ­лением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая по­лезная для получателя информа­ция, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с од­ним противоречием. Текст, как из­вестно, состоит из букв, слов, пред­ложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск ком­пьютера звучание каждой отдель­ной буквы, а потом попробуем ском­поновать из этих звуков речь, у нас ничего не получится.

Люди уже довольно давно дога­дались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем суще­ствует. Есть даже такой раздел лин­гвистики - фонетика. Большинство авторов даже для одного и того же языко­вого диалекта приводят разное ко­личество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сиг­нал состоит непосредственно из ку­сочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматрива­ли речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фо­немы. Однако дальнейшие иссле­дования речевых сигналов ника­ких фонем не обнаружили.

Тогда одни исследователи спра­ведливо решили, что при генера­ции речевых сигналов наблюдает­ся коартикуляция, то есть взаимо­проникновение соседних звуков (мышцы лица, язык и челюсти об­ладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.

Другие исследователи, подобно физикам, атаковали идею элемен­тарности фонем и стали утвер­ждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.