Смекни!
smekni.com

Машины, которые говорят и слушают

УДК 621.391

Рассмотренысовременныэтенденцииразвития системавтоматическогораспознаванияи синтеза речевыхсигналов. Освещеныпроблемы построенияалгоритмовраспознаванияв неадаптивныхсистемах речевогоуправления.Описаны экспериментыпо созданиюсистем автоматическогоречевого запросаэкономическойинформациис элементамиавтоматическогообучения.

Книга рассчитанана научныхработников,инженеров истудентов,специализирующихсяпо техническойкибернетикеи теории информации.

Работу рецензировалии рекомендовалик изданию:

академикАН СССР А.А.Дородницынкандидатфизико-математическихнаук М.Н.Маричук©Издательство"Штиинца",1985 г.

О I5Q3000000 - 6239-85 M755(I2) - 85

ВВЕДЕНИЕ

Проблемареализацииречевого диалогачеловека и техническихсредств - актуальнаязадача современнойкибернетики.В настоящеевремя пользователямивычислительныхмашин и средств, оснащенныхвычислительнымимашинами, становятсялюди, не являющиесяспециалистами в областипрограммирования.Особенно актуальной стала задачаобщения человека и ЭВМ с появлениеммикропроцессоров и большихинтегральныхсхем. Новаятехнологияоказала прогрессивноевлияние на психологиюкак разработчиковсовременныхмногопроцессорныхЭВМ .так инеспециалистов-пользователей,неподготовленных к тому, чтобыпользоватьсясложной функциональнойклавиатурой,языком программирования,комплекснымисредствамиуправлениятехникой. Проблемаречевого управлениявозникла, крометого,в связи с тем, что в некоторыхобластях примененияречь стадаединственновозможнымсредствомоощения с техникой(в условиях перегрузок,темноты или резкого измененияосвещенности,при занятостирук, чрезвычайнойсосредоточенностивнимания на объекте, который не позволяетотвлечься нина секунду, ит.д.).

Массовоевнедрениеразличныхбытовых технических средств, содержащихмикропроцессорыи другие большиеинтегральные схемы, в частности,сложных микрокалькуляторов,пег-зональныхЭВМ, также требуетупрощения,"демократизации"систем управления такими средствами. Мы должныпользоватьсяновой сложнойтехникой также, какпользуемсячасами,радиоприемником,стиральноймашиной.Приближаетсявремя, когдабудут созданы"механическиеслуги" человека- роботы, помогающие в быту, выполняющиеработу по уборкепомещения,оказывающиепомощь в сельскохозяйственныхи строительныхработах и т.д.Безусловно,человек будет заинтересованв голосовомуправлениисложной бытовойтехникой и в конечном счететакими роботами.

Ближайшиеперспективыразвитиявычислительнойтехники, созданиевысокопроизводительныхЭВМ пятогопоколения,надеденных способностьюанализироватьзрительные и звуковыеобразы, также

3

требуют того,чтобы задачиавтоматическогораспознаванияи синтеза речевыхсигналов не оставалисьбез внимания. Невозможнопредположить, чтобы вычислительныесистемы обладалипроизводительностью в десятки исотни миллионовопераций всекунду и вкачестве вводныхустройствиспользовалитрадиционную клавиатурудисплея, перфолентыили перфокарты.

В первой главерассматриваетсясовременноесостояниеавтоматическогораспознавания и синтеза речевыхсигналов (попубликациям до 1981 г. включительно).Отмечаетсявозрастающий поток публикаций по этим проблемам,причем многиеработы посвященывопросампрактическогопостроениясистем распознаванияи синтеза речи на специализированныхмикроЭВМ. Внастоящеймонографии не нашли отражение работы, опубликованныепосле 1981 г., так как материалы к публикацииготовилисьв основном добтого времени.(южно лишь отметить, что за 1982 и 1983 гг.практическое направлениеработ в областиавтоматическогораспознаванияи синтеза речиинтенсифицировалось. В нашей странепоявились первые промышленныесистемы автоматическоговвода/выводаречевой информации- "ИКАР", разработаннаяв НИИСчетмаше(г.Москва),СРД-1,изготовленная в ОКБ ИнститутакибернетикиАН УССР им.В.М.Глушко-ва, и Марс, созданнаяМинским отделениемЦНИИС. Этисистемы,широкодемонстрировавшиеся на ВДНХ и другихпромышленныхвыставках,обладают примерносходными техническимихарактеристиками -они обучаются,настраиваются на голос конкретного пользователяи словарь,достигающиййОО слов, и обеспечиваютточность распознаванияоколо 95& и реальноевремя распознавания.В качествеметода, обеспечивающегонелинейноесравнениевходных реализациии эталонов,используетсядинамическоепрограммирование.Большие успехи в области созданиясистем такогорода достигнутытакже в QUA и Японии.В США с 1982 г. началвыходить специальныйжурнал Speech Technology (Речевая технология),в котором описываютсяобласти примененияпромыиленныхсистем распознаванияи синтеза речи, их тестирование,техническиехарактеристикии технологическиеособенности.

В монографииосновное внимание уделяется описанию системраспознаванияречи, работающих без предварительной настройки надиктора. Авторы в течение рядалет совместноработали надэтой проблемой в Вычислительномцентре Академиинаук СССР.Идеологиянеадаптивныхсистем распознаваниясложилась ещев 60-е гг.-в совместных разработкахВычислительного центра и Институтапроблем передачиинформацииАН СССР. Но основныерезультаты,описанные в книге, полученыавторами вконце 70-х - начале80-х гг.

Глава 1

СОВРЕМЕННЫЕТЕНДЕНЦИИРАЗВИТИЯ ПРОБЛЕМЫРЕЧЕВОГОВЗАИМОДЕЙСТВИЯ«ЧЕЛС ВЕК - ЭВМ»

§ I.I. Некоторыеаспекты исследованияречевых сигналовна современномэтапе

В 70-х гг. повысилсяинтерес к проблемамисследованияречи. Это связано с возросшимиуспехами дискретнойобработкисигналов на современноймикроэлектроннойтехнике и широкимраспространениеммикроЭВМ и мультимикроцессорньксистем, появление которых означалореволюцию в информатике.Научные достиженияв областиавтоматическогораспознавания и синтеза речипоставили вопрос о практическомобщении человека с миром мощныхпо своей производительности и возможностяммикроЭВМна языке,близком кестественному.Сложнейшаятехника приблизилась к пользователю-неспециалисту, и пользователь"потребовал", чтобы общение о ЭВМ (в частности, с информационными и управляющимиЭВМ) производилось на более привычномему естественномязыке.

В связи сэтим привлекливнимание работыпо созданию первых промышленныхустройствограниченногоречевого вводаи вывода информации, а также достаточношироко разрекламированныхсистем автоматическогопониманияестественной,слитной речи,над которымиработали в ОДА в течениеI972-I976 гг. по проекту айра.

Следуетотметить, чтоавтоматическоераспознаваниеи синтез речи- не единственноев речевыхисследованиях,что привлекаетвнимание специалистов и возможныхпотребителей.

Наряду с автоматическимраспознаваниемсмысла сообщения и синтезомречи (проблемами,которым в основноми посвящена настоящаямонография),исследователиречевых сигналовуспешно решаютзадачи: автоматическогораспознаванияличности говорящего(т.е. решают задачу,кто это сказал),автоматической верификацииговорящего(подтверждение,тот ли конкретныйчеловек произнесэту фразу), оценки по голосуэмоциональногосостоянияоператора,распознаванияречи, произносимой в другой воздушнойсреде (гелиеваяречь), определения по речевомусигналу патологии органов речеобразования,разработкиболее совершенныхметодов преподаванияиностранныхязыков (выработкаправильногоакцента и интонациипо картине"эталонных"параметровречевого сигнала), помощи лицам

с дефектамиорганов слуха и речеобразования,очистки и анализазатупленнойречи, созданиясистем узкополоснойпомехоустойчивойсвязи, а такжеряд другихзадач. Рассмотрениевсех этих проблемне входило в планы авторов,которые ограничиваютсяздесь простым их перечислением.

В данной главе краткорассматриваютсяосновные публикациипо проблемамавтоматическогораспознавания и синтеза речи,появившиеся в I976-I98I гг. Сведения о более ранних работах в этойобласти можнополучить из[58,79,8б].

В СЮ9] приводятсяосновные лабораторииСША, Великобритании,Франции и ЗападнойГермании, тематикакоторых связанас автоматическимраспознаванием и синтезомречи. В [127] сообщается,что проблемапостроениямашин, способныхвосприниматьречь человека(желательно с использованиемпра' л естественногоязыка), остаетсяглавным направлениемречевых исследований,одной из ключевыхпроблем кибернетики. В [144] отмечается возрастающийинтерес к этойпроблеме, связанный с увеличениемспроса на малыеустройствараспознаванияслов и появлениемновых компаний,активно участвующих в созданиипромышленныхсистем автоматическогораспознавания речи на новойтехнологическойбазе.

В нашей страненаблюдаетсяширокий интерес к проблеме исследованияречевых сигналов.Регулярнопроводятсявсесоюзныешколы-семинарыпо проблемеавтоматическогораспознавания слуховых образов(APGO). В каждой союзнойреспубликесуществуютлаборатории или группы,решающие этизадачи.

Стало традиционнымклассифицировать системы автоматическогораспознаванияречи на адаптивные,работающиес подстройкойпод диктора и словарь, и неадаптивные,обеспечивающие работу с произвольнымдиктором-носителемнормы произношенияданного языка. К практическимсистемам первоготипа относятсяvip- юо, WRS и ИКАР,СРД-1, МАРС, к неадаптивным- экспериментальные системы лабораторииBell, ВЦ и ИППИ АНСССР, устройство фирмы Dialog Systems . Следуетотметить, что системы автоматическогораспознаванияречи пока неполучили широкогораспространения,хотя и выпускаютсяс 1973 г. серийно.

Более доведеннымидо уровнякоммерческихобразцов являются системы автоматическогоречевого ответа,т.е. системы, основанные на автоматическомсинтезе речи.ПромышленностьСША и Япониивыпускаетбольшими партиямисинтезаторыречи, ориэнтированныена самое разнообразноеприменение,- от детскихигрушек,оснащенныхголосовымвыводом, домощных информационныхсистем, отвечающихголосом по речевому запросупользователя.В основе современных

б

коммерческихсистем речевогоответа лежаттри основных способа синтеза- непосредственноекодированиеречевой волны(дискретизация и сжатие), формантныйсинтез и синтез,основанныйна линейномпредсказании[5]. (Подробноеописание достижений науки и промышленности в областиавтоматическогосинтеза речидано

в § 1.4).

В пятой главеподробнорассматриваютсяособенности разработаннойавторамиэкспериментальнойзапроснойсистемы речевоговвода, работающей с проблемно-ориентированнымязыком, словарныйзапас которогосоставляет120 слов. Системабазируется на аппаратурно-программномметоде распознавания,использующем информативныепризнаки речевыхотрезков ^23,13,9?].

§ I.

В середине70~х гг. получилираспространениесистемы распознаванияречи, предназначенные для промышленногоиспользования.Важнейшиетребования к таким системам- высокая точностьи реальноевремя распознаваниявысказывания.Постепенностал накапливатьсяопыт эксплуатацииподобных систем,который определил их дальнейшееразвитие. Первыепрактическиесистемы автоматическогоречевого вводаинформацииобладали рядомположительных свойств, необходимыхдля пользователей.Мартин [&8] отмечает,что к такимсвойствам можноотнести мобильность и возможностьсовмещенияработ оператора,гибкость словаря,100% точностьраспознавания(при использованииобратной связи),стабильностьэталонныхданных и уверенностьоператора,контактирующего с системой, обладающейвысокой точностьюраспознавания.Главными недостаткамипервых систем можно считатьдлительнуюподстройкупод диктораи словарь, малыйобъем словаря,отсутствие помехозащищенностиот слов, не входящих в рабочий словарь,проблемы фоновогошума и шумовдыхания, высокуюстоимость и т.д.

Первым широковнедреннымустройствомсистем автоматическогоречевого вводаданных можносчитать vip-ioo, подробноописанное в [58,134] .

В [13б] отмечаетсяиспользованиеVXP-100 в конфигурацииThreshold -500, котораядает возможностьвводить информациюголосом в ЭВМодновременнотрем операторам.Указывается,чтосредняя точностьраспознаванияслов в этихсистемахколеблется от 96,5 (для словаря из 35 слов и высокогоуровня шумов)до 99,5%

(для словаря из 15 слов и тихогопомещения). В[136] рассматриваетсяиспользование vip - 100 для речевоговвода информации в ЭВМ станковс программнымуправлением. Отмечается, что для этихцелей разработаны три специальные систейн: vw - 50, vno- 100 и virc - 200 с использованиемсоответственно31 слова и слитногословосочетания,4Ь и 65 слов.

Системы VHC-200 применяются для управления четырехшиин-дельнымисверлильными станками и лазерами,iопользующимисядля обработкиполупроводникови сверхтвердыхматериалов, а также дляуправлениятокарнымистанками. Крометого, эта системаприменяетсядля взаимодействуяс системойискусственногоинтеллектаи управленияголосом.

Данная системаиспользуется для техническойдиагностикикомпрессоровхолодильныхустановок и при распределениипосылок.про-ходящих по конвейеру [П9].

й[П7] описывается использованиеодной из систем фирмы Threshold Technology дляавтоматическоговвода голосомпо телефонугидрографическихданных исследованияморских акваторий.

Еще однойамериканскойпромышленнойсистемой автоматическогораспознаванияизолированныхслов являетсяv/RS [l40] . Системапредназначенадля практическогоиспользованияв армии и обеспечиваетпрямую двустороннююсвязь междуперсоналомна переднейлинии фронта и армейскимиинформационнымисистемами,использующимиавтоматическоераспознаваниеслов, идентификацию диктора и его верификацию(подтверждение,тот ли человекразговариваетс системой).

Мини-ЭВМ этой армейскойсистемы полностьюобеспечиваетавтоматизированнуюобработкусигналов в реальном времени,трансляцию(т.е. автоматическоераспознавание)сообщения исинтезированныйречевой ответ на три сетисвязи одновременно для любых трех из 64 пользователей.Рабочий словарьсистемы 250 слов.Полевой оператор-разведчикоснащ'ен переноснымблоком записи донесений для точной записитактическихданных и возможного ввода их по радио или телефоннымлиниям в армейскуютактическуюинформационнуюсистему. Дляудаленногооператораиспользуютсяпередатчики с частотноймодуляцией.Система распознаванияслов таз, воспринимаядискретныеречевые сообщения(фразы, произносимыев жестком форматепословно),"подсказывает"оператору накаждом шаге,какого родаинформациюждет она отнего далее,предварительноподтвердивправильнуюзапись предыцущегодонесения.

Жесткий форматфраз определяетсяспециализированным языком точногоописания тактическихусловий в поледеятельностиоператора иуправленияартиллерийскимогнем.

Для голосовогоответа в «'/КЗиспользуетсяпрограммно-управляемыйзвуковой синтезаторфирмы Vocal Interf;ice Division,который позволяетполучать цепочкифонем и фонемоподобныхзвуков в соответствиисо смысломречевого ответа;при этом обеспечиваетсянеобходимаямодуляцияосновного тонадля большейестественностизвучания. Есликакой-либооператор хочетввести в армейскуютактическуюинформационнуюсистему донесениепосле того,какwrs обучаласьего речевьмхарактеристикам,он должен обнаружитьканал связи,а затем ввестишесть слов, представляющих'шифр (код) используемойсети, код пользователяи слова завершения.

Хотя системараспознаванияспособна работатьавтоматически,на стороне v/RS всегда присутствуетоператор. Онследит за экраномбуквенно-цифровогодисплея, гдеотражаютсядонесения,поступающиес трех линийсвязи. По мерераспознаваниядонесенийпоявляетсяих буквенныйтекст. Еслидонесенияполностьюудовлетворяютоператора, онпередает ихдля исполнения(и для получения"твердой копии"на бумаге), нажимаяна пультесоответствующуюклавишу. Операторможет с пультаотредактироватьлюбое . донесение,прежде чемвыдать его для исполнения.Оператор можеттакже с пультауправленияв тобой моментсвязаться порадио или телефонномуканалу с каждымразведчиком-пользователем(или со всемисразу). Еслипри распознаваниидонесения,поступающегоот пользователя,возникаюттрудности, тооператор долженсделать вое.чтобы донесениебыло принято.Для этого онможет,например,переучитьсистему наголос этогопользователя.

Автономныйблок системы,предназначенныйдля связи с пользователями,возбуждаетсябез вмешательстваоператора приодном из трех"условий":

а) распознанослово "оператор";

б) последовательнопрошло неверноераспознаниедвух слов подряд;

в) во времятрансляциишифра дикторидентифицированкак злоумышленник.

Точностьраспознаванияслов превышает95% при передачеречи по несекретнойрадиолиниис отношениемсигнад/шум,равным 10 дБ. Прииспользованииболее совершеннойрадиолинииточность,трансляциидонесениядостигала 9'?%.

Зак.480

В 1977г. Оыловыпущено устройствоHeuristics $299 Speuchlab, требующее ддя реализациисистемы распознаваниядополнительнойЭВМ. Точностьраспознаванияслов в системах,использующих это устройство,была относительнонизкой (около90%), однако из-заневысокой стоимости онооказалось в настоящеевремя наиболеераспространенным. В 19УО г. этой жефирмой былавыпущена система7000, соединенная со стандартнымивидеотерминальнымиRS -232 [903 • Система,выпускаемая в автономном корпусе, включаетцифровойспектроанализатор и блок распознавания. Она может бытьобучена распознаванию64 слов или фраз,длительностьаву-чаниякаждой из которыхдо 3 с.

Система 7000дает возможностьвводить информацию голосом в ЭВМ,не набирая еена клавиатуревидеотерминала,однако позволяеттакже пользоватьсяклавиатурой(по очереди илиодновременно).

В [69J сообщается,что фирмойInterstate Electronics Inc. выпускается сходный потехническимхарактеристикам с системой7000 одноплатныймодуль распознаванияречи VRK - Voice recognition module, реализованный на базе микропроцессораи представляющий"интеллектуальным"терминалами небольшимвычислительнымсистемам средстваавтоматическогоречевого ввода.Отмечается,что 'это устройствообеспечиваетраспознаванияболее 99% привариантах с объемом словаряв 40, 70 или 100 слов.На входе устройстваиспользуется16-канальныйаналоговыйспектроанализатор,информация с которогодалее преобразуетсяв цифровуюформу и уплотняется до размераэталонов, хранящихсяв памяти van .Внастоящее времяфирма выпускаетодноплатноеустройствораспознаванияслов vrt-зоо, котороеполностьюпозволяетдублировать клавишнуюсистему управлениявидеоматериалом.

В [45J рассматриваютсявопросы использованияустройствавтоматическогораспознавания и синтеза речив системах военного назначения.Указывается, что в настоящеевремя автоматическийанализ и синтезречи испытываетсяв тренажерахдля подготовкиспециалистов(например, летчиковили диспетчеровуправления воздушнымдвижением), а также в устройствахддя автоматизацииввода данных в ЭВМ при дешифрацииаэрофотоснимковв процессе составлениякарт местности.Предполагается, что в перспективе устройствараспознаванияречи будутиспользоватьсядля ввода командв систему оружия или в системууправленияполетом.О необходимостизаполнитьпробел междуотносительнопростыми,,настраивающимися на диктора исловарь, промышленнымиустройствамиавтоматическогораспознаванияречи и громоздкимиэкспериментальными сис-

10

темами понимания речи, основаннымина моделяхестественных языков, Ли иШоуп писали еще в [ 144] .

Одной из самых совершенныхкоммерческихсистем автоматическогораспознаванияречи являетсясистема распознаванияизолированныхслов и слитнойречи CSRS японскойфирмы NEC [47] . Технологическойбазой этойсистемы служитмикропроцессорная техника. (В системеиспользуютсяпять микропроцессоров.)CSRS обеспечиваетнадежноеавтоматическое распознавание в действительношумныхсредах ^до 90 дБ) с 0,2% ошибок и0,7^, отказовна материале120 слов. Система csrs , как и vip -100 и wrs, является адаптивной,настраиваемойна диктора исловарь. При распознаваниислитно произносимыхсловосочетаний(до пяти слов одновре-* менно)система используетметодикураспознавания,основанную на так называемомдвухступенчатомсогласованииэталонныхреализациии входнойпоследовательностисловосочетанийс использованиемаи-г 'итмовдинамическогопрограммирования.Блок автоматическогораспознаваниявключает цифровой анализатор спектра, преобразующийвходной сигнал,который поступает с АЦП в 46-мерныевекторы черезкаждые 18 мс, памятьэталонныхреализации,позволяющиххранить до 120эталонов слов,процессординамическогопрограммирования, представляющий собой мультимикропроцессорнуюЭВМ, и интерфейснуюмикроЭВМ,обеспечивающуюуправлениевсей системой.gsrsосуществляетраспознаваниепрактически в реальноммасштабе времени. Систему можноприспособить,несколькоизменив программудинамическогосогласованияэталонов и выходноговысказывания,для распознавания1000 слов, произносимыхизолированно.

На выставке в Москве (декабрь1976 г.) демонстрироваласьсистема gsrs , позволяющаяподключать к одному блокудвух пользователей,работающиходновременно в режиме диалогас csrs [29]» За счетболее совершенногораспознаваниясистема обеспечиваетболее простоеобучение, допускаяодно- или двукратное произнесениекаждого слова.

В [16] рассматриваетсяотечественнаясистема,предназначеннаядля распознаваниянабора слов,число которыхоколо 400.Сяо-варьпредставлен в памяти фонемнымикодами, чтопозволяет послеэтапа подстройкисистемы -юддиктора (сводящейсяк однократномупроизнесениюспециальногословаря, содержащегофонемы русскогоязыка в различныхсловосочетаниях)заменять,корректироватьи пополнятьсловарь без участия диктора.В системеиспользуется'пятьпараметровречевого сигнала,которые служат цля распознаванияслов - логарифмполной энергиисигнала и логарифмы отношения •Полной энергиисигнала к энергиямсигнала в четырех полосах.

II

Из-за использованияотносительномедленноймашины и чистопрограммнойреализацииалгоритмованализа сигналавремя обработкиоколо I мин на слово, времяпринятия решения~ W/8 с, где И - объемсловаря.

В более позднейработе этогоже коллективарассматриваютсясистемы признаков,основанные на модеси линейногопредсказанияС 17] и психоакустическомэффекте маскировкиболее схабыхсоставляющихречевого сигналаболее сильными.При использованииданного подходаточностьраспознаванияизолированныхслов для одногодиктора составила при лексиконеиз 100 слов - 97%,а прилексиконе из 300 первых словрусского частотногословаря - 94^.

В ИнститутекибернетикиАН УССР в 1977 г. разработанаадаптивная система распознаванияслов, работающаяв реальноммасштабе времени[1б] . Системасоздана наоснове ЭВМ БЭСМ-6, но можетбыть реализована на других ЭВМили в специализированномустройстве на микропроцессорах.В процессепредварительнойобработкиречевого сигналавычисляетсяпоследовательность48-разрядныхдвоичных кодов,каждый из которыхопределяетзнак производной по частотеамплитудногоспектра речи,вычисленных на участкахв 15 мс. Обработкавведенногоречевого сигналадлительностьюI с происходит за 0,3 с, времяраспознавания одного словадля словаряиз 100 слов - неболее I с. Точностьраспознаваниясловаря из 500 слов - 98%. Методикапринятия решенияв системе болееподробно рассмотренав С20].

В [21] описываетсяразработаннаяв ИК АН УССР система распознаванияречи, настроенная на голос нескольких дикторов и обеспечивающаянадежностьраспознаванияизолированных слов около98^ для словаряиз 500 слов.

Интереснаяадаптивнаясистема распознавания изолированныхслов, использующаяпараметры клиппироваяного речевого сигнала,разработанаН.П.Бусленко,В.В. Деевым иГ.Д.Фроловым[8].В этой системе для формированияэталонов иавтоматического распознаванияпредложеноригинальныйматематическийподход к анализупоследовательностичисел, соответствующейинтерваламмежду нулевымиперечислениямисигнала. Обобщенныеэталоны формируютсяпосле несколькихfor 2 до Ь) произнесенийслова. При распознаваниипроисходитсравнениепоступившего на вход словас этими эталонами.В системе реализованречевой ответ,также основанныйна формированииклиппированногоречевого сигнала.Ццеи,рассмотренные в [в] , нашли свое дальнейшее развитие в системе, реализованнойна мини-ЭВМ.

12

В ряде кибернетическихсистем массовогопользования целесообразноиспользоватьавтоматическийречевой вводбез предварительнойнастройки на голос оператора.В таких системахраспознаваниедолжно базироваться на универсальныхфонологическихправилах, а вдальнейшем- на использованиисинтаксисаи семантикиестественныхязыков. Другой путь построениянеадаптивныхсистем распознавания речи - сборэталонныхреализацииот большого(до 500) числа дикторов,кластеризацияэталонов и использованиетого факта, что каждыйновый дикторпроизноситслова так, какэтр делал один из тех дикторов,который участвовал в обучениисистемы распознавания. В настоящеевремя не достигнуто высокой точностираспознаванияслов в неадаптивныхсистемах (кроме системы Dialog Systems ,где весьманебольшойсловарь и используютсяэталоны, полученныеот 500 дикторов).Однако исследования,проведенные в этой области,а также феноменчеловека,воспринимающегослитную речьпроизвольногодиктора безпредварительнойнастройки на его голос,доказывают,что техническиесредства,направленные на распознаваниеречи любогопользователя,несомненно,будут созданы.

Первой системойавтоматическогораспознаванияречи, выпускаемойнашей промышленностью,стала адаптивнаямикропроцессорнаясистема распознаванияизолированныхслов,разработаннаяв НШЮчетмаше.Системасодержит блоканалоговойобработкисигнала - предпроцессор(он включаетмикрофонныйусилитель,16-канальныйспектроанализа-тор с рабочей полосойдо Ь кГц, индикаторыуровня основноготона и огибающей,блоки клиппирования,наличия устной команды, вторичнойобработки иуправления),микропроцессор К580ИК80, специализированнуюподсистемудля вычислениямеры сходствамежду входной и эталоннойреализациямислов, оперативноезапоминающееустройство, интерфейсныйблок и пультинженера-оператора.Поток информации о речевом сигнаде(1250 байт в секунду) поступает с процессорадля последующейобработки вмикроЭВМ, котораяодновременно управляетотдельнымиузламг и блокамивсэй системы.Следует отметить, что система[72J по своей структуреи возможностямзанимаетпромежуточноеположение между коммерческимисистемами VIP-100 (США) и dp фирмы яёс (Япония).ОтVIP-IOO наши разработчикипозаимствовалибинарноепредставление информации о слове на уровневторичнойобработкисигнала, а от системы нес- использованиединамическогопрограммированияпри нелинейномсравнениивходной и эталоннойреализации. Такой подходпозволил производитьраспознаваниев реальноммасштабе времени и с высокойнадежностью,используяотечественнуюэлементную

13

базу. Для обучения новомусловарю требуетсяоднократное произнесениекаждого слова.Надежностьраспознаваниядля группы изчетырех дикторов,каждый из которыхработал сосвоим словарем,превысила96%; время распознавания для словаряиз 200 слов - близкое к реальному(не превышающее1с).

В [б33 описаноавтономноеадаптивноеустройство распознаванияограниченногонабора слов,разработанноево Всесоюзномсельскохозяйственноминститутезаочного образования. Устройствовыполнено на базе микросхем155-й серии и состоитиз 16 плат размером140 х 150 мм. На входустройства с аппаратурыпервичногоанализа подаются16 бинарныхпризнаков, один аналоговый,представленныйчетырехразрядочным двоичнымкодом, и признакконца речевогосигнала. Памятьустройствавмещает до 256отсчетов эталоновсигнала. Речеваяинформацияпоступает дляпоследующейобработки с частотой 100 Гц,но в дальнейшемсжимается (в среднем до 16 отсчетов наслово) так, что в память можнозаписать лишь16 эталонов.Нелинейноесравнение с эталоном осуществляетсяметодом динамическогопрограммирования.Устройство[вз] может работать в двух режимах- обучения ираспознавания.Точностьраспознавания(для одногодиктора) зависитот словаря,объем которого не превышает16 слов, и колеблетсяв пределах96-99%.

Система [l] ,разработаннаяв МВТУ им. Н.Э.Бауманаи ориентированная на речевоеуправлениедвижущимися объектами,была испытанадесятью дикторами на словаряхиг 32 слов и слитныхсловосочетанийна русском,английскоми немецкомязыках ( каждыйдиктор имел свои эталоны).Наматериале 3200реализации было получено9Ё% правильныхответов, 1%отказов отраспознаванияи 1% ошибок.Система позволялаработать в трех режимах- обучения,распознавания и управления.В режиме речевогоуправления словарь включал всего 14 слов;надежностьраспознаваниякоманд управлениясоставила приэтом 99,5№.

Интереснаяадаптивнаясистема распознаванияи синтеза речибыла разработана на устройствеаналоговоготипа и ЭВМ ЕС-1030М.Г.Демковым[35] . Словарь системы,работающейв близком креальномувремени, составлял300 слов и словосочетаний.В результатеаппаратнойи программнойобработки триобучающиереализациикаждого словапреобразовались в эталонную последовательностьдлиной в 10 - 20 символов.Экспериментыпо определению надежностисистемы проводились в условияхакустическихшумов 75 -60 дБ на голосе одногооператора. Приоднократномпроизнесениисловаря в объеме300 слов точность распознавания составляла97,2%,при одномповторении- 98,6%, при двухповторенияхошибочно

распознанногослова - 99,3%.

14

В [2b] сообщается,что фирма DialogSystems (США) подготовила к коммерческомупроизводствупервую неадаптивную систему распознаванияслов, построеннуюна бсль'"ихинтегральных схемах. Особенностьюэтой системыявляется методсравнения,основанный на анализебольшогостатистическогоматериала. Эталонныереализацииформировалисьпосле изучения500 образцовпроизнесениямужчинами и женщинамикаждого словаря:статистикасобираласьпо всей территорииСША. Из каждогослова берется12 выборок;накаждом отчетеизмеряетсяобщая амплитудасигнала и вычисляетсяспектр сигнала в диапазонетелефонногоканала(300 - 3400 Гц) в 31 точке. Такимобразом, каидомуслову соответствует384 числа. Обучающаявыборка включалаобработанныереализации500 слов. Неизвестноеслово, поступающее на вход системы,подвергаетсятакой же обработке и сравниваетсяс эталонами.Система использует речевой ответ.Базовый словарьсостоит из 12, слов- 10 цифр и слов"да" и "нет".Система позволяетдобавлятьспециализированныесловари. Например, для банковскихработниковпредусмотрено включение 30дополнительныхслов, включаятакие, как"баланс","итог","взнос". В [52] сообщается, что эта фирмаразработала систему продажибилетов на самодеты,откликающуюсяна голос любогодиктора. Однако для нее возможныи другие применения.С ее помощьюслужащий, находящийся в другом городе,легко может вызвать любогоабонента внутренней сети. Для этогоон набираетномер коммутаторафирмы, называет свой идентификационный номер и телефонныйномер, которыйон хочет вызвать.Система обрабатываетустные команды с точностью,превышающей95№.

В [102, 147, 146, 150, I6b - 168] описана экспериментальнаясистема автоматическогораспознавания127 слов, произносимыхнесколькимидикторами.Проблема особенностейпроизношения решается такимобразом, что каждый дикторимеет наборсвоих эталонов,поэтому в строгомсмысле словасистему Bell Laboratoriesнельзя считатьнеадаптивной.Словарь былвыбран с учетом того, чтобыпроизвольныйпользовательмог заказыватьпо телефону билеты на авиарейсы,используя ЭВМ с речевым вводом. Отмечается,что использованиесинтаксисаязыка понижаетошибки распознаванияслов с 11,7 до 0,4%/

В [170,172] рассматриваетсяраспознаваниесловаря, включающегоназвание английскихбукв, цифры итри служебных слова редактирования("стоп", "ошибк^.","повторяю").Словарь позволяетпроизноситьпроизвольныеслова, в частностифамилии,побуквам. Прииспытанияхсистемы, в которыхучаствовалишесть мужчини четыре женщины,при среднейточностираспознаванияслов словаряв

15

60% средняяточностьраспознаванияслов, произносимыхпо буквам (50случайныхфамилий сотрудниковBell Laboratories ), составила96%. Каждый диктор, как и в [25] , имелсобственныеэталоны. В[166,167] используетсяоколо 12 эталоновна каждое слово словаря, причемкаждый эталонхарактеризуетособенности некоторойгруппы дикторов.Эталоны получаются методом кластерногоанализа;

при этомиспользуется100 обучающихреализациина каждое слово.Точностьраспознавания10 цифр приближается к точности ихраспознавания в адаптивныхсистемах иколеблется(для различныхдикторов) от97,5 до 100%.

В [125] предлагаетсядля повышенияточностираспознаванияслов ввестидополнительныйуровеньраспознавания,который автоматическиопределяетпол диктора и уже дальнейшеераспознаваниепроизводит с учетом этого.Введениепредварительногоавтоматическогораспознавания пола диктораповысило точностьраспознаванияцифр.

В СССР проблемепостроениянеадаптивныхсистем автоматическогораспознаванияречи такжеуделяетсябольшое внимание[10,13,33, 38, 57, 66, 76, 77, 87, йб] . Какправило, системыработают спроблемно-ориентированнымиязыками, словарныйзапас которых составляетнесколькодесятков словоформ [40] . В [1.0,12] описанаопытная эксплуатацияодной из такихсистем. Сейчас существуютнекоторыепромежуточныеэкспериментальныесистемы распознавания,работающие со множествомдикторов, частьиз которыхможно отнести к адаптивным,например системуМВТУ [l] .котораяпо своейидеологии и принципамблизка к типичнымнастраивающимсяна дикторасистемам - лишьпамять ЭВМограничиваетчисло дикторов,каждый из которыхимеет своюсистему эталонов. Рассматриваемыеже ниже системыобладают рядомособенностей, характеризующихименно неадаптивныесистемы: попыткапользоваться универсальнымипризнакамифонем, использованиесинтаксиса и семантикирабочего языка,верификациядиктора до того, как системаобратилась к его эталонам,и т.д. В этом смыслек неадаптивнымсистемамраспознаванияречи можноотнести двеинтересныесистемы распознаванияфраз, произносимых с паузами междусловами. Эти систрмы былисозданы в Институтесистем управленияАН ГрузССР.

Одна из этихсистем [ 77] былапредназначенадля оперативногоуправленияобъектами путемраспознаванияфраз-команд,произносимыхпредварительноверифицированнымидикторами. Ьможество фраз,составленных из 134 слов,включало75 типовых синтаксическихконструкций.Каждая фразасодержала не более 14 слови произносиласьполным стилем с паузами междусловами. Параметрами

16

первичногоописания были:энергия с 6 полосовыхфчльтров, дедек-торыплотностинулевых пересеченийсигнала, общаяэнергия сигнала и признак звонкости- гдухости.(Параметрыизмерялись и вводились в память ЭВМкаждые 20 мс.) На первом этапеанализа определялась(по динамикепараметровпервичногоописания)макро-временнаяструктура фразы и слов. Полученнаягрубая структуракодировалась и вместе с даннымио положениилокальных максимумовскорости изменениязначений параметровпервичного описания служилаосновой дляполученияпосегментного(кваэифонетичес-кого)описания слов во фразе. В результатекаждое словофразы представлялось в виде матрицычисел Ц3'17! > Wl•/•л-номерасоответственнопризнака, сегмента в слове и словаво фразе.

Процессраспознавания слов начиналсяс выбора эталонов-претендентов,идентичныхвходной реализации,и кодов макровре-неннойструктуры и отличных отнее числомквазифонетичвскихсегментов навеличину неболее заданногопорога. Наиболеевероятные пары гипотез о словепринималисьметодом динамическогопрограммирования.При этом учитывалисьлексические ограниченияна место словаво фразе. Далееблок семантико-синтаксическогоанализа принималрешение обистиннойпоследовательности слов во фразе.При работе сшестью операторамии обучениисистемы накаждом из нихнадежностьраспознаванияслов составила8836,а надежностьраспознаванияфраз за счетблока лингвистическогоанализа - 95%. Точность верификациидиктора по произвольнойфразе - 96%. Системаустойчива к внешним шумамдо 65 дБ.

Другая система,разработаннаяв Институтесистем управленияАН ГрузССР,способнаработать приболее высокомурочне шумов(до 100 дБ и выше) СЗб]. Основнойособенностьюэтой системы распознаванияфраз, произносимых с паузами междусловами, былоналичие комплексапомехозащищенныхдатчиков, которыйобеспечилприемлемоеотношениесигнал/шум на входе системыраспознавания.В качествеприемникаречевой информацииприменялсяларингофонЛЭМ-3, а такжедополнительныепомехозащитныепризнаки устнойречи, в качествекоторых использовалисьартикуляционныехарактеристикире-чеобразования.Бесконтактныедатчики позволяливыделять:

- признак,отражающийизменениевеличины раствора ротовой щели во время произнесениянеогубя°нныхзвуков;

- признакстепени огубяения;

- признакскорости воздушногопотока у потового отверстия[42].

Зак.480

17


Изучениесвойств речевогосигнала впространстве выбранныхпризнаковпозволилоразработатьпроцедуруописания слов, обеспечивающуювосстановление как макровременной(имеется в видупос-хедовательностьзвонких и глухихучастков, атакже пауз),так и квазифонемнойструктуры речи.При испытаниисистем [ЗЬ,??]выявиласьвысокая точностьраспознаванияфраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающеймалым объемом оперативнойпамяти и слабымбыстродействием, из-за чего время распознаванияфраз было в 30- 50 раз большереального.

В ранкахтрадиционногоаппаратурно-программного направленияавтоматическогораспознаванияречи ведутсяработы в ВЦ иИнститутепроблем передачиинформацииАН СССР [13,67,6?] .В основе методалежит алгоритмическаяобработкавыделяемыхспециальнойаппаратуройинформативныхпараметровкоротких отрезковречевого сигнала(сегментовдлительностью10-20 мс). Последовательностьэтих отрезков и составляетвысказывание,которое требуется дешифрировать.Параметры(признаки) сегментовхарактеризуют(в большей илименьшей степени)параметрыречеобразующеготракта человека,определяющиеособенностипорождаемыхзвуков.

В Cl3] рассмотреныалгоритмыраспознаванияназваний чиселот нуля до ста,причем системапредусматриваетреальное времяраспознавания и произвольногодиктора. Алгоритм распознаваниядвухступенчатыйи состоит из блоков распознаванияи подтвержденияфонетическойструктуры(верификации).Если гипотезируемоеслово не подтверждается(блоком верификации),то входнаяреализациясравнивается с другими словами,близкими к нейв пространствепризнаков, илиподается сигналпереспроса.При распознаваниидвухсловныхсочетанийвторое словоанализируетсяс конца в направлении к его началу.Вариантыпроизношения,на основаниикоторых создавалсяалгоритм,исследовалисьна материале около 2200 реализацииназваний чисел,произносимых20 дикторами. Врезультатеанализа полученыварианты произношениядвузначныхчисел. Многие из них произносятсясравнительноединообразнои различаютсястепенью редукциибезударныхгласных, степеньюаффрицирова-ниямягких взрывных,наличием или отсутствиемсмычек перед аффрикатамии т.д. В другихчислах можетсущественно нарушатьсяфонетическаяструктура,пропуски отдельныхсогласных.Вусловиях, когдавозможно множествовариантовпроизнесения,алгоритм должениспользоватьлишь наиболееупотребительныеварианты, в которых сохраняются"оперные" звуки- ударные гласные,щелевые, взрывные,а также начальныеи конечныезвуки.

I&

В OS?] рассмотреноиспользованиеречевого Управленияв подсистемеАСУП на баземини-ЭВМ.Аппаратурно-программнаясистема, разработанная в Львовскомордена Ленинагосударственномуниверситетеим. И.Франко,уже эксплуатируется.Система используетмини-ЭВМ ЕС-1010 в режиме реальноговремени ипараллельной работы около90 производственныхзадач. Это налагаетжесткие условия на объем оперативнойпамяти, используемойдля программобработкиречевого сигнала(всего 10 Кбайт).Словарь системы 40 слов, которыемогут бытьорганизованы в командные фразы (5 словво фразе). Используетсядевять типовзапроса, примерами которых могутбыть: "оперативнаясводка выпуска","ресурсы смены","выходныехарактеристикиучастка первойнастройки"и т.п. Из-за жест-'ких ресурсовпамяти системаориентированана работу содним диктором,сформировавшимсвои эталоны и имеющим свойпароль. Работасистемы в помещениимашинного залас уровнем шумов68-75 дБ показаланадежностьраспознаванияфраз, превышающуюУ0%, а после переспроса- более 9Ь%.

Недостаточнаянадежностьраспознаванияс первого^^произнесенияобусловлена в основномупрощениямиалгоритма распознавания, на которыепришлось пойтиради экономии'местаи оперативнойпамяти.

Аппаратурно-программноенаправлениепредставленотакже системой [33] , которая напервом уровнераспознаванияобнаруживалав словах сегментыи классифицировалаих по способуобразованиязвуков на гласные,щелевые, аффрикаты, дрожащие , атакже глухиеи звонкие. На втором этапенекоторые звукиклассифицировалисьвнутри даннойгруппы по местуих образования.В результатекаждому сегментуприсваиваласьКодоваяпоследовательность,занимающаяI байт. Четырестарших разрядаэтого кодауказывалигрупповуюпринадлежностьданного звука,четыре младших разряда определялитип звука внутриданной группы.

Для распознаванияслов образуетсяэлементарнаяпоследовательностьпсевдослогов,сравнивающаяся с эталонамипоследовательности.При экспериментальнойпроверке работысистема распознаванияна материале50 и 200 слов с участиемтрех дикторовона показала93 и 84% точностираспознаваниясоответственно.Анализ ошибок показал, что в большейчасти они вызвалинеправильнымиформированиямисегментовконтрольнойреализацииили эталонов,возникающими при срабатываниисистемы доначала произнесенияот постороннихшумов или шумовдыхания.

Интерес к построениисистем распознаванияречи, работающихс множествомдикторов,сталипроявяять и исследователи, тради-

19

ционно работавшие с одним диктором.Т.К.Винцюк исоавторы [21]показали, что в рамках существующейоднодикторнойсистемы фонемногораспознаванияречи может бытьсоздана многодикторнаясистема распознавания,которую авторыназваликооперативной,посколькусистема предварительнообучается по выборке кооперативадикторов. Основныерезультатыэкспериментов:

при индивидуальномобучении системыраспознаванияречи средняянадежностьраспознавания по чужим дикторамне превышает80% (насловаре из 100слов);

- при кооперативномобучении средняянадежность распознаваниядля четырехчленов кооперативасоставляем98^, что вполнеприемлемо для практическогоиспользования;

- кооперативноеобучение способствуетсущественному превышениюнадежностираспознаванияречи лиц, неучаствовавшихв полученииобучающейвыборки (длядвух новыхдикторов средняя надежностьраспознавания97 и 92%).

S 1.3. Развитиесистем распознавания/пониманияслитной речи

Задача общениячеловека и ЭВМ с помощьюестественной,слитнойречи оказаласьгораздо болеесложной, чемпостроение систем распознаванияизолированныхслов. Одной из первых практическихсистем распознаванияпоследовательностислитных словосочетаний(пять слов исходногословаря) явиласьсистема фирмыKdC .описаннаяранее.

В дальнейшембудем различатьсистемы распознавания*и системыпониманияслитной речи.В первых, какправило, рассматриваютсяфразы, составленные из последовательностислов, междукоторымисинтаксическаяи семантическаясвязь либоотсутствует,либослишком жесткая(используетсяавтономнаяграмматика).Системыпонимания, в отличие отсистем распознавания,при декодированиивходного высказыванияиспользуютвысшие лингвистические уровни языков,близкие к естественным,работая с фразами, в которыхдопустимыстилистическиеошибки, бессмысленныезвуковые сочетания,произвольныепаузы и междометия.

При построении систем пониманияречи необходимов большей степени, чем при созданиисистем распознаванияслитной речи,использоватьопыт специалистов по искусственному интеллекту,а также привлекатьспециальныезнания о синтаксисе, семантике ипрагматикеязыка общения. В то же времяотметим, чтоделение насистемы автоматическогораспознаванияи понимания является 20

достаточноусловным ифактическиопределяетсякоэффициентомветвления,который показывает,сколько возможныхслов допускаетсяпосле каждогослова высказывания.В современныхсистемах распознаванияслитной речисредний коэффициент не превышает,как правило, 30 (всистеме Nac-ISQ), а в системах понимания этот коэффициентдостигает200-300 (бессмысленныезвукосочетания типа цмм ... , эээ ... ит.д., а также паузыи междометия можно рассматривать в СПР как возможныеварианты слов).

Так какавтоматическоераспознавание300 - 300 слов в непрерывномречевом потоке- сложная задача,веди использовать обычные математическиеметоды распознавания, то для ее решения и привлекаютсявысшие уровнизнания о языке(синтаксис, сематика ипрагматика), а также другиеспособы, обеспечивающие сужение числаальтернатив на каждом шагепринятия решения о слове, используемыеобычно в задачахискусственногоинтеллекта(ИИ). В связи с этим в системахпониманияговорят осемантическойточностираспознаваниясмысла фразы,когда не всесоставляющие(слова) могутбыть распознаныправильно.

Перейдем к рассмотрениюсистем распознаванияслитной речи.Как правило,такие системыработают по принципу фонемногораспознавания, от точностикоторого зависитобщая надежность работы системы.Одной из наиболееинтересныхотечественных систем с обучениемна конкретногодиктора и словарьявляется система,построенная в ИнститутекибернетикиАН УССР им.В.М.Гяуи-кова[l9,20] , развитиемкоторой сталакооперативнаясистема распознаваниярвчи[213.

В основу этойсистемы положенаматематическаямодель речевогосигнала, в которойкаждой фонеме соответствует полученныйалгоритмически(на основе анализатекущей автокорреляциисигнала, параметровлинейногопредсказанияи текущего энергетическогоспектра) определенныйнабор бинарныхпризнаков (двоичный код).Модель учитываеткоартикуляционнывэффекты, изменение длительностифонем и динамикуинтенсивностисигнала. МодельавтоматическогораспознаванияИнститутакибернетикиАН СССР используетанализ сигналапосредствомсинтеза.

Некоторыйпроцеср порождает из элементарныхэталонныхсигналов поопределеннымправилам эталоннуюслитную речь(общий для всехслов алфавитэталонныхэлементовсодержит около80 элементовкодов). Распознаваниеслитной рччисводится к необходимостинахождениянаиболееправдоподобногоэталонногосигнала слитнойречи.

21

В этой моделиавтоматическинаходятсяграницы отдельныхфонем, паузы,тип и общееколичествофонем в распознаваемойпоследовательности о учетом априорнойвероятностичастоты встречаемостифонем. Эталонныйсигнал слитнойречи формируетсяиз эталонныхсигналов отдельныхслов путемнелинейногопреобразованияисходных словесныхэталонов. При этом эталонныесигналы словскладывались в эталоннуюслитную речьтак, что паузымежду словамиимели различнуюдлительность (в том чис/ie инулевую),адлительностьэлементов фразыизменяласьплавно. Параметрами грамматики,порождающейэталонныефразы, являлись:алфавит эталонныхэлементов,акустике-фонетическиетранскрипциислов, правила стыковки слов во фразе, правила нелинейнойдеформации сигналов вдольоси времении некоторыедругие параметры.

Для экспериментов по распознаваниюслитной речи( словарь включал200 слов) былиполучены 1000реализацииэтих слов, произнесенныходним диктором(обучающаявыборка). Прииспытаниях система дала0,5% ошибок и 3% отказов при распознаваниислов в слитномпотоке. Расширениесловаря до 300слов увеличило количествоошибок до 1%,причем отказовбыло 3,5%. Приэкспериментахсо словарем из 100 слов удалосьполучить времяраспознавания (на ЭВМ БЭСМ-6),равное I с на I слово [193 • Отметим,что близкий к этому метод используется в системахраспознаванияслитной речи(СРСР), разработанных в Отделе вычислительной науки исследовательскогоцентра фирмы1УЫ. В связи стем, что даннаяфирна (так же,как и фирма Sperry Univac ) активно занимается исследованиямипо распознаваниюслитной речипосле завершенияпроекта arpa , рассмотримэти работыболее подробно.

В С39] описанаСРСР, в основекоторой лежитмодель акустическогоканала, обеспечивающаяавтоматическоепорождение всех возможныхповерхностныхформ предполагаемоговысказывания совместно с вероятностямиих порождения.Это порождениеосуществляется с помощьюакустико-фонологическихправил (АФП).приложенныхк базовой цепочкевысказывания.АФП учитывают в слитной речитакие фонологическиеявления, какпропуски, вставкии замены отдельныхфонем внутрислов, повышенныйтон речи, диалектныеособенности,изменения настыках слови т.д.

Удобнойструктуройдля выраженияповерхностныхфорд высказыванияявился направленныйграф, дуги которогопомечены возможнымизвуками. Каждомуузлу графасоответствуетраспределениевероятностей,указанных навыходящихдугах. Дуги наконцах графа,соответствующегосовокупностивсех поверхностныхформ произнесен-

22

ного слова,имеют связанные с начальнымии конечнымисостояни-яниусловия соединения,определяемыефонологическимиявлениями настыках слов.

Язык системыопределяетсяавтоматнойграмматикой, представленнойграфом и включающей250 слов. Для распознавания использовалсялингвистическийдекодер-алгоритмпоследовательного декодирования,обеспечивающийнахождениепредложения о максимальнойапостериорнойвероятностью по последовательностицепочки фонем,поступающихс выхода специальногоакустическогопроцессора. Точностьдекодированиявысказываний на контрольнойвыборке составила(по данным на август 1977 г.) 95% при6% ошибочной интерпретации,которые быливызваны 0,6% ошибокнеправильного распознаванияслов. Следуетотметить, что рассматриваемая система быласияьно модифицирована за последниетри года: упрощен акустическийпроцессор, с которого бывисняты функциифонемной сегментации и маркировки.Сказалосьвозможным,используя алфавит из 33фонем, маркировать ими десятимиллисвкундныеотрезки речевогосигнала непосредственно по акустическимданным.Преимуществотакого представленияавторы работы [Ю5Д видят в том,что, во-первых,информация о звуке,распределеннаяпо длине фонем,оказывается более полезнойдля распознавания,так как приэтом возрастаетколичествоинформации,поступающейот акустическогопроцессора к лингвистическоудекодеру. Во-вторых, сегментацияи маркировка(принятие решения о звуке) разнесеныво времени, и лингвистическийдекодер может,основываясьна структуреотдельных слов,во время сравнениярешить, представляетли короткаямаркированнаяцепочкадесятимиллисекунцныхсегментовистинный звукили же это -ошибочнаяложная ставка.

Дальнейшеесовершенствованиесантисенундногоакустическогопроцессора( asAJ ) за счет использования45 эталонныхфонетическихметок вместо33 позволилоповысить точностьклассификации(на языке со словарем из250 слов) до 98,8% наконтрольном материале 100предложений [l07] . Следует отметить, что еще болеесовершенныйпроцессор (wbap ), на которомполучены наилучшиерезультатыраспознавания(0% ошибок), используетлишь пять параметров,один из котррых- кратковременныеизменения общейэнергии сигнала, а четыре - отражаютпараметрыгласных и описаныранее в [l4l] . Этотпроцессоросуществляетакустическое сравнениенепосредственно,использучвеличины акустических параметров, а не фонетическиеметки, связанныес сантисекунднымиотрезками. Длякаждого словаиспользуетсямодель с конечным числом состояний,которая порождаетсяалгоритмическииз отображенного

23

произношения.Число состояниймодели равно длине этого произнесения в сантисекундах. В модели обеспечиваютсяпереходы изсостояния к этому же состоянию,к соседнемуи через одно.Скаждым переходомсвязано пятимерноегауссовскоераспределениев пространствепервичныхпараметров.Средние значения и дисперсии выходныхраспределений, а также переходныевероятности формируютсяавтоматически при обучениина дополнительныхреализациях слов при формированииобобщенныхэталонов спомощью алгоритма Вктер-би [39].

В процессореwbap используемаястатистикаоснована скореенаособенностислов, чем наособенности звуков.

Следуетотметить, чтоза I976-I978 гг. предпринимались попытки увеличитьобъем используемогов СРСР фирмыIBh словаря до1000 слов (тезауруслазерных патентов).Предварительные результатыиспытаний этойсистемы описаны в [106} . На тестовоммножестве фраз,куда входило486 слов, ошибкараспознавания слов составила33,1%, причем ни одна из й0 контрольныхфраз не былаопределенаправильно -программараспознаванияделала ошибкухотя бы в одномслове каждойфразы. Развитиеэтой системы [107] позволило за счет увеличениячисла фонетическихметок до 52 снизитьошибки в распознаваниислов до 20%.

В [108,109] рассмотреныдальнейшиеулучшения этойсистемы, позволившиеуменьшить числоошибок при распознаваниислов за счетиспользованияболее совершенногосантисекундного акустическогопроцессора сзар-зоо, в котором числоэталонных фонетическихметок былорасширено додвухсот. Прираспознавании 50 п"едл°жений,включающих980 слов, невернораспознано 87 слов, в числекоторых 34 слова,составившиеодносложныеслова типа "of", " а ", " are ","as" и др. Переход к работе этойсистемы с множествомдикторов описан в [l59]. Работа с новыми дикторамиреализована за счет использованияавтоматическойселекции акустическихэталонов,выполняющейсядвумя различнымиспособами.Одиниз методов, в основе котороголежит процедураВитерби С 39],реализован с помощьюсантисекундногоакустического процессораTPIVIAI [l07], а другой,основанный на алгоритме кластеризации,используетакустическийпроцессорautociust. (В первом методеиспользовалось85 эталонов, вовтором - 20D.) Точность распознаванияслов составила при использованиипервого алгоритма65%, а второго -90%. В 1983 г. была публикацияодной фирмы о распознаваниисловаря деловойпереписки общимобъемом 5000 слов.

Над проблемамираспознаванияслитной речипродолжает работать фирма Sperry Univas, участвовавшаяв проекте АЙРА.Эта

24

фирма разработалас"стему автоматическогораспозньванияслов,словосочетаний и естественныхпредложений{l74] . На основеспектральногоанализа и линейногопредсказанияв спектральной об-дасти звукиклассифицировались по способу иместу образования.Система былаиспытана насловаре из 31слова двумя дикторами.Точностьраспознаванияизолированныхслов при использованиисинтаксисазадачи составила95%. Предварительныерезультатыпо распознаваниюслитной последовательностислов, произносимые тремя дикторами,составили от54 до 74% для задачис ограничечным порядком следованияслов. Предполагалось, что в дальнейшем будут использованыакустико-фонетичзские и фонологические правила, нормализациядикторскихпроизношений,просодическиехарактеристикиречи. Предполагалосьтакже, что будутиспользованы более сложныепроцедуры для синтаксическогои семантического анализа. В1977 г. системаработала с двумя словарями- из 36 (алфавит-но-цифровойсловарь) и 64 слов(словарь речевогоуправления)[123, 153] . Для обоихсловарей точностьраспознаваниясоставила 95^, а среднейточностираспознаванияслитялс словосочетаний- 88%.Дальнейшиеразработкивключали расширениесловарногосостава системы,числа типовпредложений,использованиеправил фонетическойи словеснойверификации.

В [l54] сообщается,что системаSperry Univac. была модернизированадля поиска иверификацииключевых словв потоке слитнойречи. В этойсистеме использовалисьизмеряемыена деся-тимиллисекундныхинтервалахпараметрыречевого сигнала, проведшегочерез телефонныйканал. Исследователямибыл выбран достаточномощный наборпараметров-Непосредственно по речевой волне определиласьчастота основноготона. Спектральныйанализ с помощьюбыстрогопреобраэозанияФурье (БПД) позволялполучить следующиепризнаки речевыхотрезков: общую энергию в полосе100 -8600 Гц, энергиюсонорных (100 - 3000Гц), высокочастотную энергию сонорных(650 - 3000 Гц), низкочастотнуюэнергию (JOO - 600 Гц),разность энергийнизких и высокихчастот

Системасодержит компоненты просодическогои фонетическогоанализа, которыеобеспечиваютпоследующеесегментноеструктурированиевысказывания(получениецепочки кваэифонетическюссегментов)

Зак.480 26

для лексическогосравнения.Сравнениеосуществляетсяс помощью блоковсловесногогипотезирования и верификации. Верификацияслов производится методом динамическогопрограммирования. При построениисистемы обнаруженияключевых словбыла использованаобучающаявыборка - разговорнаяречь, продолжительностью13 мин. Предложенияпроизносили8 дикторов.Контрольная выборка составлялаII мин разговорнойречи 10 дикторов(из которыхдвое участвовали в обучении).

При контрольномэкспериментеточность обнаружения10 ключевых слов была невысока,но все же испытанияследует считатьобнадеживающими.В [124] отмечается,что в течение1978 г. отдел речевойсвязи Jperry nnivac работал над созданиемболее совершенногоблока фонетическогоанализа, которыйфактическистал лексически-управляемымфонетическимверификатором(а не автономнымфонетическиманализатором,как раньше),что лучше учитываеткоартакуля-циокныеэффекты внутрислова. Модернизациясчстемы позволила[I55J получить болееудовлетворительныерезультатыпо обнаружениюи верификацииключевых слов в потоке слитнойречи. На тестовыхпредложениях (16,7 мин разговорнойречи 14 дикторов,не принимавших участия в обучениисистемы) ключевыеслова былиобнаруженыв 30% случаев.

В [l87] описанасистема распознаванияслитно произносимыхцифр, разработаннаяфирмой Bell laboratories.Систэма состоитиз двух взаимодействующихблоков. Первыйосуществляет пословнуюсегментациювсего высказывания на отдельныецифры, а второйпроизводитраспознаваниеэтих цифр порезультатамсегментации. При распознаваниииспользовалисьпризнаки сеп/^нтовречевого сигнала:

р - параметр,логарифм анергии,кооффициентылинейногопредсказания и ошибка предсказания.и коэффициентаавтокорреляции.Дляпословнойсегментациислитных словосочетанийучитывалосьто обстоятельство, что для этогоконкретногословаря (английские названия цифр)шумные участки и паузы (глухиесмычки) могли находиться только в началеили конце слов.&ти участкии являлись в основном опорнымиграницами междусловами. Точностьпословной сегментациисоставляла99% (при произнесениисловосочетаний как в тихойкомнате, так и в условияхмашинногозала). Точность распознаваниясловосочетаний(названий семизначныхтелефонных номеров) составила91% для10 дикторов (5 мужчини 5 женщин), произносившихфразы в тихойкомнате, и QT%для тех же дикторов, находившихся а машиннойзале. В [149] отмечается,что полученыобнадеживающиерезультатыпо распознаваниюслитной речи,использующейсловарь в 1й*7слов, аналогичныйсловарю [ 147,148] .Дальнейшееразвитие этихсистем описанов [156,1693.

26

СистемаHearsay-П создавалась на базе разработанныхранее системраспознаванияслитной речи Dragon и Hearsay-I.Аналогично Hearsay-I главнымпринципомHearsay-д было выдвижениегипотезы (озвуке, слове,фразе) и ее подтверждениес помощью всехвозможныхисточниковзнаний (ИЗ) оречевом сигнале.

Описаниявысказываний,которые должныанализироватьсяв этой системепонимания речи,имеют унифицированнуютрехмерную структуру,причем размерностямиявляются: уровнипредставления(акустический,фонетический,слоговой,лексический,синтаксическийи семантический),время и вероятностныеальтернативы (на каждом уровне для каждоговременногоотрезка). Ьта структура содержится в памяти системыкак единаяинформационнаябаза (ВИБ),подвергающаясяисследованиям и модификациям с помощью различныхпрограмм, реализующихввод в системунеобходимых источниковзнаний.

Работа комплексапрограммы на единой информационной базе (которуюназывают "класснойдоской") и естьинтерпретация слитно произнесенноговысказывания на различных лингвистическихуровнях - отфонетического до семантического.

Общая информационнаяпамять, построеннаякак единая многоуровневаяинформационнаяструктура с внутреннимисвязями, представлена в системе Hearsay-П в виде графа.Основная единицаэтой информационнойструктуры -узел графа,являющийсягипотезой о существованиив высказываниинекоего частичногоэлемента. Структурныеотношения между узламиграфа (гипотезами)представляютсядугами графа,обозначающегосвязи. Существуетдва наиболееважных типаструктурныхотношений -"последовательностьэлементов"и "выбор элементов".

Последовательность- это структурноеотношение, означающее,что гипотеза верхнего уровняподдерживается"юследовательныырядом гипотез на нижнем уровне(например, словопредставляетсяпоследовательностьюнепересекающихся во время звуковречи). Выбор- отношение,определяющеегипотезойальтернативную поддержку отдвух и болеегипотез , причемкаждая от нихсущественноперекрывает тот же временнойотрезок (т.е.,например, гипотезой,допускающей на данном временноминтерваленесколько различных словпримерно одинаковойфонетическойструктуры).

Распространениеидеи "выдвижениегипотезы - ее подтверждение" на все уровнизнаний о речевомсигнале требуеторганизациисистемы передачиинформациимежду уровнями. В связи б двумявидами, структурныхотношений междуузлами графаможно рассматривать и два типа гипотез- горизонтальныеи вертикальные, подт-

27

верхдаемыесоответствующимиисточникамизнаний. Гипотезасчитаетсягоризонтальной, если источникзнаний используетконтекстуальнуюинформацию на данном уровнедля подтверждениягипотезы тогохе уровня.Вертикальнаягипотеза определяется как гипотеза,требующая для своегоподтвержденияинформации,получаемой источникамизнаний надругих уровнях.

Основнаяфункция источниковзнаний - устранитьошибки, возникающие при обработкеслитной речи.При этом источники знаний должнывовремя добавитькакую-то новуюинформацию,внести что-тополезное для более надежногораспознавания.Источники знаний должныуметь распределятьэти знаниячерез механизм выработкигипотез, оцениватьцобавку от других источниковзнаний,т.е.подтверждать иди отвергатьгипотезы, сделанныедругими источникамизнаний. Источникизнаний необходимосоздавать таким образом, чтобыих можнобыло приспособить к новым участкам анализа высказывания и вообще к новымзадачам автоматическогопониманияслитной речи.

Для нормальнойработы СПРНвагаау-11 необходимореализовать:

1) достаточнообщую, структурно-полнуюинформационнуюбазу, анализируякоторую, источникизнаний могут вводить новыегипотезы,' проверятьи изменятьгипотезы, размещенныев этой базедругими источникамизнаний;

2) средствадля описанияразнообразныхисточников знаний и обеспеченияих внутреннейобрабатывающейспособности;

3) возможностьуправлятьдействиямиисточниковзнаний ин-фовмационко-направленнымспособом (необходимспособ, с помощьюкоторого определяетсяряд предварительныхусловий, запускающихнеобходимыйисточник знаний);.

4) признаки, по которымобнаруживаетсяудовлетворениеэтих условий и локализуетсячасть информационнойбазы, в которойзаинтересованысоответствующиеисточникизнаний.

Для реализациип.4 необходимыдва механизма:мониторныйруководящиймеханизм,обнаруживающийизменение общейинформационнойбазы и оценивающийприроду этихизменений, иассоциативный механизм повторныхиспытаний и восстановлениячастей информационнойбазы, когда этонеобходимо.Таковы самыеобщие сведения о Hearsay-П. Переедем к более детальномурассмотрениюэтой системы.

Параметрическоепредставлениевысказыванияв Неагвау-Псводится к использованиюдвухступенчатойсистемы признаков. Несмотря на то, чтов последнеевремя большоевнимание уделяется

28

точным методамнахожденияпараметровречеобраэующеготракта (в частности,с помощью линейногопредсказания),неапау-11 используетсялишь на второмэтапе. Но преждечем использоватькоэффициентылинейногопредсказания,авторы Неагвау-Пполучают гораздоболее простыеи дешевые обобщенныепараметры,которые назвали параметрамиzapbash (Zero Orosetng and PeaHs atDifferenced and Smooth Vaweform). Эти параметрыобеспечиваютгрубую сегментациюречевого потокапо способуобразованиязвуков, т.е.обеспечиваютсегментациюи маркировкуI уровня. Послелокализациив высказываниифонетическихэлементовприменяютсегментациюи маркировкуП уровня, основаннуюна использовании коэффициентовлинейногопредсказания,обеспечивающегоболее точнуюидентификациюсегментов.

zapdash - параметрыречевого сигнала,определяющие интегральныехарактеристикизвуков в низкочастотном(1 кГц) диапазонах.Эти параметрывыделяютсяв реальноммасштабе временииз сигнале,поступающегос АЦП в мини-ЭВМ,которая обладаетсредним быстродействием600 тыс. операцийв I с. Параметры(число нулевыхпересеченийи амплитудноезначение сигналана интервалеанализа длякаждого издиапазонов)формируютсяпрограммно,и их значениядают возможностьгрубо классифицироватьсегменты на10 различныхтипов - пауэы(глухая смычка),наличие звонкойсмычки, характеризующиезвонкие взрывныеб, д,г, сонорныйсогласный,глухой фрикативный(переднеязычный или заднеязычный),носовой, свистящий,гласный высокогоиди низкогоподъема. В дальнейшемпроизводитсяпере классификациясегментов на59 классов, некоторыеиз нихпересекаютсяв пространствепризнаков.

На второйстадии к среднемуучастку сегментовприменяютсравнение сэталонами (этихэталонов длякаждого класса сегментовможет быть до100). При сравнениисредний участоксегмента по-ступившейна вход реализациисравниваетсяс множеством эталонов, которыеподучены отспециальнообученныхдикторов.ИспользованиесегментацииI уровня позволяет,как отмечается в [l79], ускоритьобщую сегментациюв пять раз посравнению с унифицированной,основанной.исключительнона коэффициентах линейногопредсказания.

Как уже отмечалось,ключевой проблемойсистем пониманияРечи являетсяверификациясдоврсиькгипотез.подожданных различ-иымиисточникамизнаний. Блоксловеснойверификациидолжен оце-нвдь,насколькоакустическиеданные входнойреализации соответствуютфонетическойтранскрипциигипотезируеногослова.

2S

В соответствии с оценкой,словесныйверификатор отбрасывает большее числегипотезированныхслов, сохраняявозможные пра~вильные, чтобывпоследствииотобрать единственноес помощью инфор~мации высшихуровней.

В Hearsay -П словапорождаются либо словесным гипотезато-ромснизу вверх(блоком POMOW), либопреде называютсясверху внизсемантико-синтаксическимблоком sass . Блоксловесной верификацииwizard обрабатываетгипотезы о словах снизувверх, используяакустическуюинформацию и результатыавтоматическойсегментации.Каждый сегментвысказыванияпредставленвектором фонемныхвероятностей(т.е. с каждымотрезком высказывания связываютсяопределенныезвуки, которымприсваиваютсянекие веса),Каждое словословаря записываетсяэталоннымграфом возможных фонетическихпроизнесений,учитывающим все альтернативныевариантыпроизнесений.Однороднаямодель, используемаяблоком словеснойверификации,дает возможностьнайти оптимальноесовпадениеодного из эталонов(соответствующеепути на одномиз эталонныхграфов) и участкавходной реализации,соответствующегослову.

В системе Hearsay-П при словеснойверификациистыки междусловами не рассматриваются,делается лишьих внутренняя обработка.wizard пытаетсяверифицироватьслова, как будтоони находятся в изоляции.

При верификациислова обрабатываютсяснизу вверхследующимобразом: предсказанныемоменты начала и конца словасвязываютсяс соответствующимисегментамивысказыванияbseg и eseg. Исследуются все пути в эталонныхграфах возможныхслов, которые совпадают с отрезками ивходной реализацией.Сравниваютсяс эталонамиотрезки, которыеначинаютсяв (baeg-I: beeg +I ) и заканчиваютсяв jeseg -I I eeeg +I(, т.е. параллельно рассматриваютсядевять возможныхучастковвысказывания, что приводитк девяти оптимальнымпутям на эталонных графах, из которых выбираетсятот. оценкикоторого наибольшие,или наиболеесоответствуютрассматриваемомуучастку. Сдвиг на один сегмент вправо иливлево позволяетизбегать ошибок при представлении входного,высказывания(акустическихданных) различнымиисточникамизнаний. В результатеблок словеснойверификацииможет изменятьвремя словесныхгипотез, а такжеих оценки. Следуетотметить, что если в проектахВШ (Speechlis и HWIM) идетнепосредственныйпереход отфонетическогоописания к словесному,то в Hearsay-П используетсяеще промежуточный,слоговый уровеньмежду словамии звуковымисегментами.Для поддержкисловесныхгипотез используются так называемыетиповые слоги,слоготипы (syltypes).

Ццея слоготиповсводится ктому, что слоги,имеющие похожиесегменты (например"та", " па"), относятсяк одному типу.Никаких попытокразличать словас одинаковымислогами в Нвагвау-П не делается.Каждый слоготипхарактеризуетсяслоговым ядром,определяемымэвристическиприсвоеннымисегментнымиметками и положениеммаксимумаэнергии наотрезке. Длякаждого слоготипа гипотези-руютсяслова, в которыхвстречаетсяданный слог; многосложныеслова отбрасываются,если плохосогласовываютсяо последовательностьюслоготипов.Подробноеописание слоговогогипотезатораpokow содержитсяв С 1783.

В Неагаау-Псодержитсяеще один гипотезатор- гипотеза-торсловесныхпоследовательностейwozeq. В сравнениисо стратегиейоднословных"островковнадежности"многословнаяпоследовательностьжелательнапо двум причинам:

1) доверие кгипотезе опоследовательностисдов болеевысоко, чем воднословнойгипотезе;

Синтаксическийи семантическийисточникизнаний вНеагвау-ппредставляютсяблоком sass . Этотблок имеет делос гипотезами,представляющимислова, словосочетанияили фразы,воспринятыеили предложенные.Задача sass - найтинаиболееправдоподобноепредложениепо последовательностисмежных слов.Правдоподобиеопределяетсядостоверностьюсловесныхгипотез играмматическойправильностьюи осмысленностьюпредложения.Как уже отмечалось,в и«эаг-aay-il многочисленныеальтернативыпредставляютсяв общей информационнойбазе и обрабатываютсяпараллельнонезависимымиинформационнонаправляемымипрограммнымиблоками - модулямиисточниковзнаний, которыесоздают, проверяюти переписываютгипотезы овысказывании,запоминая ихна доске. Однаразмерностьдоски - уровеньпредставления,другая - время,третья - вероятностьправильностигипотезы, оцениваемаяв очках. С точкизрения sass общуюинформационнуюбазу ("класснуюдоску") можнорассматривать как схемугипотезированныхслов, порождаемыхразличными источникамизнаний. Вертикальныеизмерения - этоочки (в диапазоне- 100 * -» +100), оценивающиедостоверностьсловесныхгипотез.

31

30

Проблемы,стоящие передсемантико-синтаксическиы блоком -неопределенныйкомбинаторныйпоиск, слабое(например,предложениезаполнитьпробелы на временной осигипотезамио словах) и сильное(например, совсемотвергнутькакую-либогипотезу)вмешательство,необходимостьиспользоватьчастичнуюинформацию (частичныеграмматическиеконструкции),способностьдинамическименять своикритериидостоверности- общие проблемымногих большихсистем,основанных на информационномуправлении.

Уффективноерешение этихпроблем,по-видимому,потребуетпостроениятакой системы, в которойпоследовательность процедурзаключительнойобработкичувствительнак различнымсотрудничающими конкурирующимотношенияммежду гипотезами,ато означает, что семантико-синтаксическаяобработкаоблегчаетсяна гипотезах,поддержанныходновременнонесколькимиисточникамизнаний, и задерживается на гипотезах,которые конкурируют,не согласуются с очень надежнойгипотезой.Задержка гипотезыдолжна быть достаточногибкой, недетерминистской,неокончательной,так как и слабаягипотеза при интерпретациивысказыванияможет оказатьсяверной. Гибкаязадержкаосуществляетсяв Hearsay- П механизмомфокусировкивнимания, который распределяетресурсы так,чтобы в первуюочередь рассмотретьнаиболее обещающиегипотезы.

Синтаксические и семантическиезнания опроблемно-ориентированномязыке Hearsay-П выражаются в компактной,легко читаемойграмматике»которая задаетсяпараметрическимиструктурнымипредставлениями (PSR), являющимисямножествомпар типа "определение- объект". psr используютсядля определениякласса слови фраз, которыемогут выполнять синтаксические и семантическиефункциипроблемно-ориентированногоязыка, состоящегодля Hearsays И из простых вопросов. Например,psr:

($СЪА35: $QUEPY, $HAME: "PAPSEDQUEPY", 6 : $QinME + $flfHAT,

El ТЕ L Ь+'$ ME + $ПЕ + ФТОПСЗ,6 » WHAT + HAPPENED + $ АЮТ AY, e s WHAT + ф BE + THE + $N EWS+tRE + ^TOPICS

ЦСТЮМ t PASS, $LEV EL !300)

определяеткласс возможныхвопросов втерминахих альтернативныхсинтаксическихреализации,аначок ® обозначаетпринадлежностьк классу. Каждаячлен класса- это последовательностьэталонов,составляющиекоторых, разделенныезнаком "+", слова или фразы. «разовыесосгааяяшеи»помечаютсязначком $ и определяются в

32

свою очередьдругими psr. faction passозначает, что реакция блокаЗАЗЗна распознаваниелюоого из пятиэталонов в классе должнатрактоватьсякак признаквопроса ( $query ) .»levelоцениваетотносительнуюзавершенностьчастичногограмматическогоразбора, лежащегов основе гипотезируемойфразы PSR:

6 : $CL ASS ! $TOPICS,

ЈPL АСЕ,

$FOOD,

$TECHNOL ОСУ,

$ С OVER NT.IE:IT,

ФР01Т1Т1С,

$PEOPL E,

e ; $TOPICS + SCONJUN CTICOT + 3>TOPIGS, 6 :CACTIOH : PASS, LEVEL : 40)

и определяеткласс возможныхпредметовразговора(.Topice) в терминахих семантическихподклассов.

Как уже упоминалось,sass имеет наборсильных и слабыхсредств, представляющихразличные видыобработкиинформации на синтаксическоми семантическомуровнях.

1.Правилораспознаванияпорождаетгипотезу офразе по достаточнонадежным гипотезамо составляющихфразы. sass рассматриваетслова распознанными,если их оценки(в очках), определенныедругими источникамизнанчй, превышаютнекий порог.Составляющиефразы должнытакже удовлетворять некоторымструктурнымтребованиям- например, таким,как временнаясмежностьмежду составляющими.Правила распознавания ведут обработкуснизу вверх,двигаясь отчастичногограмматическогоразбора к полному.Они представляютсобой сильныесредства обработки(сила оцениваетсявероятностьютого, чтопоследовательностьраспознанныхсоставгчющихможет как-тоосмысленно интерпретироваться).

2. Правилапредсказания гипотезируютсио-во или фразув зависимостиот вероятностиконтекста,определенногона предыдущихэтапах распознаваниявысказывания.Правила предсказаниявыполняютобработку,перекрываявременнойин-Тврвая "островкаминадежности".Эти правиланеобходимы потому, чтоне все словав произнесенномвысказываниимогут бытьрас-чознаныснизу вверх,т.е. источникамизнаний нижних уровней. ^ияаправила предсказанияопределяетсяусловной вероятностьютого, что предсказанныесоставляющиемогут быть ввысказываниипри

Денном (распознанномранее) контексте,ата сила обратнопропор-'тонаяьначислу составляющих,которыемогут появитьсяв этом контексте.

Зак.480

3. Правилаповторногоразбора ( res-pelling rules) производятобработка7сверху внизи численнооцениваютсоставляющиепредскапаннойфразы, разбиваягипотезируемоепредложениена гипотезыдля последовательныхсоставляющих или же "расщепляя"гипотезируемыйкласс на альтернативные гипотезы дляразличныхсоставляющихвысказывания.Правила повторногоразбора (прочтения)проводят обработку,возвращаяськ словесномууров. ню, такчто предсказание(о фразе) верхнегоуровня можетбыть подвергнутоиспытанию(слово за словом)источникамизнаний нижнегоуровня, еслина верхнемуровне что-тоне сходится.

4. ПравилапостдикциинесЭходимыдля того, чтобыуже послесформированияпонятия подтвердитьего большимчислом "очковдоверия", датьему более высокуюоценку, подтвердивсуществующуюгипотезу офразе другимигипотезами. Правила постдикциикак более сильныевключают правилапредсказания и повторногопрочтения,которуе слишкомслабы, чтобы подтвердитьсоздание гипотезы,но могут внестиполезный вклад,когда гипотезауже существует.Правила постдикц^ивыполняют трифункции:

а) позволяютобъединятьвыводы, поддерживающиеоцениваемуюгипотезу наоснове различныхисточниковзнаний;

б) дают воамсвностьгилотеэирсватьслова и фразыс низкимипервоначальнымиоценками засчет ихраспознаванияна основе контекста»

в) способствуютфокусированиювнимания наглавных направлениях,определяемыхвозрастаниемочков гипотезтех слов, которыеконтекстуальновозможны (итаким ооразоммогут считатьсяправильными),так что обработкавысказыванияв этих направленияхпроисходитпо списку приоритетовв первую очередь.

Автоматическоепревращениеописательнойинформациио грамматикеязыка -Hearsay- П , заданнойпараметрическимиструктурнымипредставлениями( psr), в процедурнуюформу осуществляетком-пиллятор суытет , которыйтранслируетэти представленияв правилараспознавания,предсказания,повторногопрочтения и постдикции.cvshet разбиваетпоследовательностислов, составляющихвысказыванияи представленныхPSR, на пары последовательныхэталонов, формируяновые подпоследовательностии порождая длянихсоответствующиеправила [ 13Й 3 .

Одна из самыхинтересныхсистем автоматическогораспознаванияслитной речи- система harfy,разработаннаяпо проекту arpa(США, Питсбург).Эта системапо сравнениюс другимиразработками,проводившимисяпо этому проекту[l5lj,наиболее близкак практическомуиспользованию.Словарь harpy составляет ЮН словоформ- слов телефонной информацион-

34

но-справочнойслужбы о новостях.При испытаниях harpy была полученаточностьраспознаванияфраз, равная95% на обучающейвыборке и 92^ наконтрольной.Система воспринимаетслитную речь,не содержащуюстилистическихошибок. В harpy информацияо языке представленафонетическимграфом - интегральнойсетью переходовс конечнымчислом состояний,не учитывающей априорныевероятностипереходов.Распознаваниеосуществляетсясравнениемвходной реализации,представленноймаркированнымисегментами, с этой сетью.

Системасодержит несколькоэвристическихпроцедур дляулучшения еехарактеристик:выделениеподсетей исжатие их для уменьшенияобщего объемасети, автоматическоесоставлениеописаниякоартикуляционныхявленийна стыкахслов и т.д. Времяраспознаваниясистемы в периодиспытаниясоставляло2D с на 1 с речи(есть сведения,что в настоящеевремя оно сниженодо Зс на I с речи).

Синтаксическиезначения вhahpy однозначноопределяютсянезависимымот контекстарядом выработанныхправил, формализующихпроолемно-ориентированныйязык. Лексическиезнания представленысловарем, которыйсодержитсимволическуюфонемную транскрипциювсех альтернативныхпроизнесений.Правила стыков,как и в системахIBM, учитываютфонетическиеявления присоединениислов в слитнопроизносимоесловосочетание.В качествепервичныхпараметровиспользуютсякоэффициентыавтокорреляциии линейногопредсказания.У системе Нларув процессеработы осуществляетсяадаптивнаяподстройкапод дикторас помощью десятиобобщенныхэталонов,характеризующихусредненныйвокальный трактгруппы дикторов.На базе harp? былразработанголосовой вводв картографическуюсистему ( vigs),позволяющийдублироватьклавиатурупри вводекартографическойинформации [l3l].B настоящеевремя системаharpy переводитсяна мультимикропроцессорнуюбазу [36].

перейдемк краткомуописанию систем"понимания"речи. Их разработканачалась послепоявленияотчета [161] , в которомизвестныеамериканскиеспециалистыв областиискусственногоинтеллекта,распознаванияречи, системногопрограммирования,математическойлингвистикиизложили взглядына проблему построениясистем, воспринимающихслитную речь,произносимуюна естественномязыке. Основныеположенияотчета [161] леглив основу пятилетнейпрограммы arpa.

Достаточноподробныеобзоры по начальномуэтапу работ над системамипонимания речисодержатсяв [79,85] . Поэтому здесь рассмотримлишь итогипроекта arpa вобласти построения

35

конкретныхСПР. Можно считатьзаконченными(в большей илименьшей степени)системы пониманияречи трехамериканскихорганизаций-ОЫП, 3RI и ввн [179, 162,187, 189].

Основныеусилия c:,?J былинаправленына построениесистемы пониманияречи Неагаау-1"^основаннойна принципе: "Выдвижениегипотезы и ееподтверждениеразличныминезависимыми источникамизнаний о языке".Отдельныеэлементы этойсистемы подробноосвещены в [79, 85, 8b, I2U, 179].

СистемаПсагвву-п былаиспытана наIOU предложениях,составленныхиз IUH словоформ,аналогичныхсловарю системыharpy, описаннойранее (системаHARPY имела грамматикус гораздо болеепростым синтаксисом).Ошибки прираспознаваниифраз в Неагаау-псоставляди16%, а время распознаванияпревышало времяраспознаваниясистемы harfx в 2 -33 раз.

В фирме венна I этапе разрабатываласьсистема пониманияречиSpeeohlis, в качествеязыка которойиспользовалсяупрощенныйвариант языкаИПС lunar; системаЬ^-паг давалавозможностьанализироватьобразцы лунныхпород[?9,Уб1Вдальнейшембыла усовершенствованаэтой же фирмойновая системапонимания речи нули (Hear what I mean ) С учетомнедостатковSpeechlia.

.Язык системь.hwim относится^ области бухгалтерскихрасчетов. Вместораздельныхсинтаксическогои семантическогоблоков системыSpeechlis , нздш имеетединый, семантико-синтакси-ческиймодуль, реализующийтак называемыйблок "прагматическойграмматики".Эта грамматикапредставленаздесь в виде сети и основываетсяне на такихсинтаксическихкатегориях,как подлежащее,сказуемое,определение,ана семантических- "поездка","лиад", "расстояние".Словарь itvim включает1100 словоформ [185, I8yJ

Прагматическаяграмматика,хотя и жесткосвязана с проблемно-ориентированнымязыком, оченьудобна длкобеспеченляпростых принциповиспользованиясинтаксических,семантическихи прагматическихограниченийязыка, которыенеобходимоделать дляповышенияточностиинтерпретациивысказывания.По-видимому,наперво» этапепостроенияавтоматическихсистем пониманияречи целесообразнотак и поступать,т.е. разделитьзадачи использованиясловарями(например, приавтоматическоммашинном переводе текстов) ииспользованиемсинтаксисаи семантикидля построенияСПР. dc ьторомслучае задачанесколько иная- и более сложная,и боле( простая.С одной стороны,нет уверенностив правильномраспоэ наваниивсех составляющихвысказывания;неясно, существуют я'

36

вообще пробелы(паузы, междометияи т.д.) на временнойоси,где искатьключевые словаи пр. Но с другойстороны, мыограничиваемсядостаточнопростымпроблемно-ориентированнымязыком с относительнонебольшимсловарем и упрощеннымиграмматическимиконструкциями.

В системе нто,1 акустическаяинформацияиспользуетсяблокамиакустико-фонетическогораспознавания( apr) и периметри-чеокойверификациислов ( ?та ). Результатомработы APR являетсяфонетическаятранскрипция"снизу-вверх".

Блок pvw осуществляетверификацию"сверху-вниз",води словеснаягипотезаподдерживаетсяакустическимуровнем. Основнойпрограммный модуль верификатора- программасинтеза слов по правилам.

Отдичиесистемы h.'.'im отSpeechlia заключаетсятакже и в характереакустико-фонетическогораспознавания- в наличии усистемы HWIM блокаселективноймодификации( зМ), дающего возможностьреализоватьдвухступенчатуюсегментацию и маркировку.Программа SM на выходе порождаетрешетку сегментов,представляющуювозможныеальтернативыфонам. Каждыйиз сегментов первоначальномаркируетсяодной меткой.Затем в зависимостиот этой предварительнойклассификациивычисляютсянекоторыевеличиныаку-отичаскихпараметрови модифицируютсяоценки данныхфонем. Функциипяотностивероятностей,используемыеблоком сеяективной модификации sM, поступают в бяок агер (Acoustic Rionetic Experiments Facility ), которыйсодержит модули,позволяющиемоделировать звуки речи ипроверятьпараметрические многомерныераспределениявероятностей для ряда фонетическихклассов, чтодает возможностьполнее использоватьмногие независимые параметрыодновременно.

Программа ан? выделяет не только грубыеклассы фонем,но и производитидентификациювнутри классов. Характеристикифонам в слитнойречи сильнозависят от контекста, т.е.наблюдается наличие несколькихаллофонов, длякоторых оценки сильно перекрываются.Поэтому в hv/im длякаждого классафонем устанавливается ряд фонетическихпризнаков ииспользуется таблица, в которойпоказано ранжированиеэтих признаковдля аллофоновкаждого класса.

После сегментациивысказывания и построения сегментнойрешетки, перекрывающейвысказывайтеотрезками, соответствующимифонемам, блокуправлениявызывает процедурулексического поиска длясканированиявдоль всейсегментнойрешетки и поискаIb наиболееподходящихслов. Из-за большойнеопределенностина стыках

37

слов эту процедурупроделываютслева направои справа налево.Сяова, отобранныепроцедуройлексическогопоиска, образуют словеснуюрешетку, где они используютсяпри последующейобработке. Блокуправления, выбрав из УОотобранныхпри сканировании слов одно с наибольшимвесом (получившеенаибольшуюоценку).пытается,основываясь на прагматическойграмматике,строить гипотезу о большем отрезкесигнала. Еслирасширениегипотезы не получается,блок управленияберет следующее(по вес^) слово словеснойрешетки; если это слово подходит,то расширяютдвухсловную гипотезу, еслиже нет, то подбираютновое ключевоеслово.так продолжают до тех пор, пока не будет построенагипотеза обо всем высказывании.

Если система не в состояниисформироватьправильную гипотезу о фразе или еслиисчерпаныресурсы, тосчитается,что система не смогла интерпретироватьвысказывание.При расширениигипотезы блокуправлениявызываетсинтаксическуюкомпоненту, которая даетвозможностьоценить гипотезуи предсказать новые слова.Синтаксическаякомпонентапомечает каждоеслово словеснойрешетки, котороеможно использовать для расширения гипотезь', иустанавливает, какие еще словатребуются для подтвержденияэтой гипотезы("подсказка"сверху). В связи с последним могут бытьпроизведеныдополнительныесравнения с эталонами для проверки, нетли в текущейреализациивысказываниянеобходимыхслов.

После того, как синтаксическаякомпонента("прагматическаяграмматика")сделала своипредположенияслов слеванаправо, онавызывает процедурулексическогопоиска дляпроверки новыхгипотез о словах.Оценки слов,оценки гипотез об отрезкахфразы и оценкифраз ("событий", как их называютразработчикиWi'iu ) влияют на общую стратегиюинтерпретациивысказывания.Событиям присваиваютсяочки, приблизительноравные суммеочков слов подтвержденнойгипотезы и слов, требуемыхдля расширенияэтой гипотезы,

Попробуемрассмотретьпример, из которогостанет ясно,как работаетмеханизманализа предположения,основанныйна так называемой"островковойстратегии".Пусть на входсистемы поступилафраза:

"What Is the total budget figure ?"(Каковаобщая суммабюджета?). Припросмотре фразысправа налевопроцедура лексическогопоиска формируеттаблицу:

17 17

24

22 11

182

178 174

-38

-10

-R

-d

-R

1.FIGURE

2.FIGURE

3.TOTAL

38

4. FIGURE1723169-535. YEAR2023107-23б.УСУ2022100-317. IS3596-318. ABOVE10149409.BUDGET111781-1610. IT6880-1611. IS2576-3112, ТО7973-4613^WOULD0372-3114. -34572015, FIGURE172169-38Слеванаправо16. TOTAL -ED71?1971017. FIGURE1724182018. WHAT03178019. PIOURE1722178-3820.TOTAL711174-1021, FIGURE1723169-5322. HJDGET1117154-1623.VKAH2023107-2324. YOU2022100-3125. IS3596-3126. FIGURE -ED172389-3827. FIGURE172883028. BUDGET111781-1629. IT6880-1630.HIS2576-31

Список представляет30 возможныхслов при сканированиисправа и слева,позиции правойи левой конечныхсегментов слова, очков,которые получилоданное слово при сравнении эталонов сучасткамивходной реализации на местах междуначальной иконечной точкамигипотезируемогослова, логарифмавероятности произнесенияданного слова.Список можетописывать некиеспецифическиесвойства, связанные с произношением(здесь всюдупропуски - -), атакже показывать,справа или слева производилось сравнение сэталоном (здесьпоказателиR и L).

Анализ спискагипотезируемыхслов показывает, что большевсего очковнабрало слово totaled (при сканировании слева направо).Бто слово занимает в словеснойрешетке позициюот сегмента 7 до сегмента12 и имеет вес197. Для этого слова соа-

39

дается однословнаягипотеза, которуюдолжна расширить синтаксическаяпроцедура. Но прагматическаяграмматикане позволяетформироватьфразу с этимсловом в прошедшемвремени. Следовательно,никакого предсказания о возможномконтексте сэтим словомсделано Сыть не может. Следуетперейти к следующему(по оцен. не в очках) слову figure . Отметим, что существует семь различныхсравнений с этим словомпримерно в гомже месте высказывания,немного отличающихсяочками.(Этообъясняется различнымифонологическимиэффектами на концах слова, возможностямиразличнойсегментации в сегментнойрешетке и различными возможнымипроизнесениямиэтого слова,отраженнымив эталонномфонетическомграфе; в кашемслучае всесвязано с неопределенностямисегментацииэтого слова в конце.) Вообщеговоря, то, что одно слововстречается в списке вероятныхкандидатовнесколько раз, является хорошим признакомтого, что этослово действительноприсутствует в высказывании,

Чтобы избежатьизбыточнойобработки,авторы вводят понятие "нечеткогословесногосравнения",которое обобщаетсравнение сэталоном одного и того же слова,появившегосяпримерно в томже месте. Всегда, когда слово-кандидатподобно figure встречалосьнесколько раз,при расширениигипотезы используются нечеткие границы.Итак, для словаfigure предлагаетсярасширитьгипотезу.

При обработке предложенного слова (с примерно известнымиграницами) процедураSyntax подбирает слово виос-зт, заканчивающееся позицией 17. Впрагматическойграмматикеhwim слово budget можетиспользоваться лишь в словосочетанииbudget figure и, так какэто словосочетаниенаходится вконце предложения,никаких словсправа больше не будет. Блокуправления используетдалее найденноесловосочетание в качестве расширенного"островканадежности"для поиска слов от позиции IIдо началавысказывания.

Обращаясь к синтаксическойпроцедуре, блокуправления обнаруживает, что прагматическаяграмматикадопускает ещенесколько слов, кроме слов изсписка, рассмотренногоранее, для расширенияэтой гипотезы. 9то связано стем, что служебныеслова,которыемогут стоятьперед словосочетаниемbudget. figure , имеют слишкомнебольшой вес(очки). В результатесравнения сегментов,расположенныхслева от словаbudget , и эталоновслов, допускаемыхпрагматическойграмматикой,получают новыйсписок, расширяющийпредыдущий(в списке остаютсялишь слова,оценки которыхпревышают

40

33. OF 10 11 4 , - 16 - - Н

34. А 10 11 4 - 16 - - R

35. THE 911 -105 - 16 - - R

36. THE 9 11 -105 - 16 - - R

37. OUR 10 11 -123 - 31 - - R 3°. THE 9 11 -135 - 16 - - R

39. - S 10 11 -140 0 - - R

40. ANO 9 11 -163 - 26 - - R

41. OUR 911 -169 - 46 - - R

42. ME 9 11 -189 - 46 - - R

Каждое изэтих слов можетрасширитьгипотезу budgetfigure слева. Посмотрим,что выберетблок управления.Наиболее подходящим(см. позиции 3и ЯО) оказываетсяслово total ,котороеиспользуетсялишь с определеннымартиклем THE. Таким образом, -удалосьобъединитьуже четыреслова THE TOTAL budget figure, длякоторых синтаксическаяпроцедура всловеснойрешетке отмечаетслова "is" и "s ", найденныепри первоначальномсканировании( - s- укороченныйглагол-связка,допускаемыйправиламипроизношения).Синтаксис такжепредлагаети некоторыедругие слова,но их оценки(очки) меньше100, тогда как is имеет вео 96 (см.позицию 7). Поэтомупереходим кновой гипотезеIS the total budget figure и пытаемсяее расширить.При расширениигипотезысинтаксическаяпроцедура"подсказывает"слова what и но'.'?ыасн. Процедуралексическогопоиска выбираетдля начальногоучастка высказыванияслово v/hat с оценкой176 очков и формируетокончательнуюгипотезу what IS thetotal budget figure. Процедура"синтаксис"производитв заключениеполный грамматическийразбор этойфразы.

Описанная"островковая"стратегияинтерпретации высказыванияодна из нескольких,реализованныхв системе hwim .Другие стратегиииспользуютсловеснуюверификациюна параметрическомУровне, предсказаниеслов на уровнедиалога, просодическуюинформациюи т.д.

Испытаниесистемы hwim производилосьна двух словарях:из 409 и 1097 словоформ,124 предложенияпроизносилитрое дикторов""ужчин. Точностьинтерпретациивысказываниясоставила 52% впервом случаеи 44% во втором.Процент высказываний,близких кпра-видьным,составил 23 и20% соответственно.

Основноеотличие системыVDMS (Voioe-Controlled Date Manage-roent Sis.) от ранеерассмотренныхСПР Speeohlis.HWIM и Неаг-^-И заключаетсяв тим, что в ееоснове лежитсинтаксис спон-

Зак.480

41


тайногоанглийскогодиалога [182] ; этопозволяет использоватьпри общении с системойсильно "усеченные"эллиптические выражения СПР.Система vdms используетпроблемно-ориентированныйязщ доступа к информационно-поисковойсистеме данныхо подводномфаоте США,Великобританиии СССР. Общийсловарь языка составлял 450слое. Системаимела возможностьзапонинатьинформациюо ранее произнесенныхфразах и декодироватьтекущие, имеярезультатырас познавания предыдущихвысказываний.В системе vdms при интерпретациипредложенийнаиболее полноиспользованаидеология искусственногоинтеллекта.

Общая структураvdms включает триосновь-ле компоненты:

1) акустико-фонетическийпроцессор, врезультате работы которогоформируетсямассив данных,содержащихинформациюо фонетическомстроении высказывания(А-матрица);

2) процедурулексическогосравнения,которая производитсравненияпредсказываемыхслов, опираясь на слоговойуровень и используяакустико-фонологическиеправила;

3) лингвистическийпроцессор,который содержитблок грамматическогоразбора (парсер) и управляющийблок диалоговогоуровня (discourse levelcontroller )> вктоочающиймодель пользова-теяя и семантическуюпамять.

Экспериментыс vdms показали,что речевойсигнал ограничивается по полосе начастоте 9 кГци поступаетна 12-разрядныйаналого-цифровойпреобразователь,где квантуетсяс частотой 30кГц. Затеиоцифрованнаяречь проходит через ЦАП ирезультирующая аналоговаяречь поступает на три полосовыхфильтра, имеющихполосы пропусканияI&0 - 190, 990 - 2200 и 8000 - 5000 Гц. Черезинтервалы в 10 мс с фильтровснимались двапараметра - максимальнаяамплитуда и число нулевыхпересечений.Полученныешесть параметров использовались для грубойакустической маркировкикаждогодесятимиллисекувдногоотрезка.

Как толькослово поступает в систему,формируется и хранится в памяти информахцжо нем, в частности,отмечается,сколько высказыванийтому назад этослово былопроизнесенои былс ли оноиспользовано,наскольковероятно, что это слово повторитсяеще раз. В системеучтено, чторазличныеконтекстныеслова предсказанныетематическойпамятью, "стареют"от высказывания ч высказываниии вероятностиих использованияуменьшаются. Вел* вероятностьпредсказанногослова Падаетниже заданного нaпepe^ порога, то это словокакое-то времяне рассматривается.Всеэт' в vdms выполняетблок диалоговогоуровня Discourse , являющийсянаиболее оригинальнымблоком системы.Процедуры, которые

42

реализуетDiscourse, основанына изучении,диаюгамежду двумялюдьми, совместновыполняющиминекоторуюработу. Ьылонайдено иДосмаяизовановлияние контекстана характердиалога,причемрассматриваютсядва вида контекстноговлияния. Глобальныйконтекст обеспечиваетодин вид ограниченийпри интерпретациивысказывания.Эти ограниченияиспользуютсяпри идентификациигруппы существительных.Второй видограниченийсвязан с текущимконтекстомсоседнихвысказываний.Они используютсяпри интерпретации сокращенных,эллиптическихвыражений и,в частности,добавляютдополнительныефрагменты ксокращенномувысказыванию.В качествепримера высказывания,которое можетвоспринятьсистема VDl'iS , ыож"но привеститакое: "Напечатайтетипы подводныхлодок, на которыхбольше семиракет".

СПР vdms - spi построенана базепроблемно-ориентированногоязыка,доступногоинформационно-поисковойсистеме данныхо подводномфлоте США,Великобританиии СССР. Общийсловарь системысоставляет450 слов [ 182] , Системаиспользуетсинтаксис спонтанногоанглийскогодиалога, чтопозволяетзапоминатьинформациюо ранее произнесенныхфразах и декодироватьтекущие, используяпредыдущиевысказывания.Система vdms-sri наиболееполно используетидеологиюискусственногоинтеллектапри интерпретацииустных высказываний,которые могутбыть сильно"усеченными".

Для испытаниясистемы былапроделана серияопытов, которыедолжны былиопределятьнаилучшуюструктуру СПРподобного типа. Было испытано16 экспериментальныхсистем, которыедали точностьинтерпретациивысказыванийот 46,7 до 73,3%, причемесли итерироватьнесущественныеоаибки распознавания,то точность(для наилучшейконфигурациисистемы) возрастаетдо 81,7%. В [1в2~\ отмечается,что наиболееэффективнойпомощью приреализацииречевого диалогаоказалисьиспользованиеи проверкаконтекста.

Начиная с1976 г. начали появлятьсяработы о построенииСПР в ЗападнойЕвропе (Франция,Италия, ФРГ),Японии и СССР.Уровеньисследованийпо СПР в этихстранах (объемсловаря,сложностьязыка) поканиже, чем работ,выполненныхв США по проектуarpa. Сяедует, впрочем,отметить, чторазработка"малых" СПР производитсяв соответствиис тенденцией[145] , которая заклта-в»ояв том, чтобы"заполнитьпропасть" междупрактическимисис-^мами распознаванияслов и относительногромоздкимиСПР, выполнившимисяпо проектуarpa.

В С142]приведенатаблица, которая,по мнению автора,характеризуетдействительноесостояние ибудущее развитие коммерческихсистем распознавания/понимания речидо 3000 г.:

431982 -БИС для системыраспознаванияречи.

1985 -Высокоточныесистемы распознаванияизолированныхслов с большимисловарями.

1990 - Системыавтоматическойдиктовки сограниченным сло­варем,управляемыесинтаксисомязыка.

I&95- Системыпонимания речис неограниченнымсловарем, нос ограничениямина синтаксис.

2000 - Системыраспознаванияслитной речис неограниченнымсловарем и безограниченийна синтаксис.

§1.4. Системыавтоматическогоречевого ответа

1.4.1.Коммерческиесистемы автоматическогосинтеза речи.В системахавтоматическогоречевого общения"человек-ЭВМ"важную рольиграет автоматическийречевой вывод,позволяющий человеку получатьнеобходимуюему информациюв привычнойформе речевогосигнала. Проблемаавтоматическогоречевого выводасчитается болеепростой, чемавтоматическоераспознаваниеречи (в первом случае речьвоспринимаетчеловеческиймозг, -;а во втором- автомат).По­этому работыпо построениюсистем автоматическогоречевого от­вета(САРО) промышленностьполучила раньше,чем работы по авто­матическомураспознаванию/пониманию речи.Синтезаторыречи,явля­ющиесяглавными узламитаких систем,уже изго­товляютсяпромышленностьюСША, Японии инекоторыхдругих стран[30, 46, 51, 52, 100, 142] .В саязи с появлениеммикропроцессо­рови специализированныхБИС, а также всвязи с тем,что поль­зователипотребовали,чтобы информационные,управляющиеи другие подобныесистемы, основанные.на использованииЭВМ, "говорили",фирмы, выпускающиеЭВМ или отдельныеузлы ЭВМ, началивыпуск обо­рудованиядея системречевого ответа.Построеныпервые промышлен­ныесистемы, которыйобеспечиваютодновременноеавтоматическоерас­познавание(автоматическийречеэой запрос"с использованиемогра­ниченноголексикона) иречевой ответ.Первое применениетакие системынашли в "интеллектуальных"терминалахбольших ЭВМ(или се­тей ЭВМ),в некоторыхсистемах военногоназначения,в приборахбытовой электроники[52, 60, I40t.

Следуетотметить также,что продолжаютразвиватьсянаучные исследованияв области созданиясистем автоматического синтеза. Этиработы, направленныев основном наповышениекачества(раз­борчивостии естественности)синтезируемойречи (без существен­ногоповышенияобъема информации,требуемой дляуправления син-

44

двзатором),проводятсяв США [103,112, 129, 133, I??], СССР f48,63, 54] , Японии[l3b,I62] ,Великобритании[l64] , Канаде [167], Франции[146 171] , Италии[l60,JSl] ,Мексике[ill],За­паднойГермании[122, 184] , Норвегии[137] и другихстранах.

В[142] отмечается,что ЭВМ пятогопоколения(мультиыикро-процессорныемашины) будутгораздо шире,чем современныеЭЗУ, ис­пользоватьввод и выводинформациив речевой форме.Предполага­ется,что уже в ближайшеевремя ЭВМ,оборудованныесистемамире­чевого вывода,настолькопроникнут внашу жизнь, что совершенноизменят взаимоотношениячеловека итехники.

В основесистем автоматическогоречевого ответа,поступаю­щихв настоящеевремя на рынок,лежат три основныхспособа син­тезарэчи -непосредственноекодированиеречевой волны(дискрети-аацияи сжатие), форматныйсинтез и синтез,основанныйна линей­номпредиктивномкодировании(линейномпредсказании).В [б] приво­дятсясистемы автоматическогоречевого вывода- наиболеераспрост­раненныев настоящеевремя в СШАсистемы такогорода. Так, в сис-томчVotrax процессформированияустного высказыванияпо тексту,поступившемуиз ЭВМ или склавиатурыв закодированномвиде,начи­наетсяо разбивкитекста на основныезвуковые влементы- фо­немы.Так как фонемнаяцепочка, соответствующаятексту, необес­печиваетвысокочастотнойречи, то этацепочка программнопреоб­разуетсяв цепочку аллофонныхкодов (аллофоны- это вариантыпроизнесенияфонем в зависимостиот контекста;разные исследо­вателиназывают различноечисло аллофоновдля каждогоязыка;в сис­темеVotrax используется12Ь аллофонов,что позволяетполучать болееестественнуюречь). Для порожденияслитной речи аллофоны Должныплавно переходитьдруг в друга.

Каждомуаллофонусоответствуетуправляющееслово, воздейству­ющеена аппаратныйсинтезаторзвуков, которыйв два этапапере­рабатываетцепочку 12-разрядныхуправляющихслов. На первомэтапе Управляющееслово декодируетсяи перерабатываетсяв аналоговыеуправляющиесигналы, задающиечастоту основноготона, длительностьизменения вовремени амплитудыи гармоник,связанных скаждым ал-Яофоном.На втором этапереализуетсясобственносинтез. Приэтом параметрическиесигналы, воздействуяна генераторызвука и прог-Рачмируемыефильтры, преобразуютсяв звуки речи.Звонкие звуки°оздаются спомощью генераторарегулируемойвысоты тона,а глу­хие- с помощьюгенераторабел го шума.

В приборахTexas Instruments трибольшие интегральныесис-^ы (БИС) моделируютголосовой трактчеловека. Воснове модели•вяит методлинейногопредсказания(или линейногопредиктивногоко-

45

дирования- ЛПК). ПриЛПК на кристалл синтезатораподаются зна­чениякоэффициентовдля цифровогофильтра второгопорядка,кото­рыймоделируетдинамику форматныхчастот. Вычисление коэффициен­товфильтра производитдругая БИС - микропроцессортыз -1000. ТретьяБИС хранитотдельные частислов в параметрическом виде. Воссозданиеречи по этимпараметрамосуществляетсложный прог­раммныйалгоритм.

Преимуществометода ЛПКзаключается в тс-л, что он позво­ляетвоспользоватьсятем фактом, чтоголосовой трактчеловекаот­носительномедленно меняетсвои параметрыпри речеобразовании.Этосвойство ограничиваетдиапазон измененияформатных параметров,которые могутследовать за форматами ужес генерированных от­резковзвуков речи.Такое прогнозированиеуменьшаеттребования к объему памятисистемы, а также к скоростиобмена данными;с опи­сываемойсистемой онаравна1200 бит/с.

СинтезаторNational Semiconduoton Inc. способен осущест­влятьанаяого-цифровоепреобразованиеречевых сигналови сохра­нять их в памятидля дальнейшеговосстановления.Такой методпредполагаетогромный объеминформации,которая должна храниться в памяти, чтоделает егомалопривлекательным.Однако в рассмат­риваемойсистеме этатрудностьобходится засчет использованияразличныхметодов сжатия данных. Этопозволилореализовать ка­чественныйсинтез речиво временнойобласти науровне &1С.

Дискретизацию и сжатие исходнойречи, записаннойна магнит­нойленте, осуществляетмини-ЭВМ. Результирующиеданные сохра­няются в постоянномзапоминающемустройстве(ПЗУ) для последую­щеговосстановления,осуществляемогоБИС процессораречи. Благо­даряприменению Трех методовсжатия (подстройкифазового угла,дельта-модуляциии полупериодногообнуления)скорость поступленияданных, по которымвосстанавливаетсянормальнаяречь, снижаетсяпримерно до1000 бит/с речи,так что по ПЗУ емкостью10 кбит мож­нохранить примерно10 слов.

Процесс сяатия начинаетсяс дискретизациианалоговогорече­вого Сигналаи разделенияцифровогомассива научастки, в каждомиз которых128 оГсчетов;эти участки в какой-то степенихаракте­ризуютпериоды основноготона. Для получениянабора цифровых вы­борок, аналогичныхформируемомупредложению,подстраиваются фа­зовые углыэтих отрезков.Дальнейшеесжатие осуществляетсяс по­мощьюдельта-модуляции,в результатечего вместохранения абсо­лютнойамплитудыкаждой выборкив память записываютсятолько знакиприращенияамплитуд относительнопредшествующегозначения.

46

рассмотримдалее болееподробно несколькосовременныхсис­тем параметрическогосинтеза.

В ГЮО]описана разработаннаяфирмойTexas Instrument a программа,позволяющаяпреобразовыватьпроизвольныйтекст в речь.Программасовместно синтегральнымсинтезаторомречи типа tms-5й00позволяетчитать вслухинформацию,отражаемуюна экране дисплеядомашнегокомпьютера9S14. В отличивот Speak and Spellсистемане иоподозувтзаписанныеранее в ПЗУслова и фразы,а синтезируетслова из128 аллофонов(аналогичносистеме Votrax описаннойранее), которыеобъединяютсясистемой для образованияслитной речи.Программапреобразованиятекста в цепочкуаллофоноввыбирает аллофоныиз библиотекии определяетих ударениеи инто­нацию.Затем эта информацияпоступает вблок синтезаречи, ко­торыйформируетзвуки, используякодирование,основанноена линей­номпредсказании.

Блок-схемапреобразованиятекста в речь,реализованногоTexas Instruments, представленана рис.I.I.

Аллофоныимеют переменнуюдлительностьот 50до 200мс и ко­дируютсяв соответствиис параметрами,необходимымидля орга­низациисинтеза, основанногона линейномпредсказании.Библиотекааллофонов,включающаядлинные и короткиепаузы, кодируетсяпо энер­гиями коэффициентам,необходимымдля установки характеристикфильтра ЛПК-синтезатора.Библиотекааллофонныхкодов занимает 3 кбайтапамяти.

Дляпреобразованиятекста, поступающегона вход впооледова-тедьностьаллофонов,используетсянабор из650 правил,который в процессеиспытанийобеспечивалправильныйвыбор97^ фонем и 92% аллофонов.Правила занимают7 кбайтпамяти. Программаконструиро-

Синтез речи


Конструирование речи (программноеформированиекодовой аллофоннойцепочки)

Входное Правилапреобра­зованиятекста в аллофоны
Преобразова­ниеаллофо­новв данные длясинтеза­тора 1 + 1 Цент­раль­ныйПроцес­сор
текст



Управ­ление

Память


Синте­заторречи

тае-

5200

Речь


.1 {
Речевоепостоян­ноеза­поминаю­щееуст­ройствоtm S-6100



Р и с.I.I. Блок-схемапреобразователя"текст- речь'

47

вания связывает и сглаживав!переходы междуними. В результатеформируетсякодовая управляющаяцепочка аллофонов,у которыхсог­ласованыэнергетическиеуровни и достигнутаплавность огибающей, асглаживаниекоэффициентовфильтра делаетболее плавными пере­ходы междузвуками.

После объединенияаллофонов и сглаживанияпереходов между ними в аллофоннойцепочке должныбыть расставленыударения иуказана интонация в соответствиис меткамипользователяпри ко­дированиивходного текста.Алгоритмконструированияречи устанав­ливаетчастоту основноготона толькодля отмеченныхслогов.Управ­лениеинтонациейосновано на градиентномуправлении частотой основноготона в ударныхслогах. В нейтральныхинтонацияхбезу­дарнымслогам соответствуетсреднее значениечастоты основноготона, тогда какударные будутрасполагатьсянесколько вышесред­ней линиитона. Наклонсоздаетсяпрограммой, а пользовательтоль­ко помечаетударные слоги.

Как уже отмечалось,синтез речи в системепреобразования"текст- речь"системыTexas instruments основанна линейномпред-сказуемостномкодировании,являющемсяматематическоймоделью го­лосовоготракта, реализованнойв виде фильтра.Коэффициентылиней­ныхуравненийфильтра, определяемыепутем анализа естественнойречи, используются в модели дляуправления"конфигурацией" го­лосовоготракта приформированииречевого сигнала.В системе за­поминаютсясоответствующиеразличнымаллофонамкоэффициентыфильт­ра, коэффициентпередачи фильтра,частота сигналавозбуждения,ис­пользуемогодля управленияфильтром. СистемаTexas Instruments обеспечивает[100] хорошеекачество речипри использовании ЛПК со скоростьюпередачи информацииот 1200до 2400бит/с.

В Cl40] отмечалось, что разработаннаяв 1976г. системадискретногораспознаванияслов was, предназначеннаядля ввода речевыхкоманд в ЭВМуправленияогнем тактической артиллерии,использоваласистему речевогоответа (обратнойсвязи)YS фирмыVo-fcrax. Блок речевс"о ответа повторялслова устногодонесения,которые по радио илителефонномуканалу поступалик корректиров­щикустрельбы. Вслучае, еслиустная командараспознавалась ма­шинойверно,корректировщикпроизносилключевое слово,означающее,что командаможет поступитьв систему управленияогнем.

В [30,129] рассматриваютсяновая интегральнаясхема синте­затораречи sc-OI и системадля проектированиясловаряcds-ii. Речевойинтегральныйсинтезаторsg-oi реализуетфонемный син­тез.Для преобразованияфонем в параметрыречи используетсяфо-

48

немныйконтроллер.Синтезаторработает свнешней памятью,где хра­нятся6-разрядныекоды фонем. Вотличие отсистемы Texas Inntru-ments синтезаторsc-OI используетдля моделированияголосо­воготракта человека не кодирование,основанноена линейномпред­сказании,а более традиционныйметод, основанныйна применениианалоговыхполосовыхфильтров, на вход которыхпоступают сиг­налы возбужденияот генератора с регулируемойчастотой,модели­рующегоработу голосовыхсвязок, и отгенераторапсевдослучайныхсигналов,моделирующегошумовой источник.

На входесинтезатора SC-OI стоитфонемный контроллер,ко­торый преобразуеткод фонемы (их64) в матрицуспектральныхпара­метров.Контроллерже может изменятьчастоту основного тона;

что позволяетустранятьмонотонностьзвучания синтезированнойре­чи. Управлениесинтезаторомосуществляетгенераторсинхронизирую­щихимпульсов,находящийся в интегральнойсхеме. Управлениечас-'тотой основного тонапроизводите"!внешним воздействиемна источ­никтональногосигнала.

После поступлениякода фонем нафонемный контроллерпослед­ний в соответствиис тем, какойзвук долженбыть порожден,управ­ляетмоделью голосовоготракта, воздействуяна цепи спереключае­мымиемкостями.Длительностькаждой фонемыустанавливаетсяв пре­делах50 - 250 мс.

Фонемнаяинформация,поступающая на вход, создается про­граммойпреобразования,которая анализируеттексг, вводимыйв па­мять из ведущей ЭВМили с клавиатуры.В кодах фонетическихсим-всдов,формируемыхэтой программой,содержатсячисла, означающиедлительностьгенерируемогозвука, котораязависит отударения.

Информациядля синтезатораsc-OI вырабатываетсясистемой для проектированиясловаря типа cds-II,на входнойклавиату­ре которой набираютсяслова или фразы,подлежащиесинтезу. Сис­темабазируется на микропроцессоретипа 6У08 фирмыMotorola.Дд-горитмпреобразования"текст-речь" и операционнаясистема зани­мают24 кбайтаПЯУ и рабочуючасть оперативнойпамяти емкостью2кбайта. Выходнаяинформацияciis-11 используетсядля программиро­ванияпамяти стираемогоПСУ, где хранятсяданные для ИСсинтезато­ра.Для программированияПЗУ информацияиз cds-ii передаетсяпоследовательнымкодом в ведущуюЭВМ (которуюможно использо­ватьдля переводаслов в фонемы),ленточныйперфораторили дру­гоеустройство с целью последующейзаписи в ПЗУ.В системупро­ектированиясловаря входяттакже печатающееустройство,позволяю­щейпечатать речевуюинформациюв шестнадцатиричномкоде (исполь-

зaк.480 49

ауя, как отмечено,6 бит нафонему), а затем вручную вводитьв программаторПЗУ.

Наряду с системойcDy-II ^той жефирмой выпускается уни­версальныйречевой модульfYHtl), не обладающийвозможностьюпре­образованиятекста в речь.В памяти этогоустройствав таблич­номвиде записаныкоды 1300слов, а также25 суффиксови префик­сов.Как и системапроектированиясловаряcds-ii, УРЫ вклю­чает в свой составмикропроцессортипа 6806.Он также содержитсинтезатортипа ас-01,операционнуюсистему, хранящуюсяв ПЗУ ем­костью2 кбайта,таблицу слов,записаннуюв перепрограммируемомПЗУ емкостью2 кбайта,и Iкбайт рабочейобласти оперативногоза­поминающегоустройства.УРМ можноиспользоватьв качестверабоче­го модуля а различнойаппаратуре.При этом модульможет управ­лятьсявнешним процессором или ведущейЭВМ.

Некоторыесведения одругих синтезаторахсодержатсяв [51, 52, 55, 142].

1.4.2.Повышениекачествасинтезируемойречи. Несмотря на появлениекоммерческихсистем автоматическогоречевогоответа,син­тетическаяречь еще кекачественна.Поэтому влабораториях мира продолжаютэнергичноработать надпроблемойсинтеза речи.В тру­дах ежегодныхмеждународныхконференцийпо акустикеречи и обра­боткесигналов, которыепроводятсяИнститутоминженеров поэлектро­технике и радиоэлектроникеСША с 1976г., большинство докладов посвященоавтоматическомусинтезу. Работыотносятся ксамым раз­личнымязыкам.

В С 115] описана разрабатываемая для шведскогоязыка сис­тема"текст-речь",базирующаясяна правилахперевода буквеннойинформациив фонетическую.Система синтезасостоит изпоследова­тельностипреобразований,каждое из которыхотражает частьзнаний о речевоепроцессе. Отмечается, что для получения качественнойречи целесообразноматематизироватьиспользованиетаких просоди­ческихпараметров, как длительностьзвуков и интонация.При фор­мализацииправил преобразованиябыл использованопыт работ по созданиюсистем "текст-речь",проводимыхв США, и учтентот факт, чтофонетическоепредставлениевысказыванийв шведскомязыке бо-яеепростое, чемв английском.

Наибольшиетрудностивызывает поискв неразмеченном знаками ударениятексте ударныхслогов, а такжеслогов вторичного ударе­ния( aecondary stressedsyllable ).Во время этогопоиска сле­дуетиспользоватьразличныеключевые индикаторы,такие как сдво­енныегласные, некоторыеокончания икомбинациигласных ссоглас­ными,образующимиударные слоги.

50

разработаныосновные правилапреобразованияфонетическойце­почки в синтезированнуюакустическуюволну.Эти правила,для фор­мализациикоторых созданспециальныйязык, работаютна сегмент­номуровне. Например,правило, определяющеедлительностьсегмента,запювется—*

«0,35)> ,

где Т- номинальнаядлительность;А,В,С, -переменные, зависящие отпозиции идлительностислова или фразы.

В [Иб] сообщается о системе речевогосинтеза, разрабо­таннойдля английскогоязыка вBell Laboratories. Системаобес­печиваетболее высокое качество синтезируемойречи за счет»I) болееточных правилопределениядлительностизвуков речи,осно­ванных на измерениях,которые продесанына участках естествен­нойречи; 2)расширяющихсяправил учетааллофонических изменений какфункции словесныхи других границ;3) введениябольшого числаправил просодиинижнего уровня,учитывающихособенностиречеобра-эования(ассимиляциюзвуков, изменениявнутри звукосочетаниясог­ласных,контекстнуюзависимостьгласных и т.д.);4) правил,учиты­вающихмедленныеизмененияпараметровмодели голосовых связок и шумовогоисточникавозбуждения.Многие особенностисистемы син­тезаречиBell Laboratories рассмотренытакже в С75,Ь9].В[69], в частности,довольно подробноописаны свойствапросодии англий­скогоязыка.Предполагаетсяразличатьпросодию высшего(собственнаПросодическиефункции) и просодиюнизшего уровней(их акустичес­киекомпоненты)и использоватьправила просодиидля повышенияка­чествасинтезируемойречи.

При исследованиислитной речивыявилось, чтов английскомязыке:

- главныйфактор, определяющийдлительностьгласных,- пози­циягласной в слове,а слова- в предложении(или в синтагме);

гяасная имеетнаибольшуюдлительность,если она находитсяв пос­леднемслоге передпаузой; этообъясняетсяособенностями кон­тура основноготона передпаузой, чтозначительноудлиняет глас­ный;различие длительностигласных впредпауэальнойи непредпау-эальнойпозицияхприблизительнонаходится всоотношении2:1;

- последующиесогласныеукорачиваютдлительность гласного Ьосравнению снекоторымсредним значением),если за гласнымсле­дует глухойвзрывной(характеризуемыйсмычкой), и удлиняют,если загласным следуетзвонкий фрикативный;наибольшеевлияние надли­тельностьгласных согласныеоказывают впредпаузальнойпозиции;

-.длительностьбезударныхгласных, если они не находятся

в конце слова,составпяетоколо40 мс; в конечныхпозициях ониСодее длительны;

51

- дифтонгизациясильно удлиняетгласную;

- надлительностьсогласныхосновное влияниеоказывают2 фак­тора:положениесогласнойотносительноударного сдогаи границ словаили предложенияи консонантностьокружения;

- длительностиконсонантныхсогласных (аименно глухихфри­кативныхf,s,S)подчиненыточному аддитивномуправилу, ударениеи границы словадействуют какфакторы приращения,а согласные, смежные с фрикативными,действуют какфактор укорачивания;

- наибольшеенепостоянстводлительностейв зависимости от ударения и позиции проявляютпереднеязычныесогласныеt , d, n',

-звонкие Фрикативныев середине иконце счовзначительноко­роче глухихфрикативных,находящихсяв такой же позиции;

- влияниеокружающихсогласных надлительностьконкретнойсог­ласнойзависит отспособа и местаих артикуляции; длительностьсогласнойзависит также от степениконсонантностиее окружения;

- в связис этим комбинациидвух последовательныхсогласных,характеризующихсяодним и темже местомартикуляции, проявляюттенденцию к уменьшениюдлительностиобеих, например,пй иnt;

звонкиефрикативныеобычно удлиняютсоседнкж. согласную;

- длительностьплавных иносовых,согласныхсильнее другихподвергаетсявоздействиюсмежных согласныхс ослыпей степеньюкон­сонантности,влияние которыхпроявляетсядаже черезграницы слов;

- начальнаясогласнаяфункциональныхслов (артикляи пред­логов)значительнокороче, чем вслучаях значимыхслов;

- легкопредсказуемыеслова обычносостоят изболее корот­кихгласных и согласных,чем непредсказуемые;

- ванглийскомязыке согласные в начале словамогут обла­датьдругими акустическимихарактеристиками,чем те же согласныев конце слова(это явлениеназывают селективнойаллофониейв от­личие отпозиционнообусловленнойадлофонии,связанной с явле­ниемкоартикуляции);

- начальныеаллофоны (посравнению сконечными и средними) имеютболее сильныеконсонантныепризнаки- большую прерывность,четкостьинтонационныхсоставляющих(основного тонаи гармоничес­койструктуры) в потоке рачи,более интенсивнуюшумовую состав­ляющуюфрикативных,более сильныйвзрыв с явнымучастком аспира­ции в глухих взрывныхи т.п.; эти свойстваначальных аллофоновнвняются признакаминачала сообщения,обычно слова.

В С89] рассмотреныи некоторыедругие свойствапросодии, по­ложенныев о&нову правилпреобразования"текст- речь" иобеспечи­вающиевысокую разборчивостьи естественностьсинтетическойречи.

52

вГ2]подробно описаналингвистическаяи фонетическая сторона паботы,которую необходимовыполнить приреализациикачественно­госинтезаречи по произвольномутексту. Важнейшими этапами иссяедованийздесь являются:

-создание болеесовершенноймодели речевоготракта;

-определениеболее полногонабора абстрактныхправил линг­вистическогоописания текста;

-разработкаполного сводаправил, позволяющихвывести фоне­тическиеописания поправиламлингвистическогоописания текста(дравид преобразованиябукв в звуки);

-формализацияморфофонематичаскихправил и правиллексичес­когоударения, которыедают на уровнеслов окончательнуюкоррек­циюцепочки фонем(аллофонов);

-грамматическийанализ предложений,раскрывающийиерархичес­куюприродуих построениядля определенияправильностиинтонацион­ногоконтура;

-более тщательноеиосдедованиепросодическихкоррелятлинг­вистическихструктур.

Отметимособую важностьсоздания хорошеймодели речевоготрак­та, параметрыкоторой изменяютсяв соответствиис правиламире-чвобразования.Хорошая модельпозволяетсущественноонизить объеминформации,описывающейформу речевогосигнала (вырабатываемогона Мходе моделииз небольшогочисла параметров),а также болееглубоко и еотеотвенноописать речевыеявления. При параметри­ческомсинтезе информацияо фонемах (аллофонах)запоминается в виде комплексапараметрови правил модификацииотих параметровпод влияниемразличныхограничений.В связи о этимдля повыше­ниякачества синтезанеобходимыструктурныемодели, отражающиеащограниченияна различныхуровнях- артикуляторном,дистрибу­тивом,словообразовательном,синтаксическоми семантическом.Эти иодедидолжны координироватьсягибкой структуройуправления,обео-почивающейих взаимодействие.

Дляповышенияестественностии разборчивостиречи, генерируе-"ойформатнымисинтезаторами,в [176 ] предлагается использо­ватьвычислениеформатныхпараметровна более короткихинтервалах,что позволяетулучшило синхронныйс основнымтоном анализ.1домен-т^смыкания голосовыхсвязок характеризуютсяимпульснымвоабужде" нием.На первом этапеанализа оцифрованнойволны такиеточки воз-°Й

53

нала импульсамиголосовыхсвязок большинствотаких точек соот­ветствуетмоментам смыканиясвязок.) Даяее,для каждого отрезка волны длительностью10 мс с помощьюДПФ вычисляется33-точечныйлогарифмированныйэнергетическийспектр. Временныеотсчеты дляполученияспектра берутся,начиная с момента, соответствующегонайденной точкевозбуждения.Если десятимиллисекундный сегмент содержитодну точкувозбуждения, то логарифмы энергетическогоспектра вычисляютсяпо формуле

^=Чю \ Ц, ^ехр(-^тп/32\'•

где п= 0 - 32;Л„, -отсчеты речевойволны, следующиеза момен­томвозбуждения;У -оценка (в дБ) логарифма энергетическогоспектра начастотах156, 25 х п (в Гц).

Итеративныйанализ составляющихэтого спектраи позволяетоценить все требуемые длясинтезатораформантные параметры.Процедураитеративногоанали-а посредствомсинтеза (когдаспектр, синтезированный по приближеннымформантнымпараметрам речи, сравнивается с реальнымспектром входнойречевой волны,и если расхождениявелики, производитсяуточнениеформант) позволяетполучать параметрыкачественнойсинтетическойречи.

В ряде работподчеркивается, что для повышения естествен­ностисинтезированнойречи целесообразноразработать хорошие правилакорректировкимикро- и макровариацийчастоты основноготона, длительностизвуков и интенсивности.Полная модель генера­циичастоты основноготона, его микро-и макровариаций рассмот­рена в Ll04], где исследовалисьразличныесинтетическиеструк­туры,позволившиевыявить, в частности,влияние модальности на контуросновного тона в вопросо-ответныхсистемах при переме­щениицентральногослова фразы(слово, на котороеделается ак­цент при вопросе).(Формированиеконтураochobhofjтона будетболее подробнорассмотренов п.1.4.4).

В [113'] предлагается для повышениякачествасинтезирован­нойречи (полученной методом линейногопредсказания), поступаю­щей на наушники,использоватьэффект бинауральной реверберациикоторый можносмоделировать,подав синтезированнуюречь на гром­коговоритель и записав(в условияхреальной комнаты) прошедшувчерез громкоговорительречь в два каналачерез разнесенныемик­рофоны.Полученныетаким способомсигналы поступаютна правый илевый наушники,создавая у слушателявпечатлениеболее естест'венной речи.

54


дляповышениянатуральностиречи в[162] предлагаетсяпро-записыватьна магнитныйдиск большийемкости сообщенияв Siaweпараметров,представляющихсобой наборраноон-коэффициен­тов.Требуемые фразысчитываютсяв буфернуюпамять. На стоме­габайтномдиске можнотаким образомзаписать5000 сообщенийяжительностыопо 15с каждое. Времявыборки сообщения0,1 с,мак-симвльноечисло возможныхканалов, покоторым может поступатьинформация,- 128.

Рядработ, появившихсяв последниегоды, посвященповыше-шф качествасинтезированнойречи за счетмодернизации модели источниковвозбуждения.Модель смешанногоисточникавозбуждениярассмотренав [1523 .Смешение достигаетсяделением речевогоспектра на двеобласти- низкочастотную,возбуждаемую импульс-нк«источником,и высокочастотную,которая возбуждается шумовым источником.Для определениястепени оэвончениявводится пара­метрfc• показывающийчастоту отсечкимежду звонкойи глухой областями.Для компрессииречиFp можетвыцеляться автомати­ческииз речевогоспектра ипередаватьсяв управляющие цепи. Эксперименты,при которыхиспользоваласьновая модель,показали ееэффективностьпри синтезезвонких фрикативныхи помогли ис-кяючитьхарактерное"жужжание"вокодернойречи.

8 [1663 описанановая функциявозбуждениядля синтеза,ис­пользующегокоэффициентылинейногопредсказания.Эта функция за счет соответствующегосглаживания,инверснойфильтрациии усече­нияверхушки сохраняетфазовые характеристикиимпульсоввозбуж­дения,Поступающихиз голосовойщели. Отмечается,что качестворечипри этом существенноулучшается,а между тем допоследнеговремени вlpg-синтезаторахслишком малоусилий былонаправленона поиск болеесоответствующихреальным функций возбуждениярачаобразующеготракта из-затого, что небыли установленычет­кие соотношениямежду остаткомлинейногопредсказанияи формой возбуждающейволны.

В[137] описанLPU-синтеэатор речи, разработанный в Норвегии.По мнении авторов,он обеспечиваетвысококачественнуюречь (при высокойкомпрессии)за счет использованияболее совер-аенноймодели смешанноговозбуждения.В модели предусмотреноиспользование:

-фильтра импульсовосновного тона- двухполюсногофильтра, Делающегоимпульсы возбужденияболее похожимина реальные импуль-^iпоступающиес голосовыхсвязок в полоогяречеобрааующеготракта;

55

Орфограф^ескийтекст

I

Трансляция"графема-фонема"

фонетическаяцепочка


-фильтра, моделирующеговлияние излученияречевого потокас губ(liP -radiation filter)!

-дополнительногофрикативногоисточника,который автомати­ческиподключается при формированиизвонких взрывныхи фрика­тивных.

Ряд работ,связанных с повышениемкачествасинтезированнойречи, относится к проблемеформализацииправил наложенияна фо­нетическуюцепочку интонационногоконтура. Они-Зудут подробнорассмотреныв п. 1.4.4.

1.4.3.Дифонный синтезречи. Однимиз направлений, обеспе­чившихсинтез более высококачественнойречи, сталонаправление,связанное с выбором иной,чем фонема (илиаллофон) структурнойединицы, лежащей в основе формированиявысказывания.Выяснилось,что основныенеприятности,приводящие к ухудшению естествен­ности и разборчивостиречи, связаныс явлениямина стыках зву­ков.Поэтому в рядепоследних работпо автоматическому синтезу речи в качествеопорного элементавыбираетсяучасток речевогосигнала, включающийпереход междузвуками. Такиеэлементы назы­вают"диадами","дифонами","транземами",парами фонем, машин­нымислогами...

В Ll433 описан диадныйсинтез французскойречи. В памятихранятся эталоны1000 дифонов(пар фонем),представленных спек­тром,полученным с гребенкифильтров (отсчетыспектра бралиськаждые13,3 мс) и частотойосновного тона.Система предусматри­ваетиспользованиедовольно простойграмматикидля сцеплениядиад и автоматическогоопределенияпросодии фразы.При обработке це­почки диад,соответствующейтексту длягенерации синтезируемойволны, корректируютсядлительности звуков, микро-и макровариа­циичастоты основноготона, контуринтенсивности.

Дифонныйсинтез рассматривается и в [.1463 .Блок-схема этойсистемы "текст- речь" приводится на рис.1.2.

Система юорвомйз (рис."1.2) превращаеторфографическуюза­пись предложения в звучащуюречь. Скоростьпреобразования0,1 с на предложение,состоящее из 70 символов.Система, включающаямини-компьютер,является полностьюавтономной.

Преобразование"текст- речь" в первом приближениине тре­буетсинтаксическогоанализа структурыпредложения(во француз­скомязыке). Основнымграфическимпонятием припреобразованияхяв­ляется в этой системеслово, представляющеесобой субцепочкуграфем междупробелами илизнаками пунктуации.Слова сравниваютсясо спискомпредварительнозаписанныхслов -исключений, произ­ношениекоторых не соответствуетстандартам.Если слова вспис-'

Ь6

ПоследовательностьдифсновСловарьдифонов

Буфер

Синтезаторречи из44 синусо-|___гт1гх,.,. ___идальныхколебаний____ UJ -

рис.1.2. Блок-схемасистемы "текст- речь"основаннойна исполь­зованиидифонов

ке исключенийнет, оно разделяетсяна множествобуквенныхсим­волов,которые обрабатываютсяэлементарнымиправилами типа

Р—[Р]/Н;

P—[f]/H,т.е. рпроизноситсякак [/?] ,если за ней неследует Н,и как [/З.вслиследует Н.

Числа,встречающиесяв тексте, такжепреобразуютсяв фоне­тическуюцепочку посоответствующимправилам. Последняя глас­ная передзнаком пунктуацииудваиваетдлительность.Общий объемпамяти,которую используетэтот алгоритм,6 кбайт.

В памятьсловаря должнобыть записанодля французскойречи 627дифонов. Однакоесли учесть,что для некоторыхдифонов неко­торыеспектры в первомприближенииможно считатьсимметричными,обв(ее числохранящихсяв памяти дифоновуменьшаетсядо 425(при использованиипараметров8 временныхотрезков каждого дифона). Ойцийобъем памятипосле сильногосжатия информациио дифонах составилоколо8 Кбайт.Средняя разборчивостьслов в предложени­яхбыла около96%. Системаавтоматическинаходила потексту про­содическиехарактеристики.Для управленияпросодическимипарамет­рамииспользовалисьразличныеуровни языка:акустический,фонети­ческий,лексический,синтаксическийи семантический. НесколькоДикторов читалиодин и тот жетекст; при этомсравнивалиськон-'Уры основноготона и длительности,полученныепосле нормализации.Несмотря наразличие' виндивидуальныхпросодических характери.-^чках,удалось выявитьобщие закономерности,позволяющиеформа-

Зак.480 57

дизоватьпросодику по фонетическойцепочке. Так,для выявлениядинамики основноготона на всемвысказыванииучитывалось,чтоод, повременнонакладываютсядруг на другатри явления.Первое обус­ловленоизменениемосновного тона на всем предложении,второе -контуромосновного тона на двух соседнихсловах ( "элементарныйконтур") и третье- ыикроваризцииосновного тона на отдельныхзвуках.

Структурасистемы синтеза,основанного на объединенииди-фонов, рассмотрена также и дляитальянскогоязыка [160, 181].Ди-фоныпредставленыкодамиlpc. Системапроектируетсяс ориен­тацией на многоканальностьи ответ в реально».'времени. Длякаж­дого выходногоканала этойсистемы автоматическогоречевого от­ветавыполняютсядействия:предварительнаяобработкавходной це­почкисимволов, трансляция в соответствующуюпоследовательностьдифонов, порождениепросодическогоконтура и управлениев реаль­номвремени аппаратуройсинтезатора.

Блоклречевого ответа,подключенные к телефонным линиям, могутобеспечиватьпользователямполучениеинформациив речевом виде.Основное применениетакого оборудования- информационно-по­исковыесистемы, читающиетекст автоматическиеустройствадля сле­пых,в связи с чемк системепредъявляютсятребования: неогра­ниченныйсловарь, хорошеекачество иестественностьречи, возмож­ностьподключениясистем речевогоответа к разнымканалам.Матобес-печение выполняетвсе действия,необходимыедля преобразованиявходного текста в последовательностькоманд, необходимыхдля уп­равленияаппаратуройсинтезатора,описанногов [160].

Система синтеза основывается на объединениикоротких ре­чевыхэлемэнтов(дифонов), которыевключают переходный участок от согласногок последующемугласному CV, квазистационарныйучасток гласного V2и начальныйучасток гласногозвука в на­чалеслова VI.

Элементарныедифоны, извлекаемые из естественнойречи, ко­дировались в соответствиис акустическоймоделью речеобразования. Математическаямодель состоиттолько из полюсного фильтра, представляющеговокальныйтракт, и источникавозбуждения.Пара­метры,описывающиевокальныйтракт, - этокоэффициенты отражениянеоднороднойакустическойтрубы, подученныеиспользованиемметоде линейногопредсказания.

Призаписи информации о дифонах впамять используетсясле­дующаясхема. Первыйбайт каждого дифона показываетчисло сре' зов,Используемыхдля кодированиявтого дифона.После атог»каждый фрейм,кодирующий срез дифона,описывается13 байтами;

56

представляющимикоэ^ициентусиленияG,10 ко-^ициентовотраже­нияК,. параметрозвонченностиV/UVи длинуDэтого фрейма.В среднем длякодированиядифонов приходитсяоколо7-6 фреймов.Общий объемпамяти длязапоминания150 дифонов- около15 кбайт.

Наиболееважным преимуществомдифонногосинтеза, обеспечи­вающимдовольно высокуюестественностьсинтетическойречи, явля­етсявозможностьотгэсительнолегкой модификации просодическихпараметров.Просодическийконтур порождаетсяправилами, которые используютзнание фонетическойприроды дифонови символы, вводи­мыемодулямипредварительнойобработки.

В [I77Jрассмотренразработанныйв США фирмойВВЫ дифон" ныйсинтез дляфонетическоговокодера, работающегосо скоростью100бит/с. С каждойфинемой вокодерпередает ее длительностьи значениеодного периодаосновного тона.Для синтезанеобходи­мойфонемной цепочкииспользовалсябольшой списокдифонов. (Спи­сокдифонов отбиралсятаким образом,чтобы можнобыло различитьпредвокальныеи пьствокзльныеаллофоны сонорныхсогласных.)ду-фоныизвлекалисьис тщательносконструированных бессмысленныхкоротких предложенийи запоминалиськак последовательностьLK3-параметров.Во время синтезаучастки дифоновдеформировалисьво времени,смыкались исглаживались,формируяпоследовательнуюце­почкуLPC- параметрев, котораяиспользоваласьпри синтезе.

Дифон определялсякак областьот серединыодной фонемыдо серединыследующей, чтоучитываеткоартикучяционное влия­ние фонем,простирающееся,как правило,не более чемна поло­винуследующейфонемы. Дляполучениявысококачественной речи потребовалосьоколо2000 дифонов.В некоторыхслучаях былиза­писанынеобходимыеТрифоны (дифоныв контексте).Общий объемпамяти, используемыйпри синтезе,менее50 килобайт.

В Японииразработанкепстральныйсинтез речииз параметровслогов "согласный- гласный",которых в японскомязыке около100Cl38j . Каждыйслог анализируетсяи запоминается в виде кепстра,соответствующегоистинной (сглаженной) логарифмическойспектральнойогибающей(a true log spectral envelope ).Системаречевого синтезапревращаетцепочки символовв кепстральныепара­метрыс плавным идинамическимпереходом отодного слогак сле­дующемуи порождаетплавную картинуизменениячастоты основноготона. Основнымузлом моделипреобразованиякепстральныхпарамет­ровв акустическуюволну являетсяспециальныйфильтр, порож­дающийакустическуюволну из кепстрав реальномвремечи.Экспе­риментальноематобеспечениедля реализацииавтоматическогосин-

59

тезаречи, основанного на подусдогах,описано в [184] . Ддясин­теза произвольноготекста на немецкомязыке используется около 1300 подуслогов,включающихчасть гласного и примыкающие ку­сочки согласного.Описаны эксперименты,которые помогли выбрать правиласоединенияполуслогов.Синтез выполнялсяс помощьюLPO-вокодера,использовавшегоparcor-коэффициенты.Отмечается,что в немецкомязыке используется47 начальных и 153 конечных звуко­сочетаниясогласных с 16 типами гласных.Уменьшениесловаря по­дуслоговбыло осуществлено за счет уменьшения числа гласных(до 10) и конечныхзвукосочетанийс согласными(до 53). Прог­раммасинтеза автоматическиконтролируетамплитуду и длитель­ностьполуслогов,формируя безударныеслоги из эталонныхударных.

1.4.4.Просодикасинтезированнойречи. В [184] рассмот­реноуправлениепросодическимипараметрамидля форматногосинте­затора,основанного на соединениидифонов иразработанногодля немецкогоязыка. Синтезаториспользуется в системе речевогоот­вета sam',позволяющейформироватьфразы, составленныеиз сло­варейбольшого объема.Используютсяпараллельныеформатныефильт­ры, которыевозбуждаютсянезависимоисточникамитона или шума.Параметрыуправленияфильтрамивырабатываютсяспециальным блоком pcu ,который являетсячастью системыsamt•Тексты, которыедолжны бытьсинтезированы,вводятся вpcu какзвуковая после­довательность;каждый звуккодируетсявосьмью битами. Дальнейшаяобработка врои базируетсяна дифонах,чтобы наилучшимобразом учестьвлияние коартикуляций.Для управленияпросодическимипара­метрамисинтезируемойречи необходимо, чтобы звуковаяпоследова­тельностьвключала кодыуправленияпросодией. (Этикоды должнывлиять на частотуосновного тона,длительностьзвуков и интен­сивность.)

В [122] отмечается, что интонационнаямодель длянемецко­гоязыка ужеразработана. В соответствиис этой моделью каждое предложениеразделяется на две или болеесинтетические группы (фразы),такие, как фраза существительного(не всегдасовпадаю­щая с группойподлежащего),глагольнаяфраза и т.д. Изменениечастоты основноготона первых г»-1 фраз завершается повыше­ниемтона (нарастающейкаденциейffC), а завершающая предложе­ниефразе - снижениемчастоты основноготона (финальная каден­цияFC).Дня каждогослова фразыможно найтиодин ритмозадающийударный слог, а для каждойфразы - однослово, которое несет главное,смысловоеударение Ml. Позиция гласногов ударном слогеэтого саова 1^,, , определяющемударение, дает начальнуюточку двухразличных типовчастоты основноготона /д . Характер

60

affix Jflк&чаственн0определяетсятипом каденции( /ус-тип или pC-isW)1 количественно- другимифакторами,такими, как длина г«всногоили позицияглавного ударенияво фраае.

В доподнениек каденции, наизменение /^влияют основноеИ вторичноеударения( Sи SS). Во фразахслитной речиударе-ijggпоявляютсятогда, когданеобходимовыделить некоторыеолова (дроиэнестиих бояее выразительно)или когда вбеглой речио^вдиняютоядве последовательныефразы с нарастающейкаденцией. Ядеобоих типовударений находитсяхарактер изменения основ­ноготона (S-vw f^) на участках,начальные точкикото­рых определяютсяпозицией гласныхударных слогов.

Естественнаяречь большинствадикторовхарактеризуетсяпос­тепеннымснижениемчастоты основноготона (примерно,на полтонаlie)от начала кконцу фразы.(При формировании синтети­ческойречи это следуетучитывать, таккак речь с постояннойf, неприятнана слух, монотонна.)На этот основнойтипнак-хддюаютсяНС-,FC- и Я-тилыосновного тона.Нарастающаяка-данцияхарактеризуетвозрастаниеf в конце гласногоV^,, не-суцегоосновное ритмическоеударение( the main )• Для точнойидентификациитипа /д необходиморазличать дваслучая)

а) V^i- последнийзвонкий звукфразы;

б)наличие другихзвонких междуУщи концомфразы.

Исследованияпоказали, чтов обоих случаяхчастота основ­ноготона нарастаетпо синусоидальномузакону, но ъодучае а) времянарастания120 мо, а в случаеб) - 190мо.

Частотаfy возрастаетот двух до четырехполутонов.Поо-ае того,как f,достигнетверхней границы(по синусоиде), она продолжаетмедленно возрастатьпо линейномузакону оо скоростьюоолтона вI о. АбсолютныеотклонениячастотыAfестественнойречи сильноменяются отдиктора к диктору.Ддя синтетическойрв«р| однакоэти отклоненияне должны бытьслишком велики.Если -ажду главнымритмическимударением иконцом фрааы содержитсяЧНогосложноеслово, то часто(например, водучае ударения на червой частидлинного составногослова) возникаетвторичнаякаден-4WSC в ритмическомударении последнегоолова или частислова э»овфразы. Началои- длительностьвторичнойкаденциисоответот-вуеээтим параметрамглавной каденции,но отклонениечастоты Никогдане превышаетполутона.

Приобъединениифраз, име'"'аихнарастающуюкаденцию, частота7» яослевозрастанияна конце первойфразы начинаетоинусоидадь-"0уменьшатьсяна границахмежду фразами.Сяад частотыначина-

1)Ййу«Моп80мсifiPначалавторой фразыи имеет общуюдлительность,«-""ую190 мс. ДалееfпродолжаетуменьшатьсяооТторосгыопол-

'°нав Iс. ^

Вконечных фразахсинтезируемоговысказывания,где сущест­вуеткаденция типа FC, вначале фразfgсоответствует частоте основноготона, котораяопределяетсяпредшествующей• нарастающейкаденцией.Однако за 80 мсдо начала гласного^.определяющегоглавное ритмическоеударение, /д начинаетсинусоидально умень­шаться в течение 190 мсдо величины,равной двумполутонам поотношению косновному тону в начале предложения.Далееfпро­должаетуменьшаться со скоростьюполтона в I с, пока не закон­читсяпредложение.

Изменениеосновного тона на ударныхслогах зависитот то­го, какойгласный содержитударный слог:короткий или длинный. В обоихслучаях 5-типосновного тонасостоит из нарастающегои падающегоучастков. Этонарастаниеначинаетсяза 80 мс до на­чалагласного ипродолжается для короткихслогов 160 мс,длядлин­ных - 240 мс.Такое же времяпродолжаетсяи синусоидальныйспад для слоговпервого и второготипа. В зависимостиот силы ударе­нияподъем частотыосновного тоналежит в пределахот двух до пя­типолутонов, а спад - от полутонадо двух полутонов.

Исследованияпо управлениюпросодическимипараметрами опи­саны в [122] . В [2, 103, 104, 163] приводятсяисследованияразличныхсинтаксическихструктур и ихвлияние намикро- и мак­ровариациичастоты основноготона в английскойречи.Результатомисследований был алгоритм,определяющийдинамику основного тона синтезированнойанглийскойречи. Алгоритмрассматриваетсякак пос­ледовательность двух уровнейединой системы,формирующей контур основноготона. На первом(высшем) уровнеучитывается влияние синтаксической и семантическойинформации,на втором (низшем)-информации о фонемнойцепочке и лексическомударении (рис.1.3).

оинтаксическая Системаверхнего уровня Просодические Системанижнего уровня УРв-
информацияСемантическая
индикаторы
информация
Фонетическая J•

\ Конт

осно ного

информацияИнформация

Рис.1.3. Структураалгоритма,определяющегодинамику основноготона синтезированнойречи

62

рассмотримдалее алгоритм,реализующийформированиеконтура основноготона для высказывания,в общем случавсодержащегонес­колькопредложений,каждое из которыхразбиваетсяна фразы, со­стоящиеиз несколькихслов. Для формированияконтура основ­ноготона на входсистемы высшегоуровня поступает информацияо типе высказывания,границах итипах предложений,границах итипах фраз, атакже о том,какой частьюречи является каждое сдово.Слова упорядоченыпо степениважности, причемк словам, невходящим всписок важных,относятсяартикли, союзы, отно­сительныеместоимения,предлоги,вспомогательныеглаголы и личные1|еетоимения.Для каждоговысказыванияформализованаего синтак­сическаяструктура, т.е.для вводапроизводится идентификациясинтаксическихединиц: выделяютсянезависимыеили зависимыепред-яожения,внутри которыхлокализуютсяи маркируютсяфразы сущест­вительного,фразы глагола,предложныефразы, фразы,связанные сприяагательнымили употребляющиесяв качествеприлагательных,фразы, соответствующиенаречиям. Всистемы вводитсятакже ин­формацияо специальныхфразах и пунктуации,определяющаятип мамровариацийосновного тона:

а) обычныевопросительныеи звательныефразы, характеризую­щиесяповышениемчастоты основноготона;

б) знаки цитированияи восклицания,усиливающие изменениячастоты основноготона внутрисвоих областей;

в) "ответвления"фраз (кускивысказыванийсо скобками или тире), уменьшающиединамику основноготона;

г) знак вопросав конце предложения,дающий тон типа В длякаждого независимогопредложения,не содержащеговопроситель­ногослова; остальныепредложения,дающие тон типаА.

Влияниесемантики наконтур основноготона учитываетсяак-центациейслов, их ранжированиемпо степениважности, атакже временнойблизостьюодинаковыхслов. Каждоесуществительное,гла­гол илиприлагательноевысказываниязапоминаютсяв буфернойма­газиннойпамяти, способнойхранить до50 слов. Новыеслова срав­ниваютсяс содержимымбуфера. Длякаждого сравнения характер изменения коррелируетсяс тем, на какомместе буферана­ходитсяслово, с которыйсравниваетсявновь поступившее. Чем ближенаходитсяслово, аналогичноевходному, темболее высокаястепень редукции/д .

Типы тонаА и В характеризуютсяследующим: тонтипа А вы­зываетснижение /д навсем предложении,а также резкое паде­ние егона последнемважном (значащем)слове и после этого.

63

Тип В означаетотноситеяьнопологую /д срезким подъемом в конце предложения. Эти типы тоновхарактеризуютглобальныйуро­вень иерархиив рассматриваемойсистеме.

Предложения, не являющиесяконечными (т.е.уже не связан­ные с типом тона),характеризуютсяподъемомfy на первом зна­чащемслове и егопадением напоследнемзначащем слове(падении меньшем, чем при тонетипа А), послечего начинаетсяновый пос­ледовательныйподъем. Размах"понижение- нарастание"частоты ос­новноготонаfy зависит от идентичностипредыдущему следую­щегопредложения:если за предвдущимследует независимое пред­ложение,то изменениеосновного тона на стыке больше,чем в слу­чае, когда второепредложениеявляется зависимым. Более того,если в высказыванииостается единственноезависимое предложе­ние, то подъем основноготона послезавершениянезависимогопред. ложенияпропадаетвообще. Весьучасток "падение- подъем" основ­ноготона может невыявиться, еслиграницы независимого предло­жениявключают началоограниченноговводного предложения(в зави­симости от числа слов,предшествующихгранице: чемменьше слов,тем меньшеПровал "падение- подъемfg").

Внутрикаждого предяожения в дополнениек изменениюна гра­ницахпредложенийпроисходятизменения /д и на границахфраз в зависимости от числа "важных"слов в каждомпредложении.Каждая фраэа с двумя и болевтакими словамивыделяетсятаким образом,что ее началосовпадает с нарастанием частоты основноготона, а завершение- со снижениеми последующимподъемом. Изменениеча­стоты основноготона на границахфраз зависят от числа "важ­ных"слов фразы,т.е. фразам с большим числомтаких слов соот­ветствуетбольший "провал"частоты основноготона; увеличиваютэтот провалтакже границы,помеченныезнаками пунктуации. Внутри фразначальныйподъем fy продолжается на первом важномслове, а падениезаканчивается на последнемважном словеэтой фразы снеким подъемом к концу фразы.Все остальныеважные слова"полу­чают"подъем и снижение /д примерноодинаковойвеличины.

Ранее уже отмечалось,что каждомуслову синтезируемоговы­сказыванияприписываетсянекое значениеакцента в соответствиис его рангомпо порядкуважности. Контуризменения f. (подъем и падение) тем резче, чемважнее слово.Акцентированиеслова сни­жается,если оно обнаруживается в магазинномзапоминающем уст­ройстве,т.е. оно уже недавнопроизнесено.

Системаверхнего уровняснабжает каждоеслово входного выс­казыванияпросодическимииндикаторами(рис. 1.3), обеспечивающимиполучениепросодическогоконтура нанижнем уровнеанализа.К таким

64

индикаторамотносятсясвязанные скаждым словомчисла, опре­деляющиеа) акцент, б)границу, указывающуюпозицию словавнутри йразы/ предложения(положительноечисло определяетпозицию отно­сительноначала фразы,отрицательное- относительноконца; при этомбольшие числасоответствуютсловам на границах, отмеченныхзнаком препинания,и на границахмежду большимии /иди важ-щдаифразами);в) продолжительныйподъемfg, т.е. число,пока­зывающеевеличину подъемана границеслова, что отражает важ­ностьсинтаксическойграницы, предшествующейэтому слову;г) тип тона (А,В или нулевой^,показывающий,относитсяданное словои конечномуучастку фразыс нарастаниемили падениемfgили не относится(при типе А падениеУд идет до болеенизкого уровня,чем в другихслучаях, а притипе В подъемfgпродолжаетрасти послелексически ударного слога,что не характернодля другихслучаев).

Наряду спросодическимииндикаторамикаждого слова,система верхнегоуровня вводитв систему низшегоуровня число слогов, местолексическиударного слога,фонемную структуру,которая длякаждого слогадополнительноуказывает,начинаетсяли он или за­канчиваетсявзрывным звукоми не являетсяли этот взрывнойглу­хим.

Рассмотримдалее работусистемы нижнегоуровня, формирующейконтур основноготона. Алгоритмустанавливаетна лексическиудар­ных слогахкаждого важногослова сначалапиковые уровни/д,после чеговокруг каждогопика строятсяакцентированныеподъемы и па­дениячастоты основноготона. Затемдобавляютсяучастки общегоконтура, соответствующиеучасткам постепенногонарастанияи конеч­нымтипам тона.Наконец, заполняютсяпо соответствующимправи­лам иостальныеучастки; контуросновного тонавысказываниясформулирован.

Пики основноготона устанавливаютсяпропорциональновеличине акцентадля каждоговажного слова,однако по отношениюк на­чальнымсловам высказыванияпики имеютнекую тенденциюк умень­шению.К ним добавляетсянаклоннаялиния, такая,что для словравного .акцентакаждое последующеезначение частоты/„ на пике•^УДет уменьшатьсяпропорциональнонаклону этойкривой. Величинаэтого наклонадля предложений,заканчивающихсятыом тона В,более пологапо сравнениюс другимипредложениями.Каждое пред-^«ениеполучает своюлинию наклонав зависимостиот того,в ка-^омместе общеговысказываниянаходитсяпредложение(и, естествен-н0»в зависимостиот пда тона,которым заканчиваетсяпредло­жение). Пики каждогопредложенияуменьшаютсяот начала кконцу

Зак.480 65

всеговысказывания, но при этомсоблюдаетсятенденция.что на­чальный пик каждогопредложенияболее высокий,чем последнийпик частотыосновного тонапредыдущегопредложения, но более низкийчем первый пик этого предыдущегопредложения.Такие линии нак-жона являются в какой-то степениопорными приформированиикон­тура, так что более длинныепредложенияначинаютсяс более вы­сокихпиковfg.

Каждыйлексическиударный слогзначимого слова приобретаетконтур /о ,характеризующийсяподъемом и спадом» отношениямеж. ду которымиопределяютсячислами, характеризующимиграницы. Боль­шиеположительныечисла ведут к значительномуподъему, а большиеотрицательные- к значительномуспаду. Величиныподъемов и спа-доа пропорциональныакценту, но зависят также и от числа со­седнихнеакцентированныхслогов. Большоевременноеразделениемеж­ду акцентированнымислогами ведет к большемуотношению на этом участке,характеризующему провал.

Информация о продолжительныхподъемах / кодируетсяв чи­сле, стоящем после последнегослога каждогослова; это числохарактеризует и высоту подъема,и его длительность.Формированиеконтура /д нанеакцентированныхучастках высказывания основано на том, что в высказыванияхчастота /д имееттенденцию кпо­нижению.Учет фонемическойструктурыслогов приводитк тому, что научасткахвысказываний,соответствующихглухим взрывным,контур основноготона отсутствует,а акцентированныеслоги с начальнымивзрывными имеютболее высокиепикиf,чем слоги, начинающиесясо звонких.Изменениедлительностейзвуков синтетической речи рассмотреноранее в п. 1.4.2. Непредставляетособых проблемформированиеконтура интенсивности, в какой-то степеникоррели­рованного с контуромосновного тона;имеются известные соот­ношениямежду среднейинтенсивностиударных и безударныхгласных, сонорныхсогласных,фрикативныхи смычных согласных (включающихучастки смычек),что позволяетавтоматическиформировать контур интенсивностипо фонетическойцепочке.

1.4.5.Алгоритмическоеи программноеобеспечение синтеза речи.Созданиеалгоритмического и программногообеспечениясин­теза речи рассматриваетсяв ряде публикаций.Разрабатываютсяего циализированныеязыки для переводаграфем в фонемы CI26], 8 также системыпрограммныхмодулей, обеспечивающихавтоматическийанализ текста и синтеза речи [103, 133] . Системныйподход к созданиюпрограммногообеспечениясинтеза речистановитсявсе бо­лееопределяющим.

66

В CI26]рассматриваетсяразработанныйв0 Францииспециализи­рованныйязык программированияТОР, предназначенныйдля переводагоафем французскоготекста в соответствующиефонемы. ЯзыкТОР (Transcription Orthographlque Phonetique) - это языкправил опи­сания,применениекоторых зависитот контекста.Программы,напи­санныена языке ТОР,содержат тричасти:

1) описаниеиспользуемыхкодов;

2) описанирклассов (необязательное);

3)правила.

Система правилоснована начастичномупорядоченном мно­жествефонологическихправил французскогоязыка. Леваячасть каж­догоправила указываетна графему,которую необходимоперекоди­роватьв фонему (указаннуюв правой части)при условии, что известенбуквенныйконтекст, вкотором находитсяперекодируемаяграфема.

В С.ЮЗ] описанамодульнаясистема речевогоответа, представ­ляющаясобой большоеколичествопрограммныхмодулей (поодному ^ля каждойструктурнойобласти),связанных междусобой множествоминформационныхструктур. Каждаяструктурнаяобласть (т.е.морфо­логия,синтаксис,семантика,фонология)делает свойвклад в об­щуюсистему, новзаимоотношенияэтих областейс лингвистическойструктуройвысказыванияне всегда однозначныиз-за индивидуаль­ныхакустическихособенностейсинтезируемойволны. Различныеструктурныеобласти должны1ыть представленытак, чтобы можнобыло обеспечитьих оптимальноевзаимодействие.Лишь таким об­разом можноустановитьсложные отношениямежду поверхностнойре­чевой волнойи лежащей в ееоснове абстрактнойлингвистичес­койструктурой,которая должнабыть смоделированаглубоко ивсе­сторонне.

Присоздании модульнойсистемы предусматривалось:

а) получитьтакую полнуюмодель в алгоритмическойформе, что­быпроцесс былпредставленс исчерпывающейполнотой;

б) обеспечитьработу системыдля моделейпеременнойслож­ности,например, чтобысистема работалас фиксированнымсловарем идибез учетапросодическихпараметров;

в) обеспечитьразвитие идостаточнуюгибкостьсистемы,что­быизменения,которые должныбыть внесеныв один структурныйУровень, нетребовалиизменениядругих уровней;

г) реализоватьэффективнуюработу отдельныхчастей алгоритма»ориентируясьна спецификуприменениясистем речевого' ответа;

^и этом доляноучитыватьсяиспользованиеспециального обору­дования,обеспечивающегоминимальныегабаритысистемы,времяфор­мированияфразы, мощностьи стоимостьсистемы. 67

Модульноематобеспечение,реализующееэти требования,произ-водитанализ текста и синтез речи.На стадии анализа создаетсянекаяабстрактнаялингвистическаяструктура,общая как для вход-ного текста,так и для речевоговывода. Основными программнымимодулями при создании такойструктурыявляются:

1. Модуль"Формат",обеспечивающийпредварительную обработ­кувходного текста в форм;', удобнуюдля морфологического ана­лиза и порождениясоответствующейфонемной цепочки.

2.Модуль "Декомпозиция1',осуществляющийморфологическийана-диз и находящийкаждое слово в лексиконеморфем, представляетпоследовательностьморфем, составляющихвходной текст, кодами, учитывающими их особенностипроизнесения(в сочетаниис дру­гимиморфемами) и грамматическиефункции.

3. Модуль"Парсер"(грамматическийразбор) работаетс цепоч­койморфем и определяет,к какой частиречи принадлежит каждое слово;этот модульстроит грамматическиесети и формируетфразы, объединяяслова в словосочетания,на которыедалее будет нак­ладыватьсясоответствующийинтонационныйконтур; основная роль этогомодуля - разрешатьфонемныенеопределенности(что-то убрать,что-то добавить) и производитьлингвистическиеописания, необ­ходимые для временныхпроцедур, и процедурыналоженияконтура основноготона.

4. Модуль"Звук-1", в которомморфофонетические правила (множественногочисла, прошедшеговремени, палаталлэации) приме­няются к словам,анализировавшимсямодулем "Декомпозиция"; эти правилаочищают фонетическуюцепочку и позволяютобъединятьдва иди болеесмежных корняв составноеслово , а также построить дляслова соответствующийконтур ударения.

5.Модуль "Звук-2"используетправила переводабукв (графем)в звуки дляпорожденияфонетическойпоследовательности, если модуль"Декомпозиция" не смог полностьюпревратитьслова в пос­ледовательностьлексическихморфем. После превращенияпоследова­тельностибукв в последовательностьфонетическихсимволов этотмодуль используетполный наборправил лексическогоударения,опре­деляющихконтур ударностидля этого слова(эти правила, нап­ример,определяютПравильностьпроизношенияаффиксаateв словах eyatematioиeyetemeUze).

Присинтезе речииспользуетсянабор модулей, обеспечивающихпорождениевходной речевойводны:

- модуль"Просодика"»определяющийдля каждойфонемы форми­руемогопредложениячастоту основноготона, длительностьи интен­сивность(ударность);

68

- модуль"Синтез", используяфонетическиеметки ипроводи-ивокуюш«формацию,каждые б мопорождаетпараметры, достаточные•ля управленияцифровой модель»речевого тракта,формирующейот-очеты речевойволны. Модуль"Синтез"- ато большая программа,мализуккцаяалгоритмфонетическогосинтеза речипо правилам с дополнительнымналожениемпросодическогоконтура;

-модуль "Речь"превращаетполученнуюпоследовательностьдесантныхотсчетов вречевую волну,используяцифроаналоговыйПреобразователь.

В[133] рассмотренаинтерактивнаясистема исследованияре­чиtiK; ,чозвояяищаяв диалоговомрежиме изучатьи модернн-ащюватьправила преобразования"текст- фонема",что дает воз­можностьполучать болеекачественнуюсинтетическуюречь. Системаspy используеттри вида правилпреобразования(рис.1.4):

1)правила модификациитекста, модифицирующиеначальнуютек-стоьуьстроку и связанныес ней признаки;

2)правила конверсии,формирующиецепочку фонеми связаннуюв ней матрицупризнаков наоснове информации,имеющейся вмо­дифицированнойтекстовойстроке;

3)правила модификациипризнаков,которые изменяют матрицу признаков,формируемуюправиламиконверсии.

Рассмотрималгоритмпреобразования"текст-фонема",реализован­ныйв [I33J, на примерепреобразованияслова.

На вход программыпреобразованияпоступаетслово, каждойбук­ве которогосоответствуетприсоединенныйпризнак, определяющийглаонке илисогласныезвуки, соответствующиеетим буквам:

с буква

согл..


(символы)

(присое­диненные)

признаки


arLпд

буквабуквабукяабуквабуква

глад.оогл.глао.согл.глас.

На аерьомуровне текстоваяцепочка и связаннаяо ней матрицаПризнаковмодифицируютсямножествомправил модификации текста. б»наравиле могутустранять,добамнгь изаменять символы,атак-*•делать соответствуххциеыодифхнацииматрицы признаков.Правила ч^дифинации•мжста, например,вводят символе*' после гласного,»»которым следуетодин или двасогласных, иперед суффиксамиIng.

69

Текст и признаки

Правиламодификациитекста(ТМ-правила)

Модифицированныйтекст и признаки

Правила конверсии (С-правила)

Фонемыи признаки


(W-правила)


ПравиламодификациипризнаковМодифицированныепризнаки

Рис.1.4. Три уровня правил преобразования"текст-фонема1' сис­темыSRS

sharing

+s/?are+.ing+

Ce] [C]


Правиламодификациитекста I. 0---e+/l/c[?,2L{ed|^}

Пракихаконверсии

И. ар/_с[*соп}е^

Правиламодификациипризнаков

3. [\tfns\—-[-tens']/_ [+ ret]

ПрименениеТМ-оравмя ксяоэуcarlna дает:

е + i n (f буква буква букм буква буква буква буквасоги. глас. согя. гяас. пас. согя. согд.

Таким обозом,эти аравияавводят новуюбукву е, а такжеопредедяштграницу модемы"+" и суффикса" •". (Введенныеси»»-воям служ*»тважной частьюиравия контекста,которые исоояьауютсяС- и /М-правияами.)

Модифицированныйтекст и связанныес ним признаки далее обрабатываютсяС-оравмяаыи,которые формируютфонетическую це­почку изпоследовательностибуке, полученныхна предыдущемваге. С-иравияо(рис. 1.Ь), например,показывает,что буква "а"произносится,как "е", когдаона предшествуетодиночнойсогяас-ной,за которойсявдует эаканчиваиааяморфему буква"е". (Это

70

Оравиюприменяетсяк "а" вw»eBathing,гд,»звуки" th" проиэ.косятся какодин согяасный,но не к "а" всловеtaxina, где •х'1произноситсякак два согласных.)Результатприменениявсех оравилконверсии ксдовуcarinqпозвояяетпожучить ояедующгювались:

9

согл. взрывной,

подъема, альвеолярныйвелярный, передний звонкий

+ А- е г -+. I nсогл. гдас. согя. глас. con. взрывной,среднего ретро- верхнего назальный,велярный, пид-ьеыа, Фявчсный подъема,гяухой передний

Если правиламодификациитекста изменяюттекстовуюцепочку не­посредственно,то С-правилаформируют ноауюцепочку (фонем)на основеtm{iupuaiyiH.заключеннойв текстовойцепочке,F/И-пра-

•ила модифицируютфонетическуюцепочку, применяяпрарила кон­текстнойзависимостих матрице признакови включая илиустра­няя сооткатет йущявсегменты. Так. ГМ-правило устанавливает,что напряженныйгласный становитсянапряженнымперед ретрофлекснымизвуками. Другии /^"дравидомяуяяетая правилообъединенияп и д, когдапроизноситсяп. Все этиправила использовались сов­местнос английскимиправиламипорожденияпараметров,соответ­ствующихфонемам, дляпохученияречевой волны.

В [%]рассматриваетсяматематическоеобеспечение одно­кристальноймикроЭВМ моделиСв*.Для моделированияпередаточныхфункций речеобразумаеготра-«»а разработаныпрограммымодификациивыходных значений сигна-

*ов, поступающихс выхода генератораголосовыхимпульсов игене-Р»торашумовых сигналов.Для втого применяютмоделированиерекур­сивныхфильтров спеременнымивременнымипараметрамии ыиогоавен-чах.В [96]приведенатипичная программадля одного звена ччогозввнногофнютра, управляемогопараметром,который ииветраз-чые значения для различныхзвеньев. Отмечается,что для пос-•Ровниятипичногосинтезатораречи требуетсядва микропроцессора®20; первый обеспечиваетработу генераторавоабуадаицих сигна-

71

лов и моделированиенесколькихпервых звеньев многозвенногофидьтра, а второй- для остальных звеньев этогофильтра. Дляпостроенияформатногосинтезатор»»достаточновоспользоватьсяод­ним микропроцессором2920. Речевой трактмоделируетсяздесь пос­ледовательностьюрекурсивныхфильтров второгопорядка (в [96] при»водится программатакого фильтра). Для удовлетворительного син­тезапоследовательновключают не менее трехзвеньев,моделирую­щих три форманта.

1.4.6.Отечественныесистемы автоматическогоречевого вывода.Основныеработы по автоматическомусинтезу речисвязаны с пос­троениемпараметрическихсинтезаторов[6,43, 48-50, 53, 70, 75]. Некоторые из систем речевоговывода информациииз ЭВМ внедреныв опытную эксплуатацию [43,48] , другие - близкик внедрению[6, 70,78] , третьи -используются в экспериментальныхустанов­ках[50, 56] .

Развитие работ по построениюсистем автоматическогорече­вого выводаведется в нашейстране в широкомдиапазоне - отфо" немных синтезаторовдо словесныхи даже фразовых временныхкомпиляторов.

Если в работах первогонаправления, при которых фонема рассматривается как набор заданнойпоследовательности движенияартикулятороа в артикулчторнойпрограмме,стремятся к компакт­ностипредставлениягенерируемогоречевого сообщенияи универсаль­ности,обеспечивающейречевое отображениепроизвольной текстовойинформации, то в компилятивныхвременныхсинтезаторах второго направленияделается упорна разборчивостьи естественностьскомпилированных высказываний(в ущерб универсальностии ком­пактностипредставлениясигнала).

Одним из наиболеетипичных синтезаторов параметрическоготипа являетсяортогональныйсинтезаторречи [48] . Синтезаторпредназначендля выцачиголосом из ЭВЫв телефонныйканал сче­тов-справок о стоимостисостоявшихсямеждугородных переговоровгородскойтелефоннойсети. Речевойсигнал (словоограниченногопо объему словаря)представленвременнымиизменениями параметровсигнала - логарифмовогибающейамплитудныхспектров. Речевые от­веты (фразы)вначале формируются в виде списковномеров слоя,речевые эквивалентыкоторых затемпосегментнообъединяютсяи выво­дятся на синтезатор.Отмечается,что разборчивостьсинтезируе­мыхфраз близкак 100%, скоростьвывода речевогосигнала насин­тезаторравна 12 бит/с.

Приартикуяяторно-форматномсинтезе речи по печатному тек­сту L6.^]в качествеминимальногоартикуяяторного компдйкса

72

используетсяэлементарныйслог, представленныйнабором артикуля-торныхкоманд способаи места образованиявходящих в негофонем. Процессреализациислога делитсяна три основныефазы: переход­наяфаза от предыдущегослога к данному,фаза реализациисоглас­нойфонемы и фазареализациигласной. Синтезаторучитываетпро­содическиехарактеристикиестественнойречи, а такжето обстоя­тельство.что в ней могутвстретитьсясочетаниясогласных игласных фон-эы.Система синтезав последнемслучае вводит фик­тивныесогласные игласные, разбиваяречевой потокне слоги,при­чемфиктивнымзвукам приписываетсядлительность,равная нулю.Для автоматическогозадания интонационныххарактеристикфраз в син­тезируемойтекстовойинформациивыделяютсяранжированныеединицы:

фраза, синтагма,фонетическоеслово, слог.При автоматическойоб­работкесинтезируемоготекста определяетсячисло единицранга К в единицерангаK-I,номер логическивыцеденнойединицы рангаК, а также типинтонации.

Для моделированияалгоритмовсинтеза использоваласьунивер­сальнаямини-ЭВМ, обдацаищаябыстродействием200 тыс. операцийв Iс и оперативнойпамятью16 кбайт.Объем программ нодедм синтезаречи составляет1200 32-разрядныхкоманд. В настоящеевре­мя принципытехническойреализацииартикуляционногосинтезаторалегли в основуразработкистандартногоустройстваречевого вы­водас микропроцессорнымуправлениемдля ЕС ЭВМ [б]. Поя­вилисьпервые синтезаторы,основанныена параметрах линейногопредсказания [55,78].

В нашей странеи за рубежомпоявляетсятакже интереск уст­ройствамречевого вывода,основаннымна компиляцииречевого сиг­нала,соответствующегофразам, из болеемелких отрезков рече­вой волны:слов, слогов,аллофонов ['44,96]. Подобные синтеза-Юрыпредназначеныдля информированияпользователейограничен­нымколичествомтипов фраз,часто вполнедостаточным.Большие жезатраты памятидля храненияв цифровом видеэлементов,из кото­рыхформируютсяфразы, нетак страшны,потому чтоновые видызапоминающихустройств(например, нацилиндрическихмагнитныхдо-хенах) позволятхранить в малыхобъемах десяткимегабайт. ВСССР работыпо компиаятивномувыводу ориентированына использо­ваниев качествеосновногоэлемента синтезакак слов,так и схо-^в.Предполагается,что такой синтезаторкомпилятивного типа ^УДетизготовленсерийно.

Зак.480


ГОВОРЯЩИЕ ипонимающиеречь машиныстроятся сей­часна основе ЭВМ,которые включают,как правило,микропроцес­сорыи другие большиеинтегральныесхемы. А ЭВМработают счислами, перерабатываютцифровую информацию.Лучше сказатьтак: все, чтоперерабатываетвычислительнаямашина, должнобыть представленов виде чисел.В понятие «все»входят, в частности,сигналы, получаемыес датчиков.Сюда относятсигналы, получае­мыемедиками(кардиограммы,энцефаллограммы),и различныетех­ническиешумы, напримершумы двигателя,по которым ЭВМможет определитьпричину егонеисправности,геофизические(шумы под­земныхнедр и моря),биологическиешумы (разговорыдельфинов,пение птиц,мяуканье кошеки лай собак,кваканье лягушек),раз­личныедвумерныесигналы (изображения).Сюда же относяти че­ловеческуюречь. В этомразделе рассмотрим,как речь (речевойсигнал) превращаетсяв набор чисели какие превращенияс эти­ми числамипроисходятдо того, как«умная» машинапроизнесетнужную фразуили пойметс'!ысл высказывания.

Но мы должныпомнить, чтоосновные приборыи способы об­работкисигналов,превращенныхв набор чисел,можно использо­ватьи для работыс любыми сигналами,поступающимис соответ­ствующихдатчиков информации,сигналами необязательноречевой природы.Цифровые методыанализа открываютпоистинебезгранич­ныевозможностивычислительнойтехники. Ученыепоказали, чтоесли у непрерывноизменяющегосяво временисигнала братьдоста­точноблизко расположенныедруг к другуцифровые отсчеты,то последовательностьэтих отсчетовбудет почтиполностьюотражать всесвойства этихсигналов. Приобратномпреобразованииэтих цифр вречь она будетслышна безискажений. Этозначит, чтодостаточнопредставитьречевой сигналв цифровомвиде, в виде,

64

удобном длямашинной обработки,и можно применятьвсю мощь программныхсредств ЭВМдля расшифровкисмысла речевогосо­общенияв системах,понимающихречь. В говорящихже машинахиспользуютобратноепреобразование:«цифры —речевой сигнал».Полученнуюпрограммнов виде последовательностичисел речьпропускаютчерез специальныепреобразователи«цифроваяпосле­довательность—электрическоенапряжение» («цифра—аналог»).Далее речевойсигнал можноподавать нанаушники илидинамиче­скийгромкоговоритель, преобразующиеэлектрическийсигнал в колебаниемембраны, илирупоры (диффузора)динамика, которыеколеблют воздухв соответствиис электрическимсигналом,по­ступающимна вход.

Напомним, чтосам речевойсигнал изменяетсяво временидо­статочнобыстро. Этообъясняетсяособенностямиего образова­ния— фильтрациейсигналов возбужденияимпульсоввоздушногодавления, толчковвоздуха, поступающихс голосовыхсвязок при ихколебании, т.е. через открытыеголосовыесвязки из легкихпри выдохечерез резонанснуюсистему (артикуляторныеорганы —гор­тань. язык,полости ртаи носа). Свойстваже речеобразующеготракта из-заего инерционностименяются медленно.И в вычисли­тельноймашине в цифровойформе крайнежелательнополучать ихранить медленноменяющиесяпараметрыголосовоготракта и ис­точника— частотыосновного тона,формантныечастоты, определя­ющиехарактер самогоречевого сигнала.Поэтому здесьрассмот­рими способы полученияпараметровречеобразующеготракта —формант иразличныхсвязанных сними характеристик,которые иногдабудем называтьинформативнымипараметрами.Изменениеглавного параметраголосовогоисточника— частотыосновногото­на—относитсяк просодическимхарактеристикамречи, некоторыеметоды егополучения ужебыли рассмотрены.

Если по информативнымпараметрами их изменениямво вре­мени(используямодели речеобразования)можно восстановитьре­чевую волнуили распознатьее смысл (наоснове моделиречевос-приятия),то, кроме какс параметрами,вроде бы ни счем и ра­ботатьне надо. Параметрыэти очень удобны,слабо меняютсяво времени,поэтому ихгораздо меньше,чем цифровыхотсчетов са-'

5Заказ№ 901


65



мого сигнала.Значит, меньшийобъем памятиможно занятьпод высказывание,которое анализируетсяили генерируется.Значит, меньшевремени потребуетмашинная обработкапри распознава­нии.Значит, меньшимимашиннымиресурсами можноснабдить системуавтоматическогораспознаванияили синтезаречи и тем сильноснизить еестоимость. Нокак автоматическиполучить этипараметры(признаки, лежащиев основе машинныхмоделей рас­познаванияи синтеза речи)?Ведь при построениипонимающихречь машин,например, мыимеем на входемашины лишьречевой сигнал.Как от негоперейти к параметрам?Только создаваппара­туру,которая ихвыделяет ипозволяетвводить в ЭВМв цифро­войформе, или разработавалгоритмы исоответствующиепрограм­мы,которые пооцифрованномуречевому сигналуили по спектрупозволяютполучать этипараметрыпрограммнымспособом. Всвя­зи с этимвводить в ЭВМинформациюо речевом сигналев циф­ровойформе можнотремя способами.Первый способосуществля­етсяс помощьюуниверсальногоприбора-преобразователя«ана­лог—цифра»,который даетвозможностьвводить в памятьЭВМ отдельныеотсчеты речевогосигнала в видепоследовательностичисел.

Второй способвключает сложныйпреобразователь,позволяю­щийвводить в ЭВМинформациюо спектре сигналаза относитель­нокороткие временныеинтервалы.Обычно такаяинформациявво­дится сгребенки аналоговыхполосовыхфильтров, каждыйиз ко­торыхпропускаетлишь ограниченныйдиапазон частот.Вместе же фильтрыгребенки перекрываютвесь частотныйдиапазон речевогосигнала, прошедшегочерез техническиеустройства(микрофон имикрофонныйусилитель).Использованиеустройствречевого вводаэтого типапозволяетполучать впамяти ЭВМ вцифровом видекартинку такназываемой«видимой речи»,динамическуюспектро­грамму,которая раньшесоздаваласьс помощьюспектроанали-заторов,сонографов-приборов,сыгравшихбольшую рольв изу­ченииречи и ее параметровлингвистами.В настоящеевремя ин­формацияо кратковременномспектре можетбыть полученас по­мощьюспециализированныхБИС и СБИС цифровойобработки

66

сигналов, которыереализуютгребенку фильтровцифровымиме­тодами.

И, наконец, третийспособ —это устройстваввода в ЭВМвы­деляемыханалоговымспособомнепосредственноиз речевойволны главныхпараметровречеобразующеготракта, а такжепросодиче­скихпараметров— формантныхчастот, усредненноймгновеннойчастоты, усредненнойинтенсивностисигнала, частотыосновного тонаи некоторыхдругих признаков.Все эти параметрыили их эквиваленты,вообще говоря,можно получитьпрограммнопо оциф­рованнойречи аналого-цифровымпреобразователемили по спектрусигнала. Устройстваввода третьеготипа позволяютполучать этипараметрыаналоговымспособом впроцессе произнесенияпредло­жения.

В связи с широкимраспространениеммикропроцессорови ми­кроЭВМ,которые становятсяосновным инструментоманализа речи,и появлениеммикропроцессорныхсистем, обеспечивающихобработ­куоцифрованныхречевых сигналов (введенных суниверсальныханалого-цифровыхпреобразователей)с огромнойскоростью,дости­гающейсотен миллионовопераций всекунду, далеебудут рассмот­реныметоды первичнойцифровой обработкиречи. Эти методыле­жат в основесовременныхсистем автоматическогораспознаванияи синтеза речии связаны сполучениемтекущей автокорреляциисиг­нала,энергетическогоспектра, параметровлинейногопредсказания,гомоморфнойобработки, атакже клиппированнойречи. Будетобра­щеновнимание наиспользованиеспециализированныхустройств вводав ЭВМ информацииоб информативныхпризнакахречевого сигнала.

2.1.УСТРОЙСТВАВВОДА РЕЧЕВОЙИНФОРМАЦИИВ ЭВМ

Аналого-цифровоепреобразование.Преобразовательтипа «аналог—цифра»— это устройство,дающее возможностьвводить в ЭВМдискретныеотсчеты речевогоСигнала, представлятьнепрерыв­нуюречевую волнупоследовательностьючисел, сохраняявсе ос­новныесвойства сигнала.Как правило,такой вводприменяется,

5*


67



когда не хотятпользоватьсяаналоговойаппаратуройвыделенияречевых параметрови когда анализсигнала необязательноосущест­влятьв реальноммасштабе времени.Работа с оцифрованнымрече­вым сигналом,вводимымнепосредственнос аналого-цифровогопреобразователя,обеспечиваетболее гибкуюпоследующуюобра­боткуречи в ЭВМпрограммнымиметодами.

Теорема отсчетов,связывающаядискретныеотсчеты аналоговогосигнала и сохранениечастотныхсоставляющихсигнала, былапред­ложенаеще в 1933 годуВ. А. Котельниковым:если сигналx(t) не содержитчастотныхсоставляющихвыше FcГц, то его можнопол­ностьюопределитьсобственнымизначениямив моменты, отстаю­щиедруг от другана 1/2 Fc секунд.Интуитивноеподтверждениеэтой теоремысостоит в том,что если сигналx(t) не содержитчас­тот вышекритическойчастоты Fc,то он не можетсущественноиз­менить своезначение завремя, меньшеполовины периоданаивыс­шейчастоты. Согласнотеореме отсчетов,таким образом,сигнал какфункцию времениможно восстановитьпо значениямв точках отсчетах(кТ), если частотаотсчета Ро==1/Гне меньше удвоеннойкритическойчастоты Fc.Предположениетеоремы отсчетово суще­ствованиикритическойчастоты неявляется сильнымограничением,так как всефизическиеустройствав принципе недопускаютпро­извольновысоких частот,не пропускаяих, обрезая. Вовсех реаль­ныхтехническихприложенияхвсегда исходятиз того, чтосущест­вуетнекая Fcдля любых аналоговыхсигналов.

При вводе в ЭВМдискретныхотсчетов речевогосигнала поль­зуются,как правило,стандартнымипреобразователями«аналог—код». Действияаналого-цифровыхпреобразователейоснованы наэлектрическомпреобразованиидискретизированных аналоговыхсигналов всоответствующуюпоследовательностьдвоичных чисел.Это преобразованиевыполняетсяразличнымиспособами,включая линейнуюимпульсно-кодовуюмодуляцию,дифференциальнуюим-пульсно-кодовуюмодуляцию,дельта-модуляцию,адаптивнуюдель­та-модуляциюи другие методы,о чем можнопрочесть вспециаль­ныхкнигах поаналого-цифровымпреобразователям.

Наиболеераспространеннымив настоящеевремя аналого-циф-ровымипреобразователямиявляютсяпреобразователи,использую­

68

щие линейнуюимпульсно-кодовуюмодуляцию. Навходе системы(рис. 2.1) стоитфильтр нижнихчастот /,ослабляющийвысоко­частотныекомпонентысигнала, лежащиевыше критическойчастоты Fc.Аналого-цифровоепреобразованиесигнала включаетдва этапа. Напервом этапезначение аналоговогонапряженияв момент из­мерениязапоминаетсяна некоем«аналоговом»запоминающемэле­менте, вкачестве которогоиспользуетсяобычный электрическийконденсатор.На втором этапенапряжение,«запоминаемое»на кон­денсаторе,измеряетсяс определеннойточностью, идвоичный кодчисла, наиболееблизкий напряжениюна конденсаторе,передаетсяв память ЭВМ.

Сигнал, пройдячерез низкочастотныйфильтр ./, вопределен­ныймомент запоминаниясигнала поступаетна электрическийкон­денсатор2. которыйбыстро заряжаетсядо величинынапряжения,равного значениюнапряженияна выходе фильтра.Далее заряжен­ныйконденсаторотключаетсяот питающей,входной цепина вре­мя измерения«запоминаемого»на емкостинапряженияи хранит егов течение всеговремени измерения,не разряжаясь.Аналоговаясхема 3сравниваетнапряжениесигнала, хранящеесяна емкости, скалибровочным,«компенсирующим»напряжением.Это напряже­ниеавтоматическиполучаетсяна выходе схемы4, котораяпреоб­разуетнекий код, двоичноечисло на входев аналоговоенапря­жение,являясь такимобразом цифроаналоговым преобразова­телем.

В формированиидвоичного кодана входе схемы4 основнуюроль играетсхема 5,которая называетсярегистромзапоминанияпоследовательныхаппроксимаций.Попытаемсяразобраться,что это

69

за схема. Ввычислительнойтехнике понятие«регистр»является однимиз основныхпонятий. Регистр— это узелЭВМ, состоящийиз несколькихпараллельносоединенныхдвоичных электронныхзапо­минающихэлементов— триггеров.Каждый из триггеровхранит толькоодин разряддвоичногочисла. Еслирегистр состоитиз 10 триггеров,то можно сказать,что он можетзапоминатьтолько десятиразрядноедвоичное число.Различаютстарший разрядзапо­минающегорегистра, гдехранится старшийразряд кода,соответ­ствующегодвоичномучислу, и последующиемладшие разряды.Вес каждогоразряда в двараза меньшевеса соседнего,стоящего слеваразряда регистра.

Аналого-цифровойпреобразовательустроен так,что на запо­минающемрегистре вначале(во время циклаизмерениянапря­женияна емкости)старший разрядтриггераустанавливаетсяпринудительнов единичноесостояние. Этоозначает, чтозначение«компенсирующего»напряжения,вырабатываемогосхемами 4и 5, в два разаменьше, чемвозможноенапряжениена емкости.

Если напряжениена емкостивыше, чем напряжениена выхо­децифроаналоговогопреобразователя,то схема сравнения3 выра­батываеттакой сигнал,что в единичноесостояниеустанавливает­сясоседний, стоящийрядом со старшимразряд регистра5. А это ужеозначает, чтона следующемшаге сравнениядвоичного числас напряжениемна емкости/ компенсирующеенапряжениебудет составлять3/4 от максимальновозможногонапряженияна запоми­нающейемкости. Еслиже при первомсравнениинапряжениена емкостиниже, чем компенсирующеенапряжение,поступающеес выхода схемы4, то старшийразряд регистра5 обнуляется,а со­седнийвсе равноустанавливаетсяв единичноесостояние,означа­ющее,что на второмшаге сравнениякомпенсирующеенапряжениебудет составлять1/4 от максимальногозначения, котороеможет за­поминатьемкость /.Такое сравнениепродолжаетсядо тех пор, покане будут опрошенывсе разрядырегистра5, до самогомлад­шего.Понятно поэтому,почему регистр5 называетсярегистромпоследовательныхаппроксимаций,—мыпоследовательноприближа­емсяко все болееточному измерениюнапряженияна емкости.После того, какпроизошлапроверка самогомладшего разряда,на

70

регистре хранитсячисло, наиболееточно аппроксимирующеесигнал, хранящийсяна емкости./. Этот двоичныйкод и пересылаетсяв ЭВМ, послечего переходимк измерениюследующегоотсчета сиг­нала,поступающегона емкость свыхода фильтра/ в моментпод­ключенияего к запоминающемуконденсатору2. Такойспособ ана-лого-цифровогопреобразованияназывают поразряднымвзвеши­ванием.

Отметим, чтобольшие перспективыв использованииунивер­сальныханалого-цифровыхпреобразователейоткрываютсяв связи смультипроцессорнойреализациейразличныхметодов цифровойобработкисигналов— дискретногопреобразованияФурье, линейногопредсказания,цифровой фильтрациии др. Для исследовательскихцелей этот типввода речевыхсигналов в ЭВМнаиболее применими в настоящеевремя, так какон достаточногибок и позволяетсохранять всечастотныесоставляющиеречевых сигналов.Применя­ютаналого-цифровыепреобразователии в тех случаях,когда необ­ходимоиспользоватьфильтры с такимихарактеристиками,которые труднореализоватьна реальныхфизическихэлементах, атакже в случаях,когда требуетсячастое изменениепараметровфильтра, ис­пользуемогопри анализесигнала, илиподбор характеристикфиль­тра и когдареальный масштабвремени анализане обязателен.Кроме того,ввод с аналого-цифровогопреобразователяможет ока­затьсяцелесообразным(и единственновозможным),когда ставит­сязадача поискаинформативныхречевых параметров(не обяза­тельночисто спектральных)на значительномстатистическоммате­риале,собираемомв архиве речевыхпроизнесенийв цифровойформе.

Ввод сигналас гребенкианалоговыхфильтров. Второйтип ввода речевыхсигналов в ЭВМ— это вводсигналов сгребенки аналоговыхполосовыхфильтров,перекрывающихчастотныйдиапа­зон речи,прошедшей черезтехническиеустройства(микрофон—ми­крофонныйусилитель—(возможно) каналпередачи). Информацияс гребенкифильтров омедленно меняющихсяогибающихсигнала с каждогофильтра поступаетна электронныйкоммутатор(переклю­чатель),который обеспечиваетпоследовательноеподключениенапря­женияс выхода каждогофильтра каналого-цифровомупреобра-

71

зователю. Кодыс аналого-цифровогопреобразователя(информацияна выходе гребенки)с более низкой,чем при первомтипе ско­ростьюввода, определяемойчастотой опросагребенки (частотойквантования),поступают вЭВМ (рис. 2.2).

Достоинствоэтого способазаключаетсяв том, что в памятиЭВМ после вводасигнала находитсяуже непосредственнодинами­ческаяспектрограммаречевого сигнала(картина «видимойречи»), и нетнеобходимоститратить машинноевремя на цифровоемоде­лированиефильтров. Современныепрактическиесистемы автомати­ческогораспознаванияречи широкоиспользуютэтот способввода информациио речевом сигнале,позволяющийавтоматическианали­зироватьполученныеаналоговымспособом медленноменяющиесяпараметрытракта речеобразования.

72

. Этот типустройств вводаречи обладаетрядом недостатков.Что во-первых,то, что в нихтрудно изменитьхарактеристики(Ьильтров (ихсредние частотыи полосы пропускания)—еслиони однаждывычислены иреализованы«в железе», топерейти к (Ьильтрамс другимихарактеристикамивесьма непросто.Во-вторых, сгребёнки полосовыхфильтров поступаетмного избыточнойинфор­мации,что не толькочрезмернозагружаетпамять ЭВМ, нои при­водитк тому, что программынадежноговыделенияосновных пара­метровречеобразующеготракта, а такжепросодическихпараметров.достаточносложны. Иногдаформантныепараметрымгновеннуючастоту основноготона, среднююинтенсивность(громкость)отно­сят кнаиболееинформативнымпараметрамв отличие отпарамет­ров,представляющихпросто энергиюв полосах частотобщего спектрасигнала. Гребёнкафильтров даетслишком многоинформа­ции,так как энергияв полосах частотхарактеризуетне только звукиречи, но и индивидуальныеособенностиречеобразующеготракта, эмоциональноесостояниечеловека и т.д.

В связи с этимгребёнку фильтровиспользуют,как правило,в дикторозависимыхсистемахавтоматическогораспознаванияречи, работающихс предварительнойнастройкойна голос диктораи на­бор слов—рабочийсловарь. Иногдатакие системыназываютадап­тивными.В системах,работающихбез предварительнойнастройки наголос конкретногодиктора, которыеиногда называютнеадаптив­ными,используютгребенку дляполученияпараметровследующегоуровня распознаванияречи, болеенезависимыхот дикторскогопроизношения.Однако длясистем автоматическойдиагностикиза­болеванийорганов речеобразования,распознаванияэмоциональногосостояниядиктора и егоиндивидуальностииспользованиегребёнки полосовыхфильтров какпервичногоанализатораоказываетсявесь­ма эффективным.Для неадаптивныхже системавтоматического'распознаваниясмысла сообщения,работающихот голосапроиз­вольногодиктора, полосовыефильтры, какправило, являютсявспо­могательнымисредствамипервичногоанализа.

Еще раз отметим,что алгоритмыавтоматическогораспознава­ниясмысла произнесенноготолько по картиневидимой речиока­зываютсядостаточносложными. Ктому же использованиетолько

73.

гребенки фильтровне позволяетэффективноанализироватьтакие звукиречи, как глухиевзрывные,длительностькоторых сравнима<:>

Ввод в ЭВМинформативныхречевых параметров.Следствиемразвития системыввода второготипа — системыанализа речевыхсигналов, основаннойна выделениианалоговымисредстваминеко­торыхмедленно меняющихсяпараметровречи и их последующейпрограммнойобработки,являются системы,использующиетретий типввода сигналовв ЭВМ. В такихсистемах первичныманализа­торомречи служатустройствавыделенияинформативныхречевых параметров,близких к параметрамречеобразующеготракта. Вводтретьего типапозволяет ещесильнее сжатьинформациюо речевом сигнале,поступающуюв ЭВМ.

Блок-схемаодного из устройстввыделенияречевых признаков•представленана рис. 2.3. Общаяидеология такихустройств иобо­снованиевыбранныхпризнаковречевого сигналаразработаныв Вычислительномцентре Академиинаук СССР иИнститутепроблем

74

передачи информацииАкадемии наукСССР. Усиленныйречевой сигналподается на16 каналов, изкоторых 9дают бинарныйвы­ход сигнализирующийо наличии илиотсутствиисоответствующегопризнака. Этипризнаки названыгрупповыми,их комбинациямо­жет датьпредставлениелишь о способеобразованиязвуков, т. е. опринадлежностик группе звуков,сходных поспособу образо­вания— шумные, взрывные,гласные, но нео звуке в группе.Ос­тальные7 каналов даютколичественныехарактеристикишумных звуковречи и гласных,т. е. позволяютклассифицироватьэти зву­ки поместу их образования.К признакамместа образованияшумных здесьотносят:

— число переходовсигнала черезнулевой уровеньв положи­тельномнаправленииNo, т. е. общеечисло положительныхим­пульсовклиппированного,или предельноограниченногоречевого сигнала,при которомон сохраняетлишь два возможныхзначения амплитуды(уровня);

— число положительныхимпульсовклиппированнойречи, пре­вышающихдлительностив 100, 200 и 400мкс;

— число положительныхимпульсовклиппированнойречи, не превышающих50 мкс.

К признакамместа образованиягласных причисляютзначения первойи второй формантныхчастот. К групповымдвоичным при­знакам,принимающимтолько двазначения—Ои 1, относятся:

признак наличияэнергии сигнала,превышающейранее заданныйуровень (порог)в области низкихчастот (еслипороговыйуровень энергиине превзойден,считается, чтоданный групповойпризнак отсутствует);признак наличияэнергии, превышающейпороговыйуровень в областивысоких частот;трехуровневыйпризнак огибаю­щейсигнала. Трехуровневыйпризнак наличияучастков сповышен­нымчислом переходасигнала черезнулевой уровеньхарактеризуетусредненнуюмгновеннуючастоту сигнала.Кроме того, вчисло двоичныхпризнаковвходит признакповышеннойчастоты основноготона, определяющий«высокочастотные»женские и детскиеголоса.

.Признаки вводятсяв машину каждые10 мс в мультипрограм­мномрежиме на фонерешения другихзадач. Трехпороговыйпри­знак плотностинулей представляетсобой три одинаковыхканала

75

Таблица2.1

Звук —о Wl

N,

Ns

К.

л^в

N,

nh

/Л.

N..



21

3900

11

3

2

1

1


24

3700

16

3

1



8


22

5400

15

2

1

1


14

С

24

4700

12

3

1

1

20


28

4900

8

4



16


29

4750

8

2




23


36

1950

9

1

3

3

1

10


40

850

3

4

2

2

3

1

1


48

300






1

ч

0



э

50

550

1


2

1

2

1

1


54

750

2

1

1

1

1

1


60

600

1

5

2


58

650

5

5

1


57

500

2


.—

5


57

600

2

1

2

1

1


42

650

1

5

1

1

1

1


36

350

2



2


1



33

250



.


1

2

м

26

250

—— ——

1

2


23

200



1

1


22

250



1

2


20

200







1

1















с порогами начастоте в200, 3500 и 5000 Гц,что позволяетуже на уровнеаппаратурыкласс шумныхзвуков разделитьна высоко-инизкочастотные.Аналогичнымобразом построентрехпороговыйпризнак огибающей.Отметим, чтоаналоговыеустройствавыделе­нияинформативныхречевых признаковмогут дополнятьсядругими каналами,видоизменятьобщую структуру,включать в свойсостав устройстваввода второготипа (гребёнкиполосовыхфильтров).

76

2.2.ВЫЧИСЛЕНИЕПРИЗНАКОВПЕРВИЧНОГООПИСАНИЯ РЕЧИЦИФРОВЫМИМЕТОДАМИ

При анализеречи цифровымиметодами в ЭВМс аналого-дифровогопреобразователяпоступаютдискретныеотсчеты речевогосигнала, т. е.речь представляется.набором чисел.Последователь­ностьэтих чиселподвергаетсяпрограммнойобработке поопреде­леннымалгоритмамцифровой обработкисигналов длятого, чтобыпредставлятьречь в болеепростом виде—меньшимнабором чисел,первичнымипризнаками(признакамипервичногоописания), кото­рыедают достаточнополное описаниеречевого сигнала.Признаки (параметры)первичногоописания программно вычисляютсяза время, в течениекоторого положениеречеобразующих(артикуля-торных)органов почтине меняется,—за0,01—0,02 с (10—20 мс).На отрезкахтакой длительностианалого-цифровойпреобразователь,«оцифровывающий»речевой сигналс частотой20 кГц, дает200— 400 отсчетов.Признаков жепервичногоописания наотрезках та­койдлительностиобычно 10—20,а иногда и меньше,поэтому уменьшаетсяобъем памяти,,которая отводитсяв ЭВМ для -хране­нияречи, и увеличиваетсяскорость последующейобработкисигнала.

Первичныепризнаки записываютсяв запоминающемустройствев виде таблицы(матрицы) параметров.Каждая строчкатакой таблицы—этонабор признаков,вычисленныхпри цифровойобра­боткеречи за 10—20мс, а каждыйстолбец показываетизменениеданного признакаво времени(через 10—20мс). Например,неслож­наятабл. 2.1 соответствуетпараметрическомупредставлениюслова «семь».При этом признакамипервичногоописания являются:сред­няя энергиясигнала Ац,средняя частотаперехода сигналачерез нуль /о(усредненнаямгновеннаячастота) и числаположительныхимпульсовклиппированнойречи. Инымисловами, речи,представ­леннойпрямоугольнымиимпульсами,полученнымииз первоначаль­нойречевой волныпосле ее усиленияи предельногоограниченияпо амплитуде,когда сигналпринимает лишьдва значения,од­ному изкоторых можетсоответствовать0, а другому1. Положи­тельныеимпульсы находятсяв диапазонедлительностей100—200

77

(Л';), 200—300 (ЛЛ;),300—400 (Л^з), 400—600(Л^), 600—800(/Vg), 800—1200(Ns), 1200—1800мкс (Na),свыше 1800 мкс(Nis) и ме.нее 50 мкс{Ns). Всепризнаки измеренына интервалахв 20 мс.

Данные длятакой таблицыполучаютсяцифровымиметодами спомощью оченьпростых алгоритмов.Средняя интенсивностьсиг­налаAy на отрезкев 20 мс можетбыть полученасложением 400отсчетов входногосигнала, поступающихс аналого-цифровогопреобразователя,без учета ихзнака и с последующимделением на400. Усредненнаяза время анализа«мгновенная»частота сигналаГо вычисляетсяподсчетомточек, где соседниезначения отсчетовимеют разныезнаки. Числоточек, в которыхсигнал меняетзнак, деленноепополам, определяетсреднее числопереходовсигнала че­резнуль в положительномнаправлении.Если среднеечисло умно­житьна 100, то получитсяусредненнаямгновеннаячастотаfo. Та­ким образом,простейшейформулой,определяющейалгоритм вы­численияусредненноймгновеннойчастоты сигнала,является фор­мула

где Aiи Лц.1—соседниеотсчеты речевогосигнала;sign—произве­дениедвух чисел Л,и Лг+i, равное1, если одноиз чисел (неваж­нокакое) положительное,а другое —отрицательное.

Числа положительныхимпульсовклиппированнойречи, опреде­ляющихинтервалы междунулями в возможныхинтервалахдли­тельностей(Ni—A^ia),также вычисляютсяочень просто.Представь­тесебе, что в массивечисел, которыесоответствуютречевому сигналуи получаютсяс помощьюаналого-цифровогопреобразова­теля,отмечены места,где сигналменяет знакс отрицательногона положительный,и наоборот.Числа, представляющиеречь, идут,на­пример, так:18, 13, 10, 7,3, —1, —8, —12, —20, —32,—25, —19,

—13, —6, —2, 4, 12, 16, 29, 21, 25, 14, 17, 12, 6,—2. —5, —11,

—18, —29, —29, —31, —21, —13 и т. д. В этойпоследователь­ностисоседние числатрижды имеютразные знаки.Дважды сигналпереходит изобласти положительныхзначений вобласть отрица-

—ro-T^iii-.v г,r>ni»u пяэ—ияобласти отоицательныхв область положи-

тельных (этичисла в массивеподчеркнуты).Если частотакванто­ванияаналого-цифровогопреобразователя20 кГц, то временныеотрезки, которымсоответствуетинтервал междудвумя соседнимияисламп —50 мкс (за однусекунду в памятьЭВМ вводится20 ты­сяч отсчетовречевого сигнала).Значит, достаточно подсчитать,сколько чиселпрошло междусменой знакас отрицательногона положительный,и наоборот,чтобы определитьдлительностьодного положительногопрямоугольногоимпульсаклиппированнойречевой волны.В нашем случаечисло интерваловмежду второйи тре­тьейсменами знаковсоставляет12, т. е. длительностьпрямоуголь­ногоимпульса12Х50—600 мкс. Можнополагать, чтопараметрMs должен увеличиватьсяна единицу. Длякаждого изпараметров^V,—,Vi6 имеютсяячейки-счетчики,которые называютсясчетчикамиселекции импульсовпо длительностии куда программаза время анализа(10—20 мс) заноситдля суммированияединицы, есливы­полненоусловие записив соответствующуюячейку памятипосле проверкидлительностиположительногоимпульса. Этоделается сравнениемдлительностиимпульсов сконстантами,определяющи­ми,в какой из диапазоновдлительностейпопало данноечисло.

Что дает такаятаблица признаков?Рассмотримданные табл.2.1 болеевнимательно.В ней даются22 строки. Этоозначает, чтодлительностьслова «семь»440 мс, так каккаждая строкатаблицы характеризуетотрезок сигналадлительностьюв 20 мс. Столбцытаблицы показывают,как изменяютсяпризнаки напротяжениислова. Словоначинаетсяс фонемы, характеризующейсявысокой мгновеннойчастотой:4—5 кГц. Далееследует участок,на которомсамая высокаягромкость имгновеннаячастота снижаетсядо 600— 700 Гц.Затем следуетконечный участокслова, на котороми ин­тенсивностьпадает, и усредненнаямгновеннаячастота снижаетсядо 200—250 Гц. Этосоответствуетпоследовательностизвуков с—э—м.Особенно следуетсказать о признакахNi—A^g.Для щелевогос дли­тельностиположительныхимпульсовфактическилежат в пределахДо 200 мкс. Дляударного гласногоэ эти длительностилежат в диапазоне300—800 мкс, а дляносового мвпределах1000 мкс и более.

79

Рассматриваютцифровой анализсигналов вовременной испектральнойобластях. Впервом случаепризнаки болеекомпакт­ногопредставленияречи получаютсянепосредственноиз оцифро­ванногоречевого сигнала,так, как в рассматриваемомпримере. Вовтором —параметрыизвлекаютсяна основаниианализа динамическойспектрогрммы,которая характеризуетизменяющийсяво времениспектр звуковречи. Спектральныйанализ (получениединамическойспектрограммы)на ЭВМ осуществляютс помощью алгоритмадис­кретногопреобразованияФурье, которыйкратко будетрассмотрендалее,

Отметим, чток методам анализаречевых сигналовво времен­нойобласти относитсяавтокорреляционныйанализ. Этометод об­работкисигналов, основанныйна временннойзадержке начальногосигнала с последующимумножениемзадержанногосигнала наис­ходный.Автокорреляционнаяфункция —это функциявремени, по­казывающая,как зависятпоследующиезначения речевогосигнала отпредыдущих:чем больше еезначение, тембольшая зависимостьопределенияпоследующегоотсчета сигналаот предыдущего,т. е. последующиеотсчеты болеекоррелированыс предыдущими.На звонкихучастках речиавтокорреляционнаяфункция квазипериодич­на,на глухих, гдеречевой сигналпредставляетсобой фрикативныйквазислучайныйшум, автокорреляционнаяфункция непернодична,случайна. Наэтом основановыделение поавтокорреляционнойфункции участков,соответствующихглухим и звонкимзвукам речи,а также определениепериода основноготона. На рис.1.14, г представленаавтокорреляционнаяфункция длязвонкого участкаречевого сигнала.С помощьюавтокорреляционнойфункции можноопределитьнекоторыеважные свойстваречевого сигнала,в част­ности,узнать, являетсяли даяный сигналпериодическим,т. е. при­сутствуетли в нем основнойтон. Автокорреляционнаяфункция длядискретнойпоследовательностих(п) вычисляетсяпо формуле

R(s)=-Zx(n)x(n—s),s=0, I, 2, ..., N,n=s

где х(п)отсчетречевого сигналав п-й моментвремени; п=0,1, 2, ..., N;N+lколичествоотсчетов винтервалеанализа;.V-4-1— количествоотсчетовавтокорреляционнойфункции.

80

Автокорреляционнаяфункция являетсячетной функцией,т. е. R(s)==R(—s),и максимальногозначения достигаетпри s=0. Ве­личинаR(o) равнаполной энергииречевого сигналана интервалеанализа, чтовесьма важнодля определенияэнергии сигнала,если известнозначениеавтокорреляционнойфункцииR(o).

Вычислениеотсчетовавтокорреляционнойфункции можнопро­изводитьв процессеввода речи саналого-цифровогопреобразовате­ля,уточняя с каждымвновь принятымотсчетом сигналазначение отсчетовавтокорреляциипо рекуррентнойформуле

R»o»(s)=Rc-r!4?(s)+x(n)x(n—s),s==0, I, 2, ...,N.

В начале интервалаанализа принимаемR(s)=0, s=0,I, 2,..., ..., N,а предыдущиеотсчеты сигнала— равныминулю. Отметим,что в аналоговуюаппаратурувыделенияинформативныхпризнаков,описаннуюранее, можетбыть включенканал, дающийвозможностьполучить значенияавтокорреляционнойфункции наинтервалеана­лиза— коррелометр.

2.3.КРАТКИЕ СВЕДЕНИЯО СПЕКТРАЛЬНОМАНАЛИЗЕ РЕЧИ

Ранее упоминалосьо том, что речевойсигнал можнорас­сматриватькак реакциюсистемы с медленноменяющимисяпара­метрамиречеобразующеготракта напериодическоеили шумовоевозбуждающееколебание.Многообразиезвуков речиопределяетсямногообразиемформ голосовоготракта. Припостроениимодели ре­чевогосигнала, напримерв говорящихмашинах —синтезаторахре­чи, принимают,что на относительнокоротких временныхинтерва­лах(10—20 мс) формыголосовоготракта припроизнесениизву­ков речисущественноизменятьсяне могут. Натаких короткихинтервалахподобные формытракта считаютпостоянными.А это означает,что электрическийфильтр с резонанснымисвойствами,от­ражающимисвойства голосовоготракта, тожеможно рассматри­ватьна короткихвременныхинтервалахкак системус постоянны­мипараметрами.Это позволяетмоделироватьсложный процессре-чеобразованияэлектрическойцепью или программнона ЭВМ.

6Заказ№901


81



Модель речевогосигнала длязвонкого звукапредставленана рис. 2.4.Импульсы возбуждения,т. с. электрическиесигналы, экви­валентнытолчкам воздухана выходе голосовыхсвязок (рис.2.4, а); ^:o=2л/Гo—частотаимпульсоввозбуждения,или частотаоснов­ноготона. В спектральнойобласти энергиятаких импульсовпред­ставляетсягребенчатымспектром (рис.2.4,6). Это означает,что квазипериодическийсигнал, соответствующийимпульсамвозбужде­ния,имеет частотныесоставляющиелишь на гармониках,кратных частотеосновного тонана частотахFo, 2Fo,3F„ и т. д. (точнее,в областяхвблизи этихгармоник).

Для аналоговыхэлектрическихсигналов выходноенапряжениеопределяетсяоперациейсвертки функциивозбужденияи отклика (реакции)фильтра наединичныйскачок напряженияна его входе.Иногда сверткудля аналоговыхсигналов называютинтеграломДюамеля. Операциюсвертки дляаналоговыхсигналов мырассмат­риватьздесь не будемиз-за се относительнойсложности.Попыта­емсякратко описать,что такое операциясвертки дляслучая дис­кретныхсигналов.

Из теории фильтрацииследует, чтоесли возбуждающийсиг­нал, поступающийна фильтр,представлятьпоследовательностьюего

82

отсчетов, тосигнал на выходефильтра, которыймоделируетголо­совойтракт, можнопредставитьоперациейдискретнойсвертки, ко­тораяучитываетреакцию фильтрана входные(возбуждающие)сигналы. Дискретныйсигнал на выходефильтра вычисляетсяпо сигналу навходе Е(п) иотклику (реакции)h(n) фильтрана еди­ничныйимпульс6(ri), равныйединице в дискретныемоменты вре­менип и нулю внеэтих дискретныхмоментов. Дискретнаясвертка вычисляется

S(n)=^ E(k)h(n—k)=E(n)* h(n),

k=—oa

где символ* означаетсвертку. Вычислениеэтой громоздкойсуммы произведенийупрощается,если учесть,что большаячасть этихпроизведенийравна нулюиз-за конечнойдлительностивозбужда­ющегосигнала Е(п).

Итак, еслиS(n)—речевойсигнал на входефильтра, моде­лирующегоголосовойтракт, то значениекаждого отсчетасигнала можнопредставитьсверткойS(n)=E(n)s h(n).

Переход к анализусигналов вспектральнойобласти позво­ляетдостаточнопросто получитьспектр выходногоречевого сиг­нала,если известенспектр возбуждающегосигнала ипередаточнаяфункция фильтра,моделирующегоголосовойтракт. Спектрвыход­ногосигнала (звонкогозвука речи), т.е. совокупностьзначений амплитудвсех частотныхсоставляющих,образующихданный звук(рис. 2.4,6), можнополучить, перемножив(а не произведяслож­ную операциюсвертки) спектральныесоставляющиегребенчатогоспектра сигналавозбуждения,которые берутсяв точках, кратныхчастоте основноготона, на значенияпередаточнойфункции голосо­воготракта. На этомрисунке видныподъемы спектрана формант-ныхчастотахf[, /•2,Fs, Ft-

Разработаныматематическиеметоды (аппаратпрямого и об­ратногопреобразованияФурье), позволяющиеосуществлятьпереход кпредставлениюсигнала вспектральнойобласти, еслиизвестна вре­меннаякартина речевойволны. И наоборот,если известноспек­тральноепредставлениеречевого сигналана последовательныхот­резках речевойволны, то можнополучить временнуюкартину речи,

б*83

т. е. увидетьее осциллограммуи услышатьзвучаниесинтезирован­нойречи, когдаизвестны толькоамплитуды еечастотныхсоставля­ющих.

Спектральноепредставлениеоцифрованногоречевого сигналаосновываетсяна кратковременномдискретномпреобразованииФу- i рье,учитывающемобстоятельство,о котором мыуже упоминали:

на относительнокоротких временныхинтервалах(10—20 мс) свой­стваголосовоготракта, а значит,и передаточнаяфункция тракта,определяющаяспектральныесвойства речевогосигнала, существен­ноне изменяются.Хотя формуладискретногопреобразованияФу­рье строготеоретическипредставляетбесконечноесуммированиепроизведенийдискретныхотсчетов сигналаи синусоид,частоты ко­торыхизменяютсядискретно отнекоей начальнойсинусоиды добесконечности,реальное(кратковременное)преобразованиеФурье используетдополнительныйсомножитель.Он называетсявесовым окном,или весовойфункцией, котораяимеет ненулевыезначения лишьна окне (участкесигнала длительностью10—20 мс), где мыпринимаемпостоянными,независимымиот временичастотныесо­ставляющиезвука.

Формула кратковременногопреобразованияФурье, которымпользуютсяпри расчетахдискретныхспектров звуковречи, имеет вид

КратковременноепреобразованиеФурье позволяетпредставлятьречь динамическойспектрограммой,или временнойпоследователь­ностьюспектральныхсрезов, кратковременныхспектров, каждый

84

из которыхполучен дляокна, короткогоотрезка речевогосигнала, накотором, какмы считаем, неизменяютсяспектральныесвойства.Динамическаяспектрограмма(картина «видимойречи», если еевы­водят напечать в видерисунка) представляетхарактеристикиречи в координатах«время —частота —амплитуда».Алгоритм дискрет­ногопреобразованияФурье позволяетизобразитьспектр значения­миамплитуд частотныхсоставляющихна равностоящихчастогах. Поспектральномуописанию(кратковременномуспектру) можноопределить— и довольнонесложнымиматематическимиметодами— основныепараметрыречеобразующеготракта: частотуосновного тона,формантныехарактеристики,энергии в полосахчастот.

В настоящеевремя разработаныалгоритмыбыстрого вычисле­ниязначений спектральныхсоставляющихпо дискретнымотсчетам сигнала.Такие алгоритмыназываютсяалгоритмамибыстрогопреоб­разованияФурье. В их основележит разбиениепоследовательно­стиЛ" отсчетовречевого сигналана составныечасти (Nберется всегдасоставнымчислом), длякоторых вычисленияосуществляют­сязначительнобыстрее. ОбычноN беретсякак 2й, т. е. берутсяЛ', равные128, 256 или 512 (27,28 или 29) взависимостиот частотыквантованиясигнала идлительностиокна анализа.Отметим, чторазработанытакже ускоренныеметоды длявычисленияоперации свертки.

2.4. НЕМНОГОО ЛИНЕЙНОМПРЕДСКАЗАНИИ

В последниегоды приобрелширокое распространениеметод анализаречевых сигналовво временнойобласти, которыйполучил названиелинейногопредсказанияили линейногопрогноза. Враз­витие этогометода анализаречи большойвклад внеслисоветскиеученые А. А.Харкевич, Н. Н.Акинфиев, А. Н.Собакин и др.

Линейноепредсказание—этометод анализа,основанныйна цифровойфильтрацииоцифрованнойречи, при которойтекущий отсчетсигнала можетбыть «предсказан»(например, приавтомати­ческомсинтезе речи)линейной комбинациейпрошлых значенийвы­ходнойпоследовательностии настоящих,а также прошлыхзначе-

85

ний входнойпоследовательности.Понятие «линейнаякомбинация»означает суммупроизведенийизвестныхдискретныхотсчетов сиг­нала(входных и выходных),умноженныхна соответствующиекоэффициентылинейногопредсказаниядля предсказания(опреде­ления)неизвестноговыходногоотсчета. Прилинейном предсказанииосновная задачаанализа речи— найти коэффициентыэтой линейнойкомбинации,которые даютминимальнуюошибку предсказанияна участкеанализа сигнала.

Модель сигнала,наиболее частоиспользуемаяпри линейномпредсказании,сводится кполучениюнеизвестногоотсчета х(п)без учета предыдущихвходных воздействийна выходе некоторойсис­темы

р

х(п)=^ dnx(n—k)+Gu(n), k=i

где рчисло коэффициентов,используемыхв модели; йк— коэф­фициентылинейногопредсказания;Gкоэффициентусиления,оп­ределяющийвклад в линейнуюкомбинациювходного отсчета;

и(п) текущийвходной отсчет.

Задача анализаоцифрованнойречи сводитсяк определениюкоэффициентовОк и G этоймодели. Методопределениявеличин, используемыхпри расчетах,называетсяметодом наименьшихквад­ратов.Чтобы понятьего суть, пойдемна некоторыеупрощения впредставлениитекущего выходногоотсчета. Будемсчитать, чтовходное воздействиена вход системы,моделирующейформированиеречевых сигналов,ненаблюдаемо,что справедливодля ряда при­кладныхзадач. Тогдана интервалеанализа текущиеотсчеты рече­вогосигнала приближенноопишутся линейнойкомбинациейпреды­дущихзначений:

Коэффициентылинейногопредсказанияа„ вычисляютсяиз ус­ловияминимумасреднеквадратичногозначения ошибкина интер­валеанализа. Наэтом интервалеполная среднеквадратичнаяошиб­ка складываетсядля каждогоотсчета сигнала,представленноголи­нейнойкомбинациейр предыдущихзначений сигнала

Здесь п номер предыдущегоотсчета сигналана анализируемоминтервале;k — номерпредыдущегоотсчета сигналапри построе­ниилинейной комбинации,представляющейтекущий отсчет.

Коэффициентылинейногопредсказания,минимизирующиепол­ную ошибкупредсказанияЕ, находятсяпосле того,как выраже­ниедля полнойошибки продифференцироватьпо всем коэффициен­тамОн (полная ошибкапредсказанияможет рассматриватьсякак функцияпараметровак) и приравнятьнулю все частныепроиз­водные:

дЕ/дс>к=0'Л

Частнымипроизводныминазываютсяпроизводныесложной функ­циипо одной изпеременныхс учетом того,что остальныепере­менныепри такомдифференцированиисчитаютсяконстантами.

Результатомдифференцированияпо а,, являетсясистема излинейных уравненийс неизвестнымикоэффициентамилинейногопредсказания,минимизирующимиошибку линейногопредсказанияна отрезкеанализа сигнала,где коэффициентыйк считаютсяпосто­янными.Решение этойсистемы линейныхуравнений, атакже дру­гиевопросы, связанныес линейнымпредсказаниемречи, подробнорассмотреныМаркелом иГрэем в книге«Линейноепредсказаниеречи».

87

2.5. АНАЛИЗКЛИППИРОВАННОЙРЕЧИ

Клиппированнымречевым сигналомназывают предельноограниченный«стриженый»сигнал, сохраняющийлишь два воз­можныхзначения, которыеусловно принимаютсяза +1 и —1

(рис. 2.5).

В различныхработах отмечается,что, несмотряна недостаточ­нуюестественностьзвучанияклиппированнойречи, ее разборчивостьоказываетсядостаточновысокой, причемразборчивостьречи повы­шается,если до клиппированияречевой сигналподвергнутьдиффе­ренцированию.Это явлениеозначает, чтоинформацияо распреде­ленииинтерваловмежду нулевымипересечениямисигнала можетбыть использованадля построенияустройствавтоматическогорас­познаванияи синтеза речи.Привлекательностьавтоматическогоанализа клиппированнойречи и использованияее параметровдля целей построенияговорящих ипонимающихречь машинлежит в простотеполучения этихпараметров.

Если речевойсигнал представлендискретнойпоследовательно­стьюего отсчетов-J х(п)}, то фиксированиемомента переходасигнала черезнуль происходит,когда знакидвух соседнихдискрет­ныхотсчетов речевогосигнала различны,т. е.

sign[x(n)]-^s&bsol;gn[x(n—l)'&bsol;.

Информацияоб общем числепереходовсигнала наопределен­номинтервале иразличныхдиапазонахдлительностейучастков междунулями частоиспользуетсядля грубойоценки частотногосостава сигнала.Существуеттесная связьмежду числомнулевых пересеченийи распределениемэнергии почастотам. Общеечисло переходовсигнала черезнуль, величинуЛ'о, вычисляемуюдля дис­кретнойпоследовательностиА" отсчетов,можно представитьв виде

Существуютсистемы автоматическогораспознаванияречи, в которых,как об этомговорилосьранее, нулевыепересеченияис­пользуютсядля приближенногоопределенияформантныхчастот. На рис.2.6 показано,как оцениваютсяформантныечастоты с по­мощьюсхемы анализанулевых пересеченийпосле прохождениясигнала черезполосовыефильтры, которыеперекрываютдиапазонычастот, соответствующиеформантнымобластям (перваяформанта Fiлежит в диапазоне200—900 Гц, вторая—550—2700Гц и тре­тья—1100—2950Гц).

Иногда прираспознаванииречевых сигналовиспользуюттак называемуюгребенку временнойселекции, котораяпозволяетоце­нить ширинуимпульсовклиппированногосигнала и темсамым про­вестиболее точныйанализ во временнойобласти, чтопозволяетотносительнопростыми средствамиотличать одниклассы звуковот Других. Так,для фрикативныхсогласныхселекторыимпульсов поДлительностидают возможностьотделить диффузные(звуки с ши-

89

Рис. 2,7. Блок-схемавременнойселекции интерваловмежду нулями

роким спектромтипа ф) откомпактных(спектр которыхсосредо­точенв относительноузкой области—с,ш).

Блок-схемаселекции импульсовклиппированногоречевого сиг­налапо длительностипоказана нарис. 2.7.

Обычно с учетомособенностейклиппированныхсогласных игласных выбираютпороги временнойселекции, равные50, 100, 200, 400, 600 и 800 мкс(первый селекторотбирает узкиеимпульсы,длительностькоторых меньше50 мкс). Поступающиедля дальней­шегоанализа числа(со счетчиковимпульсов)позволяютполучатьраспределениеинтерваловмежду нулямив диапазонахдлительнос­теймежду пороговымизначениямиселекторов— узлов, пропуска­ющихна счетчикиимпульсы,превосходящие(или не превосходя­щие)по длительностизаданный порог.

Следует отметить,что энергияи переходысигнала черезнуль частосовместноиспользуютсядля разработкиалгоритмоввыделе­ниямоментов началаи конца речевойреализации(изолированногослова фразы).Такой алгоритмприменен, например,в отечествен­нойпромышленнойсистеме распознавания изолированныхслов ИКАР.

90

Подобные алгоритмыосновываютсяна тщательномисследова­ниистатистическихпараметровфункций среднегозначения сигналая числа нулевыхпересеченийдля шумов различнойприроды и различныхзвуков фрази изолированныхслов.

2.6.ГОМОМОРФНАЯОБРАБОТКАСИГНАЛОВ

Как было показаноранее, речевойсигнал на короткихин­тервалахможно рассматриватькак откликсистемы с медленноменяющимисяпараметрамина периодическоеили шумовоевоз­буждение.Это означает,что во временнойобласти дискретныйсиг­нал у(п)представляетсярезультатомсвертки функциивозбужде­ниях(п) с импульснойреакцией голосовоготракта h(n).Гомо­морфнаяобработка речисводится крешению обратнойзадачи — имеяречевой сигналу(п) =х(я)* h(n),можно получитьпарамет­рысигналов, участвующихв свертке. Этазадача называетсяиногда задачейобратной сверткиили развертки.

Смысл гомоморфнойсистемы анализастановитсяболее понят­ным,если учесть,что в частотнойобласти речевойсигнал пред­ставляетсяпроизведениемспектра сигналавозбужденияи переда­точнойфункции частотнойхарактеристикиголосовоготракта, учи­тывающегоспектральныесвойства излучателя (произведениемP(f)=E(f) F(f), см. рис. 1.3). Это означает,что в спектререче­вого сигналасодержитсяинформацияо спектре сигналавозбужде­нияи передаточнойфункции голосовоготракта. Гомоморфнаяоб­работкасигнала —это способизвлечь информациюоб основномтоне и формантныхчастотах наоснованиипреобразованийсигнала, которыебудут описаныдалее.

Если произвестикратковременноедискретноепреобразованиеФурье (т. е. получитьдинамическийспектр речевогосигнала), а затемпрологарифмироватьспектральныесоставляющиединамиче­скогоспектра, токаждый спектральныйотсчет можнорассматри­ватькак сумму логарифмовспектра сигналавозбужденияи час­тотнойхарактеристикиречевого тракта(по свойствулогарифмиче­скойфункции логарифмпроизведенияравен суммелогарифмовсо-

91

преобразо­ваниеФурье

множителей).Обратное дискретноепреобразованиеФурье пролога­рифмированногоспектра позволяетвновь перейтик анализу сигна­лаво временнойобласти. Сигнал,полученныйв результатеобрат­ногодискретногопреобразованияФурье прологарифмированногоспектра, называетсякепстром входногосигнала, равногосумме кеп-стровсигналов возбужденияи составляющих,обусловленныхосо­бенностямиречеобразующеготракта. В результатеподобныхпреоб­разованийдискретныйречевой сигнал,представляющийсобой сверткусигнала возбужденияи импульсногоотклика фильтра,мо­делирующегоголосовойтракт, приближеннопреобразуетсяв сло­жениекепстров (рис.2.8).

Логарифмкратковременногоспектра вокализованныхзвуков содержитмедленно меняющуюсясоставляющую,обусловленнуюпередаточнымисвойствамиголосовоготракта, и быстроменяющую­сяпериодическуюсоставляющую,которая вызываетсяпериодиче­скимсигналом возбуждения(рис. 2.9, а). Дляневокализованнойречи прологарифмированныйспектр носитхарактер, показанныйна рис. 2.9. б.Спектр содержитслучайнуюсоставляющуюс быстрымиизменениями.

Кепстры отрезковвокализованнойи невокализованнойречи (рис.2.10) показывают,что медленноменяющаясячасть пролога­рифмированныхзначенийкратковременногоспектра представленасоставляющимикепстра в областималых времен.Быстро меняю­щаясяпериодическаясоставляющаяпрологарифмированногоспек­

92

р,.

тра, соответствующаячастоте основноготона, в кепстревокализо­ваннойречи проявляетсяв виде резкогопика, расположенногоот начала координатна расстоянии,равном периодуосновного тона.Кепстр невокализованнойречи (рис.2.10, б) таких пиковне имеет.

Если кепстрперемножитьна подходящуюфункцию окна,на­пример напрямоугольноеокно, пропускающеетолько начальныеучастки кепстра(которые соответствуютобласти малыхвремен и отражаютотносительномедленно меняющиесяпараметрыголосо­воготракта), а затемвычислитьдискретноепреобразованиеФурье результирующеговзвешанногокепстра, тополучим сглаженныйспектр сигнала(см. рис. 2.8). Онотражает резонансныесвойства тракта,позволяя оцениватьчастоты и полосыформант. Наличиеили отсутствиеярко выраженногопика в области,соответствующейдиапазонуизмененийпериода основноготона, указываетна харак­тервозбуждения,а местоположениепика являетсяхорошим инди­каторомпериода основноготона (рис.2.10,0^).

РЗ


nOCIPOFHHEСИСТЕМ ДИСКРЕТНОГОРАСПОЗНАВАНИЯРЕЧИ, РАБОТАЮЩИХБЕЗ ПОДСТРОЙКИПОД ДИКТОРА

§ 2.1. Общиепроблемыавтоматическойподстройкинеадаптивныхсистем распознаванияречи

Ьеадаптивныесистемы дискретногораспознаванияречи, рас­сматриваемыев настоящейглаве, позволяютпроизвольномудиктору-ногитедюнормы произношенияданного языкапроизводитьавтоматичес­кийречевой вводизолированнымисловами иликороткими спиво-сочетанияуи.Такие системыявляются, какправило, аппаратурно-црог равным ии основываютсяна выделениинекоторых устойчивыхфонетическихпризнаков,проявляццихсяу множествадикторов-носи­телейнормы данногоязыка для различныхклассов звуков,ина даль­нейшемиспользованииэтих признаков(представленных гистограм­мамиих распределения)для декодированиявысказывания. Однако фактическии в этих системахосуществляетсянекая подстройкапод множестводикторов (обучение)во время сбора статистики,построениягистограммпараметровдля различныхзвуков и привы­боре решающихправил. Поэтому,строго говоря,такие системы не следовалобы называтьнеадаптивными,т.е. термином,достаточношироко распространеннымв настоящеевремя. Крометого,автомати­ческоеразбиение всегомножествадикторов-пользователейна груп­пы(кластеры) иформированиеобобщенныхэталонов словдяя каж­дойгруппы самопо себе естьобучение надиктора, адаптацияуниверсальнойсистемы к этомумножествупользователей,чтотакже заставляетбыть осторожнымв примененииТермина-"неада^тивные",Если же говоритьоб использованииэтого терминав смысле отсут­ствияадаптации кновому словарюи языку системы,го, действи­тельно,все известныеневдаптивныесистемы [10,16,25, 166, 167] практическине обеспечивававтоматическоеизменение этих ос­новныххарактеристик.Попытка универсальнойсегментациислов, яв-хякхцейсяосновой подстройкииод словарь,рассмотренав [133 • Задачанастоящей главы- исследоватьболее широкиеаспекты проб­лемыперестройкик новым условиямне адаптивныхсистем, ориенти­рованныхна работу спроизвольнымдиктором. Подадаптациейбу­дем здесьпонимать расширение,развитие неадаптивнойсистемы ав­томатическогораспознаванияфраз, составленныхмэ изолирований

74

йдов, эа счетнекоторогоизменения языкаэтой системыи его сло­варногосостава. Какправило, в конкретныхзадачах речевогоуп­равлениявозникаютПроблемы, связанныес обогащениемязыка, до­бавлениемновых слов ипонятий. В отдельныхслучаях требуетсямедиком заменитьсловарныйсостав языка,приспособитьсистемы ксовершенноновой задаче.При этом желательносохранить основные структурные(синтаксические)свойства языка,связи междулингви­стическимиуровнями, соотношениямежду понятиямивнутри уровня,т.е. придатьсвойствам языкауниверсальныйхарактер,формализоватьязык речевогозапроса такимобразом, чтобыон напоминалязык опи-оанйя баз данных- сетевой,иерархическойили реляционной.

Основнымилингвистическимивопросами,возникгшцимипри этом, явжявтся:

1) как оценитьсложность языкаречевого общенияи попытаться,используясинонимию,свести трудностираспознаваниясдов, вызван­ныефонетическиминеопределенностями,до минимума;

2) каким образомограничитьгибкостьпроблемно-ориентнрова!:-иогоязыка, не слыпкомсдерживаяжелания и возможностичеловека общатьсяс информационнойсистемойестественнымифразами; какиезадачи позволяютнам практическииспользоватьотносительнопрос­той синтаксисязыка;

3) как автоматическирасширятьсловарный запасязыка;

4) как приэтом корректироватьязык, на базекоторого соз­дананеадаптивнаясистема автоматическогораспознавания.

(Вопросы о расширениикруга пользователей,включая пользо­вателей,говорящих сакцентом идидефектом речи,а также проб­лемыпоиска новыхинформативныхпризнаков,использованиятелефон­ногоканала опускаем,относя их ктехническимвопросам,которые• работене рассматривается.)

Некоторые изперечисленныхлингвистическихпроблем возни­каюти для адаптивныхсистем, работающихс подстройкойпод дик-Юра исловарь. 3известныхработах поаравтическомуиспользо­ваниюадаптивныхсистем [134,140]нет сведенийоб адаптацииси­стем к новомуизменяемомуязыку речевогообщения (еслине счи­татьзамену словаряв системах типа vir-юо подстройкойпод язык).

йервой мз проблемпосвящен§ 2.2, где выборсловаря обус-яовленточностьюраспознаванияслоя и связаннойс ней вероят­ностнойоценкой неопределенностираспознаванияПри заданнойсово­купностифонетическиепризнаков.Оценка граю-атнческойсложностияэыка, используемого в неадаптивныхсистемахраспознаванияре-11^^(языка, древовиднойструктуры безсложных внутреннихсвязей)

76

(си.§ 2.3), позволяетподойти к решениювышеуказанной проб­лемы2). Задаче автоматическогорасширениясловарногосостава пос­вященачетвертаяглава, тесносвязанная с пятой главой,где опи­саныэксперименты по построениюсистемы распознавания понятий­ныхфраз конкретногоязыка описанияданных информационнойсистемы, длякоторого строиласьмодель. Кратко о проблеме3 говорится в п. 2.3.3 , в которомрассматриваетсяавтоматическаяподстройка"под язык",изменяющийся с изменениемсловарногосостава.

Рассматривающиесядалее вопросы,нанаш взгляд,имеют весьма важноезначение как идеологическаяоснова будущихсистем авто­матическогоречевого запросаинформации,ориент грованныхна произ­вольногопользователя.Если первыепрактическиенеадаптивныесис­темы распознаванияречи (СРР) могут и отличатьсяот аппаратурно-программных,аналогичныхнашей (скажем,основыватьсяна мультимик-ропроцессорныхсистемах, в которые речевойсигнал поступает с АЦП), то общие лингвистическиепроблемы, указанныездесь, неиз­меннобудут возникать при любой структуресистемы и любом под­ходе к первичномуописанию сигнала.Не следуетзабывать, чтонеадаптивныесистемы автоматическогораспознаванияявляются основ­нымисистемамибудущего- при общении-,с роботами иинформацион­нымисистемамиобщего назначения.Вопросы, рассматриваемыедалее, будутотноситься к неадаптивнымсистемам,ориентированным на пословный ввод речевойинформации, а также на ввод информациикороткими словосочетаниями,которые можнорассматриватькак одно слово.Это связано с тем, что лишь на изолированныхсловах и короткихсловосочетанияхпараметрызвуков (выцеляемыеалпаратурно)являются относительноустойчивыми(обладают малойдисперсией), и можно говорить о возможномиспользованиихарактеристик,опреде­ляемыхгистограммамипараметров,для автоматическогораспознава­ния.

Прираспознаванииизолированныхслов представляетсяцелесооб­разнымразработатьалгоритм, которыйобеспечивалбы устойчивоесег­ментированиепоступающих на вход реализациислов на участки,соответствующиеразличи™ способамобразованиязвуков, т.е. нато­нальныеотрезки речи,шумные и участки,соответствующие гиухии смычковым(коротким паузамвнутри слова).Звонкие фрикативныезву­ки можнобыло бы отнестик шумным. Существуютразличные методы такойклассификации в зависимостиот первичногоописания рече­выхсигналов. Для аппаратурно-программногометода достаточновы­сокую точностьклассификацииотрезков речина участки "тон- иум ' Пауза" для произвольногодиктора даютбинарные признакиспособа образованиязвуков, выделяемыеаппаратурно [97] .

76

Динамика участков"тон - шум- пауза" являетсяхорошим приз­накомраспознаванияслов для небольшихспециально подобранных„доварей. Непредставляеттруда перейтик небольшому новому словарю,используя лишьпризнакиклассификацииотрезков речи на вти трчкласса и динамикутипов участковв слове. Вакноправиль­новыбрать фонетическуюструктуру словэтого словаря.В зависгзло-стИот возможностейнадежнойклассификацииотрезков речина эта­пе анализасигнадоч (первичнаясегментацияи маркировка) mosko использоватьбольшее числоклассов сегментов(классов фонетическойструктурыслова), динамикакоторых позволитнадекно классифициро­ватьбольшее числослов словаря.(В наших работахна начальнойуровне анализаречи использовалоськак семь типовсегментов (ей.Я, 2.2.2), таки три типа- тональный-шумный-сауза(см. § 5.5).)

В связи с этимЖ.Дрейфу о-Графдля распознаваниясловар­ногосостава разработалспециализированныйязык речевогообщения sotina, состоящийиз бессмысленныхслов, которымусловно при­даетсянекое смысловоезначение, ивключал лишь"контрастные"в Пространствеиспользуемыхпризнаковзвуки, поэтомулегко различае­мыеавтоматически[127] . Словарныйсостав языкаsotina включалбессмысленныеслова, на базекоторых предлагалосьсоздать ис­кусственныйязык для речевогообщения человекаи 5ВУ.

§ 2.2. Оценкасложностираспознаваниясловаря речевогообщения

2.2.1.Связьточностираспознаванияс особенностямифонетикислов.СравниватькачествораспознаваниясуществующихСРР и СПР толь­копо точностираспознаванияили объемусловаря недостаточно по несколькимпричинам.Во-первых,разныезадачи, естественно, тре­буют различныхязыков общения,словарныйсостав которыхвключает слова,имеющие различныеакустические(фонетические)характеристи­ки.Источникиинформациио таких высшихуровнях знанийязыка, как синтаксис,семантика,прагматика,накладываютразличныеограниче­нияна возможныеальтернативы,поэтому задачараспознаванияупро­щаетсядля различныхязыков по-разному;даже для словаряс высо­койстепенью фонетическойнеопределенностиможно получить (за счетсемантико-синтаксическихограничений)высокую точностьиитер-Чрета11иивысказывания.Во-вторых, СРРиспользуютразнообразныеме­тоды первичнойобработки ипредставленияречевых сигналовна ниж-нихуровнях. С этимсвязана различнаяточность фонетическойклас­сификации, являющейсяосновой распознавания.Рассмотрим,как раз-

77

лишаютсяречевые сигналы на разных уровняхзнания и как они используются при распознаваниислов. Известно,что наибольшиеоаибхи даютслова и фразыс близкойфонетической структурой,входящие в общий словарьраспознавания.При этих условиях за­дача распознавания как изолированныхслов, так и слитной речи усложняется, но синтаксиси другие высшиеисточникизнаний о языкенакладываютограничения,которые сокращаютнеопределенности,тем самкл повкааяточностьраспознаванияслов.

Привыборе словаряСРР важно, как уже отмечалось,знать не толькоразмер словаря, но и степеньразличимостислов. Для част­ныхприменений и малых словарейнеобходимопредварительно про­вести отбор и разумнуюзамену слов,если позволяетзадача, с цельюувеличенияразличимостислов словаря.Поэтому целесообразноисследовать неопределенности,ограниченияи сложности,встречае­мые при использованииразличныхязыков практическихСРР.

Дзятого, чтобыпоказать влияниефонетическойструктуры словсловаря на сложностьраспознавания,рассмотрим,в качествепри­мера. трисловаря: I)"А", "Б", "В";2) "ОДИН", "ДВА","ТРИ"; 3) "А", "П", "Г".

Сравниваясловари I и 2, нетруднозаметить, какойсловарь легчераспознавать.В данном случаеинтуитивноможно утверждать,что словарь2)легче распознавать из-за болеесложной фонетичес­койструктуры слов, так какможно привлечьбольше дополнительнойинформации о последовательностизвуков, составляющихслова.Срав­ниваясловари I)и 3)по сложностираспознавания,трудно датьод­нозначныйответ, какойсловарь легчераспознаватьобъективнымиме-тздами. Точностьавтоматическойклассификациислов словарями"А", "Б", "В" и "А", "П", "Г" сильно зависитот объективнореги­стрируемойстепени акустическогосходства элементовкалиюто сло­варя,относящихся к различнымклассам, т.е.от методов первич­нойобработки ипредставленияречевых сигналов,соответствующихэтим словам,от пороговсрабатыванияустройств,преобразующихана­логовыйсигнал в цифровой,и правил принятиярешения.

Существующиесистемы распознаванияизолированныхслов пока­зывают, что количествослов словаря(при одинаковой точностираспознавания) не может быть,вообще говоря,мерой качествасис­темы распознавания.В [139] исследуютсядва словаря:алфавитно-цифровой,содержащий26 букв и 10цифр, и словарьгеографическихназваний, состоящий из 250 слов.В результатебыла полученаточностьраспознаванияпервого словаря88,6% и второго 97,356. Хотя объемвторого словаряпочти на порядокбольше, точностьрас­познаванияслов, входящих в этот словарь,выше. Можнопредполо­

жить, что это объясняетсяболее сложнойфонетической струк­туройслов второгословаря, котораяи обеспечиваетменьшие труд­ности при автоматическомраспознавании.

В системах,работающихбез подстройкипод диктора,наиболеегруднокдассифицируемымизвуками русскойречи являются,как пока­зано в С4, 26, 62, 97] , носовыеи боковые сонорныесогласниэ,звонкие взрывные и безударныегласные. Крометого, следует от­метить, что в опоеделенномфонетическимокружении даже звуки, относительнохорошо классифицируемые, в другом фонетическомконтексте могут вызватьопределенныетрудности приавтоматичес­комраспознаваниииз-за аллофонныхизменений,связанных с коар-уикуляцией. Все это следуетучитывать приоценке сложностирас­познаваниясловаря в"неадаптивных"системахавтоматическогорас­познаванияречи. Отметим, что на точностьраспознавания речи влияюттакже синтаксическиеограничения,так как синтаксис язы­ка определяетграмматическиеизменениясловоформ ипорядок сле­дованияслов.

Далеерассмотримнекоторыеподходы, позволяющие,по нашему мнению,осуществлятьотносительноесравнениесложностираспозна­ваниясловарей, ивведем определения,связанные соценкой ка­честваавтоматическогораспознаванияслов проблемно-ориентирован­ногоязыка.

2.2.2.Информационныйкритерий оценкифонетическойнеопреде­ленности. При распознаванииустной речинеобходимостремиться к тому, чтобы все фонемыклассифицировалисьправильно,поэтому насинтересуетраспознаваниеполной последовательности фонетическихединиц, составляющихвысказывание. При этом основнымисточникомнеопределенности при распознаванииречи являетсясам акустичес­кийсигнал. Ещебольшую неопределенностьпредставляетпараметри­ческое описание речевойволны. Рассмотримнеопределенности аку­стическогосигнала и приведеммеру оценкифонетическойнеопре­деленности.Используя эти мерь, можнооценить лексическуюи фра­зеологическуюнеопределенности.Слитная речьрасчленяетсяна пос­ледовательностьсегментов по признакамспособа образованиязву­ков. К этимпризнакамдобавляютсяпризнаки местаобразования,ко­торыеизменяютсянепрерывно как внутрисегментов, таки через их Границы С 91,97]. С некоторымидискретнымиединицами-звукамире­чи - фонемамиили квааифонемамисегменты связанытаким образом,чтосмысловыеединицы речи(слова) представляютсяцепочкой фонем.

Большинствосистем автоматическогораспознаванияречи [79] преобразуетречевой сигнал в такую фонемнуюцепочку, котораяза­тем сравнивается с ожидаемыми в слове звуками.Процесс преоб-

79

разованияречевого сигнала в последовательностьфонем включаетнахождениепризнаков,сегментацию и маркировкусегментов.

Опишеммодель фонетическойнеопределенности,позволяющуюоце­ниватьрезультатынеправильногораспознаванияфонем. Далеебудем использоватьматрицу ошибокраспознаванияфонем и фонетическуюструктуру словсловаря при оценке лексическойнеопределенности.

Лексическаянеопределенностьбудет иметьместо тогда, когда слованеверно классифицируютсяиз-за близости их фонетическойструктуры, т.е.последовательностипараметров,определяющих эту структуру, на конкурирующихсловах. Например,в словах "слезать"и "срезать" первичныепараметрызвуков, входящих в эти слова,сходны. Когдаоба эти словавходят в одини тот же словарь,ихточ­ная классификациязатруднена,поэтому их можно считать лекси­ческинеопределенными. В реальныхсистемах, еслипозволяет зада­ча, следуетподбиратьслова,чтобытакой ситуациине возникло.При­ведемкритерии сложностисловаря для того, чтобыможно было оце­нить степеньразличимостисловарей [63].

рассмотримраспознаваниеречи как процесспередачи речевойинформациичерез канал с шумом и оцениминформацию, теряющуюсяв канале. Потеряннаяинформацияявляется меройнеопределенностиили сложностираспознаванияфонем. В идеальномканале числивход­ных идеальных,полученныхпосле сегментациивысказывания экспер­тами-фонетистами,и выходныхфонетическихединиц должнобыть оди­наковым, а последовательностьфонем на выходедолжна соответ­ствоватьвходной последовательности.Если же этоусловие несоб­людается, в канале теряетсяинформация,и в зависимостиот вели-vwiпотерь можноговорить о большей илименьшей неопределенно­стиклассификациифонем. Припрактическойоценке фонетическойне­определенности в данной работеиспользовалисьсистема призна­ков [73] и алгоритмсегментацииречи на семьтипов сегментов:

V - гласный, Т - переходный, М - сонорный,L -низкоча­стотный, Н - высокочастотный, /? - шумный, П - пауза. Затемалгоритм маркировкиставил в соответствиекаждому сегменту не­которыйфонетическийсимвол, используяаприорно полученныегисто­граммыпараметров. От надежностимаркировкисегментов вомногом зависитточность работыGPP.

Таккак СРР рассматриваетсяздесь как каналпередачи инфор­мации,предположим,что имеются г возможныхвходных символовалфавита А и s возможныхвыходов алфавита В . Таким об­разом, СРРописываетсяканальнойматрицей. Нарис. 2.1 приво­дитсясхема каналапередачи информациии канальнойматрицы.

60





а,"г

'и Рг,

Р„• • Р„••

• • • P,s•• •Р„

*







'.




^

Рг,• •

• • Prs


рис. 2.1. Блок-схемаканала передачииниормациии канальноймат­рицы

Канал передачиинформации,используемойдля описания сис­темыраспознаванияречи, представленнойцепочкой фонем,преобразу­етнезашумденнуюпоследовательностьзвуков в выходнуюпоследова­тельность"машинных" фонем, содержащуюошибки пропуска,вставки слиянияи замены звуков.

СимволамиAr'l{a•|.} и^s={Ц'} обозначены соответ­ственновходной и выходнойалфавиты фонем.Дхя простотыпредпо­лагается,что каналпредставляетсобой независимый дискретныйканал безпамяти. Еслир {Ь. /а^)- вероятностьсимвола Ь- навыходе каналапри подачесимвола а^, то этот канал передачи информацииможно описатьматрицей условныхвероятностей Р = =[^(6//o,)J . Очевидно,Ј p(&/•/,)= 7 ; i=f~r.На рис. 2.2приводитсяпример матрицыусловных вероятностей при распознаванииизолированныхзвуков.

Пусть элементавходногофонетическогоалфавита {аЛпоявля­ютсяна входе с некоторойаприорнойвероятностьюр(а ),р(а ),-..••.,/?(а^), а элементыалфавита [Ь.&bsol; на виходв- с вероятностьюP(ti,),p(by),...,р(.Ьу)Как отмеченоранее, работуканала пере­дачивходного ад^евита{а^} кластеризуетканальнаяма'грипа,поэт

(2.1)



Символ а о и

0,690.10 0.01


Апостериорнаявероятностьтого, '•то, еслив результатераспознаванияПолучили фонеыуЬ, , то навход пос­тупилафонема а^, определяется по ФормулеБайеса

Зак.480 у


0,150,75 0,10

0,010,100,89

Рис. 2.2.Ilptttcap мктрицыусловныхвероятностейрас­познавания изолированныхзвуков



(2.2)

Ииормацня7(а^;Ь ),получаемаяот канала, когдана его входпотупила фонема а.^, а на выходераспозналаськак 6, ,опредедется [91]

., p^Jbj)

l^i&bsol;b^lo (2.3)

С]»дняя информация,получаемаяна выходи канахас потерями прижредаче (распознавании)входного алфавитафонемA:={a•^,которШраспознается как алфавитв = {^ } ,будет

UA,B)=^p(a„^)Ha^^)=

^^,6,)^^/^-а,в' LJу? р(а,)

=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^

^,0 /1,0

=-ip(a,)log,p(a^lp(a,^toy^p(a,/6,);

л, в

I(А,В)=НW^P^,^}to^f){a,/Ь,). (2.4)

л,в

С»метим, чтоН(Л)-энтропия,характеризующаястепень неоп-редвдедостивходного алфавитаА-=-{а^] . Из(2.4) подучаем,что

H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=

Л,о

=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-

Д,В

=-^р(^-)^/?1'а,/^-)^/)(^./^.)=Н(А/В); (2.5)

Н(А^)-апостериорнаяентропия входногоалфавита фонем,которая 82

характеризуетмеру информации,теряемой всистеме распознаваниядрй передачевходного алфавита{ я^}. Апостериорнаявнтропия иявляется мерой,оценивающейсложностьвходного словарядля авто­матическогораспознаванияпри фиксированномпараметрическомописании.

При наличиизначений энтропиивходного алфавитафонем можновычислитьразмер (объем),равный У'"',а значения2 vw ха­рактеризуютсреднее количествовозможныхальтернативных(конку­рентных)элементовалфавита {оI на входеСРР после того,как на выходеполучили множество{ 6 } , т.е. меру сложно­стираспознаваниявходного алфавитафонем. Назовемэту меру эквивалентнымразмером алфавитафонем. Значениеу"^0' можно назватьэнтропийнымкритериемоценки фонетическойнеопределенно­сти,который являетсяобобщеннойхарактеристикойсложностирас­познаванияалфавита фонема^ &bsol; данной системыраспознавания.Если СРР работаетбез ошибок,условная энтропия Н(А/В)вО и эквивалентныйразмер алфавитафонем 2"("/°'= i. Естественно,что если Н(А/В)»0,то Z"^^!,а в случае, когдаСРР не рас­познаетН(А/В)=Н(А), тоэквивалентныйразмер алфавита фонем равенZ"^

Эквивалентныйразмер алфавитафонем даетвозможностьколи­чественнооценить среднеечисло возможныхконкурентных фонем (имеющиеблизкие параметрическиеописания), идля его определе­ниянеобходимознать апостериорныевероятностиp(a^/b-)вхо­дногоалфавита.

Для решенияконкретныхпроблем автоматическогораспознава­нияограниченныхнаборов словвзе многообразиефонем можносвести к двум-тремрабочим фонетическимединицам (например,кклассам длительныхшумных, звонкихи смычных звуков), которые Прииспользованиипростой системыпризнаков кнесложных алго­ритмовраспознаваниядают нулевуюапостериорнуюэнтропию. Однаковри решениизадачи распознаванияотносительносложных словарейи/иди требованиенадежной фонетическойверификацийпроизнесенно­гослова такогоколичестварабочих фонемсказываетсяявно недо­статочно.Работать Жес полным наборомфоней "ложноиз-за оши­боких автоматическогораспознавания.Поэтому к приходитсяидти накомпромиссныерешения- искатькакой-то оптимуипри фонетичес­комописании рабочихсловоформ.Эти проблемыбудут частичнорас-емотреныв а. 2.2.3.

Условныевероятностираспознаванияфонем^(6,/д.), опреде­ляющиеэквивалентныйразмер фонетическогоалфавита, можноопре-•Делить несколькимиметодами.

83

Статистическиймегод позволяетполучать вероятностираспоз­наванияфонем, используяреальную СРР.ото осуществляется путем сравнениярезультатараспознаваниясистемы с точнойручной сег~ментацией имаркировкойречевого сигнала(иди его параме-гричес-когопредставления),поступающегона вход системы распознава­ния.В результатеполучаетсяклассическаяматрица правильнойи оаибочнойклассификациивходного алфавитафонем.

Акустико-параметрическийметод, когдаматрица ошибокклас­сификациифонем получаетсяпутем прямогосравнения ихпарамет­рическогоописания. Приэтом эталонфонемы выбираетсяиз мно­жествареализацииданной фонемы.Расстояниемежду фонемамиисполь­зуетсядля оценкиусловных вероятностейошибочнойклассификациифонем. Точностьэтого методазависит отвыбранногоэталона и объе­маисследовательскогоматериала.

Кроме этихметодов, оценкувероятностиошибочнойклассифика­циифонем можнопроизвестина основемоделированияречеобразующе-готракта человека [73.

^.2.3. Оценкасложностираспознаванияслов по ихфонетичес-койструктуре.Рассмотримнеадаптивнуюсистему распознаванияслов как каналпередачи информации.Слова входногословаряV= ^Я.,У„,... ..., V.,...,v„} можнопредставитьпоследовательностьюфонетичес-

'• f Г Г /* 1

~ " /•> ' * о JiHftBa п^гуппылрп ^ЛП—

НИХСИМВОЛОВ V

&bsol; а^ ,af , . . . , af &bsol;, а слова выходногосло-11г "- 1

варя каналаW= {

'I 2 "^ "1 ^,,^,... W -.^}

цепочками

_^.. „_..... квази­фонетическихэталоновiff, --i bj ,bj , . . . ,bj } , где Q^ e А, Ъ, f- В - соответственновходной и выходнойалфавиты фонемканала; г= /,R ;s= /, 5 ; л= п(г); 1= l(s). Тогда оценкусложностираспознаванияслов, производимогосравнением входной реализациис цепочкамиквааифонетическихэталонов, можно осу­ществитьна основаниианализа матрицыошибок, подученной при представленииэталонов словWy ё.W поверхностными формами й^f Wg , k^ f,Ky каждоговыходногослова. Фактическисложностьраспознаваниявходного словаря V определяетсянали­чием сходныхэталонныхповерхностныхфоры U^ выходногословаря Wи частотойвстречаемостизтих поверхностныхформ р(w). Основнаяпроблема Припостроенииматрицы ошибокдля каждогословаря заключаетсяв формированииэталонов поверхностныхформ г^ еw, для реализациякаждого словаи полученияквазй-фонвтическогографа /Т г^), учитывающеговсе поверхностныеформы в вероятностямиих появления.Все множествоквазифоиетическихпо­верхностныхформ словаw, записатьв виде эталонногографа трудно,так как ориаппаратурно-програмыномметоде распознаванияпоявляютсяне толькоповерхностныеформы слова, обусловленные

В4

особенностямипроизношения, но и формы,включающиеслучайныесег­менты,маркированныеквазифонетическимиметками, появление кото­рых связанос неидеальностьюавтоматическойфонетическойсегмен­тации и маркировкинашим алпаратурно-програмынымметодом, выз­ванной,например, изменениеминтенсивностиречевого сигнала.

Вдальнейшем будем рассматриватьвлияние двух обстоя­тельств на формированиеэталонныхповерхностных форм слов ра­бочегословаря, учитывая, что поверхностныеформы, связанныео особенностямипроизношения и матрицейошибок квазифонемнойклассификации,можно построитьвручную (илиавтоматически,исполь-ауя таблицуакустико-фонодогическихправил, хранящуюсяв памяти, иприлагаемых к базовойквазифонетическойцепочке), а поверх­ностныеформы w. , обусловленныеособенностямиаппаратуры вы­деленияинформативныхпризнаков,можно получить,анализируя ста­тистикуреализации квазифояетическихцепочек словрабочего сло­варя,полученных с помощью ЭВМ.Получение этойстатистики не всегда обязательно,особенно еслирассматриваютсяслова,контраст-ные по своим акустическимсвойствам.Предварительную оценку сложностираспознаванияслов можносделать аналогично оценке сложности фонетическогоалфавита- по фонетическойструктуре слов,вычисляя апостериорнуюсловеснуюнеопределенностьи не исследуястатистикиреализации.

Всеэталоны слов и^у б W рабочих словарейдолжны бытьпред­ставленыпоследовательностьюмаркированныхфонетическими метками отрезков, где квазифонемыдолжны делиться на опорные, обяза­тельные для данногослова (определяющиебазовую формуи, как Правило,присутствующие во всех поверхностях),и "вспомогатель­ные",трудноклассифицируемые.Трудноклаосифицируемые сегменты должныбыть расчленены(хотя бы грубо) на несколькоквазифонети­ческихэлементов, еслидлина этихсегментов вышепороговой (этоделает на первомэтапе человекна основаниизнаний фонетическойструктурывозможных формкаждого слова).Опорными сегментамисло­ва следуетсчитать маркированныеотрезки которые при их марки­ровкеквазифонетичаскими метками допускаютсуммарнуюошибку нижеввристическиопределенногопорога.

Приавтоматическомраспознаваниивыбор эталонов(из словаряэталонов) долженбыть в первуюочередь обусловленналичием вПоступившей на вход реализацииопорных, обязательныхмаркирован­ныхсегментов о. с учетом того, что за счет иеидеадьностисегментацииобщее числосегментоввходной реализацииможет не совпадать с возможнымчислом сегментовэталонногографа,за счетНеопорныхсегментов,образующихся или выпадающихслучайно.

У5

Сшибкиклассификациидают появление"путающихся"поверхност­ныхформ (представленныхпоследовательностьюквазифонеы)дяя раз­личныхслов словаря.Будем считать, что матрицаошибок прирас­познаваниислов априориформируетсятаким образом,что (при сход­ствеповерхностныхформ различныхслов словаря)более частовстре­чающиесяповерхностныеформы словодного класса(при заданномал­фавитеквазифонем)считаютсяотносящимися к словам толькоэтого класса, а редко встречающиесясходные поверхностныеформы для другихслов словарядают ошибкираспознавания.Впрочем, используясинонимию или семантико-синтаксическиеограниченияпри распоз­наваниипословно произносимыхфраз. Всегдаследует добиватьсято­го, чтобыподобные случаи не происходили(трудности представ­ляютслова, входящие в одну семантико-сиитаксическуюгруппу,ко­торые нельзя заменитьсинонимами,например, названияцифр).

Следуетотметить, что принятые решенияо принадлежностипоступившей на вход реализациик тому или иномуклассу следуетделать но эталонамс одинаковымчислом опорныхсегментов и с учетом верификациисяова, всякийраз используяэвристически выб­ранныепороги достоверности, в общем случаеразные для различ­ныхслов. Так, для принятияокончательногорешения опринадлеж­ностивходной реализации Уд. к классуWy необходимо выбрать

иw, ,который ооответ-

два наиболее вероятныхкандидата

— —— - . ^ ствуютвероятностиp(v,/u7y]и ^(i^/г^), и проверить,удовлет­воряютсяли условия:

WM,)>^,;

Р^/^-Р^/^,)^^

где А^ - пороговоезначение вероятноститого, что входнаяреа­лизациясоответствуетолову у/, ; Ay, - пороговыезначения разностиусловных вероятностейпринадлежностивходной реализации

г1д. классамиvf. ,при которыхпринимаетсярешение о клас-

сификации у^ .

Пороговыезначения /Зд,/!,, выбираются экспериментальнопо заданнойсистеме используемыхфонетическихпризнаков,атакже требуемыхточностираспознаванияи вероятностиотказов от рас­познавания. В случае, еслиподбором пороговзаданные требованияк системераспознаванияне удаетсявыполнить,следует провестиболее детальныйанализ неопорныхсегментов, иди попытатьсяулуч­шить системупризнаков. Вряде случаевдяя удовлетворениязадан­ных в системе требованийследует использоватьсинонимию.

66

Рассмотримдалее болееконкретно, какоценить лексическуюнеопределенностьсловаряV языкаречевого общениянеадаптивнойсистемы автоматическогораспознавания.Аналогичнотому, как оце­ниваласьнеопределенностьалфавита фонем,можно определитьслож­ностьраспознаваниявходного словаряV ,состоящегоиз Rслов, и вычислитьэквивалентныйразмер входногословаря. Приэтом необ­ходимополучить вероятностиp(v^/w,)одиэости областейпризна-ховогоописания словi^, « V,ur, бW, г= /7Д.3s/75. которыепред­ставляютсяв виде последовательностифонетическихединиц (фоне­тическойтранскрипциислов). Далееоценим вероятностиp(ff^/v7y).

Как уже отмечалось,на основелингвистическихзнаний, эта-жонысловWy (.W представляютсяв вида фонетических( вер­нее,квазифонетических)цепочек,совокупностькоторых описываетсяграфом с конечнымчислом состояния,а каждая фонема- признака­миспособа и местаобразования.СловуVT, соответствуетодна илинесколькотраекторий(цепочек поверхностныхформ) на графе(количествотраекторийзависит отметода произношенияи харак­теристикидиктора). Направленныйграф f(W,) представляетвсе фонемыэтахона сяоваиг, бW , которыйимеетuf, поверхностныхформ,k=!, 2, . . ., А-з;uly =U'1Л; каждаяповерхностнаяформа

^ e w, содержит

,.^,-...^Пусть р(иГу)

ur, e1=l(3.k) опорныхквааифонем,т.е. иг,

), } I-- /,2,...,1(з, k).

априорнаявероятностьпоявлениясловаu^eW навыходе блокалексическогораспознавания,а априорнаявероят-

р(vfs„) •При


ность иГу поверхностнойформы этогоже оаова этомвыполняютсяусловия

л, « Р(Щ,)=Z: Р(^);Ј/?(ur,)=/.

Необходимоотметить, чтоколичествоопорных сегментов в поверхностныхформах словвыходногословаря различно,т.е. пределизмененияиндекса I зависит какот номера слова,так и от егоповерхностнойформы I= I (.з,k}.

Для того,чтобыосуществитьоценку невернойклассификациислов словаряна стадиилексическогораспознаванияпо фонетичес­койструктуре этихслов, выполнимоперацию разбиениявсех по­верхностныхформ эталоновслов на М фонетическихгрупп с одина­ковымколичествомопорных сегментов1= I (з). При этом слова, поверхностныеформы которыхпринадлежатразным группам,не будут Путатьсямежду собой,поскольку ихлегко классифицироватьпо числу "опорных"фонем, составляющихслова.

8?

Вообще говоря,можно представитьсебе фонетические группы эталонныхповерхностныхформ, отличающиесяне только числомопор­ных фонем,но и их характером,а также порядкомследования.Еслиучесть все трифактора, позволяющиеразбить эталонына существен­нобольшее числофонетическихгрупп, то дальнейшие рассужденияможно отнести к каждой изэтих групп. Дляпростоты,однако,бу­дем считать,что мы имеем М фонетическихгрупп, в каждойиз которыходинаковоечисло опорныхсегментов. Впрактическихза­дачах приразбиении нагруппы следуетучитывать всеэти факторы,однако необходимострого ограничиватьчисло различных опорных сегментов,выбирая лишьте, которые непутаются междусобой и ха­рактеризуютсягрупповымипризнакамиместа образования- ударные гласные,смычные, фрикативные [81,60] .

Итак, допустим,что существуетМ фонетических групп словW, ,W^, . . . ,W^ , . ..,W^ ,в каждой изкоторых^ одинаковоечисло опорныхквазифонем.Общее числоэталонов И/=U W^ ,а ко­личествофонем, составляющих:слова (длинафонетической цепочки) каждойгруппы, об означимчерез I; т= /,/И.

Представляятаким образомслова словаряна входе СРРи ис­пользуяматрицы ошибочнойклассификациифонем, составляющихслова

/Кй/&)-[Ру], (2.5) можно оценитьвероятностиp^(v /Wy) спутывания поверхностных

форм слов внутрикаждой группысловследующимобразом:

где

t = t, 2, .. . , t^ - длина фонетическойцепочки группыслов ^ , а^ е^ , Ь„ е иг,.

В общем случаеодно и ъо жеслово Wy может иметьК, поверхностныхформ, имеющихразное числофонетических элементов ипопадающихв разные группыслов W^,. Поэтомуобщую услов­нуювероятность"спутывания"слов словаряопределим

(2.8)


P(v^/w,l=Г P(w^)р^ (^ /г^-).

Для определенияпотери информациив СРР, котораярассматрива­етсякак канал перэдачиинформации,в случае распознаванияслов используемвыражение

86

(2.9)


KV/W)---Z p(w,)i p(v^/ w^ locj^ p( v^ /v/,).

/(V/W)


Тогда 2 определяет эквивалентный размер словаря—

числоальтернативныхслов на входесистемы распознавания,а

2йv) - фактический объем входногословаря, где

R

Х

г'1


(2.10)



Эти выражения,аналогичныеформулам(2.4), (2.5), оцениваю­щимфонетическуюнеопределенность,являются критерием оценки лексическойнеопределенности.Они определяютсложностьраспознава­ниясловаря и позволяютсудить о качествеСРР. При автоматичес­коймаркировке,наряду с ошибкаминевернойкдассификациифонем, существуют,как уже отмечалось,ошибки невернойсегментации,при­водящиек слиянию отрезков,соответствующихсмежным фонемам, в один сегментили расчленениюотрезка, соответсвувщегоодной фонеме,на несколькосмежных фонемразных классов.При выбореальтернативныхслов словарянадо следитьза тем, чтобы неприят­ноститакого родане вызывалиподобияпоследовательностейфоне­тическихединиц, соответствующихразным словам.Для этого необ­ходимоиспользоватьматрицы, отражающиевозможныеварианты сег­ментациислов словаряи частотывстречаемоститех или иныхвари­антовсегментации,соответствующихразличитповерхностнымфориам слов.Так как информацияо словах, содержащихсяв фонемах,избы­точна,то часто приоценке различимостислов словаря вполне достаточноиспользоватьопорные фонемы,допускающиеминимум оши­бокрасчлененияи слияния. Поэтомув формуле(

§2.3. О языке описанияданных в системеавтоматическогоречевого запросаинформации

2.3.1.Понятийныйязык и двухступенчатоеиерархическоепос­троение его грамматическогопредставления.Информационные сис­темы, стояьраспространившиеся в настоящеевремя, требувФобще­ния с ними с помощьюустной речина языяв, близкомк естествен­ному.Необходимая нам информациядолжна бытьвыдана по запросу

Зак.480


89



последовательностипонятийныхдескрипторов,которую человекможет произнести,не используяжесткого порядкаследованияэтих дес­крипторов.Такое представлениесовокупностидескрипторов- поня­тийногополя не толькообеспечиваетестественностьзапроса ин­формациииз базы данных,но и фактическине увеличиваетвремени поискарелевантнойинформации,так как приэтом учитываются от­ношениямежду понятиямии используетсяиерархическийпринцип с ыниыойиерархией,обеспечиваемойперестраиваемойструктуройдори­ческогодерева. В связис этим можнопредставитьобщую грам­матику6 формированияпонятийногополя, включающегопосведо-вательностьпредложений,которые даютинформациюо структуредег.криптов,в виде иерархическисвязанныхграыиатик верхнего инижнего уровней.(Процесс формированиясвободных от ошибок словесныхцепочек, полученныхв результатеавтоматическогорас­познаванияслов и устногоредактирования,рассматривать здесь не будем.) Грамматикаверхнего уровняG" определяетобщую струк­турупонятийногополя, а языки,обусловленныеграмматиками ниж­них уровней б[ , конкретизируютпорождениепредложенийна уров­неформированияпонятийныхфраз. ГрамматикаG" допускаетпо­явлениепонятий (онивыражены запроснымифразамиS^ ), форми­рующихсмысл запроса,в произвольномчередовании.Иными словами,порождающаяграмматикапоследовательностипонятий -есть простей-ваяграмматикатипа 0 (поХомскому), вкоторой нетерминальнымисимволамиvh являютсяобобщенныйдескрипторпонятийногополя (поисковыйобраз запроса)и понятийныйуровень, атерминальнымиV - конкретноенаименованиепонятий (названияуровней) ^ . Не­терминальныйсимвол {обобщенныйдескрипторпонятийногополя jявляетсяначальнымсимволом S в грамматикев", а правилавы­вода р сводятся кдопустимостиперестановоктерминальныхсим­воловs.—^s-.такчто дляпонятийs,,Sg,...,5^ язык, обус­ловленныйэтой грамматикой,допускает К' предложенийдлины К ,в каждом изкоторых всепонятия различны:

S,, S, , . . . , S„; ^ ,s,, • • • , ^ ; 5,.S,, S, ,. .., 5^ .

Вообще говоря,грамматикитипа 0 допускают бесконечноеколичествословесныхцепочек (предложений)различнойдлины, состав­ленныхиз терминальныхсимволов. Еслисчитать, чтонас интере­суютсловесныецепочки снеповторяющимисятерминальнымисимво­лами,и представлятьобобщенныйдескрипторпонятийного поля цепочкамипеременнойдлины J= f -LК , то числоN возможныхпред­ложений,используемыхдля работы идопускаемыхязыком этойгр^матикм, ^^., ^^

90

Каждый изтерминальныхсимволов грамматикив° в свою очередьявляется начальным(и нетерминальным)символом порож­дающейграмматикивторого уровня (7, , накладывающейили не нак-

ограниченияна формированиепредложенийв t'-ru понятийногоуровня (рис.2.3).

ладывающейограниченияна формированиепредложенийв рамках каждого t-ru понятийногоур

Рис. 2.3. Порождениятийных полей

Отметим, чтов зависимо­стиот особенностей терми­нальногословаря каждогоуров­ня и привычки пользователейк произношениюфраз этогоуровня наестественномязыке порождающаяграмматикас на­чальным(нетерминальным)сим­волом,полученнымна преды­дущемуровне, можетбыть нуле­вого,первого, второго иди третьеготипа, определяемогосоответствующимиправиламивывода.

Далее мы рассмотримоценку грамматическойсложностиязыка (с точкизрения автоматическогораспознаванияречи) на уровне

формированияпредложенийс учетом произношенияслов, являющихся

Go терминальнымисимволамиграмматики , и покажем,что означает

"подстройкапод словарьи язык" в неадаптивныхсистемахавто­матическогораспознаванияслов. Языки,определяемыеграмматикамиб", (7/, G',...,(?/,...,G^ (рис.2.3), будем называтьязыками системыраспознаванияречи, подразумевая,что с точкизрения автоматичес­когораспознаванияслова, являющиесятерминальньгмисимволамиграм­матикивысшего уровня,также конкурируютмежду собойи определяютначальныйсимвол сети(графа), которойпредставляетсяязыком СРР.

2.2.2. Оценкасложностиязыка с точкизрения автоматичес-когораспознаванияпословнопроизносимыхпредложений. Синтаксис исемантикаязыка СРР,определяемыхграмматилаки{G^} ,наклады­ваютограниченияна порядокследованияслов в предложении в характервозможныхсловосочетаний.Эти ограничениясущественнооб­легчаютзадачу распознаванияречи вследствиесокращенияобщего по­исковогопространствапризнаков.

Для приближеннойоценки грамматическойсложностиязыка СРРрассмотримграмматикуавтоматическогоязыка какнаиболее прос­тогои наиболееподдающегосяколичественномуанализу.ГрамматикиНулевого, первогои второго типов,как было указаноранее, такжеможно использоватьдля формированияпредложенийв СРР, однакоих количественныехарактеристикиподучить сложнее.и тому же рядза­кономерностей,характерныхдяя языков,оаисываяицихсяграмматиками

91

большей сложности,можно выявитьи на самом простомязыке, отно­сящеесяк частным случаямязыков нулевого,первого и второготипов и наиболееиспользуемомпри формированиипредложенийв сов­ременныхсистемахраспознаванияречи.

Правила подстановкив грамматикахтретьего типа(автоматных)имеют вид А= а В или А—- В , гдеА, В с1^ и а, Ь(. &bsol;'i . Дляязыка СРР А иВ характеризуютназвания смысловыхгрупп, а а, Ь - названияслов в смысловыхгруппах -подсдоварях.Грам­матикаавтономногоязыка определяетсямножествомвнутреннихсо­стоянийs„3 ,.. .,s^,...,ss и правиломперехода вследующеесос­тояние.

Следовательно,после словас номеромi(n) из группыслов s сS может следоватьслово из подсловаряs^, с s. Кроме того,заданы S и S -состояния,которымисоответствен­

KG)


но начинаютсяи кончаютсяфразы. Например,предложениеимеет структуру

l.(G)=S„v,v. ,.

гдеveS,, v, e S,,.т= /, 2, . . . , I

Оценим синтаксическуюсложностьавтоматногоязыка сред­нимкоэффициентомветвления К^р, которыйопределяетсясредним числомвозможных словв каждой точкедерева ветвления:

К,


ср


i м -—ZК,

N l-i


(2.К)



количест-

^десь К^ - коэффициентветвления вточке i; N во точекветвления.

Средний коэффициентветвленияудовлетворительно описываетсинтаксическуюсложностьязыка тогда,когда появленияслов в предложенииравновероятны.

Если средняядлина предложения/^д , то произведениямиZ^„ «/8 словаряречевого общенияимеют разныевероятностипри формиро­ваниифраа. Для учетаэтих факторовбудут использованыквазифоне­тическоепредставлениеповерхностныхформ слов(см.п.2.2.2) исто­хастическаяпорождающаяграмматика,у которой задановероятност­ноераспредеаенмеправил образованийпредложенийрц из словв

i/

92

»аждой точкеветвления1= 1,п нкя выполняетсяусловие


При этом длявсех точекветвле-

(2.13)

где К- -количествовозможных словв точке I(коэффициентвет­вления).Тогда вероятностьполученияфразы l(G)6i(G)в резуль­татепримененияt правилподстановокравно произведениюверо­ятностейпримененныхпри этом выводеправил образования.Отметим, «точисло слов,составляющихпредложения,может быть различное Изависит отколичестваправил,примененныхпри формированиидан­ного предложения.

Определимэнтропию Н(/-} языка /(0) .Дляэтого обозна­чимчерез L^ множествовсех фраз длинып слов, допускаемыхграмматикойG:

через

ЮЛИЯ

р(^)

/1^

^п-&bsol;Ч '•••'

f(n)

Лп) '-г '• ••

- вероятность

s • •• • ' получения

фразы /(0)

HU

)

языка речевогообщения

(2.14)

if/)) f(n) •} ^• • • • • '-г' • • •)•

Тогда эн-

г(л)

н^-^, ^ ^О^/^О, (2.15) где Т- максимальнаядлина предложения.Естественно,что

(2.16)


гz pa^)=f.

/,.,iyki, г

Вслучае, когдаразличныепредложения,порождаемыеграммати­кой G , имеютразные смысловыеинтерпретации,тогда энтропияЯзыка характеризует его возможностьпередаватьинформации. В соответствии с теориейкодированияинформациичисло возможныхфраз языка с энтропией H(Z) будет2н(t), и это значениеопределяетразмер входногоязыка.

Дляопределениясложности(неопределенности) распознаванияязыка речевогообшения рассмотримпроцесс распознаванияпредложе­ния в виде последовательностираспознаванияслов из подсловарейданного уровня,размеры которыхопределяютсякоэффициентами вет­вления К^ . Тогдадля оценкисложностираспознавания языка необходимооценить сложностьраспознаваниявсех N подсловарей

93

этогоуровня, где

вероятностьюP(Vf,} применения'

вподсловареi- определяется/с.-го правилаподстановкив

каждомузле дерева стохастической автоматной грамматики.Имея условные вероятностир. (v^/Шс) ошибочногораспознава­ния слов каждого из подсловарей и рассматривая CPF как ка­налпередачи информации,определяемпотери информации/„ду в слу­чаераспознаванияпредложений,произносимыхпословно, следующимобразом:

к к;

Ј

с?

Обычноинтересуются, как распределеныпотери информациипо различнымпонятийнымуровням S^ и различнымузлам графа,представлякщегоавтоматнуюграмматикууровня. Важнознать,в какомузле языкаобщения "тонкоеместо" и какего устранить.

Дляобщей оценкисложностираспознаванияпредложений, кото­рые произносятся пословно в соответствиис заданной грамма­тикой G , можно пользоватьсявыражением 2 "" , котороеопре­деляетсреднее числовозможныхальтернативныхфраз на входе в СРР. В случае,если СРР работаетбаз ошибок, припословномпроиз­ношениифразы на выходесистемы всегдаодно предложение.

Формула(2.17) оцениваетсложностьраспознаванияфраз языкаречевого общенияСРР. При этомотметим, чтоэта мера зависиткак от фонетическойструктуры словсловаря, таки от граммати­ческихправил образованияпредложений. В практическихСРР при

распознаванииязыка необходимо,чтобы /„былаблизка к нулю

^пот ] порог (РВД11118 ошибкипри распознаваниислов можно устра­нитьсловами устногоавтоматическогоредактирования.) Если этоусловие не удовлетворяется, то возникаетпроблема измененияязыка, котораясводится к изменениюсловаря системыи/ияи грам-иатикиязыка с цельюувеличенияточностираспознавания.Дляэто­го можно либо использоватьсинонимию вподсловарях,имеющих наи­большуюнеопределенность,либо изменитьграмматическую структурупредложенияпутем измененияграмматики G , котораяиспользует­ся как механизмсокращенияобласти поиска,ограничивающейчисло приемлемыхальтернатив.

94

г.3.3.Изменениеязыка в неадаптивныхсистемахавтоматичес­когоречевогозапроса.Описанныйво. 2.3.1в общем видепоня-тийныйязык речевогообщения "человек- информационнаясистеыа" до­пускаетего развитиена основе некоторогоядре или создание-небазе общихпредставленийо структуреязыка. Суть развития этогоязыка ("подстройкапод язык") сводится:к замене илиувели­чениючисла терминальныхсимволов грамматикив",определяющейпоявление,замену илиуничтожениецелых понятийныхуровней, языккоторых определяетсяграмматиками^ ; кзамене, уменьшениюилиувеличениичисла терминальныхсимволов грамматикG^без из­менениячисла понятийныхуровней.

Понятийныйязык речевогозапроса информациирассматриваетсякак лингвистическийпроцессор,который представяен комплексомПрограмм,обеспечивающимавтоматическийперевод устноготекста в заданныймомент длятого, чтобыинформационнаясистема моглавоспринимать(понимать) фразы,относящиесяк рассматриваемойпред-иетнойобласти. Тогдазадача "подстройкипод язык" сводится к модификации(иди вообщепостроению)этого лингвистическогопро­цессора,который допускаеттолько правильные,осмысленные пред-жижения,обусловяенныеграмматики6°, G,',,,..., /.

В соответствиис п. 2.3.1,задача построениятакого линг­вистическогопроцессора,если заданымножества слов{ у,,г^, . . . ....Уд,}словаря V описания данныхинформационной сис­темы, формальносводится кпостроениюнекоторойфункции

/=(v,,^ ,. . ..1^ ),

гдеi v, , Vy, . . . , гГд.} бV , полностьюопределяющейработу «Ннгвистичесногопроцессора(семантико-синтаксическогоанализато­ра),который допускаеттолько слова,являющиесяграмматическипра­вильнымив данном контексте.

Дяя этой целифразы языкаречевого общенияпредставимв виде направленногографа с конечнымчислом состоянийбез циклов

(2.18)

Весьсловарь (узлыграфа) разобьемна I непересекающихся поня­тийныхуровней, т.е.

VП V^ П ... П V =О

(2.19)

Для указаниясвязи междусловами (узлами)понятийногогра­фа строимматрицу смежности2)= [и';,], котораяраспадается на

D, ,Д,, . . .,Д„, . . . ,^_, подматриц,где Д„ =(о^ б {О,/})указываетсмежность п-го и п+1 уровнейграфа 6(1/,Г). Тогда задачаподстройки"под язык"заключаетсяв задании

и/или изменениисловаря языкаречевого общенияи матрицы смежно­стиD >указывающейсвязь междусловами понятийногографа.

Иными словами,частичная идиполная заменасловари вне­адаптивныхсистемахраспознаванияфраз, составленныхиз изолиро­ванныхслов и короткихсловосочетанийна основе понятийныхязы­ков, описываемыхграмматиками{ 6°,G&bsol;, CJ, . . . ,G^ } , приводит кизменениюграмматик, кприспособлениюпонятийногографа к но­вымтребованиям,

Замена терминальныхсимволов{V- ^ грамматик{С/} произво­дитсязаписью всоответствующиймассив, гдехранятся эталоныстарых слов,новых слов иквазифонетическихповерхностныхформ, представляющихэталоны новоготерминальногосимвола. Еслиисполь­зуютсяпрограммыавтоматическогопорождениямножестваповерхност­ныхформ по базовойформе слов(слова), определяющих новый терминальныйсимвол, то дл.-:замены терминальногосимвола (полу­чениямножестваэталонов) требуетсяввести лишьинформациюо пос­ледовательностиквазифонетическихсимволов; записьновых симво­ловможно производитьаналогичноописанному.Эталоны названийновых понятийныхуровней вводятсятак же,потомучто они являютсятерминальнымисимволамиграмматикиверхнего уровняG"При вве­дениинового уровнянеобходимоописать грамматикуязыка этогоуровня и включитьэталоны новыхтерминальныхсимволов. Измене­ниематрицы смежностипроизводитсяв зависимостиот требованийизмененногоязыка, от новыхпонятий и новых взаимоотношениймежду словамипонятийногографа. Еслинеобходимазамена правильныхслов словами-синонимами,то никакихизмененийматрицы смежностине производится.Оысл введенияслов-синонимовсводится лишь в уменьшению1^, (2.17).