УДК 621.391
Рассмотренысовременныэтенденцииразвития системавтоматическогораспознаванияи синтеза речевыхсигналов. Освещеныпроблемы построенияалгоритмовраспознаванияв неадаптивныхсистемах речевогоуправления.Описаны экспериментыпо созданиюсистем автоматическогоречевого запросаэкономическойинформациис элементамиавтоматическогообучения.
Книга рассчитанана научныхработников,инженеров истудентов,специализирующихсяпо техническойкибернетикеи теории информации.
Работу рецензировалии рекомендовалик изданию:
академикАН СССР А.А.Дородницынкандидатфизико-математическихнаук М.Н.Маричук©Издательство"Штиинца",1985 г.
О I5Q3000000 - 6239-85 M755(I2) - 85
Проблемареализацииречевого диалогачеловека и техническихсредств - актуальнаязадача современнойкибернетики.В настоящеевремя пользователямивычислительныхмашин и средств, оснащенныхвычислительнымимашинами, становятсялюди, не являющиесяспециалистами в областипрограммирования.Особенно актуальной стала задачаобщения человека и ЭВМ с появлениеммикропроцессоров и большихинтегральныхсхем. Новаятехнологияоказала прогрессивноевлияние на психологиюкак разработчиковсовременныхмногопроцессорныхЭВМ .так инеспециалистов-пользователей,неподготовленных к тому, чтобыпользоватьсясложной функциональнойклавиатурой,языком программирования,комплекснымисредствамиуправлениятехникой. Проблемаречевого управлениявозникла, крометого,в связи с тем, что в некоторыхобластях примененияречь стадаединственновозможнымсредствомоощения с техникой(в условиях перегрузок,темноты или резкого измененияосвещенности,при занятостирук, чрезвычайнойсосредоточенностивнимания на объекте, который не позволяетотвлечься нина секунду, ит.д.).
Массовоевнедрениеразличныхбытовых технических средств, содержащихмикропроцессорыи другие большиеинтегральные схемы, в частности,сложных микрокалькуляторов,пег-зональныхЭВМ, также требуетупрощения,"демократизации"систем управления такими средствами. Мы должныпользоватьсяновой сложнойтехникой также, какпользуемсячасами,радиоприемником,стиральноймашиной.Приближаетсявремя, когдабудут созданы"механическиеслуги" человека- роботы, помогающие в быту, выполняющиеработу по уборкепомещения,оказывающиепомощь в сельскохозяйственныхи строительныхработах и т.д.Безусловно,человек будет заинтересованв голосовомуправлениисложной бытовойтехникой и в конечном счететакими роботами.
Ближайшиеперспективыразвитиявычислительнойтехники, созданиевысокопроизводительныхЭВМ пятогопоколения,надеденных способностьюанализироватьзрительные и звуковыеобразы, также
3
требуют того,чтобы задачиавтоматическогораспознаванияи синтеза речевыхсигналов не оставалисьбез внимания. Невозможнопредположить, чтобы вычислительныесистемы обладалипроизводительностью в десятки исотни миллионовопераций всекунду и вкачестве вводныхустройствиспользовалитрадиционную клавиатурудисплея, перфолентыили перфокарты.
В первой главерассматриваетсясовременноесостояниеавтоматическогораспознавания и синтеза речевыхсигналов (попубликациям до 1981 г. включительно).Отмечаетсявозрастающий поток публикаций по этим проблемам,причем многиеработы посвященывопросампрактическогопостроениясистем распознаванияи синтеза речи на специализированныхмикроЭВМ. Внастоящеймонографии не нашли отражение работы, опубликованныепосле 1981 г., так как материалы к публикацииготовилисьв основном добтого времени.(южно лишь отметить, что за 1982 и 1983 гг.практическое направлениеработ в областиавтоматическогораспознаванияи синтеза речиинтенсифицировалось. В нашей странепоявились первые промышленныесистемы автоматическоговвода/выводаречевой информации- "ИКАР", разработаннаяв НИИСчетмаше(г.Москва),СРД-1,изготовленная в ОКБ ИнститутакибернетикиАН УССР им.В.М.Глушко-ва, и Марс, созданнаяМинским отделениемЦНИИС. Этисистемы,широкодемонстрировавшиеся на ВДНХ и другихпромышленныхвыставках,обладают примерносходными техническимихарактеристиками -они обучаются,настраиваются на голос конкретного пользователяи словарь,достигающиййОО слов, и обеспечиваютточность распознаванияоколо 95& и реальноевремя распознавания.В качествеметода, обеспечивающегонелинейноесравнениевходных реализациии эталонов,используетсядинамическоепрограммирование.Большие успехи в области созданиясистем такогорода достигнутытакже в QUA и Японии.В США с 1982 г. началвыходить специальныйжурнал Speech Technology (Речевая технология),в котором описываютсяобласти примененияпромыиленныхсистем распознаванияи синтеза речи, их тестирование,техническиехарактеристикии технологическиеособенности.
В монографииосновное внимание уделяется описанию системраспознаванияречи, работающих без предварительной настройки надиктора. Авторы в течение рядалет совместноработали надэтой проблемой в Вычислительномцентре Академиинаук СССР.Идеологиянеадаптивныхсистем распознаваниясложилась ещев 60-е гг.-в совместных разработкахВычислительного центра и Институтапроблем передачиинформацииАН СССР. Но основныерезультаты,описанные в книге, полученыавторами вконце 70-х - начале80-х гг.
Глава 1
СОВРЕМЕННЫЕТЕНДЕНЦИИРАЗВИТИЯ ПРОБЛЕМЫРЕЧЕВОГОВЗАИМОДЕЙСТВИЯ«ЧЕЛС ВЕК - ЭВМ»
§ I.I. Некоторыеаспекты исследованияречевых сигналовна современномэтапе
В 70-х гг. повысилсяинтерес к проблемамисследованияречи. Это связано с возросшимиуспехами дискретнойобработкисигналов на современноймикроэлектроннойтехнике и широкимраспространениеммикроЭВМ и мультимикроцессорньксистем, появление которых означалореволюцию в информатике.Научные достиженияв областиавтоматическогораспознавания и синтеза речипоставили вопрос о практическомобщении человека с миром мощныхпо своей производительности и возможностяммикроЭВМна языке,близком кестественному.Сложнейшаятехника приблизилась к пользователю-неспециалисту, и пользователь"потребовал", чтобы общение о ЭВМ (в частности, с информационными и управляющимиЭВМ) производилось на более привычномему естественномязыке.
В связи сэтим привлекливнимание работыпо созданию первых промышленныхустройствограниченногоречевого вводаи вывода информации, а также достаточношироко разрекламированныхсистем автоматическогопониманияестественной,слитной речи,над которымиработали в ОДА в течениеI972-I976 гг. по проекту айра.
Следуетотметить, чтоавтоматическоераспознаваниеи синтез речи- не единственноев речевыхисследованиях,что привлекаетвнимание специалистов и возможныхпотребителей.
Наряду с автоматическимраспознаваниемсмысла сообщения и синтезомречи (проблемами,которым в основноми посвящена настоящаямонография),исследователиречевых сигналовуспешно решаютзадачи: автоматическогораспознаванияличности говорящего(т.е. решают задачу,кто это сказал),автоматической верификацииговорящего(подтверждение,тот ли конкретныйчеловек произнесэту фразу), оценки по голосуэмоциональногосостоянияоператора,распознаванияречи, произносимой в другой воздушнойсреде (гелиеваяречь), определения по речевомусигналу патологии органов речеобразования,разработкиболее совершенныхметодов преподаванияиностранныхязыков (выработкаправильногоакцента и интонациипо картине"эталонных"параметровречевого сигнала), помощи лицам
с дефектамиорганов слуха и речеобразования,очистки и анализазатупленнойречи, созданиясистем узкополоснойпомехоустойчивойсвязи, а такжеряд другихзадач. Рассмотрениевсех этих проблемне входило в планы авторов,которые ограничиваютсяздесь простым их перечислением.
В данной главе краткорассматриваютсяосновные публикациипо проблемамавтоматическогораспознавания и синтеза речи,появившиеся в I976-I98I гг. Сведения о более ранних работах в этойобласти можнополучить из[58,79,8б].
В СЮ9] приводятсяосновные лабораторииСША, Великобритании,Франции и ЗападнойГермании, тематикакоторых связанас автоматическимраспознаванием и синтезомречи. В [127] сообщается,что проблемапостроениямашин, способныхвосприниматьречь человека(желательно с использованиемпра' л естественногоязыка), остаетсяглавным направлениемречевых исследований,одной из ключевыхпроблем кибернетики. В [144] отмечается возрастающийинтерес к этойпроблеме, связанный с увеличениемспроса на малыеустройствараспознаванияслов и появлениемновых компаний,активно участвующих в созданиипромышленныхсистем автоматическогораспознавания речи на новойтехнологическойбазе.
В нашей страненаблюдаетсяширокий интерес к проблеме исследованияречевых сигналов.Регулярнопроводятсявсесоюзныешколы-семинарыпо проблемеавтоматическогораспознавания слуховых образов(APGO). В каждой союзнойреспубликесуществуютлаборатории или группы,решающие этизадачи.
Стало традиционнымклассифицировать системы автоматическогораспознаванияречи на адаптивные,работающиес подстройкойпод диктора и словарь, и неадаптивные,обеспечивающие работу с произвольнымдиктором-носителемнормы произношенияданного языка. К практическимсистемам первоготипа относятсяvip- юо, WRS и ИКАР,СРД-1, МАРС, к неадаптивным- экспериментальные системы лабораторииBell, ВЦ и ИППИ АНСССР, устройство фирмы Dialog Systems . Следуетотметить, что системы автоматическогораспознаванияречи пока неполучили широкогораспространения,хотя и выпускаютсяс 1973 г. серийно.
Более доведеннымидо уровнякоммерческихобразцов являются системы автоматическогоречевого ответа,т.е. системы, основанные на автоматическомсинтезе речи.ПромышленностьСША и Япониивыпускаетбольшими партиямисинтезаторыречи, ориэнтированныена самое разнообразноеприменение,- от детскихигрушек,оснащенныхголосовымвыводом, домощных информационныхсистем, отвечающихголосом по речевому запросупользователя.В основе современных
б
коммерческихсистем речевогоответа лежаттри основных способа синтеза- непосредственноекодированиеречевой волны(дискретизация и сжатие), формантныйсинтез и синтез,основанныйна линейномпредсказании[5]. (Подробноеописание достижений науки и промышленности в областиавтоматическогосинтеза речидано
в § 1.4).
В пятой главеподробнорассматриваютсяособенности разработаннойавторамиэкспериментальнойзапроснойсистемы речевоговвода, работающей с проблемно-ориентированнымязыком, словарныйзапас которогосоставляет120 слов. Системабазируется на аппаратурно-программномметоде распознавания,использующем информативныепризнаки речевыхотрезков ^23,13,9?].
§ I. В середине70~х гг. получилираспространениесистемы распознаванияречи, предназначенные для промышленногоиспользования.Важнейшиетребования к таким системам- высокая точностьи реальноевремя распознаваниявысказывания.Постепенностал накапливатьсяопыт эксплуатацииподобных систем,который определил их дальнейшееразвитие. Первыепрактическиесистемы автоматическогоречевого вводаинформацииобладали рядомположительных свойств, необходимыхдля пользователей.Мартин [&8] отмечает,что к такимсвойствам можноотнести мобильность и возможностьсовмещенияработ оператора,гибкость словаря,100% точностьраспознавания(при использованииобратной связи),стабильностьэталонныхданных и уверенностьоператора,контактирующего с системой, обладающейвысокой точностьюраспознавания.Главными недостаткамипервых систем можно считатьдлительнуюподстройкупод диктораи словарь, малыйобъем словаря,отсутствие помехозащищенностиот слов, не входящих в рабочий словарь,проблемы фоновогошума и шумовдыхания, высокуюстоимость и т.д. Первым широковнедреннымустройствомсистем автоматическогоречевого вводаданных можносчитать vip-ioo, подробноописанное в [58,134] . В [13б] отмечаетсяиспользованиеVXP-100 в конфигурацииThreshold -500, котораядает возможностьвводить информациюголосом в ЭВМодновременнотрем операторам.Указывается,чтосредняя точностьраспознаванияслов в этихсистемахколеблется от 96,5 (для словаря из 35 слов и высокогоуровня шумов)до 99,5% (для словаря из 15 слов и тихогопомещения). В[136] рассматриваетсяиспользование vip - 100 для речевоговвода информации в ЭВМ станковс программнымуправлением. Отмечается, что для этихцелей разработаны три специальные систейн: vw - 50, vno- 100 и virc - 200 с использованиемсоответственно31 слова и слитногословосочетания,4Ь и 65 слов. Системы VHC-200 применяются для управления четырехшиин-дельнымисверлильными станками и лазерами,iопользующимисядля обработкиполупроводникови сверхтвердыхматериалов, а также дляуправлениятокарнымистанками. Крометого, эта системаприменяетсядля взаимодействуяс системойискусственногоинтеллектаи управленияголосом. Данная системаиспользуется для техническойдиагностикикомпрессоровхолодильныхустановок и при распределениипосылок.про-ходящих по конвейеру [П9]. й[П7] описывается использованиеодной из систем фирмы Threshold Technology дляавтоматическоговвода голосомпо телефонугидрографическихданных исследованияморских акваторий. Еще однойамериканскойпромышленнойсистемой автоматическогораспознаванияизолированныхслов являетсяv/RS [l40] . Системапредназначенадля практическогоиспользованияв армии и обеспечиваетпрямую двустороннююсвязь междуперсоналомна переднейлинии фронта и армейскимиинформационнымисистемами,использующимиавтоматическоераспознаваниеслов, идентификацию диктора и его верификацию(подтверждение,тот ли человекразговариваетс системой). Мини-ЭВМ этой армейскойсистемы полностьюобеспечиваетавтоматизированнуюобработкусигналов в реальном времени,трансляцию(т.е. автоматическоераспознавание)сообщения исинтезированныйречевой ответ на три сетисвязи одновременно для любых трех из 64 пользователей.Рабочий словарьсистемы 250 слов.Полевой оператор-разведчикоснащ'ен переноснымблоком записи донесений для точной записитактическихданных и возможного ввода их по радио или телефоннымлиниям в армейскуютактическуюинформационнуюсистему. Дляудаленногооператораиспользуютсяпередатчики с частотноймодуляцией.Система распознаванияслов таз, воспринимаядискретныеречевые сообщения(фразы, произносимыев жестком форматепословно),"подсказывает"оператору накаждом шаге,какого родаинформациюждет она отнего далее,предварительноподтвердивправильнуюзапись предыцущегодонесения. Жесткий форматфраз определяетсяспециализированным языком точногоописания тактическихусловий в поледеятельностиоператора иуправленияартиллерийскимогнем. Для голосовогоответа в «'/КЗиспользуетсяпрограммно-управляемыйзвуковой синтезаторфирмы Vocal Interf;ice Division,который позволяетполучать цепочкифонем и фонемоподобныхзвуков в соответствиисо смысломречевого ответа;при этом обеспечиваетсянеобходимаямодуляцияосновного тонадля большейестественностизвучания. Есликакой-либооператор хочетввести в армейскуютактическуюинформационнуюсистему донесениепосле того,какwrs обучаласьего речевьмхарактеристикам,он должен обнаружитьканал связи,а затем ввестишесть слов, представляющих'шифр (код) используемойсети, код пользователяи слова завершения. Хотя системараспознаванияспособна работатьавтоматически,на стороне v/RS всегда присутствуетоператор. Онследит за экраномбуквенно-цифровогодисплея, гдеотражаютсядонесения,поступающиес трех линийсвязи. По мерераспознаваниядонесенийпоявляетсяих буквенныйтекст. Еслидонесенияполностьюудовлетворяютоператора, онпередает ихдля исполнения(и для получения"твердой копии"на бумаге), нажимаяна пультесоответствующуюклавишу. Операторможет с пультаотредактироватьлюбое . донесение,прежде чемвыдать его для исполнения.Оператор можеттакже с пультауправленияв тобой моментсвязаться порадио или телефонномуканалу с каждымразведчиком-пользователем(или со всемисразу). Еслипри распознаваниидонесения,поступающегоот пользователя,возникаюттрудности, тооператор долженсделать вое.чтобы донесениебыло принято.Для этого онможет,например,переучитьсистему наголос этогопользователя. Автономныйблок системы,предназначенныйдля связи с пользователями,возбуждаетсябез вмешательстваоператора приодном из трех"условий": а) распознанослово "оператор"; б) последовательнопрошло неверноераспознаниедвух слов подряд; в) во времятрансляциишифра дикторидентифицированкак злоумышленник. Точностьраспознаванияслов превышает95% при передачеречи по несекретнойрадиолиниис отношениемсигнад/шум,равным 10 дБ. Прииспользованииболее совершеннойрадиолинииточность,трансляциидонесениядостигала 9'?%. Зак.480 В 1977г. Оыловыпущено устройствоHeuristics $299 Speuchlab, требующее ддя реализациисистемы распознаваниядополнительнойЭВМ. Точностьраспознаванияслов в системах,использующих это устройство,была относительнонизкой (около90%), однако из-заневысокой стоимости онооказалось в настоящеевремя наиболеераспространенным. В 19УО г. этой жефирмой былавыпущена система7000, соединенная со стандартнымивидеотерминальнымиRS -232 [903 • Система,выпускаемая в автономном корпусе, включаетцифровойспектроанализатор и блок распознавания. Она может бытьобучена распознаванию64 слов или фраз,длительностьаву-чаниякаждой из которыхдо 3 с. Система 7000дает возможностьвводить информацию голосом в ЭВМ,не набирая еена клавиатуревидеотерминала,однако позволяеттакже пользоватьсяклавиатурой(по очереди илиодновременно). В [69J сообщается,что фирмойInterstate Electronics Inc. выпускается сходный потехническимхарактеристикам с системой7000 одноплатныймодуль распознаванияречи VRK - Voice recognition module, реализованный на базе микропроцессораи представляющий"интеллектуальным"терминалами небольшимвычислительнымсистемам средстваавтоматическогоречевого ввода.Отмечается,что 'это устройствообеспечиваетраспознаванияболее 99% привариантах с объемом словаряв 40, 70 или 100 слов.На входе устройстваиспользуется16-канальныйаналоговыйспектроанализатор,информация с которогодалее преобразуетсяв цифровуюформу и уплотняется до размераэталонов, хранящихсяв памяти van .Внастоящее времяфирма выпускаетодноплатноеустройствораспознаванияслов vrt-зоо, котороеполностьюпозволяетдублировать клавишнуюсистему управлениявидеоматериалом. В [45J рассматриваютсявопросы использованияустройствавтоматическогораспознавания и синтеза речив системах военного назначения.Указывается, что в настоящеевремя автоматическийанализ и синтезречи испытываетсяв тренажерахдля подготовкиспециалистов(например, летчиковили диспетчеровуправления воздушнымдвижением), а также в устройствахддя автоматизацииввода данных в ЭВМ при дешифрацииаэрофотоснимковв процессе составлениякарт местности.Предполагается, что в перспективе устройствараспознаванияречи будутиспользоватьсядля ввода командв систему оружия или в системууправленияполетом.О необходимостизаполнитьпробел междуотносительнопростыми,,настраивающимися на диктора исловарь, промышленнымиустройствамиавтоматическогораспознаванияречи и громоздкимиэкспериментальными сис- 10 темами понимания речи, основаннымина моделяхестественных языков, Ли иШоуп писали еще в [ 144] . Одной из самых совершенныхкоммерческихсистем автоматическогораспознаванияречи являетсясистема распознаванияизолированныхслов и слитнойречи CSRS японскойфирмы NEC [47] . Технологическойбазой этойсистемы служитмикропроцессорная техника. (В системеиспользуютсяпять микропроцессоров.)CSRS обеспечиваетнадежноеавтоматическое распознавание в действительношумныхсредах ^до 90 дБ) с 0,2% ошибок и0,7^, отказовна материале120 слов. Система csrs , как и vip -100 и wrs, является адаптивной,настраиваемойна диктора исловарь. При распознаваниислитно произносимыхсловосочетаний(до пяти слов одновре-* менно)система используетметодикураспознавания,основанную на так называемомдвухступенчатомсогласованииэталонныхреализациии входнойпоследовательностисловосочетанийс использованиемаи-г 'итмовдинамическогопрограммирования.Блок автоматическогораспознаваниявключает цифровой анализатор спектра, преобразующийвходной сигнал,который поступает с АЦП в 46-мерныевекторы черезкаждые 18 мс, памятьэталонныхреализации,позволяющиххранить до 120эталонов слов,процессординамическогопрограммирования, представляющий собой мультимикропроцессорнуюЭВМ, и интерфейснуюмикроЭВМ,обеспечивающуюуправлениевсей системой.gsrsосуществляетраспознаваниепрактически в реальноммасштабе времени. Систему можноприспособить,несколькоизменив программудинамическогосогласованияэталонов и выходноговысказывания,для распознавания1000 слов, произносимыхизолированно. На выставке в Москве (декабрь1976 г.) демонстрироваласьсистема gsrs , позволяющаяподключать к одному блокудвух пользователей,работающиходновременно в режиме диалогас csrs [29]» За счетболее совершенногораспознаваниясистема обеспечиваетболее простоеобучение, допускаяодно- или двукратное произнесениекаждого слова. В [16] рассматриваетсяотечественнаясистема,предназначеннаядля распознаваниянабора слов,число которыхоколо 400.Сяо-варьпредставлен в памяти фонемнымикодами, чтопозволяет послеэтапа подстройкисистемы -юддиктора (сводящейсяк однократномупроизнесениюспециальногословаря, содержащегофонемы русскогоязыка в различныхсловосочетаниях)заменять,корректироватьи пополнятьсловарь без участия диктора.В системеиспользуется'пятьпараметровречевого сигнала,которые служат цля распознаванияслов - логарифмполной энергиисигнала и логарифмы отношения •Полной энергиисигнала к энергиямсигнала в четырех полосах. II Из-за использованияотносительномедленноймашины и чистопрограммнойреализацииалгоритмованализа сигналавремя обработкиоколо I мин на слово, времяпринятия решения~ W/8 с, где И - объемсловаря. В более позднейработе этогоже коллективарассматриваютсясистемы признаков,основанные на модеси линейногопредсказанияС 17] и психоакустическомэффекте маскировкиболее схабыхсоставляющихречевого сигналаболее сильными.При использованииданного подходаточностьраспознаванияизолированныхслов для одногодиктора составила при лексиконеиз 100 слов - 97%,а прилексиконе из 300 первых словрусского частотногословаря - 94^. В ИнститутекибернетикиАН УССР в 1977 г. разработанаадаптивная система распознаванияслов, работающаяв реальноммасштабе времени[1б] . Системасоздана наоснове ЭВМ БЭСМ-6, но можетбыть реализована на других ЭВМили в специализированномустройстве на микропроцессорах.В процессепредварительнойобработкиречевого сигналавычисляетсяпоследовательность48-разрядныхдвоичных кодов,каждый из которыхопределяетзнак производной по частотеамплитудногоспектра речи,вычисленных на участкахв 15 мс. Обработкавведенногоречевого сигналадлительностьюI с происходит за 0,3 с, времяраспознавания одного словадля словаряиз 100 слов - неболее I с. Точностьраспознаваниясловаря из 500 слов - 98%. Методикапринятия решенияв системе болееподробно рассмотренав С20]. В [21] описываетсяразработаннаяв ИК АН УССР система распознаванияречи, настроенная на голос нескольких дикторов и обеспечивающаянадежностьраспознаванияизолированных слов около98^ для словаряиз 500 слов. Интереснаяадаптивнаясистема распознавания изолированныхслов, использующаяпараметры клиппироваяного речевого сигнала,разработанаН.П.Бусленко,В.В. Деевым иГ.Д.Фроловым[8].В этой системе для формированияэталонов иавтоматического распознаванияпредложеноригинальныйматематическийподход к анализупоследовательностичисел, соответствующейинтерваламмежду нулевымиперечислениямисигнала. Обобщенныеэталоны формируютсяпосле несколькихfor 2 до Ь) произнесенийслова. При распознаваниипроисходитсравнениепоступившего на вход словас этими эталонами.В системе реализованречевой ответ,также основанныйна формированииклиппированногоречевого сигнала.Ццеи,рассмотренные в [в] , нашли свое дальнейшее развитие в системе, реализованнойна мини-ЭВМ. 12 В ряде кибернетическихсистем массовогопользования целесообразноиспользоватьавтоматическийречевой вводбез предварительнойнастройки на голос оператора.В таких системахраспознаваниедолжно базироваться на универсальныхфонологическихправилах, а вдальнейшем- на использованиисинтаксисаи семантикиестественныхязыков. Другой путь построениянеадаптивныхсистем распознавания речи - сборэталонныхреализацииот большого(до 500) числа дикторов,кластеризацияэталонов и использованиетого факта, что каждыйновый дикторпроизноситслова так, какэтр делал один из тех дикторов,который участвовал в обучениисистемы распознавания. В настоящеевремя не достигнуто высокой точностираспознаванияслов в неадаптивныхсистемах (кроме системы Dialog Systems ,где весьманебольшойсловарь и используютсяэталоны, полученныеот 500 дикторов).Однако исследования,проведенные в этой области,а также феноменчеловека,воспринимающегослитную речьпроизвольногодиктора безпредварительнойнастройки на его голос,доказывают,что техническиесредства,направленные на распознаваниеречи любогопользователя,несомненно,будут созданы. Первой системойавтоматическогораспознаванияречи, выпускаемойнашей промышленностью,стала адаптивнаямикропроцессорнаясистема распознаванияизолированныхслов,разработаннаяв НШЮчетмаше.Системасодержит блоканалоговойобработкисигнала - предпроцессор(он включаетмикрофонныйусилитель,16-канальныйспектроанализа-тор с рабочей полосойдо Ь кГц, индикаторыуровня основноготона и огибающей,блоки клиппирования,наличия устной команды, вторичнойобработки иуправления),микропроцессор К580ИК80, специализированнуюподсистемудля вычислениямеры сходствамежду входной и эталоннойреализациямислов, оперативноезапоминающееустройство, интерфейсныйблок и пультинженера-оператора.Поток информации о речевом сигнаде(1250 байт в секунду) поступает с процессорадля последующейобработки вмикроЭВМ, котораяодновременно управляетотдельнымиузламг и блокамивсэй системы.Следует отметить, что система[72J по своей структуреи возможностямзанимаетпромежуточноеположение между коммерческимисистемами VIP-100 (США) и dp фирмы яёс (Япония).ОтVIP-IOO наши разработчикипозаимствовалибинарноепредставление информации о слове на уровневторичнойобработкисигнала, а от системы нес- использованиединамическогопрограммированияпри нелинейномсравнениивходной и эталоннойреализации. Такой подходпозволил производитьраспознаваниев реальноммасштабе времени и с высокойнадежностью,используяотечественнуюэлементную 13 базу. Для обучения новомусловарю требуетсяоднократное произнесениекаждого слова.Надежностьраспознаваниядля группы изчетырех дикторов,каждый из которыхработал сосвоим словарем,превысила96%; время распознавания для словаряиз 200 слов - близкое к реальному(не превышающее1с). В [б33 описаноавтономноеадаптивноеустройство распознаванияограниченногонабора слов,разработанноево Всесоюзномсельскохозяйственноминститутезаочного образования. Устройствовыполнено на базе микросхем155-й серии и состоитиз 16 плат размером140 х 150 мм. На входустройства с аппаратурыпервичногоанализа подаются16 бинарныхпризнаков, один аналоговый,представленныйчетырехразрядочным двоичнымкодом, и признакконца речевогосигнала. Памятьустройствавмещает до 256отсчетов эталоновсигнала. Речеваяинформацияпоступает дляпоследующейобработки с частотой 100 Гц,но в дальнейшемсжимается (в среднем до 16 отсчетов наслово) так, что в память можнозаписать лишь16 эталонов.Нелинейноесравнение с эталоном осуществляетсяметодом динамическогопрограммирования.Устройство[вз] может работать в двух режимах- обучения ираспознавания.Точностьраспознавания(для одногодиктора) зависитот словаря,объем которого не превышает16 слов, и колеблетсяв пределах96-99%. Система [l] ,разработаннаяв МВТУ им. Н.Э.Бауманаи ориентированная на речевоеуправлениедвижущимися объектами,была испытанадесятью дикторами на словаряхиг 32 слов и слитныхсловосочетанийна русском,английскоми немецкомязыках ( каждыйдиктор имел свои эталоны).Наматериале 3200реализации было получено9Ё% правильныхответов, 1%отказов отраспознаванияи 1% ошибок.Система позволялаработать в трех режимах- обучения,распознавания и управления.В режиме речевогоуправления словарь включал всего 14 слов;надежностьраспознаваниякоманд управлениясоставила приэтом 99,5№. Интереснаяадаптивнаясистема распознаванияи синтеза речибыла разработана на устройствеаналоговоготипа и ЭВМ ЕС-1030М.Г.Демковым[35] . Словарь системы,работающейв близком креальномувремени, составлял300 слов и словосочетаний.В результатеаппаратнойи программнойобработки триобучающиереализациикаждого словапреобразовались в эталонную последовательностьдлиной в 10 - 20 символов.Экспериментыпо определению надежностисистемы проводились в условияхакустическихшумов 75 -60 дБ на голосе одногооператора. Приоднократномпроизнесениисловаря в объеме300 слов точность распознавания составляла97,2%,при одномповторении- 98,6%, при двухповторенияхошибочно распознанногослова - 99,3%. 14 В [2b] сообщается,что фирма DialogSystems (США) подготовила к коммерческомупроизводствупервую неадаптивную систему распознаванияслов, построеннуюна бсль'"ихинтегральных схемах. Особенностьюэтой системыявляется методсравнения,основанный на анализебольшогостатистическогоматериала. Эталонныереализацииформировалисьпосле изучения500 образцовпроизнесениямужчинами и женщинамикаждого словаря:статистикасобираласьпо всей территорииСША. Из каждогослова берется12 выборок;накаждом отчетеизмеряетсяобщая амплитудасигнала и вычисляетсяспектр сигнала в диапазонетелефонногоканала(300 - 3400 Гц) в 31 точке. Такимобразом, каидомуслову соответствует384 числа. Обучающаявыборка включалаобработанныереализации500 слов. Неизвестноеслово, поступающее на вход системы,подвергаетсятакой же обработке и сравниваетсяс эталонами.Система использует речевой ответ.Базовый словарьсостоит из 12, слов- 10 цифр и слов"да" и "нет".Система позволяетдобавлятьспециализированныесловари. Например, для банковскихработниковпредусмотрено включение 30дополнительныхслов, включаятакие, как"баланс","итог","взнос". В [52] сообщается, что эта фирмаразработала систему продажибилетов на самодеты,откликающуюсяна голос любогодиктора. Однако для нее возможныи другие применения.С ее помощьюслужащий, находящийся в другом городе,легко может вызвать любогоабонента внутренней сети. Для этогоон набираетномер коммутаторафирмы, называет свой идентификационный номер и телефонныйномер, которыйон хочет вызвать.Система обрабатываетустные команды с точностью,превышающей95№. В [102, 147, 146, 150, I6b - 168] описана экспериментальнаясистема автоматическогораспознавания127 слов, произносимыхнесколькимидикторами.Проблема особенностейпроизношения решается такимобразом, что каждый дикторимеет наборсвоих эталонов,поэтому в строгомсмысле словасистему Bell Laboratoriesнельзя считатьнеадаптивной.Словарь былвыбран с учетом того, чтобыпроизвольныйпользовательмог заказыватьпо телефону билеты на авиарейсы,используя ЭВМ с речевым вводом. Отмечается,что использованиесинтаксисаязыка понижаетошибки распознаванияслов с 11,7 до 0,4%/ В [170,172] рассматриваетсяраспознаваниесловаря, включающегоназвание английскихбукв, цифры итри служебных слова редактирования("стоп", "ошибк^.","повторяю").Словарь позволяетпроизноситьпроизвольныеслова, в частностифамилии,побуквам. Прииспытанияхсистемы, в которыхучаствовалишесть мужчини четыре женщины,при среднейточностираспознаванияслов словаряв 15 60% средняяточностьраспознаванияслов, произносимыхпо буквам (50случайныхфамилий сотрудниковBell Laboratories ), составила96%. Каждый диктор, как и в [25] , имелсобственныеэталоны. В[166,167] используетсяоколо 12 эталоновна каждое слово словаря, причемкаждый эталонхарактеризуетособенности некоторойгруппы дикторов.Эталоны получаются методом кластерногоанализа; при этомиспользуется100 обучающихреализациина каждое слово.Точностьраспознавания10 цифр приближается к точности ихраспознавания в адаптивныхсистемах иколеблется(для различныхдикторов) от97,5 до 100%. В [125] предлагаетсядля повышенияточностираспознаванияслов ввестидополнительныйуровеньраспознавания,который автоматическиопределяетпол диктора и уже дальнейшеераспознаваниепроизводит с учетом этого.Введениепредварительногоавтоматическогораспознавания пола диктораповысило точностьраспознаванияцифр. В СССР проблемепостроениянеадаптивныхсистем автоматическогораспознаванияречи такжеуделяетсябольшое внимание[10,13,33, 38, 57, 66, 76, 77, 87, йб] . Какправило, системыработают спроблемно-ориентированнымиязыками, словарныйзапас которых составляетнесколькодесятков словоформ [40] . В [1.0,12] описанаопытная эксплуатацияодной из такихсистем. Сейчас существуютнекоторыепромежуточныеэкспериментальныесистемы распознавания,работающие со множествомдикторов, частьиз которыхможно отнести к адаптивным,например системуМВТУ [l] .котораяпо своейидеологии и принципамблизка к типичнымнастраивающимсяна дикторасистемам - лишьпамять ЭВМограничиваетчисло дикторов,каждый из которыхимеет своюсистему эталонов. Рассматриваемыеже ниже системыобладают рядомособенностей, характеризующихименно неадаптивныесистемы: попыткапользоваться универсальнымипризнакамифонем, использованиесинтаксиса и семантикирабочего языка,верификациядиктора до того, как системаобратилась к его эталонам,и т.д. В этом смыслек неадаптивнымсистемамраспознаванияречи можноотнести двеинтересныесистемы распознаванияфраз, произносимых с паузами междусловами. Эти систрмы былисозданы в Институтесистем управленияАН ГрузССР. Одна из этихсистем [ 77] былапредназначенадля оперативногоуправленияобъектами путемраспознаванияфраз-команд,произносимыхпредварительноверифицированнымидикторами. Ьможество фраз,составленных из 134 слов,включало75 типовых синтаксическихконструкций.Каждая фразасодержала не более 14 слови произносиласьполным стилем с паузами междусловами. Параметрами 16 первичногоописания были:энергия с 6 полосовыхфчльтров, дедек-торыплотностинулевых пересеченийсигнала, общаяэнергия сигнала и признак звонкости- гдухости.(Параметрыизмерялись и вводились в память ЭВМкаждые 20 мс.) На первом этапеанализа определялась(по динамикепараметровпервичногоописания)макро-временнаяструктура фразы и слов. Полученнаягрубая структуракодировалась и вместе с даннымио положениилокальных максимумовскорости изменениязначений параметровпервичного описания служилаосновой дляполученияпосегментного(кваэифонетичес-кого)описания слов во фразе. В результатекаждое словофразы представлялось в виде матрицычисел Ц3'17! > Wl•/•л-номерасоответственнопризнака, сегмента в слове и словаво фразе. Процессраспознавания слов начиналсяс выбора эталонов-претендентов,идентичныхвходной реализации,и кодов макровре-неннойструктуры и отличных отнее числомквазифонетичвскихсегментов навеличину неболее заданногопорога. Наиболеевероятные пары гипотез о словепринималисьметодом динамическогопрограммирования.При этом учитывалисьлексические ограниченияна место словаво фразе. Далееблок семантико-синтаксическогоанализа принималрешение обистиннойпоследовательности слов во фразе.При работе сшестью операторамии обучениисистемы накаждом из нихнадежностьраспознаванияслов составила8836,а надежностьраспознаванияфраз за счетблока лингвистическогоанализа - 95%. Точность верификациидиктора по произвольнойфразе - 96%. Системаустойчива к внешним шумамдо 65 дБ. Другая система,разработаннаяв Институтесистем управленияАН ГрузССР,способнаработать приболее высокомурочне шумов(до 100 дБ и выше) СЗб]. Основнойособенностьюэтой системы распознаванияфраз, произносимых с паузами междусловами, былоналичие комплексапомехозащищенныхдатчиков, которыйобеспечилприемлемоеотношениесигнал/шум на входе системыраспознавания.В качествеприемникаречевой информацииприменялсяларингофонЛЭМ-3, а такжедополнительныепомехозащитныепризнаки устнойречи, в качествекоторых использовалисьартикуляционныехарактеристикире-чеобразования.Бесконтактныедатчики позволяливыделять: - признак,отражающийизменениевеличины раствора ротовой щели во время произнесениянеогубя°нныхзвуков; - признакстепени огубяения; - признакскорости воздушногопотока у потового отверстия[42]. Зак.480 17 Изучениесвойств речевогосигнала впространстве выбранныхпризнаковпозволилоразработатьпроцедуруописания слов, обеспечивающуювосстановление как макровременной(имеется в видупос-хедовательностьзвонких и глухихучастков, атакже пауз),так и квазифонемнойструктуры речи.При испытаниисистем [ЗЬ,??]выявиласьвысокая точностьраспознаванияфраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающеймалым объемом оперативнойпамяти и слабымбыстродействием, из-за чего время распознаванияфраз было в 30- 50 раз большереального. В ранкахтрадиционногоаппаратурно-программного направленияавтоматическогораспознаванияречи ведутсяработы в ВЦ иИнститутепроблем передачиинформацииАН СССР [13,67,6?] .В основе методалежит алгоритмическаяобработкавыделяемыхспециальнойаппаратуройинформативныхпараметровкоротких отрезковречевого сигнала(сегментовдлительностью10-20 мс). Последовательностьэтих отрезков и составляетвысказывание,которое требуется дешифрировать.Параметры(признаки) сегментовхарактеризуют(в большей илименьшей степени)параметрыречеобразующеготракта человека,определяющиеособенностипорождаемыхзвуков. В Cl3] рассмотреныалгоритмыраспознаванияназваний чиселот нуля до ста,причем системапредусматриваетреальное времяраспознавания и произвольногодиктора. Алгоритм распознаваниядвухступенчатыйи состоит из блоков распознаванияи подтвержденияфонетическойструктуры(верификации).Если гипотезируемоеслово не подтверждается(блоком верификации),то входнаяреализациясравнивается с другими словами,близкими к нейв пространствепризнаков, илиподается сигналпереспроса.При распознаваниидвухсловныхсочетанийвторое словоанализируетсяс конца в направлении к его началу.Вариантыпроизношения,на основаниикоторых создавалсяалгоритм,исследовалисьна материале около 2200 реализацииназваний чисел,произносимых20 дикторами. Врезультатеанализа полученыварианты произношениядвузначныхчисел. Многие из них произносятсясравнительноединообразнои различаютсястепенью редукциибезударныхгласных, степеньюаффрицирова-ниямягких взрывных,наличием или отсутствиемсмычек перед аффрикатамии т.д. В другихчислах можетсущественно нарушатьсяфонетическаяструктура,пропуски отдельныхсогласных.Вусловиях, когдавозможно множествовариантовпроизнесения,алгоритм должениспользоватьлишь наиболееупотребительныеварианты, в которых сохраняются"оперные" звуки- ударные гласные,щелевые, взрывные,а также начальныеи конечныезвуки. I& В OS?] рассмотреноиспользованиеречевого Управленияв подсистемеАСУП на баземини-ЭВМ.Аппаратурно-программнаясистема, разработанная в Львовскомордена Ленинагосударственномуниверситетеим. И.Франко,уже эксплуатируется.Система используетмини-ЭВМ ЕС-1010 в режиме реальноговремени ипараллельной работы около90 производственныхзадач. Это налагаетжесткие условия на объем оперативнойпамяти, используемойдля программобработкиречевого сигнала(всего 10 Кбайт).Словарь системы 40 слов, которыемогут бытьорганизованы в командные фразы (5 словво фразе). Используетсядевять типовзапроса, примерами которых могутбыть: "оперативнаясводка выпуска","ресурсы смены","выходныехарактеристикиучастка первойнастройки"и т.п. Из-за жест-'ких ресурсовпамяти системаориентированана работу содним диктором,сформировавшимсвои эталоны и имеющим свойпароль. Работасистемы в помещениимашинного залас уровнем шумов68-75 дБ показаланадежностьраспознаванияфраз, превышающуюУ0%, а после переспроса- более 9Ь%. Недостаточнаянадежностьраспознаванияс первого^^произнесенияобусловлена в основномупрощениямиалгоритма распознавания, на которыепришлось пойтиради экономии'местаи оперативнойпамяти. Аппаратурно-программноенаправлениепредставленотакже системой [33] , которая напервом уровнераспознаванияобнаруживалав словах сегментыи классифицировалаих по способуобразованиязвуков на гласные,щелевые, аффрикаты, дрожащие , атакже глухиеи звонкие. На втором этапенекоторые звукиклассифицировалисьвнутри даннойгруппы по местуих образования.В результатекаждому сегментуприсваиваласьКодоваяпоследовательность,занимающаяI байт. Четырестарших разрядаэтого кодауказывалигрупповуюпринадлежностьданного звука,четыре младших разряда определялитип звука внутриданной группы. Для распознаванияслов образуетсяэлементарнаяпоследовательностьпсевдослогов,сравнивающаяся с эталонамипоследовательности.При экспериментальнойпроверке работысистема распознаванияна материале50 и 200 слов с участиемтрех дикторовона показала93 и 84% точностираспознаваниясоответственно.Анализ ошибок показал, что в большейчасти они вызвалинеправильнымиформированиямисегментовконтрольнойреализацииили эталонов,возникающими при срабатываниисистемы доначала произнесенияот постороннихшумов или шумовдыхания. Интерес к построениисистем распознаванияречи, работающихс множествомдикторов,сталипроявяять и исследователи, тради- 19 ционно работавшие с одним диктором.Т.К.Винцюк исоавторы [21]показали, что в рамках существующейоднодикторнойсистемы фонемногораспознаванияречи может бытьсоздана многодикторнаясистема распознавания,которую авторыназваликооперативной,посколькусистема предварительнообучается по выборке кооперативадикторов. Основныерезультатыэкспериментов: при индивидуальномобучении системыраспознаванияречи средняянадежностьраспознавания по чужим дикторамне превышает80% (насловаре из 100слов); - при кооперативномобучении средняянадежность распознаваниядля четырехчленов кооперативасоставляем98^, что вполнеприемлемо для практическогоиспользования; - кооперативноеобучение способствуетсущественному превышениюнадежностираспознаванияречи лиц, неучаствовавшихв полученииобучающейвыборки (длядвух новыхдикторов средняя надежностьраспознавания97 и 92%). S 1.3. Развитиесистем распознавания/пониманияслитной речи Задача общениячеловека и ЭВМ с помощьюестественной,слитнойречи оказаласьгораздо болеесложной, чемпостроение систем распознаванияизолированныхслов. Одной из первых практическихсистем распознаванияпоследовательностислитных словосочетаний(пять слов исходногословаря) явиласьсистема фирмыKdC .описаннаяранее. В дальнейшембудем различатьсистемы распознавания*и системыпониманияслитной речи.В первых, какправило, рассматриваютсяфразы, составленные из последовательностислов, междукоторымисинтаксическаяи семантическаясвязь либоотсутствует,либослишком жесткая(используетсяавтономнаяграмматика).Системыпонимания, в отличие отсистем распознавания,при декодированиивходного высказыванияиспользуютвысшие лингвистические уровни языков,близкие к естественным,работая с фразами, в которыхдопустимыстилистическиеошибки, бессмысленныезвуковые сочетания,произвольныепаузы и междометия. При построении систем пониманияречи необходимов большей степени, чем при созданиисистем распознаванияслитной речи,использоватьопыт специалистов по искусственному интеллекту,а также привлекатьспециальныезнания о синтаксисе, семантике ипрагматикеязыка общения. В то же времяотметим, чтоделение насистемы автоматическогораспознаванияи понимания является 20 достаточноусловным ифактическиопределяетсякоэффициентомветвления,который показывает,сколько возможныхслов допускаетсяпосле каждогослова высказывания.В современныхсистемах распознаванияслитной речисредний коэффициент не превышает,как правило, 30 (всистеме Nac-ISQ), а в системах понимания этот коэффициентдостигает200-300 (бессмысленныезвукосочетания типа цмм ... , эээ ... ит.д., а также паузыи междометия можно рассматривать в СПР как возможныеварианты слов). Так какавтоматическоераспознавание300 - 300 слов в непрерывномречевом потоке- сложная задача,веди использовать обычные математическиеметоды распознавания, то для ее решения и привлекаютсявысшие уровнизнания о языке(синтаксис, сематика ипрагматика), а также другиеспособы, обеспечивающие сужение числаальтернатив на каждом шагепринятия решения о слове, используемыеобычно в задачахискусственногоинтеллекта(ИИ). В связи с этим в системахпониманияговорят осемантическойточностираспознаваниясмысла фразы,когда не всесоставляющие(слова) могутбыть распознаныправильно. Перейдем к рассмотрениюсистем распознаванияслитной речи.Как правило,такие системыработают по принципу фонемногораспознавания, от точностикоторого зависитобщая надежность работы системы.Одной из наиболееинтересныхотечественных систем с обучениемна конкретногодиктора и словарьявляется система,построенная в ИнститутекибернетикиАН УССР им.В.М.Гяуи-кова[l9,20] , развитиемкоторой сталакооперативнаясистема распознаваниярвчи[213. В основу этойсистемы положенаматематическаямодель речевогосигнала, в которойкаждой фонеме соответствует полученныйалгоритмически(на основе анализатекущей автокорреляциисигнала, параметровлинейногопредсказанияи текущего энергетическогоспектра) определенныйнабор бинарныхпризнаков (двоичный код).Модель учитываеткоартикуляционнывэффекты, изменение длительностифонем и динамикуинтенсивностисигнала. МодельавтоматическогораспознаванияИнститутакибернетикиАН СССР используетанализ сигналапосредствомсинтеза. Некоторыйпроцеср порождает из элементарныхэталонныхсигналов поопределеннымправилам эталоннуюслитную речь(общий для всехслов алфавитэталонныхэлементовсодержит около80 элементовкодов). Распознаваниеслитной рччисводится к необходимостинахождениянаиболееправдоподобногоэталонногосигнала слитнойречи. 21 В этой моделиавтоматическинаходятсяграницы отдельныхфонем, паузы,тип и общееколичествофонем в распознаваемойпоследовательности о учетом априорнойвероятностичастоты встречаемостифонем. Эталонныйсигнал слитнойречи формируетсяиз эталонныхсигналов отдельныхслов путемнелинейногопреобразованияисходных словесныхэталонов. При этом эталонныесигналы словскладывались в эталоннуюслитную речьтак, что паузымежду словамиимели различнуюдлительность (в том чис/ie инулевую),адлительностьэлементов фразыизменяласьплавно. Параметрами грамматики,порождающейэталонныефразы, являлись:алфавит эталонныхэлементов,акустике-фонетическиетранскрипциислов, правила стыковки слов во фразе, правила нелинейнойдеформации сигналов вдольоси времении некоторыедругие параметры. Для экспериментов по распознаваниюслитной речи( словарь включал200 слов) былиполучены 1000реализацииэтих слов, произнесенныходним диктором(обучающаявыборка). Прииспытаниях система дала0,5% ошибок и 3% отказов при распознаваниислов в слитномпотоке. Расширениесловаря до 300слов увеличило количествоошибок до 1%,причем отказовбыло 3,5%. Приэкспериментахсо словарем из 100 слов удалосьполучить времяраспознавания (на ЭВМ БЭСМ-6),равное I с на I слово [193 • Отметим,что близкий к этому метод используется в системахраспознаванияслитной речи(СРСР), разработанных в Отделе вычислительной науки исследовательскогоцентра фирмы1УЫ. В связи стем, что даннаяфирна (так же,как и фирма Sperry Univac ) активно занимается исследованиямипо распознаваниюслитной речипосле завершенияпроекта arpa , рассмотримэти работыболее подробно. В С39] описанаСРСР, в основекоторой лежитмодель акустическогоканала, обеспечивающаяавтоматическоепорождение всех возможныхповерхностныхформ предполагаемоговысказывания совместно с вероятностямиих порождения.Это порождениеосуществляется с помощьюакустико-фонологическихправил (АФП).приложенныхк базовой цепочкевысказывания.АФП учитывают в слитной речитакие фонологическиеявления, какпропуски, вставкии замены отдельныхфонем внутрислов, повышенныйтон речи, диалектныеособенности,изменения настыках слови т.д. Удобнойструктуройдля выраженияповерхностныхфорд высказыванияявился направленныйграф, дуги которогопомечены возможнымизвуками. Каждомуузлу графасоответствуетраспределениевероятностей,указанных навыходящихдугах. Дуги наконцах графа,соответствующегосовокупностивсех поверхностныхформ произнесен- 22 ного слова,имеют связанные с начальнымии конечнымисостояни-яниусловия соединения,определяемыефонологическимиявлениями настыках слов. Язык системыопределяетсяавтоматнойграмматикой, представленнойграфом и включающей250 слов. Для распознавания использовалсялингвистическийдекодер-алгоритмпоследовательного декодирования,обеспечивающийнахождениепредложения о максимальнойапостериорнойвероятностью по последовательностицепочки фонем,поступающихс выхода специальногоакустическогопроцессора. Точностьдекодированиявысказываний на контрольнойвыборке составила(по данным на август 1977 г.) 95% при6% ошибочной интерпретации,которые быливызваны 0,6% ошибокнеправильного распознаванияслов. Следуетотметить, что рассматриваемая система быласияьно модифицирована за последниетри года: упрощен акустическийпроцессор, с которого бывисняты функциифонемной сегментации и маркировки.Сказалосьвозможным,используя алфавит из 33фонем, маркировать ими десятимиллисвкундныеотрезки речевогосигнала непосредственно по акустическимданным.Преимуществотакого представленияавторы работы [Ю5Д видят в том,что, во-первых,информация о звуке,распределеннаяпо длине фонем,оказывается более полезнойдля распознавания,так как приэтом возрастаетколичествоинформации,поступающейот акустическогопроцессора к лингвистическоудекодеру. Во-вторых, сегментацияи маркировка(принятие решения о звуке) разнесеныво времени, и лингвистическийдекодер может,основываясьна структуреотдельных слов,во время сравнениярешить, представляетли короткаямаркированнаяцепочкадесятимиллисекунцныхсегментовистинный звукили же это -ошибочнаяложная ставка. Дальнейшеесовершенствованиесантисенундногоакустическогопроцессора( asAJ ) за счет использования45 эталонныхфонетическихметок вместо33 позволилоповысить точностьклассификации(на языке со словарем из250 слов) до 98,8% наконтрольном материале 100предложений [l07] . Следует отметить, что еще болеесовершенныйпроцессор (wbap ), на которомполучены наилучшиерезультатыраспознавания(0% ошибок), используетлишь пять параметров,один из котррых- кратковременныеизменения общейэнергии сигнала, а четыре - отражаютпараметрыгласных и описаныранее в [l4l] . Этотпроцессоросуществляетакустическое сравнениенепосредственно,использучвеличины акустических параметров, а не фонетическиеметки, связанныес сантисекунднымиотрезками. Длякаждого словаиспользуетсямодель с конечным числом состояний,которая порождаетсяалгоритмическииз отображенного 23 произношения.Число состояниймодели равно длине этого произнесения в сантисекундах. В модели обеспечиваютсяпереходы изсостояния к этому же состоянию,к соседнемуи через одно.Скаждым переходомсвязано пятимерноегауссовскоераспределениев пространствепервичныхпараметров.Средние значения и дисперсии выходныхраспределений, а также переходныевероятности формируютсяавтоматически при обучениина дополнительныхреализациях слов при формированииобобщенныхэталонов спомощью алгоритма Вктер-би [39]. В процессореwbap используемаястатистикаоснована скореенаособенностислов, чем наособенности звуков. Следуетотметить, чтоза I976-I978 гг. предпринимались попытки увеличитьобъем используемогов СРСР фирмыIBh словаря до1000 слов (тезауруслазерных патентов).Предварительные результатыиспытаний этойсистемы описаны в [106} . На тестовоммножестве фраз,куда входило486 слов, ошибкараспознавания слов составила33,1%, причем ни одна из й0 контрольныхфраз не былаопределенаправильно -программараспознаванияделала ошибкухотя бы в одномслове каждойфразы. Развитиеэтой системы [107] позволило за счет увеличениячисла фонетическихметок до 52 снизитьошибки в распознаваниислов до 20%. В [108,109] рассмотреныдальнейшиеулучшения этойсистемы, позволившиеуменьшить числоошибок при распознаваниислов за счетиспользованияболее совершенногосантисекундного акустическогопроцессора сзар-зоо, в котором числоэталонных фонетическихметок былорасширено додвухсот. Прираспознавании 50 п"едл°жений,включающих980 слов, невернораспознано 87 слов, в числекоторых 34 слова,составившиеодносложныеслова типа "of", " а ", " are ","as" и др. Переход к работе этойсистемы с множествомдикторов описан в [l59]. Работа с новыми дикторамиреализована за счет использованияавтоматическойселекции акустическихэталонов,выполняющейсядвумя различнымиспособами.Одиниз методов, в основе котороголежит процедураВитерби С 39],реализован с помощьюсантисекундногоакустического процессораTPIVIAI [l07], а другой,основанный на алгоритме кластеризации,используетакустическийпроцессорautociust. (В первом методеиспользовалось85 эталонов, вовтором - 20D.) Точность распознаванияслов составила при использованиипервого алгоритма65%, а второго -90%. В 1983 г. была публикацияодной фирмы о распознаваниисловаря деловойпереписки общимобъемом 5000 слов. Над проблемамираспознаванияслитной речипродолжает работать фирма Sperry Univas, участвовавшаяв проекте АЙРА.Эта 24 фирма разработалас"стему автоматическогораспозньванияслов,словосочетаний и естественныхпредложений{l74] . На основеспектральногоанализа и линейногопредсказанияв спектральной об-дасти звукиклассифицировались по способу иместу образования.Система былаиспытана насловаре из 31слова двумя дикторами.Точностьраспознаванияизолированныхслов при использованиисинтаксисазадачи составила95%. Предварительныерезультатыпо распознаваниюслитной последовательностислов, произносимые тремя дикторами,составили от54 до 74% для задачис ограничечным порядком следованияслов. Предполагалось, что в дальнейшем будут использованыакустико-фонетичзские и фонологические правила, нормализациядикторскихпроизношений,просодическиехарактеристикиречи. Предполагалосьтакже, что будутиспользованы более сложныепроцедуры для синтаксическогои семантического анализа. В1977 г. системаработала с двумя словарями- из 36 (алфавит-но-цифровойсловарь) и 64 слов(словарь речевогоуправления)[123, 153] . Для обоихсловарей точностьраспознаваниясоставила 95^, а среднейточностираспознаванияслитялс словосочетаний- 88%.Дальнейшиеразработкивключали расширениесловарногосостава системы,числа типовпредложений,использованиеправил фонетическойи словеснойверификации. В [l54] сообщается,что системаSperry Univac. была модернизированадля поиска иверификацииключевых словв потоке слитнойречи. В этойсистеме использовалисьизмеряемыена деся-тимиллисекундныхинтервалахпараметрыречевого сигнала, проведшегочерез телефонныйканал. Исследователямибыл выбран достаточномощный наборпараметров-Непосредственно по речевой волне определиласьчастота основноготона. Спектральныйанализ с помощьюбыстрогопреобраэозанияФурье (БПД) позволялполучить следующиепризнаки речевыхотрезков: общую энергию в полосе100 -8600 Гц, энергиюсонорных (100 - 3000Гц), высокочастотную энергию сонорных(650 - 3000 Гц), низкочастотнуюэнергию (JOO - 600 Гц),разность энергийнизких и высокихчастот Системасодержит компоненты просодическогои фонетическогоанализа, которыеобеспечиваютпоследующеесегментноеструктурированиевысказывания(получениецепочки кваэифонетическюссегментов) Зак.480 26 для лексическогосравнения.Сравнениеосуществляетсяс помощью блоковсловесногогипотезирования и верификации. Верификацияслов производится методом динамическогопрограммирования. При построениисистемы обнаруженияключевых словбыла использованаобучающаявыборка - разговорнаяречь, продолжительностью13 мин. Предложенияпроизносили8 дикторов.Контрольная выборка составлялаII мин разговорнойречи 10 дикторов(из которыхдвое участвовали в обучении). При контрольномэкспериментеточность обнаружения10 ключевых слов была невысока,но все же испытанияследует считатьобнадеживающими.В [124] отмечается,что в течение1978 г. отдел речевойсвязи Jperry nnivac работал над созданиемболее совершенногоблока фонетическогоанализа, которыйфактическистал лексически-управляемымфонетическимверификатором(а не автономнымфонетическиманализатором,как раньше),что лучше учитываеткоартакуля-циокныеэффекты внутрислова. Модернизациясчстемы позволила[I55J получить болееудовлетворительныерезультатыпо обнаружениюи верификацииключевых слов в потоке слитнойречи. На тестовыхпредложениях (16,7 мин разговорнойречи 14 дикторов,не принимавших участия в обучениисистемы) ключевыеслова былиобнаруженыв 30% случаев. В [l87] описанасистема распознаванияслитно произносимыхцифр, разработаннаяфирмой Bell laboratories.Систэма состоитиз двух взаимодействующихблоков. Первыйосуществляет пословнуюсегментациювсего высказывания на отдельныецифры, а второйпроизводитраспознаваниеэтих цифр порезультатамсегментации. При распознаваниииспользовалисьпризнаки сеп/^нтовречевого сигнала: р - параметр,логарифм анергии,кооффициентылинейногопредсказания и ошибка предсказания.и коэффициентаавтокорреляции.Дляпословнойсегментациислитных словосочетанийучитывалосьто обстоятельство, что для этогоконкретногословаря (английские названия цифр)шумные участки и паузы (глухиесмычки) могли находиться только в началеили конце слов.&ти участкии являлись в основном опорнымиграницами междусловами. Точностьпословной сегментациисоставляла99% (при произнесениисловосочетаний как в тихойкомнате, так и в условияхмашинногозала). Точность распознаваниясловосочетаний(названий семизначныхтелефонных номеров) составила91% для10 дикторов (5 мужчини 5 женщин), произносившихфразы в тихойкомнате, и QT%для тех же дикторов, находившихся а машиннойзале. В [149] отмечается,что полученыобнадеживающиерезультатыпо распознаваниюслитной речи,использующейсловарь в 1й*7слов, аналогичныйсловарю [ 147,148] .Дальнейшееразвитие этихсистем описанов [156,1693. 26 СистемаHearsay-П создавалась на базе разработанныхранее системраспознаванияслитной речи Dragon и Hearsay-I.Аналогично Hearsay-I главнымпринципомHearsay-д было выдвижениегипотезы (озвуке, слове,фразе) и ее подтверждениес помощью всехвозможныхисточниковзнаний (ИЗ) оречевом сигнале. Описаниявысказываний,которые должныанализироватьсяв этой системепонимания речи,имеют унифицированнуютрехмерную структуру,причем размерностямиявляются: уровнипредставления(акустический,фонетический,слоговой,лексический,синтаксическийи семантический),время и вероятностныеальтернативы (на каждом уровне для каждоговременногоотрезка). Ьта структура содержится в памяти системыкак единаяинформационнаябаза (ВИБ),подвергающаясяисследованиям и модификациям с помощью различныхпрограмм, реализующихввод в системунеобходимых источниковзнаний. Работа комплексапрограммы на единой информационной базе (которуюназывают "класснойдоской") и естьинтерпретация слитно произнесенноговысказывания на различных лингвистическихуровнях - отфонетического до семантического. Общая информационнаяпамять, построеннаякак единая многоуровневаяинформационнаяструктура с внутреннимисвязями, представлена в системе Hearsay-П в виде графа.Основная единицаэтой информационнойструктуры -узел графа,являющийсягипотезой о существованиив высказываниинекоего частичногоэлемента. Структурныеотношения между узламиграфа (гипотезами)представляютсядугами графа,обозначающегосвязи. Существуетдва наиболееважных типаструктурныхотношений -"последовательностьэлементов"и "выбор элементов". Последовательность- это структурноеотношение, означающее,что гипотеза верхнего уровняподдерживается"юследовательныырядом гипотез на нижнем уровне(например, словопредставляетсяпоследовательностьюнепересекающихся во время звуковречи). Выбор- отношение,определяющеегипотезойальтернативную поддержку отдвух и болеегипотез , причемкаждая от нихсущественноперекрывает тот же временнойотрезок (т.е.,например, гипотезой,допускающей на данном временноминтерваленесколько различных словпримерно одинаковойфонетическойструктуры). Распространениеидеи "выдвижениегипотезы - ее подтверждение" на все уровнизнаний о речевомсигнале требуеторганизациисистемы передачиинформациимежду уровнями. В связи б двумявидами, структурныхотношений междуузлами графаможно рассматривать и два типа гипотез- горизонтальныеи вертикальные, подт- 27 верхдаемыесоответствующимиисточникамизнаний. Гипотезасчитаетсягоризонтальной, если источникзнаний используетконтекстуальнуюинформацию на данном уровнедля подтверждениягипотезы тогохе уровня.Вертикальнаягипотеза определяется как гипотеза,требующая для своегоподтвержденияинформации,получаемой источникамизнаний надругих уровнях. Основнаяфункция источниковзнаний - устранитьошибки, возникающие при обработкеслитной речи.При этом источники знаний должнывовремя добавитькакую-то новуюинформацию,внести что-тополезное для более надежногораспознавания.Источники знаний должныуметь распределятьэти знаниячерез механизм выработкигипотез, оцениватьцобавку от других источниковзнаний,т.е.подтверждать иди отвергатьгипотезы, сделанныедругими источникамизнаний. Источникизнаний необходимосоздавать таким образом, чтобыих можнобыло приспособить к новым участкам анализа высказывания и вообще к новымзадачам автоматическогопониманияслитной речи. Для нормальнойработы СПРНвагаау-11 необходимореализовать: 1) достаточнообщую, структурно-полнуюинформационнуюбазу, анализируякоторую, источникизнаний могут вводить новыегипотезы,' проверятьи изменятьгипотезы, размещенныев этой базедругими источникамизнаний; 2) средствадля описанияразнообразныхисточников знаний и обеспеченияих внутреннейобрабатывающейспособности; 3) возможностьуправлятьдействиямиисточниковзнаний ин-фовмационко-направленнымспособом (необходимспособ, с помощьюкоторого определяетсяряд предварительныхусловий, запускающихнеобходимыйисточник знаний);. 4) признаки, по которымобнаруживаетсяудовлетворениеэтих условий и локализуетсячасть информационнойбазы, в которойзаинтересованысоответствующиеисточникизнаний. Для реализациип.4 необходимыдва механизма:мониторныйруководящиймеханизм,обнаруживающийизменение общейинформационнойбазы и оценивающийприроду этихизменений, иассоциативный механизм повторныхиспытаний и восстановлениячастей информационнойбазы, когда этонеобходимо.Таковы самыеобщие сведения о Hearsay-П. Переедем к более детальномурассмотрениюэтой системы. Параметрическоепредставлениевысказыванияв Неагвау-Псводится к использованиюдвухступенчатойсистемы признаков. Несмотря на то, чтов последнеевремя большоевнимание уделяется 28 точным методамнахожденияпараметровречеобраэующеготракта (в частности,с помощью линейногопредсказания),неапау-11 используетсялишь на второмэтапе. Но преждечем использоватькоэффициентылинейногопредсказания,авторы Неагвау-Пполучают гораздоболее простыеи дешевые обобщенныепараметры,которые назвали параметрамиzapbash (Zero Orosetng and PeaHs atDifferenced and Smooth Vaweform). Эти параметрыобеспечиваютгрубую сегментациюречевого потокапо способуобразованиязвуков, т.е.обеспечиваютсегментациюи маркировкуI уровня. Послелокализациив высказываниифонетическихэлементовприменяютсегментациюи маркировкуП уровня, основаннуюна использовании коэффициентовлинейногопредсказания,обеспечивающегоболее точнуюидентификациюсегментов. zapdash - параметрыречевого сигнала,определяющие интегральныехарактеристикизвуков в низкочастотном(1 кГц) диапазонах.Эти параметрывыделяютсяв реальноммасштабе временииз сигнале,поступающегос АЦП в мини-ЭВМ,которая обладаетсредним быстродействием600 тыс. операцийв I с. Параметры(число нулевыхпересеченийи амплитудноезначение сигналана интервалеанализа длякаждого издиапазонов)формируютсяпрограммно,и их значениядают возможностьгрубо классифицироватьсегменты на10 различныхтипов - пауэы(глухая смычка),наличие звонкойсмычки, характеризующиезвонкие взрывныеб, д,г, сонорныйсогласный,глухой фрикативный(переднеязычный или заднеязычный),носовой, свистящий,гласный высокогоиди низкогоподъема. В дальнейшемпроизводитсяпере классификациясегментов на59 классов, некоторыеиз нихпересекаютсяв пространствепризнаков. На второйстадии к среднемуучастку сегментовприменяютсравнение сэталонами (этихэталонов длякаждого класса сегментовможет быть до100). При сравнениисредний участоксегмента по-ступившейна вход реализациисравниваетсяс множеством эталонов, которыеподучены отспециальнообученныхдикторов.ИспользованиесегментацииI уровня позволяет,как отмечается в [l79], ускоритьобщую сегментациюв пять раз посравнению с унифицированной,основанной.исключительнона коэффициентах линейногопредсказания. Как уже отмечалось,ключевой проблемойсистем пониманияРечи являетсяверификациясдоврсиькгипотез.подожданных различ-иымиисточникамизнаний. Блоксловеснойверификациидолжен оце-нвдь,насколькоакустическиеданные входнойреализации соответствуютфонетическойтранскрипциигипотезируеногослова. 2S В соответствии с оценкой,словесныйверификатор отбрасывает большее числегипотезированныхслов, сохраняявозможные пра~вильные, чтобывпоследствииотобрать единственноес помощью инфор~мации высшихуровней. В Hearsay -П словапорождаются либо словесным гипотезато-ромснизу вверх(блоком POMOW), либопреде называютсясверху внизсемантико-синтаксическимблоком sass . Блоксловесной верификацииwizard обрабатываетгипотезы о словах снизувверх, используяакустическуюинформацию и результатыавтоматическойсегментации.Каждый сегментвысказыванияпредставленвектором фонемныхвероятностей(т.е. с каждымотрезком высказывания связываютсяопределенныезвуки, которымприсваиваютсянекие веса),Каждое словословаря записываетсяэталоннымграфом возможных фонетическихпроизнесений,учитывающим все альтернативныевариантыпроизнесений.Однороднаямодель, используемаяблоком словеснойверификации,дает возможностьнайти оптимальноесовпадениеодного из эталонов(соответствующеепути на одномиз эталонныхграфов) и участкавходной реализации,соответствующегослову. В системе Hearsay-П при словеснойверификациистыки междусловами не рассматриваются,делается лишьих внутренняя обработка.wizard пытаетсяверифицироватьслова, как будтоони находятся в изоляции. При верификациислова обрабатываютсяснизу вверхследующимобразом: предсказанныемоменты начала и конца словасвязываютсяс соответствующимисегментамивысказыванияbseg и eseg. Исследуются все пути в эталонныхграфах возможныхслов, которые совпадают с отрезками ивходной реализацией.Сравниваютсяс эталонамиотрезки, которыеначинаютсяв (baeg-I: beeg +I ) и заканчиваютсяв jeseg -I I eeeg +I(, т.е. параллельно рассматриваютсядевять возможныхучастковвысказывания, что приводитк девяти оптимальнымпутям на эталонных графах, из которых выбираетсятот. оценкикоторого наибольшие,или наиболеесоответствуютрассматриваемомуучастку. Сдвиг на один сегмент вправо иливлево позволяетизбегать ошибок при представлении входного,высказывания(акустическихданных) различнымиисточникамизнаний. В результатеблок словеснойверификацииможет изменятьвремя словесныхгипотез, а такжеих оценки. Следуетотметить, что если в проектахВШ (Speechlis и HWIM) идетнепосредственныйпереход отфонетическогоописания к словесному,то в Hearsay-П используетсяеще промежуточный,слоговый уровеньмежду словамии звуковымисегментами.Для поддержкисловесныхгипотез используются так называемыетиповые слоги,слоготипы (syltypes). Ццея слоготиповсводится ктому, что слоги,имеющие похожиесегменты (например"та", " па"), относятсяк одному типу.Никаких попытокразличать словас одинаковымислогами в Нвагвау-П не делается.Каждый слоготипхарактеризуетсяслоговым ядром,определяемымэвристическиприсвоеннымисегментнымиметками и положениеммаксимумаэнергии наотрезке. Длякаждого слоготипа гипотези-руютсяслова, в которыхвстречаетсяданный слог; многосложныеслова отбрасываются,если плохосогласовываютсяо последовательностьюслоготипов.Подробноеописание слоговогогипотезатораpokow содержитсяв С 1783. В Неагаау-Псодержитсяеще один гипотезатор- гипотеза-торсловесныхпоследовательностейwozeq. В сравнениисо стратегиейоднословных"островковнадежности"многословнаяпоследовательностьжелательнапо двум причинам: 1) доверие кгипотезе опоследовательностисдов болеевысоко, чем воднословнойгипотезе; Синтаксическийи семантическийисточникизнаний вНеагвау-ппредставляютсяблоком sass . Этотблок имеет делос гипотезами,представляющимислова, словосочетанияили фразы,воспринятыеили предложенные.Задача sass - найтинаиболееправдоподобноепредложениепо последовательностисмежных слов.Правдоподобиеопределяетсядостоверностьюсловесныхгипотез играмматическойправильностьюи осмысленностьюпредложения.Как уже отмечалось,в и«эаг-aay-il многочисленныеальтернативыпредставляютсяв общей информационнойбазе и обрабатываютсяпараллельнонезависимымиинформационнонаправляемымипрограммнымиблоками - модулямиисточниковзнаний, которыесоздают, проверяюти переписываютгипотезы овысказывании,запоминая ихна доске. Однаразмерностьдоски - уровеньпредставления,другая - время,третья - вероятностьправильностигипотезы, оцениваемаяв очках. С точкизрения sass общуюинформационнуюбазу ("класснуюдоску") можнорассматривать как схемугипотезированныхслов, порождаемыхразличными источникамизнаний. Вертикальныеизмерения - этоочки (в диапазоне- 100 * -» +100), оценивающиедостоверностьсловесныхгипотез. 31 30 Проблемы,стоящие передсемантико-синтаксическиы блоком -неопределенныйкомбинаторныйпоиск, слабое(например,предложениезаполнитьпробелы на временной осигипотезамио словах) и сильное(например, совсемотвергнутькакую-либогипотезу)вмешательство,необходимостьиспользоватьчастичнуюинформацию (частичныеграмматическиеконструкции),способностьдинамическименять своикритериидостоверности- общие проблемымногих большихсистем,основанных на информационномуправлении. Уффективноерешение этихпроблем,по-видимому,потребуетпостроениятакой системы, в которойпоследовательность процедурзаключительнойобработкичувствительнак различнымсотрудничающими конкурирующимотношенияммежду гипотезами,ато означает, что семантико-синтаксическаяобработкаоблегчаетсяна гипотезах,поддержанныходновременнонесколькимиисточникамизнаний, и задерживается на гипотезах,которые конкурируют,не согласуются с очень надежнойгипотезой.Задержка гипотезыдолжна быть достаточногибкой, недетерминистской,неокончательной,так как и слабаягипотеза при интерпретациивысказыванияможет оказатьсяверной. Гибкаязадержкаосуществляетсяв Hearsay- П механизмомфокусировкивнимания, который распределяетресурсы так,чтобы в первуюочередь рассмотретьнаиболее обещающиегипотезы. Синтаксические и семантическиезнания опроблемно-ориентированномязыке Hearsay-П выражаются в компактной,легко читаемойграмматике»которая задаетсяпараметрическимиструктурнымипредставлениями (PSR), являющимисямножествомпар типа "определение- объект". psr используютсядля определениякласса слови фраз, которыемогут выполнять синтаксические и семантическиефункциипроблемно-ориентированногоязыка, состоящегодля Hearsays И из простых вопросов. Например,psr: ($СЪА35: $QUEPY, $HAME: "PAPSEDQUEPY", 6 : $QinME + $flfHAT, El ТЕ L Ь+'$ ME + $ПЕ + ФТОПСЗ,6 » WHAT + HAPPENED + $ АЮТ AY, e s WHAT + ф BE + THE + $N EWS+tRE + ^TOPICS ЦСТЮМ t PASS, $LEV EL !300) определяеткласс возможныхвопросов втерминахих альтернативныхсинтаксическихреализации,аначок ® обозначаетпринадлежностьк классу. Каждаячлен класса- это последовательностьэталонов,составляющиекоторых, разделенныезнаком "+", слова или фразы. «разовыесосгааяяшеи»помечаютсязначком $ и определяются в 32 свою очередьдругими psr. faction passозначает, что реакция блокаЗАЗЗна распознаваниелюоого из пятиэталонов в классе должнатрактоватьсякак признаквопроса ( $query ) .»levelоцениваетотносительнуюзавершенностьчастичногограмматическогоразбора, лежащегов основе гипотезируемойфразы PSR: 6 : $CL ASS ! $TOPICS, ЈPL АСЕ, $FOOD, $TECHNOL ОСУ, $ С OVER NT.IE:IT, ФР01Т1Т1С, $PEOPL E, e ; $TOPICS + SCONJUN CTICOT + 3>TOPIGS, 6 :CACTIOH : PASS, LEVEL : 40) и определяеткласс возможныхпредметовразговора(.Topice) в терминахих семантическихподклассов. Как уже упоминалось,sass имеет наборсильных и слабыхсредств, представляющихразличные видыобработкиинформации на синтаксическоми семантическомуровнях. 1.Правилораспознаванияпорождаетгипотезу офразе по достаточнонадежным гипотезамо составляющихфразы. sass рассматриваетслова распознанными,если их оценки(в очках), определенныедругими источникамизнанчй, превышаютнекий порог.Составляющиефразы должнытакже удовлетворять некоторымструктурнымтребованиям- например, таким,как временнаясмежностьмежду составляющими.Правила распознавания ведут обработкуснизу вверх,двигаясь отчастичногограмматическогоразбора к полному.Они представляютсобой сильныесредства обработки(сила оцениваетсявероятностьютого, чтопоследовательностьраспознанныхсоставгчющихможет как-тоосмысленно интерпретироваться). 2. Правилапредсказания гипотезируютсио-во или фразув зависимостиот вероятностиконтекста,определенногона предыдущихэтапах распознаваниявысказывания.Правила предсказаниявыполняютобработку,перекрываявременнойин-Тврвая "островкаминадежности".Эти правиланеобходимы потому, чтоне все словав произнесенномвысказываниимогут бытьрас-чознаныснизу вверх,т.е. источникамизнаний нижних уровней. ^ияаправила предсказанияопределяетсяусловной вероятностьютого, что предсказанныесоставляющиемогут быть ввысказываниипри Денном (распознанномранее) контексте,ата сила обратнопропор-'тонаяьначислу составляющих,которыемогут появитьсяв этом контексте. Зак.480 3. Правилаповторногоразбора ( res-pelling rules) производятобработка7сверху внизи численнооцениваютсоставляющиепредскапаннойфразы, разбиваягипотезируемоепредложениена гипотезыдля последовательныхсоставляющих или же "расщепляя"гипотезируемыйкласс на альтернативные гипотезы дляразличныхсоставляющихвысказывания.Правила повторногоразбора (прочтения)проводят обработку,возвращаяськ словесномууров. ню, такчто предсказание(о фразе) верхнегоуровня можетбыть подвергнутоиспытанию(слово за словом)источникамизнаний нижнегоуровня, еслина верхнемуровне что-тоне сходится. 4. ПравилапостдикциинесЭходимыдля того, чтобыуже послесформированияпонятия подтвердитьего большимчислом "очковдоверия", датьему более высокуюоценку, подтвердивсуществующуюгипотезу офразе другимигипотезами. Правила постдикциикак более сильныевключают правилапредсказания и повторногопрочтения,которуе слишкомслабы, чтобы подтвердитьсоздание гипотезы,но могут внестиполезный вклад,когда гипотезауже существует.Правила постдикц^ивыполняют трифункции: а) позволяютобъединятьвыводы, поддерживающиеоцениваемуюгипотезу наоснове различныхисточниковзнаний; б) дают воамсвностьгилотеэирсватьслова и фразыс низкимипервоначальнымиоценками засчет ихраспознаванияна основе контекста» в) способствуютфокусированиювнимания наглавных направлениях,определяемыхвозрастаниемочков гипотезтех слов, которыеконтекстуальновозможны (итаким ооразоммогут считатьсяправильными),так что обработкавысказыванияв этих направленияхпроисходитпо списку приоритетовв первую очередь. Автоматическоепревращениеописательнойинформациио грамматикеязыка -Hearsay- П , заданнойпараметрическимиструктурнымипредставлениями( psr), в процедурнуюформу осуществляетком-пиллятор суытет , которыйтранслируетэти представленияв правилараспознавания,предсказания,повторногопрочтения и постдикции.cvshet разбиваетпоследовательностислов, составляющихвысказыванияи представленныхPSR, на пары последовательныхэталонов, формируяновые подпоследовательностии порождая длянихсоответствующиеправила [ 13Й 3 . Одна из самыхинтересныхсистем автоматическогораспознаванияслитной речи- система harfy,разработаннаяпо проекту arpa(США, Питсбург).Эта системапо сравнениюс другимиразработками,проводившимисяпо этому проекту[l5lj,наиболее близкак практическомуиспользованию.Словарь harpy составляет ЮН словоформ- слов телефонной информацион- 34 но-справочнойслужбы о новостях.При испытаниях harpy была полученаточностьраспознаванияфраз, равная95% на обучающейвыборке и 92^ наконтрольной.Система воспринимаетслитную речь,не содержащуюстилистическихошибок. В harpy информацияо языке представленафонетическимграфом - интегральнойсетью переходовс конечнымчислом состояний,не учитывающей априорныевероятностипереходов.Распознаваниеосуществляетсясравнениемвходной реализации,представленноймаркированнымисегментами, с этой сетью. Системасодержит несколькоэвристическихпроцедур дляулучшения еехарактеристик:выделениеподсетей исжатие их для уменьшенияобщего объемасети, автоматическоесоставлениеописаниякоартикуляционныхявленийна стыкахслов и т.д. Времяраспознаваниясистемы в периодиспытаниясоставляло2D с на 1 с речи(есть сведения,что в настоящеевремя оно сниженодо Зс на I с речи). Синтаксическиезначения вhahpy однозначноопределяютсянезависимымот контекстарядом выработанныхправил, формализующихпроолемно-ориентированныйязык. Лексическиезнания представленысловарем, которыйсодержитсимволическуюфонемную транскрипциювсех альтернативныхпроизнесений.Правила стыков,как и в системахIBM, учитываютфонетическиеявления присоединениислов в слитнопроизносимоесловосочетание.В качествепервичныхпараметровиспользуютсякоэффициентыавтокорреляциии линейногопредсказания.У системе Нларув процессеработы осуществляетсяадаптивнаяподстройкапод дикторас помощью десятиобобщенныхэталонов,характеризующихусредненныйвокальный трактгруппы дикторов.На базе harp? былразработанголосовой вводв картографическуюсистему ( vigs),позволяющийдублироватьклавиатурупри вводекартографическойинформации [l3l].B настоящеевремя системаharpy переводитсяна мультимикропроцессорнуюбазу [36]. перейдемк краткомуописанию систем"понимания"речи. Их разработканачалась послепоявленияотчета [161] , в которомизвестныеамериканскиеспециалистыв областиискусственногоинтеллекта,распознаванияречи, системногопрограммирования,математическойлингвистикиизложили взглядына проблему построениясистем, воспринимающихслитную речь,произносимуюна естественномязыке. Основныеположенияотчета [161] леглив основу пятилетнейпрограммы arpa. Достаточноподробныеобзоры по начальномуэтапу работ над системамипонимания речисодержатсяв [79,85] . Поэтому здесь рассмотримлишь итогипроекта arpa вобласти построения 35 конкретныхСПР. Можно считатьзаконченными(в большей илименьшей степени)системы пониманияречи трехамериканскихорганизаций-ОЫП, 3RI и ввн [179, 162,187, 189]. Основныеусилия c:,?J былинаправленына построениесистемы пониманияречи Неагаау-1"^основаннойна принципе: "Выдвижениегипотезы и ееподтверждениеразличныминезависимыми источникамизнаний о языке".Отдельныеэлементы этойсистемы подробноосвещены в [79, 85, 8b, I2U, 179]. СистемаПсагвву-п былаиспытана наIOU предложениях,составленныхиз IUH словоформ,аналогичныхсловарю системыharpy, описаннойранее (системаHARPY имела грамматикус гораздо болеепростым синтаксисом).Ошибки прираспознаваниифраз в Неагаау-псоставляди16%, а время распознаванияпревышало времяраспознаваниясистемы harfx в 2 -33 раз. В фирме венна I этапе разрабатываласьсистема пониманияречиSpeeohlis, в качествеязыка которойиспользовалсяупрощенныйвариант языкаИПС lunar; системаЬ^-паг давалавозможностьанализироватьобразцы лунныхпород[?9,Уб1Вдальнейшембыла усовершенствованаэтой же фирмойновая системапонимания речи нули (Hear what I mean ) С учетомнедостатковSpeechlia. .Язык системь.hwim относится^ области бухгалтерскихрасчетов. Вместораздельныхсинтаксическогои семантическогоблоков системыSpeechlis , нздш имеетединый, семантико-синтакси-ческиймодуль, реализующийтак называемыйблок "прагматическойграмматики".Эта грамматикапредставленаздесь в виде сети и основываетсяне на такихсинтаксическихкатегориях,как подлежащее,сказуемое,определение,ана семантических- "поездка","лиад", "расстояние".Словарь itvim включает1100 словоформ [185, I8yJ Прагматическаяграмматика,хотя и жесткосвязана с проблемно-ориентированнымязыком, оченьудобна длкобеспеченляпростых принциповиспользованиясинтаксических,семантическихи прагматическихограниченийязыка, которыенеобходимоделать дляповышенияточностиинтерпретациивысказывания.По-видимому,наперво» этапепостроенияавтоматическихсистем пониманияречи целесообразнотак и поступать,т.е. разделитьзадачи использованиясловарями(например, приавтоматическоммашинном переводе текстов) ииспользованиемсинтаксисаи семантикидля построенияСПР. dc ьторомслучае задачанесколько иная- и более сложная,и боле( простая.С одной стороны,нет уверенностив правильномраспоэ наваниивсех составляющихвысказывания;неясно, существуют я' 36 вообще пробелы(паузы, междометияи т.д.) на временнойоси,где искатьключевые словаи пр. Но с другойстороны, мыограничиваемсядостаточнопростымпроблемно-ориентированнымязыком с относительнонебольшимсловарем и упрощеннымиграмматическимиконструкциями. В системе нто,1 акустическаяинформацияиспользуетсяблокамиакустико-фонетическогораспознавания( apr) и периметри-чеокойверификациислов ( ?та ). Результатомработы APR являетсяфонетическаятранскрипция"снизу-вверх". Блок pvw осуществляетверификацию"сверху-вниз",води словеснаягипотезаподдерживаетсяакустическимуровнем. Основнойпрограммный модуль верификатора- программасинтеза слов по правилам. Отдичиесистемы h.'.'im отSpeechlia заключаетсятакже и в характереакустико-фонетическогораспознавания- в наличии усистемы HWIM блокаселективноймодификации( зМ), дающего возможностьреализоватьдвухступенчатуюсегментацию и маркировку.Программа SM на выходе порождаетрешетку сегментов,представляющуювозможныеальтернативыфонам. Каждыйиз сегментов первоначальномаркируетсяодной меткой.Затем в зависимостиот этой предварительнойклассификациивычисляютсянекоторыевеличиныаку-отичаскихпараметрови модифицируютсяоценки данныхфонем. Функциипяотностивероятностей,используемыеблоком сеяективной модификации sM, поступают в бяок агер (Acoustic Rionetic Experiments Facility ), которыйсодержит модули,позволяющиемоделировать звуки речи ипроверятьпараметрические многомерныераспределениявероятностей для ряда фонетическихклассов, чтодает возможностьполнее использоватьмногие независимые параметрыодновременно. Программа ан? выделяет не только грубыеклассы фонем,но и производитидентификациювнутри классов. Характеристикифонам в слитнойречи сильнозависят от контекста, т.е.наблюдается наличие несколькихаллофонов, длякоторых оценки сильно перекрываются.Поэтому в hv/im длякаждого классафонем устанавливается ряд фонетическихпризнаков ииспользуется таблица, в которойпоказано ранжированиеэтих признаковдля аллофоновкаждого класса. После сегментациивысказывания и построения сегментнойрешетки, перекрывающейвысказывайтеотрезками, соответствующимифонемам, блокуправлениявызывает процедурулексического поиска длясканированиявдоль всейсегментнойрешетки и поискаIb наиболееподходящихслов. Из-за большойнеопределенностина стыках 37 слов эту процедурупроделываютслева направои справа налево.Сяова, отобранныепроцедуройлексическогопоиска, образуют словеснуюрешетку, где они используютсяпри последующейобработке. Блокуправления, выбрав из УОотобранныхпри сканировании слов одно с наибольшимвесом (получившеенаибольшуюоценку).пытается,основываясь на прагматическойграмматике,строить гипотезу о большем отрезкесигнала. Еслирасширениегипотезы не получается,блок управленияберет следующее(по вес^) слово словеснойрешетки; если это слово подходит,то расширяютдвухсловную гипотезу, еслиже нет, то подбираютновое ключевоеслово.так продолжают до тех пор, пока не будет построенагипотеза обо всем высказывании. Если система не в состояниисформироватьправильную гипотезу о фразе или еслиисчерпаныресурсы, тосчитается,что система не смогла интерпретироватьвысказывание.При расширениигипотезы блокуправлениявызываетсинтаксическуюкомпоненту, которая даетвозможностьоценить гипотезуи предсказать новые слова.Синтаксическаякомпонентапомечает каждоеслово словеснойрешетки, котороеможно использовать для расширения гипотезь', иустанавливает, какие еще словатребуются для подтвержденияэтой гипотезы("подсказка"сверху). В связи с последним могут бытьпроизведеныдополнительныесравнения с эталонами для проверки, нетли в текущейреализациивысказываниянеобходимыхслов. После того, как синтаксическаякомпонента("прагматическаяграмматика")сделала своипредположенияслов слеванаправо, онавызывает процедурулексическогопоиска дляпроверки новыхгипотез о словах.Оценки слов,оценки гипотез об отрезкахфразы и оценкифраз ("событий", как их называютразработчикиWi'iu ) влияют на общую стратегиюинтерпретациивысказывания.Событиям присваиваютсяочки, приблизительноравные суммеочков слов подтвержденнойгипотезы и слов, требуемыхдля расширенияэтой гипотезы, Попробуемрассмотретьпример, из которогостанет ясно,как работаетмеханизманализа предположения,основанныйна так называемой"островковойстратегии".Пусть на входсистемы поступилафраза: "What Is the total budget figure ?"(Каковаобщая суммабюджета?). Припросмотре фразысправа налевопроцедура лексическогопоиска формируеттаблицу: 17 17 24 22 11 182 178 174 -38 -10 -R -d -R 1.FIGURE 2.FIGURE 3.TOTAL 38 4. FIGURE1723169-535. YEAR2023107-23б.УСУ2022100-317. IS3596-318. ABOVE10149409.BUDGET111781-1610. IT6880-1611. IS2576-3112, ТО7973-4613^WOULD0372-3114. -34572015, FIGURE172169-38Слеванаправо16. TOTAL -ED71?1971017. FIGURE1724182018. WHAT03178019. PIOURE1722178-3820.TOTAL711174-1021, FIGURE1723169-5322. HJDGET1117154-1623.VKAH2023107-2324. YOU2022100-3125. IS3596-3126. FIGURE -ED172389-3827. FIGURE172883028. BUDGET111781-1629. IT6880-1630.HIS2576-31 Список представляет30 возможныхслов при сканированиисправа и слева,позиции правойи левой конечныхсегментов слова, очков,которые получилоданное слово при сравнении эталонов сучасткамивходной реализации на местах междуначальной иконечной точкамигипотезируемогослова, логарифмавероятности произнесенияданного слова.Список можетописывать некиеспецифическиесвойства, связанные с произношением(здесь всюдупропуски - -), атакже показывать,справа или слева производилось сравнение сэталоном (здесьпоказателиR и L). Анализ спискагипотезируемыхслов показывает, что большевсего очковнабрало слово totaled (при сканировании слева направо).Бто слово занимает в словеснойрешетке позициюот сегмента 7 до сегмента12 и имеет вес197. Для этого слова соа- 39 дается однословнаягипотеза, которуюдолжна расширить синтаксическаяпроцедура. Но прагматическаяграмматикане позволяетформироватьфразу с этимсловом в прошедшемвремени. Следовательно,никакого предсказания о возможномконтексте сэтим словомсделано Сыть не может. Следуетперейти к следующему(по оцен. не в очках) слову figure . Отметим, что существует семь различныхсравнений с этим словомпримерно в гомже месте высказывания,немного отличающихсяочками.(Этообъясняется различнымифонологическимиэффектами на концах слова, возможностямиразличнойсегментации в сегментнойрешетке и различными возможнымипроизнесениямиэтого слова,отраженнымив эталонномфонетическомграфе; в кашемслучае всесвязано с неопределенностямисегментацииэтого слова в конце.) Вообщеговоря, то, что одно слововстречается в списке вероятныхкандидатовнесколько раз, является хорошим признакомтого, что этослово действительноприсутствует в высказывании, Чтобы избежатьизбыточнойобработки,авторы вводят понятие "нечеткогословесногосравнения",которое обобщаетсравнение сэталоном одного и того же слова,появившегосяпримерно в томже месте. Всегда, когда слово-кандидатподобно figure встречалосьнесколько раз,при расширениигипотезы используются нечеткие границы.Итак, для словаfigure предлагаетсярасширитьгипотезу. При обработке предложенного слова (с примерно известнымиграницами) процедураSyntax подбирает слово виос-зт, заканчивающееся позицией 17. Впрагматическойграмматикеhwim слово budget можетиспользоваться лишь в словосочетанииbudget figure и, так какэто словосочетаниенаходится вконце предложения,никаких словсправа больше не будет. Блокуправления используетдалее найденноесловосочетание в качестве расширенного"островканадежности"для поиска слов от позиции IIдо началавысказывания. Обращаясь к синтаксическойпроцедуре, блокуправления обнаруживает, что прагматическаяграмматикадопускает ещенесколько слов, кроме слов изсписка, рассмотренногоранее, для расширенияэтой гипотезы. 9то связано стем, что служебныеслова,которыемогут стоятьперед словосочетаниемbudget. figure , имеют слишкомнебольшой вес(очки). В результатесравнения сегментов,расположенныхслева от словаbudget , и эталоновслов, допускаемыхпрагматическойграмматикой,получают новыйсписок, расширяющийпредыдущий(в списке остаютсялишь слова,оценки которыхпревышают 40 33. OF 10 11 4 , - 16 - - Н 34. А 10 11 4 - 16 - - R 35. THE 911 -105 - 16 - - R 36. THE 9 11 -105 - 16 - - R 37. OUR 10 11 -123 - 31 - - R 3°. THE 9 11 -135 - 16 - - R 39. - S 10 11 -140 0 - - R 40. ANO 9 11 -163 - 26 - - R 41. OUR 911 -169 - 46 - - R 42. ME 9 11 -189 - 46 - - R Каждое изэтих слов можетрасширитьгипотезу budgetfigure слева. Посмотрим,что выберетблок управления.Наиболее подходящим(см. позиции 3и ЯО) оказываетсяслово total ,котороеиспользуетсялишь с определеннымартиклем THE. Таким образом, -удалосьобъединитьуже четыреслова THE TOTAL budget figure, длякоторых синтаксическаяпроцедура всловеснойрешетке отмечаетслова "is" и "s ", найденныепри первоначальномсканировании( - s- укороченныйглагол-связка,допускаемыйправиламипроизношения).Синтаксис такжепредлагаети некоторыедругие слова,но их оценки(очки) меньше100, тогда как is имеет вео 96 (см.позицию 7). Поэтомупереходим кновой гипотезеIS the total budget figure и пытаемсяее расширить.При расширениигипотезысинтаксическаяпроцедура"подсказывает"слова what и но'.'?ыасн. Процедуралексическогопоиска выбираетдля начальногоучастка высказыванияслово v/hat с оценкой176 очков и формируетокончательнуюгипотезу what IS thetotal budget figure. Процедура"синтаксис"производитв заключениеполный грамматическийразбор этойфразы. Описанная"островковая"стратегияинтерпретации высказыванияодна из нескольких,реализованныхв системе hwim .Другие стратегиииспользуютсловеснуюверификациюна параметрическомУровне, предсказаниеслов на уровнедиалога, просодическуюинформациюи т.д. Испытаниесистемы hwim производилосьна двух словарях:из 409 и 1097 словоформ,124 предложенияпроизносилитрое дикторов""ужчин. Точностьинтерпретациивысказываниясоставила 52% впервом случаеи 44% во втором.Процент высказываний,близких кпра-видьным,составил 23 и20% соответственно. Основноеотличие системыVDMS (Voioe-Controlled Date Manage-roent Sis.) от ранеерассмотренныхСПР Speeohlis.HWIM и Неаг-^-И заключаетсяв тим, что в ееоснове лежитсинтаксис спон- Зак.480 41 тайногоанглийскогодиалога [182] ; этопозволяет использоватьпри общении с системойсильно "усеченные"эллиптические выражения СПР.Система vdms используетпроблемно-ориентированныйязщ доступа к информационно-поисковойсистеме данныхо подводномфаоте США,Великобританиии СССР. Общийсловарь языка составлял 450слое. Системаимела возможностьзапонинатьинформациюо ранее произнесенныхфразах и декодироватьтекущие, имеярезультатырас познавания предыдущихвысказываний.В системе vdms при интерпретациипредложенийнаиболее полноиспользованаидеология искусственногоинтеллекта. Общая структураvdms включает триосновь-ле компоненты: 1) акустико-фонетическийпроцессор, врезультате работы которогоформируетсямассив данных,содержащихинформациюо фонетическомстроении высказывания(А-матрица); 2) процедурулексическогосравнения,которая производитсравненияпредсказываемыхслов, опираясь на слоговойуровень и используяакустико-фонологическиеправила; 3) лингвистическийпроцессор,который содержитблок грамматическогоразбора (парсер) и управляющийблок диалоговогоуровня (discourse levelcontroller )> вктоочающиймодель пользова-теяя и семантическуюпамять. Экспериментыс vdms показали,что речевойсигнал ограничивается по полосе начастоте 9 кГци поступаетна 12-разрядныйаналого-цифровойпреобразователь,где квантуетсяс частотой 30кГц. Затеиоцифрованнаяречь проходит через ЦАП ирезультирующая аналоговаяречь поступает на три полосовыхфильтра, имеющихполосы пропусканияI&0 - 190, 990 - 2200 и 8000 - 5000 Гц. Черезинтервалы в 10 мс с фильтровснимались двапараметра - максимальнаяамплитуда и число нулевыхпересечений.Полученныешесть параметров использовались для грубойакустической маркировкикаждогодесятимиллисекувдногоотрезка. Как толькослово поступает в систему,формируется и хранится в памяти информахцжо нем, в частности,отмечается,сколько высказыванийтому назад этослово былопроизнесенои былс ли оноиспользовано,наскольковероятно, что это слово повторитсяеще раз. В системеучтено, чторазличныеконтекстныеслова предсказанныетематическойпамятью, "стареют"от высказывания ч высказываниии вероятностиих использованияуменьшаются. Вел* вероятностьпредсказанногослова Падаетниже заданного нaпepe^ порога, то это словокакое-то времяне рассматривается.Всеэт' в vdms выполняетблок диалоговогоуровня Discourse , являющийсянаиболее оригинальнымблоком системы.Процедуры, которые 42 реализуетDiscourse, основанына изучении,диаюгамежду двумялюдьми, совместновыполняющиминекоторуюработу. Ьылонайдено иДосмаяизовановлияние контекстана характердиалога,причемрассматриваютсядва вида контекстноговлияния. Глобальныйконтекст обеспечиваетодин вид ограниченийпри интерпретациивысказывания.Эти ограниченияиспользуютсяпри идентификациигруппы существительных.Второй видограниченийсвязан с текущимконтекстомсоседнихвысказываний.Они используютсяпри интерпретации сокращенных,эллиптическихвыражений и,в частности,добавляютдополнительныефрагменты ксокращенномувысказыванию.В качествепримера высказывания,которое можетвоспринятьсистема VDl'iS , ыож"но привеститакое: "Напечатайтетипы подводныхлодок, на которыхбольше семиракет". СПР vdms - spi построенана базепроблемно-ориентированногоязыка,доступногоинформационно-поисковойсистеме данныхо подводномфлоте США,Великобританиии СССР. Общийсловарь системысоставляет450 слов [ 182] , Системаиспользуетсинтаксис спонтанногоанглийскогодиалога, чтопозволяетзапоминатьинформациюо ранее произнесенныхфразах и декодироватьтекущие, используяпредыдущиевысказывания.Система vdms-sri наиболееполно используетидеологиюискусственногоинтеллектапри интерпретацииустных высказываний,которые могутбыть сильно"усеченными". Для испытаниясистемы былапроделана серияопытов, которыедолжны былиопределятьнаилучшуюструктуру СПРподобного типа. Было испытано16 экспериментальныхсистем, которыедали точностьинтерпретациивысказыванийот 46,7 до 73,3%, причемесли итерироватьнесущественныеоаибки распознавания,то точность(для наилучшейконфигурациисистемы) возрастаетдо 81,7%. В [1в2~\ отмечается,что наиболееэффективнойпомощью приреализацииречевого диалогаоказалисьиспользованиеи проверкаконтекста. Начиная с1976 г. начали появлятьсяработы о построенииСПР в ЗападнойЕвропе (Франция,Италия, ФРГ),Японии и СССР.Уровеньисследованийпо СПР в этихстранах (объемсловаря,сложностьязыка) поканиже, чем работ,выполненныхв США по проектуarpa. Сяедует, впрочем,отметить, чторазработка"малых" СПР производитсяв соответствиис тенденцией[145] , которая заклта-в»ояв том, чтобы"заполнитьпропасть" междупрактическимисис-^мами распознаванияслов и относительногромоздкимиСПР, выполнившимисяпо проектуarpa. В С142]приведенатаблица, которая,по мнению автора,характеризуетдействительноесостояние ибудущее развитие коммерческихсистем распознавания/понимания речидо 3000 г.: 431982 -БИС для системыраспознаванияречи. 1985 -Высокоточныесистемы распознаванияизолированныхслов с большимисловарями. 1990 - Системыавтоматическойдиктовки сограниченным словарем,управляемыесинтаксисомязыка. I&95- Системыпонимания речис неограниченнымсловарем, нос ограничениямина синтаксис. 2000 - Системыраспознаванияслитной речис неограниченнымсловарем и безограниченийна синтаксис. §1.4. Системыавтоматическогоречевого ответа 1.4.1.Коммерческиесистемы автоматическогосинтеза речи.В системахавтоматическогоречевого общения"человек-ЭВМ"важную рольиграет автоматическийречевой вывод,позволяющий человеку получатьнеобходимуюему информациюв привычнойформе речевогосигнала. Проблемаавтоматическогоречевого выводасчитается болеепростой, чемавтоматическоераспознаваниеречи (в первом случае речьвоспринимаетчеловеческиймозг, -;а во втором- автомат).Поэтому работыпо построениюсистем автоматическогоречевого ответа(САРО) промышленностьполучила раньше,чем работы по автоматическомураспознаванию/пониманию речи.Синтезаторыречи,являющиесяглавными узламитаких систем,уже изготовляютсяпромышленностьюСША, Японии инекоторыхдругих стран[30, 46, 51, 52, 100, 142] .В саязи с появлениеммикропроцессорови специализированныхБИС, а также всвязи с тем,что пользователипотребовали,чтобы информационные,управляющиеи другие подобныесистемы, основанные.на использованииЭВМ, "говорили",фирмы, выпускающиеЭВМ или отдельныеузлы ЭВМ, началивыпуск оборудованиядея системречевого ответа.Построеныпервые промышленныесистемы, которыйобеспечиваютодновременноеавтоматическоераспознавание(автоматическийречеэой запрос"с использованиемограниченноголексикона) иречевой ответ.Первое применениетакие системынашли в "интеллектуальных"терминалахбольших ЭВМ(или сетей ЭВМ),в некоторыхсистемах военногоназначения,в приборахбытовой электроники[52, 60, I40t. Следуетотметить также,что продолжаютразвиватьсянаучные исследованияв области созданиясистем автоматического синтеза. Этиработы, направленныев основном наповышениекачества(разборчивостии естественности)синтезируемойречи (без существенногоповышенияобъема информации,требуемой дляуправления син- 44 двзатором),проводятсяв США [103,112, 129, 133, I??], СССР f48,63, 54] , Японии[l3b,I62] ,Великобритании[l64] , Канаде [167], Франции[146 171] , Италии[l60,JSl] ,Мексике[ill],ЗападнойГермании[122, 184] , Норвегии[137] и другихстранах. В[142] отмечается,что ЭВМ пятогопоколения(мультиыикро-процессорныемашины) будутгораздо шире,чем современныеЭЗУ, использоватьввод и выводинформациив речевой форме.Предполагается,что уже в ближайшеевремя ЭВМ,оборудованныесистемамиречевого вывода,настолькопроникнут внашу жизнь, что совершенноизменят взаимоотношениячеловека итехники. В основесистем автоматическогоречевого ответа,поступающихв настоящеевремя на рынок,лежат три основныхспособа синтезарэчи -непосредственноекодированиеречевой волны(дискрети-аацияи сжатие), форматныйсинтез и синтез,основанныйна линейномпредиктивномкодировании(линейномпредсказании).В [б] приводятсясистемы автоматическогоречевого вывода- наиболеераспространенныев настоящеевремя в СШАсистемы такогорода. Так, в сис-томчVotrax процессформированияустного высказыванияпо тексту,поступившемуиз ЭВМ или склавиатурыв закодированномвиде,начинаетсяо разбивкитекста на основныезвуковые влементы- фонемы.Так как фонемнаяцепочка, соответствующаятексту, необеспечиваетвысокочастотнойречи, то этацепочка программнопреобразуетсяв цепочку аллофонныхкодов (аллофоны- это вариантыпроизнесенияфонем в зависимостиот контекста;разные исследователиназывают различноечисло аллофоновдля каждогоязыка;в системеVotrax используется12Ь аллофонов,что позволяетполучать болееестественнуюречь). Для порожденияслитной речи аллофоны Должныплавно переходитьдруг в друга. Каждомуаллофонусоответствуетуправляющееслово, воздействующеена аппаратныйсинтезаторзвуков, которыйв два этапаперерабатываетцепочку 12-разрядныхуправляющихслов. На первомэтапе Управляющееслово декодируетсяи перерабатываетсяв аналоговыеуправляющиесигналы, задающиечастоту основноготона, длительностьизменения вовремени амплитудыи гармоник,связанных скаждым ал-Яофоном.На втором этапереализуетсясобственносинтез. Приэтом параметрическиесигналы, воздействуяна генераторызвука и прог-Рачмируемыефильтры, преобразуютсяв звуки речи.Звонкие звуки°оздаются спомощью генераторарегулируемойвысоты тона,а глухие- с помощьюгенераторабел го шума. В приборахTexas Instruments трибольшие интегральныесис-^ы (БИС) моделируютголосовой трактчеловека. Воснове модели•вяит методлинейногопредсказания(или линейногопредиктивногоко- 45 дирования- ЛПК). ПриЛПК на кристалл синтезатораподаются значениякоэффициентовдля цифровогофильтра второгопорядка,которыймоделируетдинамику форматныхчастот. Вычисление коэффициентовфильтра производитдругая БИС - микропроцессортыз -1000. ТретьяБИС хранитотдельные частислов в параметрическом виде. Воссозданиеречи по этимпараметрамосуществляетсложный программныйалгоритм. Преимуществометода ЛПКзаключается в тс-л, что он позволяетвоспользоватьсятем фактом, чтоголосовой трактчеловекаотносительномедленно меняетсвои параметрыпри речеобразовании.Этосвойство ограничиваетдиапазон измененияформатных параметров,которые могутследовать за форматами ужес генерированных отрезковзвуков речи.Такое прогнозированиеуменьшаеттребования к объему памятисистемы, а также к скоростиобмена данными;с описываемойсистемой онаравна1200 бит/с. СинтезаторNational Semiconduoton Inc. способен осуществлятьанаяого-цифровоепреобразованиеречевых сигналови сохранять их в памятидля дальнейшеговосстановления.Такой методпредполагаетогромный объеминформации,которая должна храниться в памяти, чтоделает егомалопривлекательным.Однако в рассматриваемойсистеме этатрудностьобходится засчет использованияразличныхметодов сжатия данных. Этопозволилореализовать качественныйсинтез речиво временнойобласти науровне &1С. Дискретизацию и сжатие исходнойречи, записаннойна магнитнойленте, осуществляетмини-ЭВМ. Результирующиеданные сохраняются в постоянномзапоминающемустройстве(ПЗУ) для последующеговосстановления,осуществляемогоБИС процессораречи. Благодаряприменению Трех методовсжатия (подстройкифазового угла,дельта-модуляциии полупериодногообнуления)скорость поступленияданных, по которымвосстанавливаетсянормальнаяречь, снижаетсяпримерно до1000 бит/с речи,так что по ПЗУ емкостью10 кбит можнохранить примерно10 слов. Процесс сяатия начинаетсяс дискретизациианалоговогоречевого Сигналаи разделенияцифровогомассива научастки, в каждомиз которых128 оГсчетов;эти участки в какой-то степенихарактеризуютпериоды основноготона. Для получениянабора цифровых выборок, аналогичныхформируемомупредложению,подстраиваются фазовые углыэтих отрезков.Дальнейшеесжатие осуществляетсяс помощьюдельта-модуляции,в результатечего вместохранения абсолютнойамплитудыкаждой выборкив память записываютсятолько знакиприращенияамплитуд относительнопредшествующегозначения. 46 рассмотримдалее болееподробно несколькосовременныхсистем параметрическогосинтеза. В ГЮО]описана разработаннаяфирмойTexas Instrument a программа,позволяющаяпреобразовыватьпроизвольныйтекст в речь.Программасовместно синтегральнымсинтезаторомречи типа tms-5й00позволяетчитать вслухинформацию,отражаемуюна экране дисплеядомашнегокомпьютера9S14. В отличивот Speak and Spellсистемане иоподозувтзаписанныеранее в ПЗУслова и фразы,а синтезируетслова из128 аллофонов(аналогичносистеме Votrax описаннойранее), которыеобъединяютсясистемой для образованияслитной речи.Программапреобразованиятекста в цепочкуаллофоноввыбирает аллофоныиз библиотекии определяетих ударениеи интонацию.Затем эта информацияпоступает вблок синтезаречи, которыйформируетзвуки, используякодирование,основанноена линейномпредсказании. Блок-схемапреобразованиятекста в речь,реализованногоTexas Instruments, представленана рис.I.I. Аллофоныимеют переменнуюдлительностьот 50до 200мс и кодируютсяв соответствиис параметрами,необходимымидля организациисинтеза, основанногона линейномпредсказании.Библиотекааллофонов,включающаядлинные и короткиепаузы, кодируетсяпо энергиями коэффициентам,необходимымдля установки характеристикфильтра ЛПК-синтезатора.Библиотекааллофонныхкодов занимает 3 кбайтапамяти. Дляпреобразованиятекста, поступающегона вход впооледова-тедьностьаллофонов,используетсянабор из650 правил,который в процессеиспытанийобеспечивалправильныйвыбор97^ фонем и 92% аллофонов.Правила занимают7 кбайтпамяти. Программаконструиро- Синтез речи
Конструирование речи (программноеформированиекодовой аллофоннойцепочки)
Входное Правилапреобразованиятекста в аллофоны Преобразованиеаллофоновв данные длясинтезатора 1 + 1 ЦентральныйПроцессор текст
Управление Память | Синтезаторречи тае- 5200 | Речь | |
.1 { | |||
Речевоепостоянноезапоминающееустройствоtm S-6100 |
Р и с.I.I. Блок-схемапреобразователя"текст- речь'
47
вания связывает и сглаживав!переходы междуними. В результатеформируетсякодовая управляющаяцепочка аллофонов,у которыхсогласованыэнергетическиеуровни и достигнутаплавность огибающей, асглаживаниекоэффициентовфильтра делаетболее плавными переходы междузвуками.
После объединенияаллофонов и сглаживанияпереходов между ними в аллофоннойцепочке должныбыть расставленыударения иуказана интонация в соответствиис меткамипользователяпри кодированиивходного текста.Алгоритмконструированияречи устанавливаетчастоту основноготона толькодля отмеченныхслогов.Управлениеинтонациейосновано на градиентномуправлении частотой основноготона в ударныхслогах. В нейтральныхинтонацияхбезударнымслогам соответствуетсреднее значениечастоты основноготона, тогда какударные будутрасполагатьсянесколько вышесредней линиитона. Наклонсоздаетсяпрограммой, а пользовательтолько помечаетударные слоги.
Как уже отмечалось,синтез речи в системепреобразования"текст- речь"системыTexas instruments основанна линейномпред-сказуемостномкодировании,являющемсяматематическоймоделью голосовоготракта, реализованнойв виде фильтра.Коэффициентылинейныхуравненийфильтра, определяемыепутем анализа естественнойречи, используются в модели дляуправления"конфигурацией" голосовоготракта приформированииречевого сигнала.В системе запоминаютсясоответствующиеразличнымаллофонамкоэффициентыфильтра, коэффициентпередачи фильтра,частота сигналавозбуждения,используемогодля управленияфильтром. СистемаTexas Instruments обеспечивает[100] хорошеекачество речипри использовании ЛПК со скоростьюпередачи информацииот 1200до 2400бит/с.
В Cl40] отмечалось, что разработаннаяв 1976г. системадискретногораспознаванияслов was, предназначеннаядля ввода речевыхкоманд в ЭВМуправленияогнем тактической артиллерии,использоваласистему речевогоответа (обратнойсвязи)YS фирмыVo-fcrax. Блок речевс"о ответа повторялслова устногодонесения,которые по радио илителефонномуканалу поступалик корректировщикустрельбы. Вслучае, еслиустная командараспознавалась машинойверно,корректировщикпроизносилключевое слово,означающее,что командаможет поступитьв систему управленияогнем.
В [30,129] рассматриваютсяновая интегральнаясхема синтезатораречи sc-OI и системадля проектированиясловаряcds-ii. Речевойинтегральныйсинтезаторsg-oi реализуетфонемный синтез.Для преобразованияфонем в параметрыречи используетсяфо-
48
немныйконтроллер.Синтезаторработает свнешней памятью,где хранятся6-разрядныекоды фонем. Вотличие отсистемы Texas Inntru-ments синтезаторsc-OI используетдля моделированияголосовоготракта человека не кодирование,основанноена линейномпредсказании,а более традиционныйметод, основанныйна применениианалоговыхполосовыхфильтров, на вход которыхпоступают сигналы возбужденияот генератора с регулируемойчастотой,моделирующегоработу голосовыхсвязок, и отгенераторапсевдослучайныхсигналов,моделирующегошумовой источник.
На входесинтезатора SC-OI стоитфонемный контроллер,который преобразуеткод фонемы (их64) в матрицуспектральныхпараметров.Контроллерже может изменятьчастоту основного тона;
что позволяетустранятьмонотонностьзвучания синтезированнойречи. Управлениесинтезаторомосуществляетгенераторсинхронизирующихимпульсов,находящийся в интегральнойсхеме. Управлениечас-'тотой основного тонапроизводите"!внешним воздействиемна источниктональногосигнала.
После поступлениякода фонем нафонемный контроллерпоследний в соответствиис тем, какойзвук долженбыть порожден,управляетмоделью голосовоготракта, воздействуяна цепи спереключаемымиемкостями.Длительностькаждой фонемыустанавливаетсяв пределах50 - 250 мс.
Фонемнаяинформация,поступающая на вход, создается программойпреобразования,которая анализируеттексг, вводимыйв память из ведущей ЭВМили с клавиатуры.В кодах фонетическихсим-всдов,формируемыхэтой программой,содержатсячисла, означающиедлительностьгенерируемогозвука, котораязависит отударения.
Информациядля синтезатораsc-OI вырабатываетсясистемой для проектированиясловаря типа cds-II,на входнойклавиатуре которой набираютсяслова или фразы,подлежащиесинтезу. Системабазируется на микропроцессоретипа 6У08 фирмыMotorola.Дд-горитмпреобразования"текст-речь" и операционнаясистема занимают24 кбайтаПЯУ и рабочуючасть оперативнойпамяти емкостью2кбайта. Выходнаяинформацияciis-11 используетсядля программированияпамяти стираемогоПСУ, где хранятсяданные для ИСсинтезатора.Для программированияПЗУ информацияиз cds-ii передаетсяпоследовательнымкодом в ведущуюЭВМ (которуюможно использоватьдля переводаслов в фонемы),ленточныйперфораторили другоеустройство с целью последующейзаписи в ПЗУ.В системупроектированиясловаря входяттакже печатающееустройство,позволяющейпечатать речевуюинформациюв шестнадцатиричномкоде (исполь-
зaк.480 49
ауя, как отмечено,6 бит нафонему), а затем вручную вводитьв программаторПЗУ.
Наряду с системойcDy-II ^той жефирмой выпускается универсальныйречевой модульfYHtl), не обладающийвозможностьюпреобразованиятекста в речь.В памяти этогоустройствав табличномвиде записаныкоды 1300слов, а также25 суффиксови префиксов.Как и системапроектированиясловаряcds-ii, УРЫ включает в свой составмикропроцессортипа 6806.Он также содержитсинтезатортипа ас-01,операционнуюсистему, хранящуюсяв ПЗУ емкостью2 кбайта,таблицу слов,записаннуюв перепрограммируемомПЗУ емкостью2 кбайта,и Iкбайт рабочейобласти оперативногозапоминающегоустройства.УРМ можноиспользоватьв качестверабочего модуля а различнойаппаратуре.При этом модульможет управлятьсявнешним процессором или ведущейЭВМ.
Некоторыесведения одругих синтезаторахсодержатсяв [51, 52, 55, 142].
1.4.2.Повышениекачествасинтезируемойречи. Несмотря на появлениекоммерческихсистем автоматическогоречевогоответа,синтетическаяречь еще кекачественна.Поэтому влабораториях мира продолжаютэнергичноработать надпроблемойсинтеза речи.В трудах ежегодныхмеждународныхконференцийпо акустикеречи и обработкесигналов, которыепроводятсяИнститутоминженеров поэлектротехнике и радиоэлектроникеСША с 1976г., большинство докладов посвященоавтоматическомусинтезу. Работыотносятся ксамым различнымязыкам.
В С 115] описана разрабатываемая для шведскогоязыка система"текст-речь",базирующаясяна правилахперевода буквеннойинформациив фонетическую.Система синтезасостоит изпоследовательностипреобразований,каждое из которыхотражает частьзнаний о речевоепроцессе. Отмечается, что для получения качественнойречи целесообразноматематизироватьиспользованиетаких просодическихпараметров, как длительностьзвуков и интонация.При формализацииправил преобразованиябыл использованопыт работ по созданиюсистем "текст-речь",проводимыхв США, и учтентот факт, чтофонетическоепредставлениевысказыванийв шведскомязыке бо-яеепростое, чемв английском.
Наибольшиетрудностивызывает поискв неразмеченном знаками ударениятексте ударныхслогов, а такжеслогов вторичного ударения( aecondary stressedsyllable ).Во время этогопоиска следуетиспользоватьразличныеключевые индикаторы,такие как сдвоенныегласные, некоторыеокончания икомбинациигласных ссогласными,образующимиударные слоги.
50
разработаныосновные правилапреобразованияфонетическойцепочки в синтезированнуюакустическуюволну.Эти правила,для формализациикоторых созданспециальныйязык, работаютна сегментномуровне. Например,правило, определяющеедлительностьсегмента,запювется—
«0,35)> ,
где Т- номинальнаядлительность;А,В,С, -переменные, зависящие отпозиции идлительностислова или фразы.
В [Иб] сообщается о системе речевогосинтеза, разработаннойдля английскогоязыка вBell Laboratories. Системаобеспечиваетболее высокое качество синтезируемойречи за счет»I) болееточных правилопределениядлительностизвуков речи,основанных на измерениях,которые продесанына участках естественнойречи; 2)расширяющихсяправил учетааллофонических изменений какфункции словесныхи других границ;3) введениябольшого числаправил просодиинижнего уровня,учитывающихособенностиречеобра-эования(ассимиляциюзвуков, изменениявнутри звукосочетаниясогласных,контекстнуюзависимостьгласных и т.д.);4) правил,учитывающихмедленныеизмененияпараметровмодели голосовых связок и шумовогоисточникавозбуждения.Многие особенностисистемы синтезаречиBell Laboratories рассмотренытакже в С75,Ь9].В[69], в частности,довольно подробноописаны свойствапросодии английскогоязыка.Предполагаетсяразличатьпросодию высшего(собственнаПросодическиефункции) и просодиюнизшего уровней(их акустическиекомпоненты)и использоватьправила просодиидля повышениякачествасинтезируемойречи.
При исследованиислитной речивыявилось, чтов английскомязыке:
- главныйфактор, определяющийдлительностьгласных,- позициягласной в слове,а слова- в предложении(или в синтагме);
гяасная имеетнаибольшуюдлительность,если она находитсяв последнемслоге передпаузой; этообъясняетсяособенностями контура основноготона передпаузой, чтозначительноудлиняет гласный;различие длительностигласных впредпауэальнойи непредпау-эальнойпозицияхприблизительнонаходится всоотношении2:1;
- последующиесогласныеукорачиваютдлительность гласного Ьосравнению снекоторымсредним значением),если за гласнымследует глухойвзрывной(характеризуемыйсмычкой), и удлиняют,если загласным следуетзвонкий фрикативный;наибольшеевлияние надлительностьгласных согласныеоказывают впредпаузальнойпозиции;
-.длительностьбезударныхгласных, если они не находятся
в конце слова,составпяетоколо40 мс; в конечныхпозициях ониСодее длительны;
51
- дифтонгизациясильно удлиняетгласную;
- надлительностьсогласныхосновное влияниеоказывают2 фактора:положениесогласнойотносительноударного сдогаи границ словаили предложенияи консонантностьокружения;
- длительностиконсонантныхсогласных (аименно глухихфрикативныхf,s,S)подчиненыточному аддитивномуправилу, ударениеи границы словадействуют какфакторы приращения,а согласные, смежные с фрикативными,действуют какфактор укорачивания;
- наибольшеенепостоянстводлительностейв зависимости от ударения и позиции проявляютпереднеязычныесогласныеt , d, n',
-звонкие Фрикативныев середине иконце счовзначительнокороче глухихфрикативных,находящихсяв такой же позиции;
- влияниеокружающихсогласных надлительностьконкретнойсогласнойзависит отспособа и местаих артикуляции; длительностьсогласнойзависит также от степениконсонантностиее окружения;
- в связис этим комбинациидвух последовательныхсогласных,характеризующихсяодним и темже местомартикуляции, проявляюттенденцию к уменьшениюдлительностиобеих, например,пй иnt;
звонкиефрикативныеобычно удлиняютсоседнкж. согласную;
- длительностьплавных иносовых,согласныхсильнее другихподвергаетсявоздействиюсмежных согласныхс ослыпей степеньюконсонантности,влияние которыхпроявляетсядаже черезграницы слов;
- начальнаясогласнаяфункциональныхслов (артикляи предлогов)значительнокороче, чем вслучаях значимыхслов;
- легкопредсказуемыеслова обычносостоят изболее короткихгласных и согласных,чем непредсказуемые;
- ванглийскомязыке согласные в начале словамогут обладатьдругими акустическимихарактеристиками,чем те же согласныев конце слова(это явлениеназывают селективнойаллофониейв отличие отпозиционнообусловленнойадлофонии,связанной с явлениемкоартикуляции);
- начальныеаллофоны (посравнению сконечными и средними) имеютболее сильныеконсонантныепризнаки- большую прерывность,четкостьинтонационныхсоставляющих(основного тонаи гармоническойструктуры) в потоке рачи,более интенсивнуюшумовую составляющуюфрикативных,более сильныйвзрыв с явнымучастком аспирации в глухих взрывныхи т.п.; эти свойстваначальных аллофоновнвняются признакаминачала сообщения,обычно слова.
В С89] рассмотреныи некоторыедругие свойствапросодии, положенныев о&нову правилпреобразования"текст- речь" иобеспечивающиевысокую разборчивостьи естественностьсинтетическойречи.
52
вГ2]подробно описаналингвистическаяи фонетическая сторона паботы,которую необходимовыполнить приреализациикачественногосинтезаречи по произвольномутексту. Важнейшими этапами иссяедованийздесь являются:
-создание болеесовершенноймодели речевоготракта;
-определениеболее полногонабора абстрактныхправил лингвистическогоописания текста;
-разработкаполного сводаправил, позволяющихвывести фонетическиеописания поправиламлингвистическогоописания текста(дравид преобразованиябукв в звуки);
-формализацияморфофонематичаскихправил и правиллексическогоударения, которыедают на уровнеслов окончательнуюкоррекциюцепочки фонем(аллофонов);
-грамматическийанализ предложений,раскрывающийиерархическуюприродуих построениядля определенияправильностиинтонационногоконтура;
-более тщательноеиосдедованиепросодическихкоррелятлингвистическихструктур.
Отметимособую важностьсоздания хорошеймодели речевоготракта, параметрыкоторой изменяютсяв соответствиис правиламире-чвобразования.Хорошая модельпозволяетсущественноонизить объеминформации,описывающейформу речевогосигнала (вырабатываемогона Мходе моделииз небольшогочисла параметров),а также болееглубоко и еотеотвенноописать речевыеявления. При параметрическомсинтезе информацияо фонемах (аллофонах)запоминается в виде комплексапараметрови правил модификацииотих параметровпод влияниемразличныхограничений.В связи о этимдля повышениякачества синтезанеобходимыструктурныемодели, отражающиеащограниченияна различныхуровнях- артикуляторном,дистрибутивом,словообразовательном,синтаксическоми семантическом.Эти иодедидолжны координироватьсягибкой структуройуправления,обео-почивающейих взаимодействие.
Дляповышенияестественностии разборчивостиречи, генерируе-"ойформатнымисинтезаторами,в [176 ] предлагается использоватьвычислениеформатныхпараметровна более короткихинтервалах,что позволяетулучшило синхронныйс основнымтоном анализ.1домен-т^смыкания голосовыхсвязок характеризуютсяимпульснымвоабужде" нием.На первом этапеанализа оцифрованнойволны такиеточки воз-°Й
53
нала импульсамиголосовыхсвязок большинствотаких точек соответствуетмоментам смыканиясвязок.) Даяее,для каждого отрезка волны длительностью10 мс с помощьюДПФ вычисляется33-точечныйлогарифмированныйэнергетическийспектр. Временныеотсчеты дляполученияспектра берутся,начиная с момента, соответствующегонайденной точкевозбуждения.Если десятимиллисекундный сегмент содержитодну точкувозбуждения, то логарифмы энергетическогоспектра вычисляютсяпо формуле
^='°Чю \ Ц, ^ехр(-^тп/32\'•
где п= 0 - 32;Л„, -отсчеты речевойволны, следующиеза моментомвозбуждения;У -оценка (в дБ) логарифма энергетическогоспектра начастотах156, 25 х п (в Гц).
Итеративныйанализ составляющихэтого спектраи позволяетоценить все требуемые длясинтезатораформантные параметры.Процедураитеративногоанали-а посредствомсинтеза (когдаспектр, синтезированный по приближеннымформантнымпараметрам речи, сравнивается с реальнымспектром входнойречевой волны,и если расхождениявелики, производитсяуточнениеформант) позволяетполучать параметрыкачественнойсинтетическойречи.
В ряде работподчеркивается, что для повышения естественностисинтезированнойречи целесообразноразработать хорошие правилакорректировкимикро- и макровариацийчастоты основноготона, длительностизвуков и интенсивности.Полная модель генерациичастоты основноготона, его микро-и макровариаций рассмотрена в Ll04], где исследовалисьразличныесинтетическиеструктуры,позволившиевыявить, в частности,влияние модальности на контуросновного тона в вопросо-ответныхсистемах при перемещениицентральногослова фразы(слово, на котороеделается акцент при вопросе).(Формированиеконтураochobhofjтона будетболее подробнорассмотренов п.1.4.4).
В [113'] предлагается для повышениякачествасинтезированнойречи (полученной методом линейногопредсказания), поступающей на наушники,использоватьэффект бинауральной реверберациикоторый можносмоделировать,подав синтезированнуюречь на громкоговоритель и записав(в условияхреальной комнаты) прошедшувчерез громкоговорительречь в два каналачерез разнесенныемикрофоны.Полученныетаким способомсигналы поступаютна правый илевый наушники,создавая у слушателявпечатлениеболее естест'венной речи.
54
дляповышениянатуральностиречи в[162] предлагаетсяпро-записыватьна магнитныйдиск большийемкости сообщенияв Siaweпараметров,представляющихсобой наборраноон-коэффициентов.Требуемые фразысчитываютсяв буфернуюпамять. На стомегабайтномдиске можнотаким образомзаписать5000 сообщенийяжительностыопо 15с каждое. Времявыборки сообщения0,1 с,мак-симвльноечисло возможныхканалов, покоторым может поступатьинформация,- 128.
Рядработ, появившихсяв последниегоды, посвященповыше-шф качествасинтезированнойречи за счетмодернизации модели источниковвозбуждения.Модель смешанногоисточникавозбуждениярассмотренав [1523 .Смешение достигаетсяделением речевогоспектра на двеобласти- низкочастотную,возбуждаемую импульс-нк«источником,и высокочастотную,которая возбуждается шумовым источником.Для определениястепени оэвончениявводится параметрfc• показывающийчастоту отсечкимежду звонкойи глухой областями.Для компрессииречиFp можетвыцеляться автоматическииз речевогоспектра ипередаватьсяв управляющие цепи. Эксперименты,при которыхиспользоваласьновая модель,показали ееэффективностьпри синтезезвонких фрикативныхи помогли ис-кяючитьхарактерное"жужжание"вокодернойречи.
8 [1663 описанановая функциявозбуждениядля синтеза,использующегокоэффициентылинейногопредсказания.Эта функция за счет соответствующегосглаживания,инверснойфильтрациии усеченияверхушки сохраняетфазовые характеристикиимпульсоввозбуждения,Поступающихиз голосовойщели. Отмечается,что качестворечипри этом существенноулучшается,а между тем допоследнеговремени вlpg-синтезаторахслишком малоусилий былонаправленона поиск болеесоответствующихреальным функций возбуждениярачаобразующеготракта из-затого, что небыли установленычеткие соотношениямежду остаткомлинейногопредсказанияи формой возбуждающейволны.
В[137] описанLPU-синтеэатор речи, разработанный в Норвегии.По мнении авторов,он обеспечиваетвысококачественнуюречь (при высокойкомпрессии)за счет использованияболее совер-аенноймодели смешанноговозбуждения.В модели предусмотреноиспользование:
-фильтра импульсовосновного тона- двухполюсногофильтра, Делающегоимпульсы возбужденияболее похожимина реальные импуль-^iпоступающиес голосовыхсвязок в полоогяречеобрааующеготракта;
55
Орфограф^ескийтекст
I
Трансляция"графема-фонема"
фонетическаяцепочка
-дополнительногофрикативногоисточника,который автоматическиподключается при формированиизвонких взрывныхи фрикативных.
Ряд работ,связанных с повышениемкачествасинтезированнойречи, относится к проблемеформализацииправил наложенияна фонетическуюцепочку интонационногоконтура. Они-Зудут подробнорассмотреныв п. 1.4.4.
1.4.3.Дифонный синтезречи. Однимиз направлений, обеспечившихсинтез более высококачественнойречи, сталонаправление,связанное с выбором иной,чем фонема (илиаллофон) структурнойединицы, лежащей в основе формированиявысказывания.Выяснилось,что основныенеприятности,приводящие к ухудшению естественности и разборчивостиречи, связаныс явлениямина стыках звуков.Поэтому в рядепоследних работпо автоматическому синтезу речи в качествеопорного элементавыбираетсяучасток речевогосигнала, включающийпереход междузвуками. Такиеэлементы называют"диадами","дифонами","транземами",парами фонем, машиннымислогами...
В Ll433 описан диадныйсинтез французскойречи. В памятихранятся эталоны1000 дифонов(пар фонем),представленных спектром,полученным с гребенкифильтров (отсчетыспектра бралиськаждые13,3 мс) и частотойосновного тона.Система предусматриваетиспользованиедовольно простойграмматикидля сцеплениядиад и автоматическогоопределенияпросодии фразы.При обработке цепочки диад,соответствующейтексту длягенерации синтезируемойволны, корректируютсядлительности звуков, микро-и макровариациичастоты основноготона, контуринтенсивности.
Дифонныйсинтез рассматривается и в [.1463 .Блок-схема этойсистемы "текст- речь" приводится на рис.1.2.
Система юорвомйз (рис."1.2) превращаеторфографическуюзапись предложения в звучащуюречь. Скоростьпреобразования0,1 с на предложение,состоящее из 70 символов.Система, включающаямини-компьютер,является полностьюавтономной.
Преобразование"текст- речь" в первом приближениине требуетсинтаксическогоанализа структурыпредложения(во французскомязыке). Основнымграфическимпонятием припреобразованияхявляется в этой системеслово, представляющеесобой субцепочкуграфем междупробелами илизнаками пунктуации.Слова сравниваютсясо спискомпредварительнозаписанныхслов -исключений, произношениекоторых не соответствуетстандартам.Если слова вспис-'
Ь6
ПоследовательностьдифсновСловарьдифонов
Буфер
Синтезаторречи из44 синусо-|___гт1гх,.,. ___идальныхколебаний____ UJ -
рис.1.2. Блок-схемасистемы "текст- речь"основаннойна использованиидифонов
ке исключенийнет, оно разделяетсяна множествобуквенныхсимволов,которые обрабатываютсяэлементарнымиправилами типа
Р—[Р]/Н;
P—[f]/H,т.е. рпроизноситсякак [/?] ,если за ней неследует Н,и как [/З.вслиследует Н.
Числа,встречающиесяв тексте, такжепреобразуютсяв фонетическуюцепочку посоответствующимправилам. Последняя гласная передзнаком пунктуацииудваиваетдлительность.Общий объемпамяти,которую используетэтот алгоритм,6 кбайт.
В памятьсловаря должнобыть записанодля французскойречи 627дифонов. Однакоесли учесть,что для некоторыхдифонов некоторыеспектры в первомприближенииможно считатьсимметричными,обв(ее числохранящихсяв памяти дифоновуменьшаетсядо 425(при использованиипараметров8 временныхотрезков каждого дифона). Ойцийобъем памятипосле сильногосжатия информациио дифонах составилоколо8 Кбайт.Средняя разборчивостьслов в предложенияхбыла около96%. Системаавтоматическинаходила потексту просодическиехарактеристики.Для управленияпросодическимипараметрамииспользовалисьразличныеуровни языка:акустический,фонетический,лексический,синтаксическийи семантический. НесколькоДикторов читалиодин и тот жетекст; при этомсравнивалиськон-'Уры основноготона и длительности,полученныепосле нормализации.Несмотря наразличие' виндивидуальныхпросодических характери.-^чках,удалось выявитьобщие закономерности,позволяющиеформа-
Зак.480 57
дизоватьпросодику по фонетическойцепочке. Так,для выявлениядинамики основноготона на всемвысказыванииучитывалось,чтоод, повременнонакладываютсядруг на другатри явления.Первое обусловленоизменениемосновного тона на всем предложении,второе -контуромосновного тона на двух соседнихсловах ( "элементарныйконтур") и третье- ыикроваризцииосновного тона на отдельныхзвуках.
Структурасистемы синтеза,основанного на объединенииди-фонов, рассмотрена также и дляитальянскогоязыка [160, 181].Ди-фоныпредставленыкодамиlpc. Системапроектируетсяс ориентацией на многоканальностьи ответ в реально».'времени. Длякаждого выходногоканала этойсистемы автоматическогоречевого ответавыполняютсядействия:предварительнаяобработкавходной цепочкисимволов, трансляция в соответствующуюпоследовательностьдифонов, порождениепросодическогоконтура и управлениев реальномвремени аппаратуройсинтезатора.
Блоклречевого ответа,подключенные к телефонным линиям, могутобеспечиватьпользователямполучениеинформациив речевом виде.Основное применениетакого оборудования- информационно-поисковыесистемы, читающиетекст автоматическиеустройствадля слепых,в связи с чемк системепредъявляютсятребования: неограниченныйсловарь, хорошеекачество иестественностьречи, возможностьподключениясистем речевогоответа к разнымканалам.Матобес-печение выполняетвсе действия,необходимыедля преобразованиявходного текста в последовательностькоманд, необходимыхдля управленияаппаратуройсинтезатора,описанногов [160].
Система синтеза основывается на объединениикоротких речевыхэлемэнтов(дифонов), которыевключают переходный участок от согласногок последующемугласному CV, квазистационарныйучасток гласного V2и начальныйучасток гласногозвука в началеслова VI.
Элементарныедифоны, извлекаемые из естественнойречи, кодировались в соответствиис акустическоймоделью речеобразования. Математическаямодель состоиттолько из полюсного фильтра, представляющеговокальныйтракт, и источникавозбуждения.Параметры,описывающиевокальныйтракт, - этокоэффициенты отражениянеоднороднойакустическойтрубы, подученныеиспользованиемметоде линейногопредсказания.
Призаписи информации о дифонах впамять используетсяследующаясхема. Первыйбайт каждого дифона показываетчисло сре' зов,Используемыхдля кодированиявтого дифона.После атог»каждый фрейм,кодирующий срез дифона,описывается13 байтами;
56
представляющимикоэ^ициентусиленияG,10 ко-^ициентовотраженияК,. параметрозвонченностиV/UVи длинуDэтого фрейма.В среднем длякодированиядифонов приходитсяоколо7-6 фреймов.Общий объемпамяти длязапоминания150 дифонов- около15 кбайт.
Наиболееважным преимуществомдифонногосинтеза, обеспечивающимдовольно высокуюестественностьсинтетическойречи, являетсявозможностьотгэсительнолегкой модификации просодическихпараметров.Просодическийконтур порождаетсяправилами, которые используютзнание фонетическойприроды дифонови символы, вводимыемодулямипредварительнойобработки.
В [I77Jрассмотренразработанныйв США фирмойВВЫ дифон" ныйсинтез дляфонетическоговокодера, работающегосо скоростью100бит/с. С каждойфинемой вокодерпередает ее длительностьи значениеодного периодаосновного тона.Для синтезанеобходимойфонемной цепочкииспользовалсябольшой списокдифонов. (Списокдифонов отбиралсятаким образом,чтобы можнобыло различитьпредвокальныеи пьствокзльныеаллофоны сонорныхсогласных.)ду-фоныизвлекалисьис тщательносконструированных бессмысленныхкоротких предложенийи запоминалиськак последовательностьLK3-параметров.Во время синтезаучастки дифоновдеформировалисьво времени,смыкались исглаживались,формируяпоследовательнуюцепочкуLPC- параметрев, котораяиспользоваласьпри синтезе.
Дифон определялсякак областьот серединыодной фонемыдо серединыследующей, чтоучитываеткоартикучяционное влияние фонем,простирающееся,как правило,не более чемна половинуследующейфонемы. Дляполучениявысококачественной речи потребовалосьоколо2000 дифонов.В некоторыхслучаях былизаписанынеобходимыеТрифоны (дифоныв контексте).Общий объемпамяти, используемыйпри синтезе,менее50 килобайт.
В Японииразработанкепстральныйсинтез речииз параметровслогов "согласный- гласный",которых в японскомязыке около100Cl38j . Каждыйслог анализируетсяи запоминается в виде кепстра,соответствующегоистинной (сглаженной) логарифмическойспектральнойогибающей(a true log spectral envelope ).Системаречевого синтезапревращаетцепочки символовв кепстральныепараметрыс плавным идинамическимпереходом отодного слогак следующемуи порождаетплавную картинуизменениячастоты основноготона. Основнымузлом моделипреобразованиякепстральныхпараметровв акустическуюволну являетсяспециальныйфильтр, порождающийакустическуюволну из кепстрав реальномвремечи.Экспериментальноематобеспечениедля реализацииавтоматическогосин-
59
тезаречи, основанного на подусдогах,описано в [184] . Ддясинтеза произвольноготекста на немецкомязыке используется около 1300 подуслогов,включающихчасть гласного и примыкающие кусочки согласного.Описаны эксперименты,которые помогли выбрать правиласоединенияполуслогов.Синтез выполнялсяс помощьюLPO-вокодера,использовавшегоparcor-коэффициенты.Отмечается,что в немецкомязыке используется47 начальных и 153 конечных звукосочетаниясогласных с 16 типами гласных.Уменьшениесловаря подуслоговбыло осуществлено за счет уменьшения числа гласных(до 10) и конечныхзвукосочетанийс согласными(до 53). Программасинтеза автоматическиконтролируетамплитуду и длительностьполуслогов,формируя безударныеслоги из эталонныхударных.
1.4.4.Просодикасинтезированнойречи. В [184] рассмотреноуправлениепросодическимипараметрамидля форматногосинтезатора,основанного на соединениидифонов иразработанногодля немецкогоязыка. Синтезаториспользуется в системе речевогоответа sam',позволяющейформироватьфразы, составленныеиз словарейбольшого объема.Используютсяпараллельныеформатныефильтры, которыевозбуждаютсянезависимоисточникамитона или шума.Параметрыуправленияфильтрамивырабатываютсяспециальным блоком pcu ,который являетсячастью системыsamt•Тексты, которыедолжны бытьсинтезированы,вводятся вpcu какзвуковая последовательность;каждый звуккодируетсявосьмью битами. Дальнейшаяобработка врои базируетсяна дифонах,чтобы наилучшимобразом учестьвлияние коартикуляций.Для управленияпросодическимипараметрамисинтезируемойречи необходимо, чтобы звуковаяпоследовательностьвключала кодыуправленияпросодией. (Этикоды должнывлиять на частотуосновного тона,длительностьзвуков и интенсивность.)
В [122] отмечается, что интонационнаямодель длянемецкогоязыка ужеразработана. В соответствиис этой моделью каждое предложениеразделяется на две или болеесинтетические группы (фразы),такие, как фраза существительного(не всегдасовпадающая с группойподлежащего),глагольнаяфраза и т.д. Изменениечастоты основноготона первых г»-1 фраз завершается повышениемтона (нарастающейкаденциейffC), а завершающая предложениефразе - снижениемчастоты основноготона (финальная каденцияFC).Дня каждогослова фразыможно найтиодин ритмозадающийударный слог, а для каждойфразы - однослово, которое несет главное,смысловоеударение Ml. Позиция гласногов ударном слогеэтого саова 1^,, , определяющемударение, дает начальнуюточку двухразличных типовчастоты основноготона /д . Характер
60
affix Jflк&чаственн0определяетсятипом каденции( /ус-тип или pC-isW)1 количественно- другимифакторами,такими, как длина г«всногоили позицияглавного ударенияво фраае.
В доподнениек каденции, наизменение /^влияют основноеИ вторичноеударения( Sи SS). Во фразахслитной речиударе-ijggпоявляютсятогда, когданеобходимовыделить некоторыеолова (дроиэнестиих бояее выразительно)или когда вбеглой речио^вдиняютоядве последовательныефразы с нарастающейкаденцией. Ядеобоих типовударений находитсяхарактер изменения основноготона (S-vw f^) на участках,начальные точкикоторых определяютсяпозицией гласныхударных слогов.
Естественнаяречь большинствадикторовхарактеризуетсяпостепеннымснижениемчастоты основноготона (примерно,на полтонаlie)от начала кконцу фразы.(При формировании синтетическойречи это следуетучитывать, таккак речь с постояннойf, неприятнана слух, монотонна.)На этот основнойтип /днак-хддюаютсяНС-,FC- и Я-тилыосновного тона.Нарастающаяка-данцияхарактеризуетвозрастаниеf в конце гласногоV^,, не-суцегоосновное ритмическоеударение( the main )• Для точнойидентификациитипа /д необходиморазличать дваслучая)
а) V^i- последнийзвонкий звукфразы;
б)наличие другихзвонких междуУщи концомфразы.
Исследованияпоказали, чтов обоих случаяхчастота основноготона нарастаетпо синусоидальномузакону, но ъодучае а) времянарастания120 мо, а в случаеб) - 190мо.
Частотаfy возрастаетот двух до четырехполутонов.Поо-ае того,как f,достигнетверхней границы(по синусоиде), она продолжаетмедленно возрастатьпо линейномузакону оо скоростьюоолтона вI о. АбсолютныеотклонениячастотыAfестественнойречи сильноменяются отдиктора к диктору.Ддя синтетическойрв«р| однакоэти отклоненияне должны бытьслишком велики.Если -ажду главнымритмическимударением иконцом фрааы содержитсяЧНогосложноеслово, то часто(например, водучае ударения на червой частидлинного составногослова) возникаетвторичнаякаден-4WSC в ритмическомударении последнегоолова или частислова э»овфразы. Началои- длительностьвторичнойкаденциисоответот-вуеээтим параметрамглавной каденции,но отклонениечастоты Никогдане превышаетполутона.
Приобъединениифраз, име'"'аихнарастающуюкаденцию, частота7» яослевозрастанияна конце первойфразы начинаетоинусоидадь-"0уменьшатьсяна границахмежду фразами.Сяад частотыначина-
1)Ййу«Моп80мсifiPначалавторой фразыи имеет общуюдлительность,«-""ую190 мс. ДалееfпродолжаетуменьшатьсяооТторосгыопол-
'°нав Iс. ^
Вконечных фразахсинтезируемоговысказывания,где существуеткаденция типа FC, вначале фразfgсоответствует частоте основноготона, котораяопределяетсяпредшествующей• нарастающейкаденцией.Однако за 80 мсдо начала гласного^.определяющегоглавное ритмическоеударение, /д начинаетсинусоидально уменьшаться в течение 190 мсдо величины,равной двумполутонам поотношению косновному тону в начале предложения.Далееfпродолжаетуменьшаться со скоростьюполтона в I с, пока не закончитсяпредложение.
Изменениеосновного тона на ударныхслогах зависитот того, какойгласный содержитударный слог:короткий или длинный. В обоихслучаях 5-типосновного тонасостоит из нарастающегои падающегоучастков. Этонарастаниеначинаетсяза 80 мс до началагласного ипродолжается для короткихслогов 160 мс,длядлинных - 240 мс.Такое же времяпродолжаетсяи синусоидальныйспад для слоговпервого и второготипа. В зависимостиот силы ударенияподъем частотыосновного тоналежит в пределахот двух до пятиполутонов, а спад - от полутонадо двух полутонов.
Исследованияпо управлениюпросодическимипараметрами описаны в [122] . В [2, 103, 104, 163] приводятсяисследованияразличныхсинтаксическихструктур и ихвлияние намикро- и макровариациичастоты основноготона в английскойречи.Результатомисследований был алгоритм,определяющийдинамику основного тона синтезированнойанглийскойречи. Алгоритмрассматриваетсякак последовательность двух уровнейединой системы,формирующей контур основноготона. На первом(высшем) уровнеучитывается влияние синтаксической и семантическойинформации,на втором (низшем)-информации о фонемнойцепочке и лексическомударении (рис.1.3).
оинтаксическая | Системаверхнего уровня | Просодические | Системанижнего уровня | УРв- | |
информацияСемантическая | |||||
индикаторы | |||||
информация | Фонетическая | J• | • \ Конт осно ного | ||
информацияИнформация |
Рис.1.3. Структураалгоритма,определяющегодинамику основноготона синтезированнойречи
62
рассмотримдалее алгоритм,реализующийформированиеконтура основноготона для высказывания,в общем случавсодержащегонесколькопредложений,каждое из которыхразбиваетсяна фразы, состоящиеиз несколькихслов. Для формированияконтура основноготона на входсистемы высшегоуровня поступает информацияо типе высказывания,границах итипах предложений,границах итипах фраз, атакже о том,какой частьюречи является каждое сдово.Слова упорядоченыпо степениважности, причемк словам, невходящим всписок важных,относятсяартикли, союзы, относительныеместоимения,предлоги,вспомогательныеглаголы и личные1|еетоимения.Для каждоговысказыванияформализованаего синтаксическаяструктура, т.е.для вводапроизводится идентификациясинтаксическихединиц: выделяютсянезависимыеили зависимыепред-яожения,внутри которыхлокализуютсяи маркируютсяфразы существительного,фразы глагола,предложныефразы, фразы,связанные сприяагательнымили употребляющиесяв качествеприлагательных,фразы, соответствующиенаречиям. Всистемы вводитсятакже информацияо специальныхфразах и пунктуации,определяющаятип мамровариацийосновного тона:
а) обычныевопросительныеи звательныефразы, характеризующиесяповышениемчастоты основноготона;
б) знаки цитированияи восклицания,усиливающие изменениячастоты основноготона внутрисвоих областей;
в) "ответвления"фраз (кускивысказыванийсо скобками или тире), уменьшающиединамику основноготона;
г) знак вопросав конце предложения,дающий тон типа В длякаждого независимогопредложения,не содержащеговопросительногослова; остальныепредложения,дающие тон типаА.
Влияниесемантики наконтур основноготона учитываетсяак-центациейслов, их ранжированиемпо степениважности, атакже временнойблизостьюодинаковыхслов. Каждоесуществительное,глагол илиприлагательноевысказываниязапоминаютсяв буферноймагазиннойпамяти, способнойхранить до50 слов. Новыеслова сравниваютсяс содержимымбуфера. Длякаждого сравнения характер изменения/д коррелируетсяс тем, на какомместе буферанаходитсяслово, с которыйсравниваетсявновь поступившее. Чем ближенаходитсяслово, аналогичноевходному, темболее высокаястепень редукции/д .
Типы тонаА и В характеризуютсяследующим: тонтипа А вызываетснижение /д навсем предложении,а также резкое падение егона последнемважном (значащем)слове и после этого.
63
Тип В означаетотноситеяьнопологую /д срезким подъемом в конце предложения. Эти типы тоновхарактеризуютглобальныйуровень иерархиив рассматриваемойсистеме.
Предложения, не являющиесяконечными (т.е.уже не связанные с типом тона),характеризуютсяподъемомfy на первом значащемслове и егопадением напоследнемзначащем слове(падении меньшем, чем при тонетипа А), послечего начинаетсяновый последовательныйподъем. Размах"понижение- нарастание"частоты основноготонаfy зависит от идентичностипредыдущему следующегопредложения:если за предвдущимследует независимое предложение,то изменениеосновного тона на стыке больше,чем в случае, когда второепредложениеявляется зависимым. Более того,если в высказыванииостается единственноезависимое предложение, то подъем основноготона послезавершениянезависимогопред. ложенияпропадаетвообще. Весьучасток "падение- подъем" основноготона может невыявиться, еслиграницы независимого предложениявключают началоограниченноговводного предложения(в зависимости от числа слов,предшествующихгранице: чемменьше слов,тем меньшеПровал "падение- подъемfg").
Внутрикаждого предяожения в дополнениек изменениюна границахпредложенийпроисходятизменения /д и на границахфраз в зависимости от числа "важных"слов в каждомпредложении.Каждая фраэа с двумя и болевтакими словамивыделяетсятаким образом,что ее началосовпадает с нарастанием частоты основноготона, а завершение- со снижениеми последующимподъемом. Изменениечастоты основноготона на границахфраз зависят от числа "важных"слов фразы,т.е. фразам с большим числомтаких слов соответствуетбольший "провал"частоты основноготона; увеличиваютэтот провалтакже границы,помеченныезнаками пунктуации. Внутри фразначальныйподъем fy продолжается на первом важномслове, а падениезаканчивается на последнемважном словеэтой фразы снеким подъемом к концу фразы.Все остальныеважные слова"получают"подъем и снижение /д примерноодинаковойвеличины.
Ранее уже отмечалось,что каждомуслову синтезируемоговысказыванияприписываетсянекое значениеакцента в соответствиис его рангомпо порядкуважности. Контуризменения f. (подъем и падение) тем резче, чемважнее слово.Акцентированиеслова снижается,если оно обнаруживается в магазинномзапоминающем устройстве,т.е. оно уже недавнопроизнесено.
Системаверхнего уровняснабжает каждоеслово входного высказыванияпросодическимииндикаторами(рис. 1.3), обеспечивающимиполучениепросодическогоконтура нанижнем уровнеанализа.К таким
64
индикаторамотносятсясвязанные скаждым словомчисла, определяющиеа) акцент, б)границу, указывающуюпозицию словавнутри йразы/ предложения(положительноечисло определяетпозицию относительноначала фразы,отрицательное- относительноконца; при этомбольшие числасоответствуютсловам на границах, отмеченныхзнаком препинания,и на границахмежду большимии /иди важ-щдаифразами);в) продолжительныйподъемfg, т.е. число,показывающеевеличину подъемана границеслова, что отражает важностьсинтаксическойграницы, предшествующейэтому слову;г) тип тона (А,В или нулевой^,показывающий,относитсяданное словои конечномуучастку фразыс нарастаниемили падениемfgили не относится(при типе А падениеУд идет до болеенизкого уровня,чем в другихслучаях, а притипе В подъемfgпродолжаетрасти послелексически ударного слога,что не характернодля другихслучаев).
Наряду спросодическимииндикаторамикаждого слова,система верхнегоуровня вводитв систему низшегоуровня число слогов, местолексическиударного слога,фонемную структуру,которая длякаждого слогадополнительноуказывает,начинаетсяли он или заканчиваетсявзрывным звукоми не являетсяли этот взрывнойглухим.
Рассмотримдалее работусистемы нижнегоуровня, формирующейконтур основноготона. Алгоритмустанавливаетна лексическиударных слогахкаждого важногослова сначалапиковые уровни/д,после чеговокруг каждогопика строятсяакцентированныеподъемы и падениячастоты основноготона. Затемдобавляютсяучастки общегоконтура, соответствующиеучасткам постепенногонарастанияи конечнымтипам тона.Наконец, заполняютсяпо соответствующимправилам иостальныеучастки; контуросновного тонавысказываниясформулирован.
Пики основноготона устанавливаютсяпропорциональновеличине акцентадля каждоговажного слова,однако по отношениюк начальнымсловам высказыванияпики имеютнекую тенденциюк уменьшению.К ним добавляетсянаклоннаялиния, такая,что для словравного .акцентакаждое последующеезначение частоты/„ на пике•^УДет уменьшатьсяпропорциональнонаклону этойкривой. Величинаэтого наклонадля предложений,заканчивающихсятыом тона В,более пологапо сравнениюс другимипредложениями.Каждое пред-^«ениеполучает своюлинию наклонав зависимостиот того,в ка-^омместе общеговысказываниянаходитсяпредложение(и, естествен-н0»в зависимостиот пда тона,которым заканчиваетсяпредложение). Пики каждогопредложенияуменьшаютсяот начала кконцу
Зак.480 65
всеговысказывания, но при этомсоблюдаетсятенденция.что начальный пик каждогопредложенияболее высокий,чем последнийпик частотыосновного тонапредыдущегопредложения, но более низкийчем первый пик этого предыдущегопредложения.Такие линии нак-жона являются в какой-то степениопорными приформированииконтура, так что более длинныепредложенияначинаютсяс более высокихпиковfg.
Каждыйлексическиударный слогзначимого слова приобретаетконтур /о ,характеризующийсяподъемом и спадом» отношениямеж. ду которымиопределяютсячислами, характеризующимиграницы. Большиеположительныечисла ведут к значительномуподъему, а большиеотрицательные- к значительномуспаду. Величиныподъемов и спа-доа пропорциональныакценту, но зависят также и от числа соседнихнеакцентированныхслогов. Большоевременноеразделениемежду акцентированнымислогами ведет к большемуотношению на этом участке,характеризующему провал.
Информация о продолжительныхподъемах / кодируетсяв числе, стоящем после последнегослога каждогослова; это числохарактеризует и высоту подъема,и его длительность.Формированиеконтура /д нанеакцентированныхучастках высказывания основано на том, что в высказыванияхчастота /д имееттенденцию кпонижению.Учет фонемическойструктурыслогов приводитк тому, что научасткахвысказываний,соответствующихглухим взрывным,контур основноготона отсутствует,а акцентированныеслоги с начальнымивзрывными имеютболее высокиепикиf,чем слоги, начинающиесясо звонких.Изменениедлительностейзвуков синтетической речи рассмотреноранее в п. 1.4.2. Непредставляетособых проблемформированиеконтура интенсивности, в какой-то степеникоррелированного с контуромосновного тона;имеются известные соотношениямежду среднейинтенсивностиударных и безударныхгласных, сонорныхсогласных,фрикативныхи смычных согласных (включающихучастки смычек),что позволяетавтоматическиформировать контур интенсивностипо фонетическойцепочке.
1.4.5.Алгоритмическоеи программноеобеспечение синтеза речи.Созданиеалгоритмического и программногообеспечениясинтеза речи рассматриваетсяв ряде публикаций.Разрабатываютсяего циализированныеязыки для переводаграфем в фонемы CI26], 8 также системыпрограммныхмодулей, обеспечивающихавтоматическийанализ текста и синтеза речи [103, 133] . Системныйподход к созданиюпрограммногообеспечениясинтеза речистановитсявсе болееопределяющим.
66
В CI26]рассматриваетсяразработанныйв0 Францииспециализированныйязык программированияТОР, предназначенныйдля переводагоафем французскоготекста в соответствующиефонемы. ЯзыкТОР (Transcription Orthographlque Phonetique) - это языкправил описания,применениекоторых зависитот контекста.Программы,написанныена языке ТОР,содержат тричасти:
1) описаниеиспользуемыхкодов;
2) описанирклассов (необязательное);
3)правила.
Система правилоснована начастичномупорядоченном множествефонологическихправил французскогоязыка. Леваячасть каждогоправила указываетна графему,которую необходимоперекодироватьв фонему (указаннуюв правой части)при условии, что известенбуквенныйконтекст, вкотором находитсяперекодируемаяграфема.
В С.ЮЗ] описанамодульнаясистема речевогоответа, представляющаясобой большоеколичествопрограммныхмодулей (поодному ^ля каждойструктурнойобласти),связанных междусобой множествоминформационныхструктур. Каждаяструктурнаяобласть (т.е.морфология,синтаксис,семантика,фонология)делает свойвклад в общуюсистему, новзаимоотношенияэтих областейс лингвистическойструктуройвысказыванияне всегда однозначныиз-за индивидуальныхакустическихособенностейсинтезируемойволны. Различныеструктурныеобласти должны1ыть представленытак, чтобы можнобыло обеспечитьих оптимальноевзаимодействие.Лишь таким образом можноустановитьсложные отношениямежду поверхностнойречевой волнойи лежащей в ееоснове абстрактнойлингвистическойструктурой,которая должнабыть смоделированаглубоко ивсесторонне.
Присоздании модульнойсистемы предусматривалось:
а) получитьтакую полнуюмодель в алгоритмическойформе, чтобыпроцесс былпредставленс исчерпывающейполнотой;
б) обеспечитьработу системыдля моделейпеременнойсложности,например, чтобысистема работалас фиксированнымсловарем идибез учетапросодическихпараметров;
в) обеспечитьразвитие идостаточнуюгибкостьсистемы,чтобыизменения,которые должныбыть внесеныв один структурныйУровень, нетребовалиизменениядругих уровней;
г) реализоватьэффективнуюработу отдельныхчастей алгоритма»ориентируясьна спецификуприменениясистем речевого' ответа;
^и этом доляноучитыватьсяиспользованиеспециального оборудования,обеспечивающегоминимальныегабаритысистемы,времяформированияфразы, мощностьи стоимостьсистемы. 67
Модульноематобеспечение,реализующееэти требования,произ-водитанализ текста и синтез речи.На стадии анализа создаетсянекаяабстрактнаялингвистическаяструктура,общая как для вход-ного текста,так и для речевоговывода. Основными программнымимодулями при создании такойструктурыявляются:
1. Модуль"Формат",обеспечивающийпредварительную обработкувходного текста в форм;', удобнуюдля морфологического анализа и порождениясоответствующейфонемной цепочки.
2.Модуль "Декомпозиция1',осуществляющийморфологическийана-диз и находящийкаждое слово в лексиконеморфем, представляетпоследовательностьморфем, составляющихвходной текст, кодами, учитывающими их особенностипроизнесения(в сочетаниис другимиморфемами) и грамматическиефункции.
3. Модуль"Парсер"(грамматическийразбор) работаетс цепочкойморфем и определяет,к какой частиречи принадлежит каждое слово;этот модульстроит грамматическиесети и формируетфразы, объединяяслова в словосочетания,на которыедалее будет накладыватьсясоответствующийинтонационныйконтур; основная роль этогомодуля - разрешатьфонемныенеопределенности(что-то убрать,что-то добавить) и производитьлингвистическиеописания, необходимые для временныхпроцедур, и процедурыналоженияконтура основноготона.
4. Модуль"Звук-1", в которомморфофонетические правила (множественногочисла, прошедшеговремени, палаталлэации) применяются к словам,анализировавшимсямодулем "Декомпозиция"; эти правилаочищают фонетическуюцепочку и позволяютобъединятьдва иди болеесмежных корняв составноеслово , а также построить дляслова соответствующийконтур ударения.
5.Модуль "Звук-2"используетправила переводабукв (графем)в звуки дляпорожденияфонетическойпоследовательности, если модуль"Декомпозиция" не смог полностьюпревратитьслова в последовательностьлексическихморфем. После превращенияпоследовательностибукв в последовательностьфонетическихсимволов этотмодуль используетполный наборправил лексическогоударения,определяющихконтур ударностидля этого слова(эти правила, например,определяютПравильностьпроизношенияаффиксаateв словах eyatematioиeyetemeUze).
Присинтезе речииспользуетсянабор модулей, обеспечивающихпорождениевходной речевойводны:
- модуль"Просодика"»определяющийдля каждойфонемы формируемогопредложениячастоту основноготона, длительностьи интенсивность(ударность);
68
- модуль"Синтез", используяфонетическиеметки ипроводи-ивокуюш«формацию,каждые б мопорождаетпараметры, достаточные•ля управленияцифровой модель»речевого тракта,формирующейот-очеты речевойволны. Модуль"Синтез"- ато большая программа,мализуккцаяалгоритмфонетическогосинтеза речипо правилам с дополнительнымналожениемпросодическогоконтура;
-модуль "Речь"превращаетполученнуюпоследовательностьдесантныхотсчетов вречевую волну,используяцифроаналоговыйПреобразователь.
В[133] рассмотренаинтерактивнаясистема исследованияречиtiK; ,чозвояяищаяв диалоговомрежиме изучатьи модернн-ащюватьправила преобразования"текст- фонема",что дает возможностьполучать болеекачественнуюсинтетическуюречь. Системаspy используеттри вида правилпреобразования(рис.1.4):
1)правила модификациитекста, модифицирующиеначальнуютек-стоьуьстроку и связанныес ней признаки;
2)правила конверсии,формирующиецепочку фонеми связаннуюв ней матрицупризнаков наоснове информации,имеющейся вмодифицированнойтекстовойстроке;
3)правила модификациипризнаков,которые изменяют матрицу признаков,формируемуюправиламиконверсии.
Рассмотрималгоритмпреобразования"текст-фонема",реализованныйв [I33J, на примерепреобразованияслова.
На вход программыпреобразованияпоступаетслово, каждойбукве которогосоответствуетприсоединенныйпризнак, определяющийглаонке илисогласныезвуки, соответствующиеетим буквам:
с буква
согл..
(символы)
(присоединенные)
признаки
буквабуквабукяабуквабуква
глад.оогл.глао.согл.глас.
На аерьомуровне текстоваяцепочка и связаннаяо ней матрицаПризнаковмодифицируютсямножествомправил модификации текста. б»наравиле могутустранять,добамнгь изаменять символы,атак-*•делать соответствуххциеыодифхнацииматрицы признаков.Правила ч^дифинации•мжста, например,вводят символе*' после гласного,»»которым следуетодин или двасогласных, иперед суффиксами
69
Текст и признаки
Правиламодификациитекста(ТМ-правила)
Модифицированныйтекст и признаки
Правила конверсии (С-правила)
Фонемыи признаки
(W-правила)
Рис.1.4. Три уровня правил преобразования"текст-фонема1' системыSRS
sharing
+s/?are+.ing+
Ce] [C]
Пракихаконверсии
И. а—р/_с[*соп}е^
Правиламодификациипризнаков
3. [\tfns\—-[-tens']/_ [+ ret]
ПрименениеТМ-оравмя ксяоэуcarlna дает:
е + i n (f буква буква букм буква буква буква буквасоги. глас. согя. гяас. пас. согя. согд.
Таким обозом,эти аравияавводят новуюбукву е, а такжеопредедяштграницу модемы"+" и суффикса" •". (Введенныеси»»-воям служ*»тважной частьюиравия контекста,которые исоояьауютсяС- и /М-правияами.)
Модифицированныйтекст и связанныес ним признаки далее обрабатываютсяС-оравмяаыи,которые формируютфонетическую цепочку изпоследовательностибуке, полученныхна предыдущемваге. С-иравияо(рис. 1.Ь), например,показывает,что буква "а"произносится,как "е", когдаона предшествуетодиночнойсогяас-ной,за которойсявдует эаканчиваиааяморфему буква"е". (Это
70
Оравиюприменяетсяк "а" вw»eBathing,гд,»звуки" th" проиэ.косятся какодин согяасный,но не к "а" всловеtaxina, где •х'1произноситсякак два согласных.)Результатприменениявсех оравилконверсии ксдовуcarinqпозвояяетпожучить ояедующгювались:
9
согл. взрывной,
подъема, альвеолярныйвелярный, передний звонкий
+ А- е г -+. I nсогл. гдас. согя. глас. con. взрывной,среднего ретро- верхнего назальный,велярный, пид-ьеыа, Фявчсный подъема,гяухой передний
Если правиламодификациитекста изменяюттекстовуюцепочку непосредственно,то С-правилаформируют ноауюцепочку (фонем)на основеtm{iupuaiyiH.заключеннойв текстовойцепочке,F/И-пра-
•ила модифицируютфонетическуюцепочку, применяяпрарила контекстнойзависимостих матрице признакови включая илиустраняя сооткатет йущявсегменты. Так. ГМ-правило устанавливает,что напряженныйгласный становитсянапряженнымперед ретрофлекснымизвуками. Другии /^"дравидомяуяяетая правилообъединенияп и д, когдапроизноситсяп. Все этиправила использовались совместнос английскимиправиламипорожденияпараметров,соответствующихфонемам, дляпохученияречевой волны.
В [%]рассматриваетсяматематическоеобеспечение однокристальноймикроЭВМ моделиСв*.Для моделированияпередаточныхфункций речеобразумаеготра-«»а разработаныпрограммымодификациивыходных значений сигна-
*ов, поступающихс выхода генератораголосовыхимпульсов игене-Р»торашумовых сигналов.Для втого применяютмоделированиерекурсивныхфильтров спеременнымивременнымипараметрамии ыиогоавен-чах.В [96]приведенатипичная программадля одного звена ччогозввнногофнютра, управляемогопараметром,который ииветраз-чые значения для различныхзвеньев. Отмечается,что для пос-•Ровниятипичногосинтезатораречи требуетсядва микропроцессора®20; первый обеспечиваетработу генераторавоабуадаицих сигна-
71
лов и моделированиенесколькихпервых звеньев многозвенногофидьтра, а второй- для остальных звеньев этогофильтра. Дляпостроенияформатногосинтезатор»»достаточновоспользоватьсяодним микропроцессором2920. Речевой трактмоделируетсяздесь последовательностьюрекурсивныхфильтров второгопорядка (в [96] при»водится программатакого фильтра). Для удовлетворительного синтезапоследовательновключают не менее трехзвеньев,моделирующих три форманта.
1.4.6.Отечественныесистемы автоматическогоречевого вывода.Основныеработы по автоматическомусинтезу речисвязаны с построениемпараметрическихсинтезаторов[6,43, 48-50, 53, 70, 75]. Некоторые из систем речевоговывода информациииз ЭВМ внедреныв опытную эксплуатацию [43,48] , другие - близкик внедрению[6, 70,78] , третьи -используются в экспериментальныхустановках[50, 56] .
Развитие работ по построениюсистем автоматическогоречевого выводаведется в нашейстране в широкомдиапазоне - отфо" немных синтезаторовдо словесныхи даже фразовых временныхкомпиляторов.
Если в работах первогонаправления, при которых фонема рассматривается как набор заданнойпоследовательности движенияартикулятороа в артикулчторнойпрограмме,стремятся к компактностипредставлениягенерируемогоречевого сообщенияи универсальности,обеспечивающейречевое отображениепроизвольной текстовойинформации, то в компилятивныхвременныхсинтезаторах второго направленияделается упорна разборчивостьи естественностьскомпилированных высказываний(в ущерб универсальностии компактностипредставлениясигнала).
Одним из наиболеетипичных синтезаторов параметрическоготипа являетсяортогональныйсинтезаторречи [48] . Синтезаторпредназначендля выцачиголосом из ЭВЫв телефонныйканал счетов-справок о стоимостисостоявшихсямеждугородных переговоровгородскойтелефоннойсети. Речевойсигнал (словоограниченногопо объему словаря)представленвременнымиизменениями параметровсигнала - логарифмовогибающейамплитудныхспектров. Речевые ответы (фразы)вначале формируются в виде списковномеров слоя,речевые эквивалентыкоторых затемпосегментнообъединяютсяи выводятся на синтезатор.Отмечается,что разборчивостьсинтезируемыхфраз близкак 100%, скоростьвывода речевогосигнала насинтезаторравна 12 бит/с.
Приартикуяяторно-форматномсинтезе речи по печатному тексту L6.^]в качествеминимальногоартикуяяторного компдйкса
72
используетсяэлементарныйслог, представленныйнабором артикуля-торныхкоманд способаи места образованиявходящих в негофонем. Процессреализациислога делитсяна три основныефазы: переходнаяфаза от предыдущегослога к данному,фаза реализациисогласнойфонемы и фазареализациигласной. Синтезаторучитываетпросодическиехарактеристикиестественнойречи, а такжето обстоятельство.что в ней могутвстретитьсясочетаниясогласных игласных фон-эы.Система синтезав последнемслучае вводит фиктивныесогласные игласные, разбиваяречевой потокне слоги,причемфиктивнымзвукам приписываетсядлительность,равная нулю.Для автоматическогозадания интонационныххарактеристикфраз в синтезируемойтекстовойинформациивыделяютсяранжированныеединицы:
фраза, синтагма,фонетическоеслово, слог.При автоматическойобработкесинтезируемоготекста определяетсячисло единицранга К в единицерангаK-I,номер логическивыцеденнойединицы рангаК, а также типинтонации.
Для моделированияалгоритмовсинтеза использоваласьуниверсальнаямини-ЭВМ, обдацаищаябыстродействием200 тыс. операцийв Iс и оперативнойпамятью16 кбайт.Объем программ нодедм синтезаречи составляет1200 32-разрядныхкоманд. В настоящеевремя принципытехническойреализацииартикуляционногосинтезаторалегли в основуразработкистандартногоустройстваречевого выводас микропроцессорнымуправлениемдля ЕС ЭВМ [б]. Появилисьпервые синтезаторы,основанныена параметрах линейногопредсказания [55,78].
В нашей странеи за рубежомпоявляетсятакже интереск устройствамречевого вывода,основаннымна компиляцииречевого сигнала,соответствующегофразам, из болеемелких отрезков речевой волны:слов, слогов,аллофонов ['44,96]. Подобные синтеза-Юрыпредназначеныдля информированияпользователейограниченнымколичествомтипов фраз,часто вполнедостаточным.Большие жезатраты памятидля храненияв цифровом видеэлементов,из которыхформируютсяфразы, нетак страшны,потому чтоновые видызапоминающихустройств(например, нацилиндрическихмагнитныхдо-хенах) позволятхранить в малыхобъемах десяткимегабайт. ВСССР работыпо компиаятивномувыводу ориентированына использованиев качествеосновногоэлемента синтезакак слов,так и схо-^в.Предполагается,что такой синтезаторкомпилятивного типа ^УДетизготовленсерийно.
Зак.480
ГОВОРЯЩИЕ ипонимающиеречь машиныстроятся сейчасна основе ЭВМ,которые включают,как правило,микропроцессорыи другие большиеинтегральныесхемы. А ЭВМработают счислами, перерабатываютцифровую информацию.Лучше сказатьтак: все, чтоперерабатываетвычислительнаямашина, должнобыть представленов виде чисел.В понятие «все»входят, в частности,сигналы, получаемыес датчиков.Сюда относятсигналы, получаемыемедиками(кардиограммы,энцефаллограммы),и различныетехническиешумы, напримершумы двигателя,по которым ЭВМможет определитьпричину егонеисправности,геофизические(шумы подземныхнедр и моря),биологическиешумы (разговорыдельфинов,пение птиц,мяуканье кошеки лай собак,кваканье лягушек),различныедвумерныесигналы (изображения).Сюда же относяти человеческуюречь. В этомразделе рассмотрим,как речь (речевойсигнал) превращаетсяв набор чисели какие превращенияс этими числамипроисходятдо того, как«умная» машинапроизнесетнужную фразуили пойметс'!ысл высказывания.
Но мы должныпомнить, чтоосновные приборыи способы обработкисигналов,превращенныхв набор чисел,можно использоватьи для работыс любыми сигналами,поступающимис соответствующихдатчиков информации,сигналами необязательноречевой природы.Цифровые методыанализа открываютпоистинебезграничныевозможностивычислительнойтехники. Ученыепоказали, чтоесли у непрерывноизменяющегосяво временисигнала братьдостаточноблизко расположенныедруг к другуцифровые отсчеты,то последовательностьэтих отсчетовбудет почтиполностьюотражать всесвойства этихсигналов. Приобратномпреобразованииэтих цифр вречь она будетслышна безискажений. Этозначит, чтодостаточнопредставитьречевой сигналв цифровомвиде, в виде,
64
удобном длямашинной обработки,и можно применятьвсю мощь программныхсредств ЭВМдля расшифровкисмысла речевогосообщенияв системах,понимающихречь. В говорящихже машинахиспользуютобратноепреобразование:«цифры —речевой сигнал».Полученнуюпрограммнов виде последовательностичисел речьпропускаютчерез специальныепреобразователи«цифроваяпоследовательность—электрическоенапряжение» («цифра—аналог»).Далее речевойсигнал можноподавать нанаушники илидинамическийгромкоговоритель, преобразующиеэлектрическийсигнал в колебаниемембраны, илирупоры (диффузора)динамика, которыеколеблют воздухв соответствиис электрическимсигналом,поступающимна вход.
Напомним, чтосам речевойсигнал изменяетсяво временидостаточнобыстро. Этообъясняетсяособенностямиего образования— фильтрациейсигналов возбужденияимпульсоввоздушногодавления, толчковвоздуха, поступающихс голосовыхсвязок при ихколебании, т.е. через открытыеголосовыесвязки из легкихпри выдохечерез резонанснуюсистему (артикуляторныеорганы —гортань. язык,полости ртаи носа). Свойстваже речеобразующеготракта из-заего инерционностименяются медленно.И в вычислительноймашине в цифровойформе крайнежелательнополучать ихранить медленноменяющиесяпараметрыголосовоготракта и источника— частотыосновного тона,формантныечастоты, определяющиехарактер самогоречевого сигнала.Поэтому здесьрассмотрими способы полученияпараметровречеобразующеготракта —формант иразличныхсвязанных сними характеристик,которые иногдабудем называтьинформативнымипараметрами.Изменениеглавного параметраголосовогоисточника— частотыосновноготона—относитсяк просодическимхарактеристикамречи, некоторыеметоды егополучения ужебыли рассмотрены.
Если по информативнымпараметрами их изменениямво времени(используямодели речеобразования)можно восстановитьречевую волнуили распознатьее смысл (наоснове моделиречевос-приятия),то, кроме какс параметрами,вроде бы ни счем и работатьне надо. Параметрыэти очень удобны,слабо меняютсяво времени,поэтому ихгораздо меньше,чем цифровыхотсчетов са-'
5Заказ№ 901
65
мого сигнала.Значит, меньшийобъем памятиможно занятьпод высказывание,которое анализируетсяили генерируется.Значит, меньшевремени потребуетмашинная обработкапри распознавании.Значит, меньшимимашиннымиресурсами можноснабдить системуавтоматическогораспознаванияили синтезаречи и тем сильноснизить еестоимость. Нокак автоматическиполучить этипараметры(признаки, лежащиев основе машинныхмоделей распознаванияи синтеза речи)?Ведь при построениипонимающихречь машин,например, мыимеем на входемашины лишьречевой сигнал.Как от негоперейти к параметрам?Только создаваппаратуру,которая ихвыделяет ипозволяетвводить в ЭВМв цифровойформе, или разработавалгоритмы исоответствующиепрограммы,которые пооцифрованномуречевому сигналуили по спектрупозволяютполучать этипараметрыпрограммнымспособом. Всвязи с этимвводить в ЭВМинформациюо речевом сигналев цифровойформе можнотремя способами.Первый способосуществляетсяс помощьюуниверсальногоприбора-преобразователя«аналог—цифра»,который даетвозможностьвводить в памятьЭВМ отдельныеотсчеты речевогосигнала в видепоследовательностичисел.
Второй способвключает сложныйпреобразователь,позволяющийвводить в ЭВМинформациюо спектре сигналаза относительнокороткие временныеинтервалы.Обычно такаяинформациявводится сгребенки аналоговыхполосовыхфильтров, каждыйиз которыхпропускаетлишь ограниченныйдиапазон частот.Вместе же фильтрыгребенки перекрываютвесь частотныйдиапазон речевогосигнала, прошедшегочерез техническиеустройства(микрофон имикрофонныйусилитель).Использованиеустройствречевого вводаэтого типапозволяетполучать впамяти ЭВМ вцифровом видекартинку такназываемой«видимой речи»,динамическуюспектрограмму,которая раньшесоздаваласьс помощьюспектроанали-заторов,сонографов-приборов,сыгравшихбольшую рольв изученииречи и ее параметровлингвистами.В настоящеевремя информацияо кратковременномспектре можетбыть полученас помощьюспециализированныхБИС и СБИС цифровойобработки
66
сигналов, которыереализуютгребенку фильтровцифровымиметодами.
И, наконец, третийспособ —это устройстваввода в ЭВМвыделяемыханалоговымспособомнепосредственноиз речевойволны главныхпараметровречеобразующеготракта, а такжепросодическихпараметров— формантныхчастот, усредненноймгновеннойчастоты, усредненнойинтенсивностисигнала, частотыосновного тонаи некоторыхдругих признаков.Все эти параметрыили их эквиваленты,вообще говоря,можно получитьпрограммнопо оцифрованнойречи аналого-цифровымпреобразователемили по спектрусигнала. Устройстваввода третьеготипа позволяютполучать этипараметрыаналоговымспособом впроцессе произнесенияпредложения.
В связи с широкимраспространениеммикропроцессорови микроЭВМ,которые становятсяосновным инструментоманализа речи,и появлениеммикропроцессорныхсистем, обеспечивающихобработкуоцифрованныхречевых сигналов (введенных суниверсальныханалого-цифровыхпреобразователей)с огромнойскоростью,достигающейсотен миллионовопераций всекунду, далеебудут рассмотреныметоды первичнойцифровой обработкиречи. Эти методылежат в основесовременныхсистем автоматическогораспознаванияи синтеза речии связаны сполучениемтекущей автокорреляциисигнала,энергетическогоспектра, параметровлинейногопредсказания,гомоморфнойобработки, атакже клиппированнойречи. Будетобращеновнимание наиспользованиеспециализированныхустройств вводав ЭВМ информацииоб информативныхпризнакахречевого сигнала.
2.1.УСТРОЙСТВАВВОДА РЕЧЕВОЙИНФОРМАЦИИВ ЭВМ
Аналого-цифровоепреобразование.Преобразовательтипа «аналог—цифра»— это устройство,дающее возможностьвводить в ЭВМдискретныеотсчеты речевогоСигнала, представлятьнепрерывнуюречевую волнупоследовательностьючисел, сохраняявсе основныесвойства сигнала.Как правило,такой вводприменяется,
5*
67
когда не хотятпользоватьсяаналоговойаппаратуройвыделенияречевых параметрови когда анализсигнала необязательноосуществлятьв реальноммасштабе времени.Работа с оцифрованнымречевым сигналом,вводимымнепосредственнос аналого-цифровогопреобразователя,обеспечиваетболее гибкуюпоследующуюобработкуречи в ЭВМпрограммнымиметодами.
Теорема отсчетов,связывающаядискретныеотсчеты аналоговогосигнала и сохранениечастотныхсоставляющихсигнала, былапредложенаеще в 1933 годуВ. А. Котельниковым:если сигналx(t) не содержитчастотныхсоставляющихвыше FcГц, то его можнополностьюопределитьсобственнымизначениямив моменты, отстающиедруг от другана 1/2 Fc секунд.Интуитивноеподтверждениеэтой теоремысостоит в том,что если сигналx(t) не содержитчастот вышекритическойчастоты Fc,то он не можетсущественноизменить своезначение завремя, меньшеполовины периоданаивысшейчастоты. Согласнотеореме отсчетов,таким образом,сигнал какфункцию времениможно восстановитьпо значениямв точках отсчетах(кТ), если частотаотсчета Ро==1/Гне меньше удвоеннойкритическойчастоты Fc.Предположениетеоремы отсчетово существованиикритическойчастоты неявляется сильнымограничением,так как всефизическиеустройствав принципе недопускаютпроизвольновысоких частот,не пропускаяих, обрезая. Вовсех реальныхтехническихприложенияхвсегда исходятиз того, чтосуществуетнекая Fcдля любых аналоговыхсигналов.
При вводе в ЭВМдискретныхотсчетов речевогосигнала пользуются,как правило,стандартнымипреобразователями«аналог—код». Действияаналого-цифровыхпреобразователейоснованы наэлектрическомпреобразованиидискретизированных аналоговыхсигналов всоответствующуюпоследовательностьдвоичных чисел.Это преобразованиевыполняетсяразличнымиспособами,включая линейнуюимпульсно-кодовуюмодуляцию,дифференциальнуюим-пульсно-кодовуюмодуляцию,дельта-модуляцию,адаптивнуюдельта-модуляциюи другие методы,о чем можнопрочесть вспециальныхкнигах поаналого-цифровымпреобразователям.
Наиболеераспространеннымив настоящеевремя аналого-циф-ровымипреобразователямиявляютсяпреобразователи,использую
68
щие линейнуюимпульсно-кодовуюмодуляцию. Навходе системы(рис. 2.1) стоитфильтр нижнихчастот /,ослабляющийвысокочастотныекомпонентысигнала, лежащиевыше критическойчастоты Fc.Аналого-цифровоепреобразованиесигнала включаетдва этапа. Напервом этапезначение аналоговогонапряженияв момент измерениязапоминаетсяна некоем«аналоговом»запоминающемэлементе, вкачестве которогоиспользуетсяобычный электрическийконденсатор.На втором этапенапряжение,«запоминаемое»на конденсаторе,измеряетсяс определеннойточностью, идвоичный кодчисла, наиболееблизкий напряжениюна конденсаторе,передаетсяв память ЭВМ.
Сигнал, пройдячерез низкочастотныйфильтр ./, вопределенныймомент запоминаниясигнала поступаетна электрическийконденсатор2. которыйбыстро заряжаетсядо величинынапряжения,равного значениюнапряженияна выходе фильтра.Далее заряженныйконденсаторотключаетсяот питающей,входной цепина время измерения«запоминаемого»на емкостинапряженияи хранит егов течение всеговремени измерения,не разряжаясь.Аналоговаясхема 3сравниваетнапряжениесигнала, хранящеесяна емкости, скалибровочным,«компенсирующим»напряжением.Это напряжениеавтоматическиполучаетсяна выходе схемы4, котораяпреобразуетнекий код, двоичноечисло на входев аналоговоенапряжение,являясь такимобразом цифроаналоговым преобразователем.
В формированиидвоичного кодана входе схемы4 основнуюроль играетсхема 5,которая называетсярегистромзапоминанияпоследовательныхаппроксимаций.Попытаемсяразобраться,что это
69
за схема. Ввычислительнойтехнике понятие«регистр»является однимиз основныхпонятий. Регистр— это узелЭВМ, состоящийиз несколькихпараллельносоединенныхдвоичных электронныхзапоминающихэлементов— триггеров.Каждый из триггеровхранит толькоодин разряддвоичногочисла. Еслирегистр состоитиз 10 триггеров,то можно сказать,что он можетзапоминатьтолько десятиразрядноедвоичное число.Различаютстарший разрядзапоминающегорегистра, гдехранится старшийразряд кода,соответствующегодвоичномучислу, и последующиемладшие разряды.Вес каждогоразряда в двараза меньшевеса соседнего,стоящего слеваразряда регистра.
Аналого-цифровойпреобразовательустроен так,что на запоминающемрегистре вначале(во время циклаизмерениянапряженияна емкости)старший разрядтриггераустанавливаетсяпринудительнов единичноесостояние. Этоозначает, чтозначение«компенсирующего»напряжения,вырабатываемогосхемами 4и 5, в два разаменьше, чемвозможноенапряжениена емкости.
Если напряжениена емкостивыше, чем напряжениена выходецифроаналоговогопреобразователя,то схема сравнения3 вырабатываеттакой сигнал,что в единичноесостояниеустанавливаетсясоседний, стоящийрядом со старшимразряд регистра5. А это ужеозначает, чтона следующемшаге сравнениядвоичного числас напряжениемна емкости/ компенсирующеенапряжениебудет составлять3/4 от максимальновозможногонапряженияна запоминающейемкости. Еслиже при первомсравнениинапряжениена емкостиниже, чем компенсирующеенапряжение,поступающеес выхода схемы4, то старшийразряд регистра5 обнуляется,а соседнийвсе равноустанавливаетсяв единичноесостояние,означающее,что на второмшаге сравнениякомпенсирующеенапряжениебудет составлять1/4 от максимальногозначения, котороеможет запоминатьемкость /.Такое сравнениепродолжаетсядо тех пор, покане будут опрошенывсе разрядырегистра5, до самогомладшего.Понятно поэтому,почему регистр5 называетсярегистромпоследовательныхаппроксимаций,—мыпоследовательноприближаемсяко все болееточному измерениюнапряженияна емкости.После того, какпроизошлапроверка самогомладшего разряда,на
70
регистре хранитсячисло, наиболееточно аппроксимирующеесигнал, хранящийсяна емкости./. Этот двоичныйкод и пересылаетсяв ЭВМ, послечего переходимк измерениюследующегоотсчета сигнала,поступающегона емкость свыхода фильтра/ в моментподключенияего к запоминающемуконденсатору2. Такойспособ ана-лого-цифровогопреобразованияназывают поразряднымвзвешиванием.
Отметим, чтобольшие перспективыв использованииуниверсальныханалого-цифровыхпреобразователейоткрываютсяв связи смультипроцессорнойреализациейразличныхметодов цифровойобработкисигналов— дискретногопреобразованияФурье, линейногопредсказания,цифровой фильтрациии др. Для исследовательскихцелей этот типввода речевыхсигналов в ЭВМнаиболее применими в настоящеевремя, так какон достаточногибок и позволяетсохранять всечастотныесоставляющиеречевых сигналов.Применяютаналого-цифровыепреобразователии в тех случаях,когда необходимоиспользоватьфильтры с такимихарактеристиками,которые труднореализоватьна реальныхфизическихэлементах, атакже в случаях,когда требуетсячастое изменениепараметровфильтра, используемогопри анализесигнала, илиподбор характеристикфильтра и когдареальный масштабвремени анализане обязателен.Кроме того,ввод с аналого-цифровогопреобразователяможет оказатьсяцелесообразным(и единственновозможным),когда ставитсязадача поискаинформативныхречевых параметров(не обязательночисто спектральных)на значительномстатистическомматериале,собираемомв архиве речевыхпроизнесенийв цифровойформе.
Ввод сигналас гребенкианалоговыхфильтров. Второйтип ввода речевыхсигналов в ЭВМ— это вводсигналов сгребенки аналоговыхполосовыхфильтров,перекрывающихчастотныйдиапазон речи,прошедшей черезтехническиеустройства(микрофон—микрофонныйусилитель—(возможно) каналпередачи). Информацияс гребенкифильтров омедленно меняющихсяогибающихсигнала с каждогофильтра поступаетна электронныйкоммутатор(переключатель),который обеспечиваетпоследовательноеподключениенапряженияс выхода каждогофильтра каналого-цифровомупреобра-
71
зователю. Кодыс аналого-цифровогопреобразователя(информацияна выходе гребенки)с более низкой,чем при первомтипе скоростьюввода, определяемойчастотой опросагребенки (частотойквантования),поступают вЭВМ (рис. 2.2).
Достоинствоэтого способазаключаетсяв том, что в памятиЭВМ после вводасигнала находитсяуже непосредственнодинамическаяспектрограммаречевого сигнала(картина «видимойречи»), и нетнеобходимоститратить машинноевремя на цифровоемоделированиефильтров. Современныепрактическиесистемы автоматическогораспознаванияречи широкоиспользуютэтот способввода информациио речевом сигнале,позволяющийавтоматическианализироватьполученныеаналоговымспособом медленноменяющиесяпараметрытракта речеобразования.
72
. Этот типустройств вводаречи обладаетрядом недостатков.Что во-первых,то, что в нихтрудно изменитьхарактеристики(Ьильтров (ихсредние частотыи полосы пропускания)—еслиони однаждывычислены иреализованы«в железе», топерейти к (Ьильтрамс другимихарактеристикамивесьма непросто.Во-вторых, сгребёнки полосовыхфильтров поступаетмного избыточнойинформации,что не толькочрезмернозагружаетпамять ЭВМ, нои приводитк тому, что программынадежноговыделенияосновных параметровречеобразующеготракта, а такжепросодическихпараметров.достаточносложны. Иногдаформантныепараметрымгновеннуючастоту основноготона, среднююинтенсивность(громкость)относят кнаиболееинформативнымпараметрамв отличие отпараметров,представляющихпросто энергиюв полосах частотобщего спектрасигнала. Гребёнкафильтров даетслишком многоинформации,так как энергияв полосах частотхарактеризуетне только звукиречи, но и индивидуальныеособенностиречеобразующеготракта, эмоциональноесостояниечеловека и т.д.
В связи с этимгребёнку фильтровиспользуют,как правило,в дикторозависимыхсистемахавтоматическогораспознаванияречи, работающихс предварительнойнастройкойна голос диктораи набор слов—рабочийсловарь. Иногдатакие системыназываютадаптивными.В системах,работающихбез предварительнойнастройки наголос конкретногодиктора, которыеиногда называютнеадаптивными,используютгребенку дляполученияпараметровследующегоуровня распознаванияречи, болеенезависимыхот дикторскогопроизношения.Однако длясистем автоматическойдиагностикизаболеванийорганов речеобразования,распознаванияэмоциональногосостояниядиктора и егоиндивидуальностииспользованиегребёнки полосовыхфильтров какпервичногоанализатораоказываетсявесьма эффективным.Для неадаптивныхже системавтоматического'распознаваниясмысла сообщения,работающихот голосапроизвольногодиктора, полосовыефильтры, какправило, являютсявспомогательнымисредствамипервичногоанализа.
Еще раз отметим,что алгоритмыавтоматическогораспознаваниясмысла произнесенноготолько по картиневидимой речиоказываютсядостаточносложными. Ктому же использованиетолько
73.
гребенки фильтровне позволяетэффективноанализироватьтакие звукиречи, как глухиевзрывные,длительностькоторых сравнима<:>
Ввод в ЭВМинформативныхречевых параметров.Следствиемразвития системыввода второготипа — системыанализа речевыхсигналов, основаннойна выделениианалоговымисредстваминекоторыхмедленно меняющихсяпараметровречи и их последующейпрограммнойобработки,являются системы,использующиетретий типввода сигналовв ЭВМ. В такихсистемах первичныманализаторомречи служатустройствавыделенияинформативныхречевых параметров,близких к параметрамречеобразующеготракта. Вводтретьего типапозволяет ещесильнее сжатьинформациюо речевом сигнале,поступающуюв ЭВМ.
Блок-схемаодного из устройстввыделенияречевых признаков•представленана рис. 2.3. Общаяидеология такихустройств иобоснованиевыбранныхпризнаковречевого сигналаразработаныв Вычислительномцентре Академиинаук СССР иИнститутепроблем
74
передачи информацииАкадемии наукСССР. Усиленныйречевой сигналподается на16 каналов, изкоторых 9дают бинарныйвыход сигнализирующийо наличии илиотсутствиисоответствующегопризнака. Этипризнаки названыгрупповыми,их комбинацияможет датьпредставлениелишь о способеобразованиязвуков, т. е. опринадлежностик группе звуков,сходных поспособу образования— шумные, взрывные,гласные, но нео звуке в группе.Остальные7 каналов даютколичественныехарактеристикишумных звуковречи и гласных,т. е. позволяютклассифицироватьэти звуки поместу их образования.К признакамместа образованияшумных здесьотносят:
— число переходовсигнала черезнулевой уровеньв положительномнаправленииNo, т. е. общеечисло положительныхимпульсовклиппированного,или предельноограниченногоречевого сигнала,при которомон сохраняетлишь два возможныхзначения амплитуды(уровня);
— число положительныхимпульсовклиппированнойречи, превышающихдлительностив 100, 200 и 400мкс;
— число положительныхимпульсовклиппированнойречи, не превышающих50 мкс.
К признакамместа образованиягласных причисляютзначения первойи второй формантныхчастот. К групповымдвоичным признакам,принимающимтолько двазначения—Ои 1, относятся:
признак наличияэнергии сигнала,превышающейранее заданныйуровень (порог)в области низкихчастот (еслипороговыйуровень энергиине превзойден,считается, чтоданный групповойпризнак отсутствует);признак наличияэнергии, превышающейпороговыйуровень в областивысоких частот;трехуровневыйпризнак огибающейсигнала. Трехуровневыйпризнак наличияучастков сповышеннымчислом переходасигнала черезнулевой уровеньхарактеризуетусредненнуюмгновеннуючастоту сигнала.Кроме того, вчисло двоичныхпризнаковвходит признакповышеннойчастоты основноготона, определяющий«высокочастотные»женские и детскиеголоса.
.Признаки вводятсяв машину каждые10 мс в мультипрограммномрежиме на фонерешения другихзадач. Трехпороговыйпризнак плотностинулей представляетсобой три одинаковыхканала
75
Таблица2.1
Звук | —о | /о | Wl | N, | Ns | К. | л^в | N, | nh | /Л. | N.. |
21 | 3900 | 11 | 3 | 2 | 1 | 1 | — | — | — | — | |
24 | 3700 | 16 | 3 | 1 | — | — | — | 8 | |||
22 | 5400 | 15 | 2 | 1 | 1 | — | — | — | 14 | ||
С | 24 | 4700 | 12 | 3 | 1 | 1 | — | — | — | — | 20 |
28 | 4900 | 8 | 4 | — | — | — | — | 16 | |||
29 | 4750 | 8 | 2 | — | — | — | 23 | ||||
36 | 1950 | 9 | 1 | 3 | 3 | 1 | — | — | — | 10 | |
40 | 850 | 3 | 4 | 2 | 2 | 3 | 1 | — | 1 | — | |
48 | 300 | 1 | ч 0 | ||||||||
э | 50 | 550 | 1 | 2 | — | 1 | 2 | 1 | 1 | — | |
54 | 750 | 2 | — | 1 | 1 | — | 1 | 1 | 1 | — | |
60 | 600 | 1 | — | — | — | — | 5 | 2 | — | — | |
58 | 650 | 5 | — | — | — | — | 5 | 1 | — | — | |
57 | 500 | 2 | — | .— | — | 5 | — | — | — | ||
57 | 600 | 2 | 1 | 2 | — | 1 | — | 1 | — | — | |
42 | 650 | 1 | 5 | 1 | 1 | 1 | — | 1 | — | — | |
36 | 350 | 2 | 2 | 1 | — | — | |||||
33 | 250 | . | 1 | — | — | 2 | — | ||||
м | 26 | 250 | —— | — | —— | — | — | — | 1 | 2 | — |
23 | 200 | — | — | — | — | 1 | 1 | — | |||
22 | 250 | „ | 1 | — | — | — | 2 | — | |||
20 | 200 | 1 | 1 | ||||||||
с порогами начастоте в200, 3500 и 5000 Гц,что позволяетуже на уровнеаппаратурыкласс шумныхзвуков разделитьна высоко-инизкочастотные.Аналогичнымобразом построентрехпороговыйпризнак огибающей.Отметим, чтоаналоговыеустройствавыделенияинформативныхречевых признаковмогут дополнятьсядругими каналами,видоизменятьобщую структуру,включать в свойсостав устройстваввода второготипа (гребёнкиполосовыхфильтров).
76
2.2.ВЫЧИСЛЕНИЕПРИЗНАКОВПЕРВИЧНОГООПИСАНИЯ РЕЧИЦИФРОВЫМИМЕТОДАМИ
При анализеречи цифровымиметодами в ЭВМс аналого-дифровогопреобразователяпоступаютдискретныеотсчеты речевогосигнала, т. е.речь представляется.набором чисел.Последовательностьэтих чиселподвергаетсяпрограммнойобработке поопределеннымалгоритмамцифровой обработкисигналов длятого, чтобыпредставлятьречь в болеепростом виде—меньшимнабором чисел,первичнымипризнаками(признакамипервичногоописания), которыедают достаточнополное описаниеречевого сигнала.Признаки (параметры)первичногоописания программно вычисляютсяза время, в течениекоторого положениеречеобразующих(артикуля-торных)органов почтине меняется,—за0,01—0,02 с (10—20 мс).На отрезкахтакой длительностианалого-цифровойпреобразователь,«оцифровывающий»речевой сигналс частотой20 кГц, дает200— 400 отсчетов.Признаков жепервичногоописания наотрезках такойдлительностиобычно 10—20,а иногда и меньше,поэтому уменьшаетсяобъем памяти,,которая отводитсяв ЭВМ для -храненияречи, и увеличиваетсяскорость последующейобработкисигнала.
Первичныепризнаки записываютсяв запоминающемустройствев виде таблицы(матрицы) параметров.Каждая строчкатакой таблицы—этонабор признаков,вычисленныхпри цифровойобработкеречи за 10—20мс, а каждыйстолбец показываетизменениеданного признакаво времени(через 10—20мс). Например,несложнаятабл. 2.1 соответствуетпараметрическомупредставлениюслова «семь».При этом признакамипервичногоописания являются:средняя энергиясигнала Ац,средняя частотаперехода сигналачерез нуль /о(усредненнаямгновеннаячастота) и числаположительныхимпульсовклиппированнойречи. Инымисловами, речи,представленнойпрямоугольнымиимпульсами,полученнымииз первоначальнойречевой волныпосле ее усиленияи предельногоограниченияпо амплитуде,когда сигналпринимает лишьдва значения,одному изкоторых можетсоответствовать0, а другому1. Положительныеимпульсы находятсяв диапазонедлительностей100—200
77
(Л';), 200—300 (ЛЛ;),300—400 (Л^з), 400—600(Л^), 600—800(/Vg), 800—1200(Ns), 1200—1800мкс (Na),свыше 1800 мкс(Nis) и ме.нее 50 мкс{Ns). Всепризнаки измеренына интервалахв 20 мс.
Данные длятакой таблицыполучаютсяцифровымиметодами спомощью оченьпростых алгоритмов.Средняя интенсивностьсигналаAy на отрезкев 20 мс можетбыть полученасложением 400отсчетов входногосигнала, поступающихс аналого-цифровогопреобразователя,без учета ихзнака и с последующимделением на400. Усредненнаяза время анализа«мгновенная»частота сигналаГо вычисляетсяподсчетомточек, где соседниезначения отсчетовимеют разныезнаки. Числоточек, в которыхсигнал меняетзнак, деленноепополам, определяетсреднее числопереходовсигнала черезнуль в положительномнаправлении.Если среднеечисло умножитьна 100, то получитсяусредненнаямгновеннаячастотаfo. Таким образом,простейшейформулой,определяющейалгоритм вычисленияусредненноймгновеннойчастоты сигнала,является формула
где Aiи Лц.1—соседниеотсчеты речевогосигнала;sign—произведениедвух чисел Л,и Лг+i, равное1, если одноиз чисел (неважнокакое) положительное,а другое —отрицательное.
Числа положительныхимпульсовклиппированнойречи, определяющихинтервалы междунулями в возможныхинтервалахдлительностей(Ni—A^ia),также вычисляютсяочень просто.Представьтесебе, что в массивечисел, которыесоответствуютречевому сигналуи получаютсяс помощьюаналого-цифровогопреобразователя,отмечены места,где сигналменяет знакс отрицательногона положительный,и наоборот.Числа, представляющиеречь, идут,например, так:18, 13, 10, 7,3, —1, —8, —12, —20, —32,—25, —19,
—13, —6, —2, 4, 12, 16, 29, 21, 25, 14, 17, 12, 6,—2. —5, —11,
—18, —29, —29, —31, —21, —13 и т. д. В этойпоследовательностисоседние числатрижды имеютразные знаки.Дважды сигналпереходит изобласти положительныхзначений вобласть отрица-
—ro-T^iii-.v г,r>ni»u пяэ—ияобласти отоицательныхв область положи-
тельных (этичисла в массивеподчеркнуты).Если частотаквантованияаналого-цифровогопреобразователя20 кГц, то временныеотрезки, которымсоответствуетинтервал междудвумя соседнимияисламп —50 мкс (за однусекунду в памятьЭВМ вводится20 тысяч отсчетовречевого сигнала).Значит, достаточно подсчитать,сколько чиселпрошло междусменой знакас отрицательногона положительный,и наоборот,чтобы определитьдлительностьодного положительногопрямоугольногоимпульсаклиппированнойречевой волны.В нашем случаечисло интерваловмежду второйи третьейсменами знаковсоставляет12, т. е. длительностьпрямоугольногоимпульса12Х50—600 мкс. Можнополагать, чтопараметрMs должен увеличиватьсяна единицу. Длякаждого изпараметров^V,—,Vi6 имеютсяячейки-счетчики,которые называютсясчетчикамиселекции импульсовпо длительностии куда программаза время анализа(10—20 мс) заноситдля суммированияединицы, есливыполненоусловие записив соответствующуюячейку памятипосле проверкидлительностиположительногоимпульса. Этоделается сравнениемдлительностиимпульсов сконстантами,определяющими,в какой из диапазоновдлительностейпопало данноечисло.
Что дает такаятаблица признаков?Рассмотримданные табл.2.1 болеевнимательно.В ней даются22 строки. Этоозначает, чтодлительностьслова «семь»440 мс, так каккаждая строкатаблицы характеризуетотрезок сигналадлительностьюв 20 мс. Столбцытаблицы показывают,как изменяютсяпризнаки напротяжениислова. Словоначинаетсяс фонемы, характеризующейсявысокой мгновеннойчастотой:4—5 кГц. Далееследует участок,на которомсамая высокаягромкость имгновеннаячастота снижаетсядо 600— 700 Гц.Затем следуетконечный участокслова, на котороми интенсивностьпадает, и усредненнаямгновеннаячастота снижаетсядо 200—250 Гц. Этосоответствуетпоследовательностизвуков с—э—м.Особенно следуетсказать о признакахNi—A^g.Для щелевогос длительностиположительныхимпульсовфактическилежат в пределахДо 200 мкс. Дляударного гласногоэ эти длительностилежат в диапазоне300—800 мкс, а дляносового м—впределах1000 мкс и более.
79
Рассматриваютцифровой анализсигналов вовременной испектральнойобластях. Впервом случаепризнаки болеекомпактногопредставленияречи получаютсянепосредственноиз оцифрованногоречевого сигнала,так, как в рассматриваемомпримере. Вовтором —параметрыизвлекаютсяна основаниианализа динамическойспектрогрммы,которая характеризуетизменяющийсяво времениспектр звуковречи. Спектральныйанализ (получениединамическойспектрограммы)на ЭВМ осуществляютс помощью алгоритмадискретногопреобразованияФурье, которыйкратко будетрассмотрендалее,
Отметим, чток методам анализаречевых сигналовво временнойобласти относитсяавтокорреляционныйанализ. Этометод обработкисигналов, основанныйна временннойзадержке начальногосигнала с последующимумножениемзадержанногосигнала наисходный.Автокорреляционнаяфункция —это функциявремени, показывающая,как зависятпоследующиезначения речевогосигнала отпредыдущих:чем больше еезначение, тембольшая зависимостьопределенияпоследующегоотсчета сигналаот предыдущего,т. е. последующиеотсчеты болеекоррелированыс предыдущими.На звонкихучастках речиавтокорреляционнаяфункция квазипериодична,на глухих, гдеречевой сигналпредставляетсобой фрикативныйквазислучайныйшум, автокорреляционнаяфункция непернодична,случайна. Наэтом основановыделение поавтокорреляционнойфункции участков,соответствующихглухим и звонкимзвукам речи,а также определениепериода основноготона. На рис.1.14, г представленаавтокорреляционнаяфункция длязвонкого участкаречевого сигнала.С помощьюавтокорреляционнойфункции можноопределитьнекоторыеважные свойстваречевого сигнала,в частности,узнать, являетсяли даяный сигналпериодическим,т. е. присутствуетли в нем основнойтон. Автокорреляционнаяфункция длядискретнойпоследовательностих(п) вычисляетсяпо формуле
R(s)=-Zx(n)x(n—s),s=0, I, 2, ..., N,n=s
где х(п)—отсчетречевого сигналав п-й моментвремени; п=0,1, 2, ..., N;N+l—количествоотсчетов винтервалеанализа;.V-4-1— количествоотсчетовавтокорреляционнойфункции.
80
Автокорреляционнаяфункция являетсячетной функцией,т. е. R(s)==R(—s),и максимальногозначения достигаетпри s=0. ВеличинаR(o) равнаполной энергииречевого сигналана интервалеанализа, чтовесьма важнодля определенияэнергии сигнала,если известнозначениеавтокорреляционнойфункцииR(o).
Вычислениеотсчетовавтокорреляционнойфункции можнопроизводитьв процессеввода речи саналого-цифровогопреобразователя,уточняя с каждымвновь принятымотсчетом сигналазначение отсчетовавтокорреляциипо рекуррентнойформулеR»o»(s)=Rc-r!4?(s)+x(n)x(n—s),s==0, I, 2, ...,N.
В начале интервалаанализа принимаемR(s)=0, s=0,I, 2,..., ..., N,а предыдущиеотсчеты сигнала— равныминулю. Отметим,что в аналоговуюаппаратурувыделенияинформативныхпризнаков,описаннуюранее, можетбыть включенканал, дающийвозможностьполучить значенияавтокорреляционнойфункции наинтервалеанализа— коррелометр.
2.3.КРАТКИЕ СВЕДЕНИЯО СПЕКТРАЛЬНОМАНАЛИЗЕ РЕЧИ
Ранее упоминалосьо том, что речевойсигнал можнорассматриватькак реакциюсистемы с медленноменяющимисяпараметрамиречеобразующеготракта напериодическоеили шумовоевозбуждающееколебание.Многообразиезвуков речиопределяетсямногообразиемформ голосовоготракта. Припостроениимодели речевогосигнала, напримерв говорящихмашинах —синтезаторахречи, принимают,что на относительнокоротких временныхинтервалах(10—20 мс) формыголосовоготракта припроизнесениизвуков речисущественноизменятьсяне могут. Натаких короткихинтервалахподобные формытракта считаютпостоянными.А это означает,что электрическийфильтр с резонанснымисвойствами,отражающимисвойства голосовоготракта, тожеможно рассматриватьна короткихвременныхинтервалахкак системус постояннымипараметрами.Это позволяетмоделироватьсложный процессре-чеобразованияэлектрическойцепью или программнона ЭВМ.
6Заказ№901
81
Модель речевогосигнала длязвонкого звукапредставленана рис. 2.4.Импульсы возбуждения,т. с. электрическиесигналы, эквивалентнытолчкам воздухана выходе голосовыхсвязок (рис.2.4, а); ^:o=2л/Гo—частотаимпульсоввозбуждения,или частотаосновноготона. В спектральнойобласти энергиятаких импульсовпредставляетсягребенчатымспектром (рис.2.4,6). Это означает,что квазипериодическийсигнал, соответствующийимпульсамвозбуждения,имеет частотныесоставляющиелишь на гармониках,кратных частотеосновного тонана частотахFo, 2Fo,3F„ и т. д. (точнее,в областяхвблизи этихгармоник).
Для аналоговыхэлектрическихсигналов выходноенапряжениеопределяетсяоперациейсвертки функциивозбужденияи отклика (реакции)фильтра наединичныйскачок напряженияна его входе.Иногда сверткудля аналоговыхсигналов называютинтеграломДюамеля. Операциюсвертки дляаналоговыхсигналов мырассматриватьздесь не будемиз-за се относительнойсложности.Попытаемсякратко описать,что такое операциясвертки дляслучая дискретныхсигналов.
Из теории фильтрацииследует, чтоесли возбуждающийсигнал, поступающийна фильтр,представлятьпоследовательностьюего
82
отсчетов, тосигнал на выходефильтра, которыймоделируетголосовойтракт, можнопредставитьоперациейдискретнойсвертки, котораяучитываетреакцию фильтрана входные(возбуждающие)сигналы. Дискретныйсигнал на выходефильтра вычисляетсяпо сигналу навходе Е(п) иотклику (реакции)h(n) фильтрана единичныйимпульс6(ri), равныйединице в дискретныемоменты временип и нулю внеэтих дискретныхмоментов. Дискретнаясвертка вычисляетсяS(n)=^ E(k)h(n—k)=E(n)* h(n),
k=—oa
где символ* означаетсвертку. Вычислениеэтой громоздкойсуммы произведенийупрощается,если учесть,что большаячасть этихпроизведенийравна нулюиз-за конечнойдлительностивозбуждающегосигнала Е(п).
Итак, еслиS(n)—речевойсигнал на входефильтра, моделирующегоголосовойтракт, то значениекаждого отсчетасигнала можнопредставитьсверткойS(n)=E(n)s h(n).
Переход к анализусигналов вспектральнойобласти позволяетдостаточнопросто получитьспектр выходногоречевого сигнала,если известенспектр возбуждающегосигнала ипередаточнаяфункция фильтра,моделирующегоголосовойтракт. Спектрвыходногосигнала (звонкогозвука речи), т.е. совокупностьзначений амплитудвсех частотныхсоставляющих,образующихданный звук(рис. 2.4,6), можнополучить, перемножив(а не произведясложную операциюсвертки) спектральныесоставляющиегребенчатогоспектра сигналавозбуждения,которые берутсяв точках, кратныхчастоте основноготона, на значенияпередаточнойфункции голосовоготракта. На этомрисунке видныподъемы спектрана формант-ныхчастотахf[, /•2,Fs, Ft-
Разработаныматематическиеметоды (аппаратпрямого и обратногопреобразованияФурье), позволяющиеосуществлятьпереход кпредставлениюсигнала вспектральнойобласти, еслиизвестна временнаякартина речевойволны. И наоборот,если известноспектральноепредставлениеречевого сигналана последовательныхотрезках речевойволны, то можнополучить временнуюкартину речи,
б*83
т. е. увидетьее осциллограммуи услышатьзвучаниесинтезированнойречи, когдаизвестны толькоамплитуды еечастотныхсоставляющих.
Спектральноепредставлениеоцифрованногоречевого сигналаосновываетсяна кратковременномдискретномпреобразованииФу- i рье,учитывающемобстоятельство,о котором мыуже упоминали:
на относительнокоротких временныхинтервалах(10—20 мс) свойстваголосовоготракта, а значит,и передаточнаяфункция тракта,определяющаяспектральныесвойства речевогосигнала, существенноне изменяются.Хотя формуладискретногопреобразованияФурье строготеоретическипредставляетбесконечноесуммированиепроизведенийдискретныхотсчетов сигналаи синусоид,частоты которыхизменяютсядискретно отнекоей начальнойсинусоиды добесконечности,реальное(кратковременное)преобразованиеФурье используетдополнительныйсомножитель.Он называетсявесовым окном,или весовойфункцией, котораяимеет ненулевыезначения лишьна окне (участкесигнала длительностью10—20 мс), где мыпринимаемпостоянными,независимымиот временичастотныесоставляющиезвука.
Формула кратковременногопреобразованияФурье, которымпользуютсяпри расчетахдискретныхспектров звуковречи, имеет вид
КратковременноепреобразованиеФурье позволяетпредставлятьречь динамическойспектрограммой,или временнойпоследовательностьюспектральныхсрезов, кратковременныхспектров, каждый
84
из которыхполучен дляокна, короткогоотрезка речевогосигнала, накотором, какмы считаем, неизменяютсяспектральныесвойства.Динамическаяспектрограмма(картина «видимойречи», если еевыводят напечать в видерисунка) представляетхарактеристикиречи в координатах«время —частота —амплитуда».Алгоритм дискретногопреобразованияФурье позволяетизобразитьспектр значениямиамплитуд частотныхсоставляющихна равностоящихчастогах. Поспектральномуописанию(кратковременномуспектру) можноопределить— и довольнонесложнымиматематическимиметодами— основныепараметрыречеобразующеготракта: частотуосновного тона,формантныехарактеристики,энергии в полосахчастот.
В настоящеевремя разработаныалгоритмыбыстрого вычислениязначений спектральныхсоставляющихпо дискретнымотсчетам сигнала.Такие алгоритмыназываютсяалгоритмамибыстрогопреобразованияФурье. В их основележит разбиениепоследовательностиЛ" отсчетовречевого сигналана составныечасти (Nберется всегдасоставнымчислом), длякоторых вычисленияосуществляютсязначительнобыстрее. ОбычноN беретсякак 2й, т. е. берутсяЛ', равные128, 256 или 512 (27,28 или 29) взависимостиот частотыквантованиясигнала идлительностиокна анализа.Отметим, чторазработанытакже ускоренныеметоды длявычисленияоперации свертки.
2.4. НЕМНОГОО ЛИНЕЙНОМПРЕДСКАЗАНИИ
В последниегоды приобрелширокое распространениеметод анализаречевых сигналовво временнойобласти, которыйполучил названиелинейногопредсказанияили линейногопрогноза. Вразвитие этогометода анализаречи большойвклад внеслисоветскиеученые А. А.Харкевич, Н. Н.Акинфиев, А. Н.Собакин и др.
Линейноепредсказание—этометод анализа,основанныйна цифровойфильтрацииоцифрованнойречи, при которойтекущий отсчетсигнала можетбыть «предсказан»(например, приавтоматическомсинтезе речи)линейной комбинациейпрошлых значенийвыходнойпоследовательностии настоящих,а также прошлыхзначе-
85
ний входнойпоследовательности.Понятие «линейнаякомбинация»означает суммупроизведенийизвестныхдискретныхотсчетов сигнала(входных и выходных),умноженныхна соответствующиекоэффициентылинейногопредсказаниядля предсказания(определения)неизвестноговыходногоотсчета. Прилинейном предсказанииосновная задачаанализа речи— найти коэффициентыэтой линейнойкомбинации,которые даютминимальнуюошибку предсказанияна участкеанализа сигнала.
Модель сигнала,наиболее частоиспользуемаяпри линейномпредсказании,сводится кполучениюнеизвестногоотсчета х(п)без учета предыдущихвходных воздействийна выходе некоторойсистемы
р
х(п)=^ dnx(n—k)+Gu(n), k=i
где р —число коэффициентов,используемыхв модели; йк— коэффициентылинейногопредсказания;G—коэффициентусиления,определяющийвклад в линейнуюкомбинациювходного отсчета;
и(п) — текущийвходной отсчет.
Задача анализаоцифрованнойречи сводитсяк определениюкоэффициентовОк и G этоймодели. Методопределениявеличин, используемыхпри расчетах,называетсяметодом наименьшихквадратов.Чтобы понятьего суть, пойдемна некоторыеупрощения впредставлениитекущего выходногоотсчета. Будемсчитать, чтовходное воздействиена вход системы,моделирующейформированиеречевых сигналов,ненаблюдаемо,что справедливодля ряда прикладныхзадач. Тогдана интервалеанализа текущиеотсчеты речевогосигнала приближенноопишутся линейнойкомбинациейпредыдущихзначений:
Коэффициентылинейногопредсказанияа„ вычисляютсяиз условияминимумасреднеквадратичногозначения ошибкина интервалеанализа. Наэтом интервалеполная среднеквадратичнаяошибка складываетсядля каждогоотсчета сигнала,представленноголинейнойкомбинациейр предыдущихзначений сигнала
Здесь п— номер предыдущегоотсчета сигналана анализируемоминтервале;k — номерпредыдущегоотсчета сигналапри построениилинейной комбинации,представляющейтекущий отсчет.
Коэффициентылинейногопредсказания,минимизирующиеполную ошибкупредсказанияЕ, находятсяпосле того,как выражениедля полнойошибки продифференцироватьпо всем коэффициентамОн (полная ошибкапредсказанияможет рассматриватьсякак функцияпараметровак) и приравнятьнулю все частныепроизводные:дЕ/дс>к=0'Л
Частнымипроизводныминазываютсяпроизводныесложной функциипо одной изпеременныхс учетом того,что остальныепеременныепри такомдифференцированиисчитаютсяконстантами.
Результатомдифференцированияпо а,, являетсясистема излинейных уравненийс неизвестнымикоэффициентамилинейногопредсказания,минимизирующимиошибку линейногопредсказанияна отрезкеанализа сигнала,где коэффициентыйк считаютсяпостоянными.Решение этойсистемы линейныхуравнений, атакже другиевопросы, связанныес линейнымпредсказаниемречи, подробнорассмотреныМаркелом иГрэем в книге«Линейноепредсказаниеречи».
87
2.5. АНАЛИЗКЛИППИРОВАННОЙРЕЧИ
Клиппированнымречевым сигналомназывают предельноограниченный«стриженый»сигнал, сохраняющийлишь два возможныхзначения, которыеусловно принимаютсяза +1 и —1
(рис. 2.5).
В различныхработах отмечается,что, несмотряна недостаточнуюестественностьзвучанияклиппированнойречи, ее разборчивостьоказываетсядостаточновысокой, причемразборчивостьречи повышается,если до клиппированияречевой сигналподвергнутьдифференцированию.Это явлениеозначает, чтоинформацияо распределенииинтерваловмежду нулевымипересечениямисигнала можетбыть использованадля построенияустройствавтоматическогораспознаванияи синтеза речи.Привлекательностьавтоматическогоанализа клиппированнойречи и использованияее параметровдля целей построенияговорящих ипонимающихречь машинлежит в простотеполучения этихпараметров.
Если речевойсигнал представлендискретнойпоследовательностьюего отсчетов-J х(п)}, то фиксированиемомента переходасигнала черезнуль происходит,когда знакидвух соседнихдискретныхотсчетов речевогосигнала различны,т. е.
sign[x(n)]-^s\gn[x(n—l)'\.
Информацияоб общем числепереходовсигнала наопределенноминтервале иразличныхдиапазонахдлительностейучастков междунулями частоиспользуетсядля грубойоценки частотногосостава сигнала.Существуеттесная связьмежду числомнулевых пересеченийи распределениемэнергии почастотам. Общеечисло переходовсигнала черезнуль, величинуЛ'о, вычисляемуюдля дискретнойпоследовательностиА" отсчетов,можно представитьв виде
Существуютсистемы автоматическогораспознаванияречи, в которых,как об этомговорилосьранее, нулевыепересеченияиспользуютсядля приближенногоопределенияформантныхчастот. На рис.2.6 показано,как оцениваютсяформантныечастоты с помощьюсхемы анализанулевых пересеченийпосле прохождениясигнала черезполосовыефильтры, которыеперекрываютдиапазонычастот, соответствующиеформантнымобластям (перваяформанта Fiлежит в диапазоне200—900 Гц, вторая—550—2700Гц и третья—1100—2950Гц).
Иногда прираспознаванииречевых сигналовиспользуюттак называемуюгребенку временнойселекции, котораяпозволяетоценить ширинуимпульсовклиппированногосигнала и темсамым провестиболее точныйанализ во временнойобласти, чтопозволяетотносительнопростыми средствамиотличать одниклассы звуковот Других. Так,для фрикативныхсогласныхселекторыимпульсов поДлительностидают возможностьотделить диффузные(звуки с ши-
89
роким спектромтипа ф) откомпактных(спектр которыхсосредоточенв относительноузкой области—с,ш).
Блок-схемаселекции импульсовклиппированногоречевого сигналапо длительностипоказана нарис. 2.7.
Обычно с учетомособенностейклиппированныхсогласных игласных выбираютпороги временнойселекции, равные50, 100, 200, 400, 600 и 800 мкс(первый селекторотбирает узкиеимпульсы,длительностькоторых меньше50 мкс). Поступающиедля дальнейшегоанализа числа(со счетчиковимпульсов)позволяютполучатьраспределениеинтерваловмежду нулямив диапазонахдлительностеймежду пороговымизначениямиселекторов— узлов, пропускающихна счетчикиимпульсы,превосходящие(или не превосходящие)по длительностизаданный порог.
Следует отметить,что энергияи переходысигнала черезнуль частосовместноиспользуютсядля разработкиалгоритмоввыделениямоментов началаи конца речевойреализации(изолированногослова фразы).Такой алгоритмприменен, например,в отечественнойпромышленнойсистеме распознавания изолированныхслов ИКАР.
90
Подобные алгоритмыосновываютсяна тщательномисследованиистатистическихпараметровфункций среднегозначения сигналая числа нулевыхпересеченийдля шумов различнойприроды и различныхзвуков фрази изолированныхслов.
2.6.ГОМОМОРФНАЯОБРАБОТКАСИГНАЛОВ
Как было показаноранее, речевойсигнал на короткихинтервалахможно рассматриватькак откликсистемы с медленноменяющимисяпараметрамина периодическоеили шумовоевозбуждение.Это означает,что во временнойобласти дискретныйсигнал у(п)представляетсярезультатомсвертки функциивозбуждениях(п) с импульснойреакцией голосовоготракта h(n).Гомоморфнаяобработка речисводится крешению обратнойзадачи — имеяречевой сигналу(п) =х(я)* h(n),можно получитьпараметрысигналов, участвующихв свертке. Этазадача называетсяиногда задачейобратной сверткиили развертки.
Смысл гомоморфнойсистемы анализастановитсяболее понятным,если учесть,что в частотнойобласти речевойсигнал представляетсяпроизведениемспектра сигналавозбужденияи передаточнойфункции частотнойхарактеристикиголосовоготракта, учитывающегоспектральныесвойства излучателя (произведениемP(f)=E(f) F(f), см. рис. 1.3). Это означает,что в спектреречевого сигналасодержитсяинформацияо спектре сигналавозбужденияи передаточнойфункции голосовоготракта. Гомоморфнаяобработкасигнала —это способизвлечь информациюоб основномтоне и формантныхчастотах наоснованиипреобразованийсигнала, которыебудут описаныдалее.
Если произвестикратковременноедискретноепреобразованиеФурье (т. е. получитьдинамическийспектр речевогосигнала), а затемпрологарифмироватьспектральныесоставляющиединамическогоспектра, токаждый спектральныйотсчет можнорассматриватькак сумму логарифмовспектра сигналавозбужденияи частотнойхарактеристикиречевого тракта(по свойствулогарифмическойфункции логарифмпроизведенияравен суммелогарифмовсо-
91
преобразованиеФурье
множителей).Обратное дискретноепреобразованиеФурье прологарифмированногоспектра позволяетвновь перейтик анализу сигналаво временнойобласти. Сигнал,полученныйв результатеобратногодискретногопреобразованияФурье прологарифмированногоспектра, называетсякепстром входногосигнала, равногосумме кеп-стровсигналов возбужденияи составляющих,обусловленныхособенностямиречеобразующеготракта. В результатеподобныхпреобразованийдискретныйречевой сигнал,представляющийсобой сверткусигнала возбужденияи импульсногоотклика фильтра,моделирующегоголосовойтракт, приближеннопреобразуетсяв сложениекепстров (рис.2.8).
Логарифмкратковременногоспектра вокализованныхзвуков содержитмедленно меняющуюсясоставляющую,обусловленнуюпередаточнымисвойствамиголосовоготракта, и быстроменяющуюсяпериодическуюсоставляющую,которая вызываетсяпериодическимсигналом возбуждения(рис. 2.9, а). Дляневокализованнойречи прологарифмированныйспектр носитхарактер, показанныйна рис. 2.9. б.Спектр содержитслучайнуюсоставляющуюс быстрымиизменениями.
Кепстры отрезковвокализованнойи невокализованнойречи (рис.2.10) показывают,что медленноменяющаясячасть прологарифмированныхзначенийкратковременногоспектра представленасоставляющимикепстра в областималых времен.Быстро меняющаясяпериодическаясоставляющаяпрологарифмированногоспек
92
р,.
тра, соответствующаячастоте основноготона, в кепстревокализованнойречи проявляетсяв виде резкогопика, расположенногоот начала координатна расстоянии,равном периодуосновного тона.Кепстр невокализованнойречи (рис.2.10, б) таких пиковне имеет.
Если кепстрперемножитьна подходящуюфункцию окна,например напрямоугольноеокно, пропускающеетолько начальныеучастки кепстра(которые соответствуютобласти малыхвремен и отражаютотносительномедленно меняющиесяпараметрыголосовоготракта), а затемвычислитьдискретноепреобразованиеФурье результирующеговзвешанногокепстра, тополучим сглаженныйспектр сигнала(см. рис. 2.8). Онотражает резонансныесвойства тракта,позволяя оцениватьчастоты и полосыформант. Наличиеили отсутствиеярко выраженногопика в области,соответствующейдиапазонуизмененийпериода основноготона, указываетна характервозбуждения,а местоположениепика являетсяхорошим индикаторомпериода основноготона (рис.2.10,0^).
РЗ
nOCIPOFHHEСИСТЕМ ДИСКРЕТНОГОРАСПОЗНАВАНИЯРЕЧИ, РАБОТАЮЩИХБЕЗ ПОДСТРОЙКИПОД ДИКТОРА
§ 2.1. Общиепроблемыавтоматическойподстройкинеадаптивныхсистем распознаванияречи
Ьеадаптивныесистемы дискретногораспознаванияречи, рассматриваемыев настоящейглаве, позволяютпроизвольномудиктору-ногитедюнормы произношенияданного языкапроизводитьавтоматическийречевой вводизолированнымисловами иликороткими спиво-сочетанияуи.Такие системыявляются, какправило, аппаратурно-црог равным ии основываютсяна выделениинекоторых устойчивыхфонетическихпризнаков,проявляццихсяу множествадикторов-носителейнормы данногоязыка для различныхклассов звуков,ина дальнейшемиспользованииэтих признаков(представленных гистограммамиих распределения)для декодированиявысказывания. Однако фактическии в этих системахосуществляетсянекая подстройкапод множестводикторов (обучение)во время сбора статистики,построениягистограммпараметровдля различныхзвуков и привыборе решающихправил. Поэтому,строго говоря,такие системы не следовалобы называтьнеадаптивными,т.е. термином,достаточношироко распространеннымв настоящеевремя. Крометого,автоматическоеразбиение всегомножествадикторов-пользователейна группы(кластеры) иформированиеобобщенныхэталонов словдяя каждойгруппы самопо себе естьобучение надиктора, адаптацияуниверсальнойсистемы к этомумножествупользователей,чтотакже заставляетбыть осторожнымв примененииТермина-"неада^тивные",Если же говоритьоб использованииэтого терминав смысле отсутствияадаптации кновому словарюи языку системы,го, действительно,все известныеневдаптивныесистемы [10,16,25, 166, 167] практическине обеспечивававтоматическоеизменение этих основныххарактеристик.Попытка универсальнойсегментациислов, яв-хякхцейсяосновой подстройкииод словарь,рассмотренав [133 • Задачанастоящей главы- исследоватьболее широкиеаспекты проблемыперестройкик новым условиямне адаптивныхсистем, ориентированныхна работу спроизвольнымдиктором. Подадаптациейбудем здесьпонимать расширение,развитие неадаптивнойсистемы автоматическогораспознаванияфраз, составленныхмэ изолирований
74
йдов, эа счетнекоторогоизменения языкаэтой системыи его словарногосостава. Какправило, в конкретныхзадачах речевогоуправлениявозникаютПроблемы, связанныес обогащениемязыка, добавлениемновых слов ипонятий. В отдельныхслучаях требуетсямедиком заменитьсловарныйсостав языка,приспособитьсистемы ксовершенноновой задаче.При этом желательносохранить основные структурные(синтаксические)свойства языка,связи междулингвистическимиуровнями, соотношениямежду понятиямивнутри уровня,т.е. придатьсвойствам языкауниверсальныйхарактер,формализоватьязык речевогозапроса такимобразом, чтобыон напоминалязык опи-оанйя баз данных- сетевой,иерархическойили реляционной.
Основнымилингвистическимивопросами,возникгшцимипри этом, явжявтся:
1) как оценитьсложность языкаречевого общенияи попытаться,используясинонимию,свести трудностираспознаваниясдов, вызванныефонетическиминеопределенностями,до минимума;
2) каким образомограничитьгибкостьпроблемно-ориентнрова!:-иогоязыка, не слыпкомсдерживаяжелания и возможностичеловека общатьсяс информационнойсистемойестественнымифразами; какиезадачи позволяютнам практическииспользоватьотносительнопростой синтаксисязыка;
3) как автоматическирасширятьсловарный запасязыка;
4) как приэтом корректироватьязык, на базекоторого создананеадаптивнаясистема автоматическогораспознавания.
(Вопросы о расширениикруга пользователей,включая пользователей,говорящих сакцентом идидефектом речи,а также проблемыпоиска новыхинформативныхпризнаков,использованиятелефонногоканала опускаем,относя их ктехническимвопросам,которые• работене рассматривается.)
Некоторые изперечисленныхлингвистическихпроблем возникаюти для адаптивныхсистем, работающихс подстройкойпод дик-Юра исловарь. 3известныхработах поаравтическомуиспользованиюадаптивныхсистем [134,140]нет сведенийоб адаптациисистем к новомуизменяемомуязыку речевогообщения (еслине считатьзамену словаряв системах типа vir-юо подстройкойпод язык).
йервой мз проблемпосвящен§ 2.2, где выборсловаря обус-яовленточностьюраспознаванияслоя и связаннойс ней вероятностнойоценкой неопределенностираспознаванияПри заданнойсовокупностифонетическиепризнаков.Оценка граю-атнческойсложностияэыка, используемого в неадаптивныхсистемахраспознаванияре-11^^(языка, древовиднойструктуры безсложных внутреннихсвязей)
76
(си.§ 2.3), позволяетподойти к решениювышеуказанной проблемы2). Задаче автоматическогорасширениясловарногосостава посвященачетвертаяглава, тесносвязанная с пятой главой,где описаныэксперименты по построениюсистемы распознавания понятийныхфраз конкретногоязыка описанияданных информационнойсистемы, длякоторого строиласьмодель. Кратко о проблеме3 говорится в п. 2.3.3 , в которомрассматриваетсяавтоматическаяподстройка"под язык",изменяющийся с изменениемсловарногосостава.
Рассматривающиесядалее вопросы,нанаш взгляд,имеют весьма важноезначение как идеологическаяоснова будущихсистем автоматическогоречевого запросаинформации,ориент грованныхна произвольногопользователя.Если первыепрактическиенеадаптивныесистемы распознаванияречи (СРР) могут и отличатьсяот аппаратурно-программных,аналогичныхнашей (скажем,основыватьсяна мультимик-ропроцессорныхсистемах, в которые речевойсигнал поступает с АЦП), то общие лингвистическиепроблемы, указанныездесь, неизменнобудут возникать при любой структуресистемы и любом подходе к первичномуописанию сигнала.Не следуетзабывать, чтонеадаптивныесистемы автоматическогораспознаванияявляются основнымисистемамибудущего- при общении-,с роботами иинформационнымисистемамиобщего назначения.Вопросы, рассматриваемыедалее, будутотноситься к неадаптивнымсистемам,ориентированным на пословный ввод речевойинформации, а также на ввод информациикороткими словосочетаниями,которые можнорассматриватькак одно слово.Это связано с тем, что лишь на изолированныхсловах и короткихсловосочетанияхпараметрызвуков (выцеляемыеалпаратурно)являются относительноустойчивыми(обладают малойдисперсией), и можно говорить о возможномиспользованиихарактеристик,определяемыхгистограммамипараметров,для автоматическогораспознавания.
Прираспознаванииизолированныхслов представляетсяцелесообразнымразработатьалгоритм, которыйобеспечивалбы устойчивоесегментированиепоступающих на вход реализациислов на участки,соответствующиеразличи™ способамобразованиязвуков, т.е. натональныеотрезки речи,шумные и участки,соответствующие гиухии смычковым(коротким паузамвнутри слова).Звонкие фрикативныезвуки можнобыло бы отнестик шумным. Существуютразличные методы такойклассификации в зависимостиот первичногоописания речевыхсигналов. Для аппаратурно-программногометода достаточновысокую точностьклассификацииотрезков речина участки "тон- иум ' Пауза" для произвольногодиктора даютбинарные признакиспособа образованиязвуков, выделяемыеаппаратурно [97] .
76
Динамика участков"тон - шум- пауза" являетсяхорошим признакомраспознаванияслов для небольшихспециально подобранных„доварей. Непредставляеттруда перейтик небольшому новому словарю,используя лишьпризнакиклассификацииотрезков речи на вти трчкласса и динамикутипов участковв слове. Вакноправильновыбрать фонетическуюструктуру словэтого словаря.В зависгзло-стИот возможностейнадежнойклассификацииотрезков речина этапе анализасигнадоч (первичнаясегментацияи маркировка) mosko использоватьбольшее числоклассов сегментов(классов фонетическойструктурыслова), динамикакоторых позволитнадекно классифицироватьбольшее числослов словаря.(В наших работахна начальнойуровне анализаречи использовалоськак семь типовсегментов (ей.Я, 2.2.2), таки три типа- тональный-шумный-сауза(см. § 5.5).)
В связи с этимЖ.Дрейфу о-Графдля распознаваниясловарногосостава разработалспециализированныйязык речевогообщения sotina, состоящийиз бессмысленныхслов, которымусловно придаетсянекое смысловоезначение, ивключал лишь"контрастные"в Пространствеиспользуемыхпризнаковзвуки, поэтомулегко различаемыеавтоматически[127] . Словарныйсостав языкаsotina включалбессмысленныеслова, на базекоторых предлагалосьсоздать искусственныйязык для речевогообщения человекаи 5ВУ.
§ 2.2. Оценкасложностираспознаваниясловаря речевогообщения
2.2.1.Связьточностираспознаванияс особенностямифонетикислов.СравниватькачествораспознаваниясуществующихСРР и СПР толькопо точностираспознаванияили объемусловаря недостаточно по несколькимпричинам.Во-первых,разныезадачи, естественно, требуют различныхязыков общения,словарныйсостав которыхвключает слова,имеющие различныеакустические(фонетические)характеристики.Источникиинформациио таких высшихуровнях знанийязыка, как синтаксис,семантика,прагматика,накладываютразличныеограниченияна возможныеальтернативы,поэтому задачараспознаванияупрощаетсядля различныхязыков по-разному;даже для словаряс высокойстепенью фонетическойнеопределенностиможно получить (за счетсемантико-синтаксическихограничений)высокую точностьиитер-Чрета11иивысказывания.Во-вторых, СРРиспользуютразнообразныеметоды первичнойобработки ипредставленияречевых сигналовна ниж-нихуровнях. С этимсвязана различнаяточность фонетическойклассификации, являющейсяосновой распознавания.Рассмотрим,как раз-
77
лишаютсяречевые сигналы на разных уровняхзнания и как они используются при распознаваниислов. Известно,что наибольшиеоаибхи даютслова и фразыс близкойфонетической структурой,входящие в общий словарьраспознавания.При этих условиях задача распознавания как изолированныхслов, так и слитной речи усложняется, но синтаксиси другие высшиеисточникизнаний о языкенакладываютограничения,которые сокращаютнеопределенности,тем самкл повкааяточностьраспознаванияслов.
Привыборе словаряСРР важно, как уже отмечалось,знать не толькоразмер словаря, но и степеньразличимостислов. Для частныхприменений и малых словарейнеобходимопредварительно провести отбор и разумнуюзамену слов,если позволяетзадача, с цельюувеличенияразличимостислов словаря.Поэтому целесообразноисследовать неопределенности,ограниченияи сложности,встречаемые при использованииразличныхязыков практическихСРР.
Дзятого, чтобыпоказать влияниефонетическойструктуры словсловаря на сложностьраспознавания,рассмотрим,в качествепримера. трисловаря: I)"А", "Б", "В";2) "ОДИН", "ДВА","ТРИ"; 3) "А", "П", "Г".
Сравниваясловари I и 2, нетруднозаметить, какойсловарь легчераспознавать.В данном случаеинтуитивноможно утверждать,что словарь2)легче распознавать из-за болеесложной фонетическойструктуры слов, так какможно привлечьбольше дополнительнойинформации о последовательностизвуков, составляющихслова.Сравниваясловари I)и 3)по сложностираспознавания,трудно датьоднозначныйответ, какойсловарь легчераспознаватьобъективнымиме-тздами. Точностьавтоматическойклассификациислов словарями"А", "Б", "В" и "А", "П", "Г" сильно зависитот объективнорегистрируемойстепени акустическогосходства элементовкалиюто словаря,относящихся к различнымклассам, т.е.от методов первичнойобработки ипредставленияречевых сигналов,соответствующихэтим словам,от пороговсрабатыванияустройств,преобразующиханалоговыйсигнал в цифровой,и правил принятиярешения.
Существующиесистемы распознаванияизолированныхслов показывают, что количествослов словаря(при одинаковой точностираспознавания) не может быть,вообще говоря,мерой качествасистемы распознавания.В [139] исследуютсядва словаря:алфавитно-цифровой,содержащий26 букв и 10цифр, и словарьгеографическихназваний, состоящий из 250 слов.В результатебыла полученаточностьраспознаванияпервого словаря88,6% и второго 97,356. Хотя объемвторого словаряпочти на порядокбольше, точностьраспознаванияслов, входящих в этот словарь,выше. Можнопредполо
жить, что это объясняетсяболее сложнойфонетической структуройслов второгословаря, котораяи обеспечиваетменьшие трудности при автоматическомраспознавании.
В системах,работающихбез подстройкипод диктора,наиболеегруднокдассифицируемымизвуками русскойречи являются,как показано в С4, 26, 62, 97] , носовыеи боковые сонорныесогласниэ,звонкие взрывные и безударныегласные. Крометого, следует отметить, что в опоеделенномфонетическимокружении даже звуки, относительнохорошо классифицируемые, в другом фонетическомконтексте могут вызватьопределенныетрудности приавтоматическомраспознаваниииз-за аллофонныхизменений,связанных с коар-уикуляцией. Все это следуетучитывать приоценке сложностираспознаваниясловаря в"неадаптивных"системахавтоматическогораспознаванияречи. Отметим, что на точностьраспознавания речи влияюттакже синтаксическиеограничения,так как синтаксис языка определяетграмматическиеизменениясловоформ ипорядок следованияслов.
Далеерассмотримнекоторыеподходы, позволяющие,по нашему мнению,осуществлятьотносительноесравнениесложностираспознаваниясловарей, ивведем определения,связанные соценкой качестваавтоматическогораспознаванияслов проблемно-ориентированногоязыка.
2.2.2.Информационныйкритерий оценкифонетическойнеопределенности. При распознаванииустной речинеобходимостремиться к тому, чтобы все фонемыклассифицировалисьправильно,поэтому насинтересуетраспознаваниеполной последовательности фонетическихединиц, составляющихвысказывание. При этом основнымисточникомнеопределенности при распознаванииречи являетсясам акустическийсигнал. Ещебольшую неопределенностьпредставляетпараметрическое описание речевойволны. Рассмотримнеопределенности акустическогосигнала и приведеммеру оценкифонетическойнеопределенности.Используя эти мерь, можнооценить лексическуюи фразеологическуюнеопределенности.Слитная речьрасчленяетсяна последовательностьсегментов по признакамспособа образованиязвуков. К этимпризнакамдобавляютсяпризнаки местаобразования,которыеизменяютсянепрерывно как внутрисегментов, таки через их Границы С 91,97]. С некоторымидискретнымиединицами-звукамиречи - фонемамиили квааифонемамисегменты связанытаким образом,чтосмысловыеединицы речи(слова) представляютсяцепочкой фонем.
Большинствосистем автоматическогораспознаванияречи [79] преобразуетречевой сигнал в такую фонемнуюцепочку, котораязатем сравнивается с ожидаемыми в слове звуками.Процесс преоб-
79
разованияречевого сигнала в последовательностьфонем включаетнахождениепризнаков,сегментацию и маркировкусегментов.
Опишеммодель фонетическойнеопределенности,позволяющуюоцениватьрезультатынеправильногораспознаванияфонем. Далеебудем использоватьматрицу ошибокраспознаванияфонем и фонетическуюструктуру словсловаря при оценке лексическойнеопределенности.
Лексическаянеопределенностьбудет иметьместо тогда, когда слованеверно классифицируютсяиз-за близости их фонетическойструктуры, т.е.последовательностипараметров,определяющих эту структуру, на конкурирующихсловах. Например,в словах "слезать"и "срезать" первичныепараметрызвуков, входящих в эти слова,сходны. Когдаоба эти словавходят в одини тот же словарь,ихточная классификациязатруднена,поэтому их можно считать лексическинеопределенными. В реальныхсистемах, еслипозволяет задача, следуетподбиратьслова,чтобытакой ситуациине возникло.Приведемкритерии сложностисловаря для того, чтобыможно было оценить степеньразличимостисловарей [63].
рассмотримраспознаваниеречи как процесспередачи речевойинформациичерез канал с шумом и оцениминформацию, теряющуюсяв канале. Потеряннаяинформацияявляется меройнеопределенностиили сложностираспознаванияфонем. В идеальномканале числивходных идеальных,полученныхпосле сегментациивысказывания экспертами-фонетистами,и выходныхфонетическихединиц должнобыть одинаковым, а последовательностьфонем на выходедолжна соответствоватьвходной последовательности.Если же этоусловие несоблюдается, в канале теряетсяинформация,и в зависимостиот вели-vwiпотерь можноговорить о большей илименьшей неопределенностиклассификациифонем. Припрактическойоценке фонетическойнеопределенности в данной работеиспользовалисьсистема признаков [73] и алгоритмсегментацииречи на семьтипов сегментов:
V - гласный, Т - переходный, М - сонорный,L -низкочастотный, Н - высокочастотный, /? - шумный, П - пауза. Затемалгоритм маркировкиставил в соответствиекаждому сегменту некоторыйфонетическийсимвол, используяаприорно полученныегистограммыпараметров. От надежностимаркировкисегментов вомногом зависитточность работыGPP.
Таккак СРР рассматриваетсяздесь как каналпередачи информации,предположим,что имеются г возможныхвходных символовалфавита А и s возможныхвыходов алфавита В . Таким образом, СРРописываетсяканальнойматрицей. Нарис. 2.1 приводитсясхема каналапередачи информациии канальнойматрицы.
60
а,"г | 'и Рг, | Р„• • Р„•• | • • • P,s•• •Р„ |
* | |||
• | |||
'. | |||
"г | ^ | Рг,• • | • • Prs |
рис. 2.1. Блок-схемаканала передачииниормациии канальнойматрицы
Канал передачиинформации,используемойдля описания системыраспознаванияречи, представленнойцепочкой фонем,преобразуетнезашумденнуюпоследовательностьзвуков в выходнуюпоследовательность"машинных" фонем, содержащуюошибки пропуска,вставки слиянияи замены звуков.
СимволамиAr'l{a•|.} и^s={Ц'} обозначены соответственновходной и выходнойалфавиты фонем.Дхя простотыпредполагается,что каналпредставляетсобой независимый дискретныйканал безпамяти. Еслир {Ь. /а^)- вероятностьсимвола Ь- навыходе каналапри подачесимвола а^, то этот канал передачи информацииможно описатьматрицей условныхвероятностей Р = =[^(6//o,)J . Очевидно,Ј p(&/•/,)= 7 ; i=f~r.На рис. 2.2приводитсяпример матрицыусловных вероятностей при распознаванииизолированныхзвуков.
Пусть элементавходногофонетическогоалфавита {аЛпоявляютсяна входе с некоторойаприорнойвероятностьюр(а ),р(а ),-..••.,/?(а^), а элементыалфавита [Ь.\ на виходв- с вероятностьюP(ti,),p(by),...,р(.Ьу) •Как отмеченоранее, работуканала передачивходного ад^евита{а^} кластеризуетканальнаяма'грипа,поэт
(2.1)
Символ | а | о | и |
0,690.10 0.01
Апостериорнаявероятностьтого, '•то, еслив результатераспознаванияПолучили фонеыуЬ, , то навход поступилафонема а^, определяется по ФормулеБайеса
Зак.480 у
0,150,75 0,10
0,010,100,89
Рис. 2.2.Ilptttcap мктрицыусловныхвероятностейраспознавания изолированныхзвуков
(2.2)
Ииормацня7(а^;Ь ),получаемаяот канала, когдана его входпотупила фонема а.^, а на выходераспозналаськак 6, ,опредедется [91]
., p^Jbj)
l^i\b^lo
С]»дняя информация,получаемаяна выходи канахас потерями прижредаче (распознавании)входного алфавитафонемA:={a•^,которШраспознается как алфавитв = {^ } ,будет
UA,B)=^p(a„^)Ha^^)=
^^,6,)^^/^-а,в' LJу? р(а,)
=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^
^,0 /1,0
=-ip(a,)log,p(a^lp(a,^toy^p(a,/6,);
л, в
I(А,В)=НW^P^,^}to^f){a,/Ь,). (2.4)
л,в
С»метим, чтоН(Л)-энтропия,характеризующаястепень неоп-редвдедостивходного алфавитаА-=-{а^] . Из(2.4) подучаем,что
H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=
Л,о
=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-
Д,В
=-^р(^-)^/?1'а,/^-)^/)(^./^.)=Н(А/В); (2.5)
Н(А^)-апостериорнаяентропия входногоалфавита фонем,которая 82
характеризуетмеру информации,теряемой всистеме распознаваниядрй передачевходного алфавита{ я^}. Апостериорнаявнтропия иявляется мерой,оценивающейсложностьвходного словарядля автоматическогораспознаванияпри фиксированномпараметрическомописании.
При наличиизначений энтропиивходного алфавитафонем можновычислитьразмер (объем),равный У'"',а значения2 vw характеризуютсреднее количествовозможныхальтернативных(конкурентных)элементовалфавита {оI на входеСРР после того,как на выходеполучили множество{ 6 } , т.е. меру сложностираспознаваниявходного алфавитафонем. Назовемэту меру эквивалентнымразмером алфавитафонем. Значениеу"^0' можно назватьэнтропийнымкритериемоценки фонетическойнеопределенности,который являетсяобобщеннойхарактеристикойсложностираспознаванияалфавита фонема^ \ данной системыраспознавания.Если СРР работаетбез ошибок,условная энтропия Н(А/В)вО и эквивалентныйразмер алфавитафонем 2"("/°'= i. Естественно,что если Н(А/В)»0,то Z"^^!,а в случае, когдаСРР не распознаетН(А/В)=Н(А), тоэквивалентныйразмер алфавита фонем равенZ"^
Эквивалентныйразмер алфавитафонем даетвозможностьколичественнооценить среднеечисло возможныхконкурентных фонем (имеющиеблизкие параметрическиеописания), идля его определениянеобходимознать апостериорныевероятностиp(a^/b-)входногоалфавита.
Для решенияконкретныхпроблем автоматическогораспознаванияограниченныхнаборов словвзе многообразиефонем можносвести к двум-тремрабочим фонетическимединицам (например,кклассам длительныхшумных, звонкихи смычных звуков), которые Прииспользованиипростой системыпризнаков кнесложных алгоритмовраспознаваниядают нулевуюапостериорнуюэнтропию. Однаковри решениизадачи распознаванияотносительносложных словарейи/иди требованиенадежной фонетическойверификацийпроизнесенногослова такогоколичестварабочих фонемсказываетсяявно недостаточно.Работать Жес полным наборомфоней "ложноиз-за ошибоких автоматическогораспознавания.Поэтому к приходитсяидти накомпромиссныерешения- искатькакой-то оптимуипри фонетическомописании рабочихсловоформ.Эти проблемыбудут частичнорас-емотреныв а. 2.2.3.
Условныевероятностираспознаванияфонем^(6,/д.), определяющиеэквивалентныйразмер фонетическогоалфавита, можноопре-•Делить несколькимиметодами.
83
Статистическиймегод позволяетполучать вероятностираспознаванияфонем, используяреальную СРР.ото осуществляется путем сравнениярезультатараспознаваниясистемы с точнойручной сег~ментацией имаркировкойречевого сигнала(иди его параме-гричес-когопредставления),поступающегона вход системы распознавания.В результатеполучаетсяклассическаяматрица правильнойи оаибочнойклассификациивходного алфавитафонем.
Акустико-параметрическийметод, когдаматрица ошибокклассификациифонем получаетсяпутем прямогосравнения ихпараметрическогоописания. Приэтом эталонфонемы выбираетсяиз множествареализацииданной фонемы.Расстояниемежду фонемамииспользуетсядля оценкиусловных вероятностейошибочнойклассификациифонем. Точностьэтого методазависит отвыбранногоэталона и объемаисследовательскогоматериала.
Кроме этихметодов, оценкувероятностиошибочнойклассификациифонем можнопроизвестина основемоделированияречеобразующе-готракта человека [73.
^.2.3. Оценкасложностираспознаванияслов по ихфонетичес-койструктуре.Рассмотримнеадаптивнуюсистему распознаванияслов как каналпередачи информации.Слова входногословаряV= ^Я.,У„,... ..., V.,...,v„} можнопредставитьпоследовательностьюфонетичес-
'• f Г Г /* 1
~ " /•> ' * о JiHftBa п^гуппылрп ^ЛП—
НИХСИМВОЛОВ V
\ а^ ,af , . . . , af \, а слова выходногосло-11г "- 1варя каналаW= {
'I 2 "^ "1 ^,,^,... W -.^}
цепочками
_^.. „_..... квазифонетическихэталоновiff, --i bj ,bj , . . . ,bj } , где Q^ e А, Ъ, f- В - соответственновходной и выходнойалфавиты фонемканала; г= /,R ;s= /, 5 ; л= п(г); 1= l(s). Тогда оценкусложностираспознаванияслов, производимогосравнением входной реализациис цепочкамиквааифонетическихэталонов, можно осуществитьна основаниианализа матрицыошибок, подученной при представленииэталонов словWy ё.W поверхностными формами й^f Wg , k^ f,Ky каждоговыходногослова. Фактическисложностьраспознаваниявходного словаря V определяетсяналичием сходныхэталонныхповерхностныхфоры U^ выходногословаря Wи частотойвстречаемостизтих поверхностныхформ р(wВ4
особенностямипроизношения, но и формы,включающиеслучайныесегменты,маркированныеквазифонетическимиметками, появление которых связанос неидеальностьюавтоматическойфонетическойсегментации и маркировкинашим алпаратурно-програмынымметодом, вызванной,например, изменениеминтенсивностиречевого сигнала.
Вдальнейшем будем рассматриватьвлияние двух обстоятельств на формированиеэталонныхповерхностных форм слов рабочегословаря, учитывая, что поверхностныеформы, связанныео особенностямипроизношения и матрицейошибок квазифонемнойклассификации,можно построитьвручную (илиавтоматически,исполь-ауя таблицуакустико-фонодогическихправил, хранящуюсяв памяти, иприлагаемых к базовойквазифонетическойцепочке), а поверхностныеформы w. , обусловленныеособенностямиаппаратуры выделенияинформативныхпризнаков,можно получить,анализируя статистикуреализации квазифояетическихцепочек словрабочего словаря,полученных с помощью ЭВМ.Получение этойстатистики не всегда обязательно,особенно еслирассматриваютсяслова,контраст-ные по своим акустическимсвойствам.Предварительную оценку сложностираспознаванияслов можносделать аналогично оценке сложности фонетическогоалфавита- по фонетическойструктуре слов,вычисляя апостериорнуюсловеснуюнеопределенностьи не исследуястатистикиреализации.
Всеэталоны слов и^у б W рабочих словарейдолжны бытьпредставленыпоследовательностьюмаркированныхфонетическими метками отрезков, где квазифонемыдолжны делиться на опорные, обязательные для данногослова (определяющиебазовую формуи, как Правило,присутствующие во всех поверхностях),и "вспомогательные",трудноклассифицируемые.Трудноклаосифицируемые сегменты должныбыть расчленены(хотя бы грубо) на несколькоквазифонетическихэлементов, еслидлина этихсегментов вышепороговой (этоделает на первомэтапе человекна основаниизнаний фонетическойструктурывозможных формкаждого слова).Опорными сегментамислова следуетсчитать маркированныеотрезки которые при их маркировкеквазифонетичаскими метками допускаютсуммарнуюошибку нижеввристическиопределенногопорога.
Приавтоматическомраспознаваниивыбор эталонов(из словаряэталонов) долженбыть в первуюочередь обусловленналичием вПоступившей на вход реализацииопорных, обязательныхмаркированныхсегментов о. с учетом того, что за счет иеидеадьностисегментацииобщее числосегментоввходной реализацииможет не совпадать с возможнымчислом сегментовэталонногографа,за счетНеопорныхсегментов,образующихся или выпадающихслучайно.
У5
Сшибкиклассификациидают появление"путающихся"поверхностныхформ (представленныхпоследовательностьюквазифонеы)дяя различныхслов словаря.Будем считать, что матрицаошибок прираспознаваниислов априориформируетсятаким образом,что (при сходствеповерхностныхформ различныхслов словаря)более частовстречающиесяповерхностныеформы словодного класса(при заданномалфавитеквазифонем)считаютсяотносящимися к словам толькоэтого класса, а редко встречающиесясходные поверхностныеформы для другихслов словарядают ошибкираспознавания.Впрочем, используясинонимию или семантико-синтаксическиеограниченияпри распознаваниипословно произносимыхфраз. Всегдаследует добиватьсятого, чтобыподобные случаи не происходили(трудности представляютслова, входящие в одну семантико-сиитаксическуюгруппу,которые нельзя заменитьсинонимами,например, названияцифр).
Следуетотметить, что принятые решенияо принадлежностипоступившей на вход реализациик тому или иномуклассу следуетделать но эталонамс одинаковымчислом опорныхсегментов и с учетом верификациисяова, всякийраз используяэвристически выбранныепороги достоверности, в общем случаеразные для различныхслов. Так, для принятияокончательногорешения опринадлежностивходной реализации Уд. к классуWy необходимо выбрать
иw, ,который ооответ-
два наиболее вероятныхкандидата
— —— - . ^ ствуютвероятностиp(v,/u7y]и ^(i^/г^), и проверить,удовлетворяютсяли условия:
WM,)>^,;
Р^/^-Р^/^,)^^
где А^ - пороговоезначение вероятноститого, что входнаяреализациясоответствуетолову у/, ; Ay, - пороговыезначения разностиусловных вероятностейпринадлежностивходной реализации
г1д. классамиvf. ,при которыхпринимаетсярешение о клас-
сификации у^ .
Пороговыезначения /Зд,/!,, выбираются экспериментальнопо заданнойсистеме используемыхфонетическихпризнаков,атакже требуемыхточностираспознаванияи вероятностиотказов от распознавания. В случае, еслиподбором пороговзаданные требованияк системераспознаванияне удаетсявыполнить,следует провестиболее детальныйанализ неопорныхсегментов, иди попытатьсяулучшить системупризнаков. Вряде случаевдяя удовлетворениязаданных в системе требованийследует использоватьсинонимию.
66
Рассмотримдалее болееконкретно, какоценить лексическуюнеопределенностьсловаряV языкаречевого общениянеадаптивнойсистемы автоматическогораспознавания.Аналогичнотому, как оцениваласьнеопределенностьалфавита фонем,можно определитьсложностьраспознаваниявходного словаряV ,состоящегоиз Rслов, и вычислитьэквивалентныйразмер входногословаря. Приэтом необходимополучить вероятностиp(v^/w,)одиэости областейпризна-ховогоописания словi^, « V,ur, бW, г= /7Д.3s/75. которыепредставляютсяв виде последовательностифонетическихединиц (фонетическойтранскрипциислов). Далееоценим вероятностиp(ff^/v7y).
Как уже отмечалось,на основелингвистическихзнаний, эта-жонысловWy (.W представляютсяв вида фонетических( вернее,квазифонетических)цепочек,совокупностькоторых описываетсяграфом с конечнымчислом состояния,а каждая фонема- признакамиспособа и местаобразования.СловуVT, соответствуетодна илинесколькотраекторий(цепочек поверхностныхформ) на графе(количествотраекторийзависит отметода произношенияи характеристикидиктора). Направленныйграф f(W,) представляетвсе фонемыэтахона сяоваиг, бW , которыйимеетuf, поверхностныхформ,k=!, 2, . . ., А-з;uly =U'1Л; каждаяповерхностнаяформа
^ e w, содержит
,.^,-...^Пусть р(иГу)
ur, e1=l(3.k) опорныхквааифонем,т.е. иг,), } I-- /,2,...,1(з, k).
априорнаявероятностьпоявлениясловаu^eW навыходе блокалексическогораспознавания,а априорнаявероят-
р(vfs„) •При
л, « Р(Щ,)=Z: Р(^);Ј/?(ur,)=/.
Необходимоотметить, чтоколичествоопорных сегментов в поверхностныхформах словвыходногословаря различно,т.е. пределизмененияиндекса I зависит какот номера слова,так и от егоповерхностнойформы I= I (.з,k}.
Для того,чтобыосуществитьоценку невернойклассификациислов словаряна стадиилексическогораспознаванияпо фонетическойструктуре этихслов, выполнимоперацию разбиениявсех поверхностныхформ эталоновслов на М фонетическихгрупп с одинаковымколичествомопорных сегментов1= I (з). При этом слова, поверхностныеформы которыхпринадлежатразным группам,не будут Путатьсямежду собой,поскольку ихлегко классифицироватьпо числу "опорных"фонем, составляющихслова.
8?
Вообще говоря,можно представитьсебе фонетические группы эталонныхповерхностныхформ, отличающиесяне только числомопорных фонем,но и их характером,а также порядкомследования.Еслиучесть все трифактора, позволяющиеразбить эталонына существеннобольшее числофонетическихгрупп, то дальнейшие рассужденияможно отнести к каждой изэтих групп. Дляпростоты,однако,будем считать,что мы имеем М фонетическихгрупп, в каждойиз которыходинаковоечисло опорныхсегментов. Впрактическихзадачах приразбиении нагруппы следуетучитывать всеэти факторы,однако необходимострого ограничиватьчисло различных опорных сегментов,выбирая лишьте, которые непутаются междусобой и характеризуютсягрупповымипризнакамиместа образования- ударные гласные,смычные, фрикативные [81,60] .
Итак, допустим,что существуетМ фонетических групп словW, ,W^, . . . ,W^ , . ..,W^ ,в каждой изкоторых^ одинаковоечисло опорныхквазифонем.Общее числоэталонов И/=U W^ ,а количествофонем, составляющих:слова (длинафонетической цепочки) каждойгруппы, об означимчерез I; т= /,/И.
Представляятаким образомслова словаряна входе СРРи используяматрицы ошибочнойклассификациифонем, составляющихслова
/Кй/&)-[Ру], (2.5) можно оценитьвероятностиp^(v /Wy) спутывания поверхностных
форм слов внутрикаждой группысловследующимобразом:
где
t = t, 2, .. . , t^ - длина фонетическойцепочки группыслов ^ , а^ е^ , Ь„ е иг,.В общем случаеодно и ъо жеслово Wy может иметьК, поверхностныхформ, имеющихразное числофонетических элементов ипопадающихв разные группыслов W^,. Поэтомуобщую условнуювероятность"спутывания"слов словаряопределим
(2.8)
Для определенияпотери информациив СРР, котораярассматриваетсякак канал перэдачиинформации,в случае распознаванияслов используемвыражение
86
(2.9)
/(V/W)
числоальтернативныхслов на входесистемы распознавания,а
2йv) - фактический объем входногословаря, где
R
Х
г'1
(2.10)
Эти выражения,аналогичныеформулам(2.4), (2.5), оценивающимфонетическуюнеопределенность,являются критерием оценки лексическойнеопределенности.Они определяютсложностьраспознаваниясловаря и позволяютсудить о качествеСРР. При автоматическоймаркировке,наряду с ошибкаминевернойкдассификациифонем, существуют,как уже отмечалось,ошибки невернойсегментации,приводящиек слиянию отрезков,соответствующихсмежным фонемам, в один сегментили расчленениюотрезка, соответсвувщегоодной фонеме,на несколькосмежных фонемразных классов.При выбореальтернативныхслов словарянадо следитьза тем, чтобы неприятноститакого родане вызывалиподобияпоследовательностейфонетическихединиц, соответствующихразным словам.Для этого необходимоиспользоватьматрицы, отражающиевозможныеварианты сегментациислов словаряи частотывстречаемоститех или иныхвариантовсегментации,соответствующихразличитповерхностнымфориам слов.Так как информацияо словах, содержащихсяв фонемах,избыточна,то часто приоценке различимостислов словаря вполне достаточноиспользоватьопорные фонемы,допускающиеминимум ошибокрасчлененияи слияния. Поэтомув формуле( §2.3. О языке описанияданных в системеавтоматическогоречевого запросаинформации 2.3.1.Понятийныйязык и двухступенчатоеиерархическоепостроение его грамматическогопредставления.Информационные системы, стояьраспространившиеся в настоящеевремя, требувФобщения с ними с помощьюустной речина языяв, близкомк естественному.Необходимая нам информациядолжна бытьвыдана по запросу
Зак.480
89
последовательностипонятийныхдескрипторов,которую человекможет произнести,не используяжесткого порядкаследованияэтих дескрипторов.Такое представлениесовокупностидескрипторов- понятийногополя не толькообеспечиваетестественностьзапроса информациииз базы данных,но и фактическине увеличиваетвремени поискарелевантнойинформации,так как приэтом учитываются отношениямежду понятиямии используетсяиерархическийпринцип с ыниыойиерархией,обеспечиваемойперестраиваемойструктуройдорическогодерева. В связис этим можнопредставитьобщую грамматику6 формированияпонятийногополя, включающегопосведо-вательностьпредложений,которые даютинформациюо структуредег.криптов,в виде иерархическисвязанныхграыиатик верхнего инижнего уровней.(Процесс формированиясвободных от ошибок словесныхцепочек, полученныхв результатеавтоматическогораспознаванияслов и устногоредактирования,рассматривать здесь не будем.) Грамматикаверхнего уровняG" определяетобщую структурупонятийногополя, а языки,обусловленныеграмматиками нижних уровней б[ , конкретизируютпорождениепредложенийна уровнеформированияпонятийныхфраз. ГрамматикаG" допускаетпоявлениепонятий (онивыражены запроснымифразамиS^ ), формирующихсмысл запроса,в произвольномчередовании.Иными словами,порождающаяграмматикапоследовательностипонятий -есть простей-ваяграмматикатипа 0 (поХомскому), вкоторой нетерминальнымисимволамиvh являютсяобобщенныйдескрипторпонятийногополя (поисковыйобраз запроса)и понятийныйуровень, атерминальнымиV - конкретноенаименованиепонятий (названияуровней) ^ . Нетерминальныйсимвол {обобщенныйдескрипторпонятийногополя jявляетсяначальнымсимволом S в грамматикев", а правилавывода р сводятся кдопустимостиперестановоктерминальныхсимволовs.—^s-.такчто дляпонятийs,,Sg,...,5^ язык, обусловленныйэтой грамматикой,допускает К' предложенийдлины К ,в каждом изкоторых всепонятия различны:
S,, S, , . . . , S„; ^ ,s,, • • • , ^ ; 5,.S,, S, ,. .., 5^ .
Вообще говоря,грамматикитипа 0 допускают бесконечноеколичествословесныхцепочек (предложений)различнойдлины, составленныхиз терминальныхсимволов. Еслисчитать, чтонас интересуютсловесныецепочки снеповторяющимисятерминальнымисимволами,и представлятьобобщенныйдескрипторпонятийного поля цепочкамипеременнойдлины J= f -LК , то числоN возможныхпредложений,используемыхдля работы идопускаемыхязыком этойгр^матикм, ^^., ^^
90
Каждый изтерминальныхсимволов грамматикив° в свою очередьявляется начальным(и нетерминальным)символом порождающейграмматикивторого уровня (7, , накладывающейили не нак-
ограниченияна формированиепредложенийв t'-ru понятийногоуровня (рис.2.3).
ладывающейограниченияна формированиепредложенийв рамках каждого t-ru понятийногоурРис. 2.3. Порождениятийных полей
Отметим, чтов зависимостиот особенностей терминальногословаря каждогоуровня и привычки пользователейк произношениюфраз этогоуровня наестественномязыке порождающаяграмматикас начальным(нетерминальным)символом,полученнымна предыдущемуровне, можетбыть нулевого,первого, второго иди третьеготипа, определяемогосоответствующимиправиламивывода.Далее мы рассмотримоценку грамматическойсложностиязыка (с точкизрения автоматическогораспознаванияречи) на уровне
формированияпредложенийс учетом произношенияслов, являющихся
Go терминальнымисимволамиграмматики , и покажем,что означает
"подстройкапод словарьи язык" в неадаптивныхсистемахавтоматическогораспознаванияслов. Языки,определяемыеграмматикамиб", (7/, G',...,(?/,...,G^ (рис.2.3), будем называтьязыками системыраспознаванияречи, подразумевая,что с точкизрения автоматическогораспознаванияслова, являющиесятерминальньгмисимволамиграмматикивысшего уровня,также конкурируютмежду собойи определяютначальныйсимвол сети(графа), которойпредставляетсяязыком СРР.
2.2.2. Оценкасложностиязыка с точкизрения автоматичес-когораспознаванияпословнопроизносимыхпредложений. Синтаксис исемантикаязыка СРР,определяемыхграмматилаки{G^} ,накладываютограниченияна порядокследованияслов в предложении в характервозможныхсловосочетаний.Эти ограничениясущественнооблегчаютзадачу распознаванияречи вследствиесокращенияобщего поисковогопространствапризнаков.
Для приближеннойоценки грамматическойсложностиязыка СРРрассмотримграмматикуавтоматическогоязыка какнаиболее простогои наиболееподдающегосяколичественномуанализу.ГрамматикиНулевого, первогои второго типов,как было указаноранее, такжеможно использоватьдля формированияпредложенийв СРР, однакоих количественныехарактеристикиподучить сложнее.и тому же рядзакономерностей,характерныхдяя языков,оаисываяицихсяграмматиками
91
большей сложности,можно выявитьи на самом простомязыке, относящеесяк частным случаямязыков нулевого,первого и второготипов и наиболееиспользуемомпри формированиипредложенийв современныхсистемахраспознаванияречи.
Правила подстановкив грамматикахтретьего типа(автоматных)имеют вид А= а В или А—- В , гдеА, В с1^ и а, Ь(. \'i . Дляязыка СРР А иВ характеризуютназвания смысловыхгрупп, а а, Ь - названияслов в смысловыхгруппах -подсдоварях.Грамматикаавтономногоязыка определяетсямножествомвнутреннихсостоянийs„3 ,.. .,s^,...,ss и правиломперехода вследующеесостояние.
Следовательно,после словас номеромi(n) из группыслов s сS может следоватьслово из подсловаряs^, с s. Кроме того,заданы S и S -состояния,которымисоответствен
KG)
l.(G)=S„v,v. ,.
гдеveS,, v, e S,,.т= /, 2, . . . , I
Оценим синтаксическуюсложностьавтоматногоязыка среднимкоэффициентомветвления К^р, которыйопределяетсясредним числомвозможных словв каждой точкедерева ветвления:
К,
ср
i м -—ZК,
N l-i
(2.К)
количест-
^десь К^ - коэффициентветвления вточке i; N во точекветвления.
Средний коэффициентветвленияудовлетворительно описываетсинтаксическуюсложностьязыка тогда,когда появленияслов в предложенииравновероятны.
Если средняядлина предложения/^д , то произведениямиZ^„ «/8 словаряречевого общенияимеют разныевероятностипри формированиифраа. Для учетаэтих факторовбудут использованыквазифонетическоепредставлениеповерхностныхформ слов(см.п.2.2.2) истохастическаяпорождающаяграмматика,у которой задановероятностноераспредеаенмеправил образованийпредложенийрц из словв
i/
92
»аждой точкеветвления1= 1,п нкя выполняетсяусловие
При этом длявсех точекветвле-
(2.13)
где К- -количествовозможных словв точке I(коэффициентветвления).Тогда вероятностьполученияфразы l(G)6i(G)в результатепримененияt правилподстановокравно произведениювероятностейпримененныхпри этом выводеправил образования.Отметим, «точисло слов,составляющихпредложения,может быть различное Изависит отколичестваправил,примененныхпри формированииданного предложения.
Определимэнтропию Н(/-} языка /(0) .Дляэтого обозначимчерез L^ множествовсех фраз длинып слов, допускаемыхграмматикойG:
через ЮЛИЯ | р(^) | / -и1^ ^п-\Ч '•••' | f(n) | Лп) '-г '• •• | |
- вероятность | •s • •• • ' получения | фразы /(0) | |||
HU | ) | языка речевогообщения |
(2.14)
if/)) f(n) •} ^• • • • • '-г' • • •)•Тогда эн-
г(л)н^-^, ^ ^О^/^О, (2.15) где Т- максимальнаядлина предложения.Естественно,что
(2.16)
/,.,iyki, г
Вслучае, когдаразличныепредложения,порождаемыеграмматикой G , имеютразные смысловыеинтерпретации,тогда энтропияЯзыка характеризует его возможностьпередаватьинформации. В соответствии с теориейкодированияинформациичисло возможныхфраз языка с энтропией H(Z) будет2н(t), и это значениеопределяетразмер входногоязыка.
Дляопределениясложности(неопределенности) распознаванияязыка речевогообшения рассмотримпроцесс распознаванияпредложения в виде последовательностираспознаванияслов из подсловарейданного уровня,размеры которыхопределяютсякоэффициентами ветвления К^ . Тогдадля оценкисложностираспознавания языка необходимооценить сложностьраспознаваниявсех N подсловарей
93
этогоуровня, где вероятностьюP(Vf,} применения'
каждомузле дерева стохастической автоматной грамматики.Имея условные вероятностир. (v^/Шс) ошибочногораспознавания слов каждого из подсловарей и рассматривая CPF как каналпередачи информации,определяемпотери информации/„ду в случаераспознаванияпредложений,произносимыхпословно, следующимобразом:
к к;
Ј
с?
Обычноинтересуются, как распределеныпотери информациипо различнымпонятийнымуровням S^ и различнымузлам графа,представлякщегоавтоматнуюграмматикууровня. Важнознать,в какомузле языкаобщения "тонкоеместо" и какего устранить.
Дляобщей оценкисложностираспознаванияпредложений, которые произносятся пословно в соответствиис заданной грамматикой G , можно пользоватьсявыражением 2 "" , котороеопределяетсреднее числовозможныхальтернативныхфраз на входе в СРР. В случае,если СРР работаетбаз ошибок, припословномпроизношениифразы на выходесистемы всегдаодно предложение.
Формула(2.17) оцениваетсложностьраспознаванияфраз языкаречевого общенияСРР. При этомотметим, чтоэта мера зависиткак от фонетическойструктуры словсловаря, таки от грамматическихправил образованияпредложений. В практическихСРР при
распознаванииязыка необходимо,чтобы /„былаблизка к нулю
^пот ] порог• (РВД11118 ошибкипри распознаваниислов можно устранитьсловами устногоавтоматическогоредактирования.) Если этоусловие не удовлетворяется, то возникаетпроблема измененияязыка, котораясводится к изменениюсловаря системыи/ияи грам-иатикиязыка с цельюувеличенияточностираспознавания.Дляэтого можно либо использоватьсинонимию вподсловарях,имеющих наибольшуюнеопределенность,либо изменитьграмматическую структурупредложенияпутем измененияграмматики G , котораяиспользуется как механизмсокращенияобласти поиска,ограничивающейчисло приемлемыхальтернатив.
94
г.3.3.Изменениеязыка в неадаптивныхсистемахавтоматическогоречевогозапроса.Описанныйво. 2.3.1в общем видепоня-тийныйязык речевогообщения "человек- информационнаясистеыа" допускаетего развитиена основе некоторогоядре или создание-небазе общихпредставленийо структуреязыка. Суть развития этогоязыка ("подстройкапод язык") сводится:к замене илиувеличениючисла терминальныхсимволов грамматикив",определяющейпоявление,замену илиуничтожениецелых понятийныхуровней, языккоторых определяетсяграмматиками^ ; кзамене, уменьшениюилиувеличениичисла терминальныхсимволов грамматикG^без изменениячисла понятийныхуровней.
Понятийныйязык речевогозапроса информациирассматриваетсякак лингвистическийпроцессор,который представяен комплексомПрограмм,обеспечивающимавтоматическийперевод устноготекста в заданныймомент длятого, чтобыинформационнаясистема моглавоспринимать(понимать) фразы,относящиесяк рассматриваемойпред-иетнойобласти. Тогдазадача "подстройкипод язык" сводится к модификации(иди вообщепостроению)этого лингвистическогопроцессора,который допускаеттолько правильные,осмысленные пред-жижения,обусловяенныеграмматики6°, G,',,,..., /.
В соответствиис п. 2.3.1,задача построениятакого лингвистическогопроцессора,если заданымножества слов{ у,,г^, . . . ....Уд,}словаря V описания данныхинформационной системы, формальносводится кпостроениюнекоторойфункции
/=
гдеi v, , Vy, . . . , гГд.} бV , полностьюопределяющейработу «Ннгвистичесногопроцессора(семантико-синтаксическогоанализатора),который допускаеттолько слова,являющиесяграмматическиправильнымив данном контексте.
Дяя этой целифразы языкаречевого общенияпредставимв виде направленногографа с конечнымчислом состоянийбез циклов
(2.18)
Весьсловарь (узлыграфа) разобьемна I непересекающихся понятийныхуровней, т.е.
VП V^ П ... П V =О
(2.19)Для указаниясвязи междусловами (узлами)понятийногографа строимматрицу смежности2)= [и';,], котораяраспадается на
9Ь
D, ,Д,, . . .,Д„, . . . ,^_, подматриц,где Д„ =(о^ б {О,/})указываетсмежность п-го и п+1 уровнейграфа 6(1/,Г). Тогда задачаподстройки"под язык"заключаетсяв задании
и/или изменениисловаря языкаречевого общенияи матрицы смежностиD >указывающейсвязь междусловами понятийногографа.
Иными словами,частичная идиполная заменасловари внеадаптивныхсистемахраспознаванияфраз, составленныхиз изолированныхслов и короткихсловосочетанийна основе понятийныхязыков, описываемыхграмматиками{ 6°,G\, CJ, . . . ,G^ } , приводит кизменениюграмматик, кприспособлениюпонятийногографа к новымтребованиям,
Замена терминальныхсимволов{V- ^ грамматик{С/} производитсязаписью всоответствующиймассив, гдехранятся эталоныстарых слов,новых слов иквазифонетическихповерхностныхформ, представляющихэталоны новоготерминальногосимвола. Еслииспользуютсяпрограммыавтоматическогопорождениямножестваповерхностныхформ по базовойформе слов(слова), определяющих новый терминальныйсимвол, то дл.-:замены терминальногосимвола (получениямножестваэталонов) требуетсяввести лишьинформациюо последовательностиквазифонетическихсимволов; записьновых символовможно производитьаналогичноописанному.Эталоны названийновых понятийныхуровней вводятсятак же,потомучто они являютсятерминальнымисимволамиграмматикиверхнего уровняG"•При введениинового уровнянеобходимоописать грамматикуязыка этогоуровня и включитьэталоны новыхтерминальныхсимволов. Изменениематрицы смежностипроизводитсяв зависимостиот требованийизмененногоязыка, от новыхпонятий и новых взаимоотношениймежду словамипонятийногографа. Еслинеобходимазамена правильныхслов словами-синонимами,то никакихизмененийматрицы смежностине производится.Оысл введенияслов-синонимовсводится лишь в уменьшению1^, (2.17).