Введение
Вокодер(английскиеvoice+coder–буквальнокодировщикголоса) этоустройство,позволяющеесинтезироватьречь на основеминимальнойинформации,некоторогокода. Также под Вокодеромподразумеваетсяустройство,преобразующееживую речь втакой код-сжимающееее. Вокодерпозволяетсущественно(примерно в 10раз) уплотнитьлинию связипри незначительномухудшениикачества передачи.
Попыткисоздать “говорящуюмашину”предпринималисьи в прошломвеке и в нынешнем.Основывалисьони на томобстоятельствечто человеческаяречь состоитиз незначительногочисла частотныхсоставляющих–формант.Тогдаэтисоставляющиеполучали исуммировалимеханическимпутем (спомощью системымехов ).Приизвестнойсноровке удавалось”произносить”несложные звукии даже словаи фразы.
Естественнони о каком машинномсинтезе речевыхпотоков а темболее о передачиминимальнойинформациинеобходимойдля синтезапо каналамсвязи тогдане могло бытьи речи.
С появлениеманалоговыхэлектронныхустройств (усилителей,фильтров) реализациявокодера сталавозможной.Нотакой вокодербыл достаточногромоздким(до появленияинтегральныхмикросхем)и кроме тогоообого выигышав сокращенииизбыточностипри передачипо каналамсвязи не получалось,таккак передаватьномера формантили еще какуюнибудь нформациюв аналоговойформе затруднительно.
Аналоговыевокодеры позволялискремблироватьречь (поменятьее формантыместами ) из-зачего ранее ихпременяли всистемах передачиконфиденциальной информации.
Сейчасаналоговыевокодеры применяют в основном дляспец-эффектовв концертнойпрактике:речьобработаннаяими приобретаетхарактерноероботизированноезвучание.
С появлениемцифровых БИСа так же универсальныхЭВМ стало возможнымпостроениеЦИФРОВЫХ аппаратныхи программныхвокодеров.На входе такоговокодера речьс помощьюаналогово-цифровогопреобразователяпреобразовываетсяв
цифровуюформу.Далеевыполняетсяее спектральныйили иной анализс помощьюопределенныхалгоритмовобработки.Этотанализ позволяетсущественносжать цифровойпоток получаемыйс АЦП.Крометого возможношифрованиеданных (имеющийподобный вокодерне сможет услышатьисходную речьне зная определенногоключа) что весьмабывает важно.априемном концецифровой потокпреобразуетсяобратно в речьс помощью определнныхалгоритмовсинтеза.
1 Классификациявокодеров поспособу анализаи синтеза речи.
Поспособу анализаи синтеза речивокодерыможноразделитьнаречеэлементныеи параметрические.
Вречеэлементныхвокодерах прикодированиираспознаютсяпроизносимыеэлементы речи(например, фонема)и на выход кодераподаются толькоих номера. Вдекодере этиэлементы создаютсяпо правиламречеобразованияили берутсяиз памяти декодера.Фонемные вокодерыпредназначеныдля полученияпредельнойкомпрессииречевых сигналов.Область примененияфонемных вокодеров- линии команднойсвязи, управлениеи говорящиеавтоматыинформационно-справочнойслужбы. В такихвокодерахпроисходитавтоматическоераспознаваниеслуховых образов,а не определениепараметровречи и, соответственно,теряются всеиндивидуальныеособенностидиктора.
Параметрическийвокодер представляетсобой устройство,которое совершаеттакназываемоепараметрическоекомпандированиеречевых сигналов.Компрессияречевых сигналовв кодере осуществляетсяв анализаторе,который выделяетс речевогосигнала медленноменяющиесяпараметры. Вдекодере припомощи местныхисточниковсигналов, которыеуправляютсяпринятымипараметрами,синтезируетсяречевой сигнал.
Впараметрическихвокодерах сречевого сигналавыделяют дватипа параметрови по этим параметрамв декодересинтезируютречь:
- Параметры,которые характеризуютисточник речевыхколебаний(генераторнуюфункцию) - частотаосновного тона,ее изменениево времени,моменты появленияи исчезновенияосновного тона(огласованныеили гортанныезвуки), шумовогосигнала (шипящиеи свистящиезвуки);
- Параметры,которые характеризуютогибающуюспектра речевогосигнала.
Вдекодере,соответственно,по заданнымпараметрамгенерируютсяосновной тон,шум, а затемпропускаютсячерез гребенкуполосовыхфильтров длявосстановленияогибающейспектраречевогосигнала.
Попринципу определенияпараметровфильтровойфункцииразличают_вокодеры:
-полосные(канальные);
-формантные;
-ортогональные.
В полосныхвокодерахспектр речиделится на 7 -20 полос (каналов)аналоговымиили цифровымиполосовымифильтрами.Большее числоканалов в вокодередает большуюнатуральностьи разборчивость.С каждого полосовогофильтра сигналпоступает надетектор дляопределениясреднего уровня.
Вформантныхвокодерахогибающаяспектра речиописываетсякомбинациейформант (резонансныхчастот голосовоготракта). Основныепараметрыформант - центральнаячастота, амплитудаи ширина спектра.В ортогональныхвокодерахогибающаямгновенногоспектра разлагаетсяна составныечасти в ряд повыбраннойсистеме ортогональныхбазисных функций.Рассчитанныекоэффициентыэтого разложенияпередаютсяна приемнуюсторону. Распространениеполучилигармоническиевокодеры, которыеиспользуютразложениев ряд Фурье.
Рассмотренныевокодеры обеспечиваютсжатие сигналадо 1200-4800 Бит/с, позволяявосстановитьв декодеречастоту основноготона с дискретностьюв несколькогерц и с невысокойточностьюогибающуюспектра сигналас периодомизменения 16-40мс.Из-за сложностиопределенияпараметровгенераторнойфункции появилисьполувокодеры(Voice Excited Vocoder, VEV), в которыхвместо сигналовосновного тонаиспользуетсяполоса речевогосигнала до 800- 1000 Гц, котораякодируется,например, АДИКМ,и вместо характеристикосновного тонапередаетсяна выход кодера.Такой алгоритмпозволяет сжатьречь до 4800-9600 бит/с,сохраняя генераторнуюфункцию гортани(частоту и законизмененияосновного тона)диктора.
2 Принципработы и характеристики речеэлементныхвокодеров.
При ИКМс А- и мю-законами,ДИКМ, АДИКМ,АДМ, клиппированиисжатие речии других звукоданныхдостигаетсяза счет компактногоописания формызвуковогосигнала. Приэтом не учитываетсприрода речеобразования.Если же прианализе и синтезеречи ее учесть,то речь можносжать значительносильнее.
В русском языке42 фонемы: 6 гласныхзвуков, остальные- согласные.Чтобы закодироватьих номера нужно6 бит. Человекпроизноситв секунду около10 звуков. То естьот центральнойнервной системык речевомуаппарату сигналыуправленияпередаютсясо скоростью
10 [log2 42] = 60бит/с.
Близкуюк этой скоростьспособны обеспечитьречеэлементныевокодеры (приэтом при хорошейразборчивоститеряютсяиндивидуальныеособенностиречи но частоэто и не стольважно) . Вих основе лежитзапоминаниеотдельных фраз,речевых оборотов.Благодаря этомузапоминаниюна воспроизводящийэлемент передаетсяне сама речь,а ее элементныйномер. Это широкоприменялосьи применяетсяв системахуправленияголосом, а такжечтения текстас преобразованиемв звук. В качествепростого примераможно привестизвуковые схемыWindows, интерактивнореагирующиена то или иноесобытие. Еслиэти звуковыесигналы заменитьна человеческуюречь, то мы получимсамый легкийпример речеэлементноговокодера. Системесообщаетсяне сам звук, аимя файла, которыйнадо воспроизводить.На передающемконце В то же времяв цифровойтелефониииспользуетсяскорость 64 кбит/c(8 бит на отсчет,частота дискретизации8 кГц). По сутидела любойречеэлементныйвокодер собираетнапример произносимоеслово из слогов(или фразу изслов) при этоммногого нескажешь а ужвыразить врядли выразишь.
Параметрическиевокодеры
Полосовыевокодеры
Полосовойвокодер синтезируетречь используяопределенныеичистые тона.
Рассмотримнекоторыереализациюполосовоговокодера.Это напримерметодсинтеза речис помощью рядаФурье - в видесуммы элементарныхспектральныхсоставляющих,в музыкальнойакустике получившихназвание "чистыетона". ИмеетсяБанк "чистыхтонов" со 144 чистымитонами. Какпроисходилсинтез звукапоказано нарис. 2.
Р ис.2.
Функционально-оптическаясхема синтезатораАНС.
Светот источника(1) пропускалсячерез вращающийсядиск фотооптическогогенератора(2) и модулировалсяпо интенсивностизвуковымидорожками(банком чистыхтонов). Междудиском и читающимфотоэлементом(4) устанавливаласьмаска (информацияо синтезе)(3) сотверстиямидля отборалучей толькоот нужных дорожек.После фотоэлементаследовал обычныйдля кинопроекторатракт звукоусиления(5).
Первойэлектрическойи одновременнопоследнейаналоговоймоделью речевоготракта сталприбор водер(на рис. 4 подробноописано егоустройство),разработанныйДадли, Ришеми Уоткинсом.
Формантныевокодеры
Вокодерыс линейнымпредсказанием( липредеры )
Вокодерыс линейнымпредсказанием– липредеры (linearprediction)создают отсчетызвуковогосигнала наоснове предыдущегоотсчета сигналаи вычисленныхв передающейчасти коэффициентовлинейногопредсказания(КЛП).Если мыправильновычислим КЛПто сохраниму восстановленнойречи ее индивидуальныеособенности,чтоочень важнонапример вкриминалистикеда нелишне ипри телефонныхпереговорах.
Для прогнозатекущего отсчетаречевого сигналаможно использоватьлинейно взвешеннуюсумму предшествующихотсчетов, тоесть предсказываемыйотсчет
где ak- коэффициентыпредсказания(k = 1, 2,..., P).
Ошибкапредсказанияe (n) = s (n) - s (n).
Kоэффициентыпредсказаниядолжны бытьтакими, чтобыдля временногоокна длинойN отсчетов сумма
была минимальна.Задача минимизацииприводит ксистеме линейныхуравненийотносительноak . Коэффициентыуравненияоказываютсяравными значениямавтокорреляционнойфункции отрезкаречи. В липредерахсначала длякаждого кадрадлиной 10 - 20 мсвычисляютсякоэффициентыкорреляции,а по ним находяткоэффициентыпредсказания(или коэффициентычастной корреляции,или коэффициентыотражения),которые передаютсяна приемнуюсторону вместес информациейо функциивозбуждения.Коэффициентылинейногопредсказания(КЛП) обретаютпростой смысл.Передаточнаяфункция фильтра,который имееттолько полюсы
где p - порядокфильтра.
Алгоритмы,которые используюткоэффициентычастной корреляции(PARtial CORrelation), называютсяPARCOR.
МинистерствообразованияРоссийскойФедерации
ТОМСКИЙГОСУДАРСТВЕННЫЙУНИВЕРСИТЕТСИСТЕМ УПРАВЛЕНИЯИ РАДИОЭЛЕКТРОНИКИ
(ТУСУР)
Кафедрарадиоэлектроникии защиты информации(РЗИ)
Вокодерыи их применение
Реферат
Подисциплине”Аудиотехника”
Студент гр.178
_______Вайвод Д.А.
“__”_________2002г.
Руководитель
Аспиранткаф. РЗИ
______ХудяковС.В
“__”_________2002г.
2002