БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по
«Основам информационных технологий»
Магистрант
кафедры физической электроники
факультета радиофизики и электроники
Сорока Александр
Руководители:
доцент Хейдоров Игорь Эдуардович,
ст. преподаватель Кожич Павел Павлович
Минск – 2009 г.
Перечень условных обозначений. 3
Глава 1. Акустико-фонетическиое моделирование речевого сигнала. 6
1.1. Фонетическое моделирование речевого сигнала. 6
1.2. Построение векторов признаков речевых сигналов на основе вейвлет-преобразования. 8
Глава 2. Методологические основы распознавания речевых сигналов. 10
2.1. Основные подходы к решению задачи распознавания речевых сигналов. 10
2.2. Идентификация минимальных речевых единиц. 11
Глава 3. Экспериментальное исследование характеристик разработанных алгоритмов. 12
3.1. Экспериментальное исследование характеристик алгоритма извлечения векторов признаков. 12
3.2. Исследование разработанного алгоритма распознавания речевых сигналов. 14
Список использованных источников. 17
Интернет ресурсы в предметной области исследования. 20
Вопросы к выпускной работе. 27
Список литературы к выпускной работе. 28
Приложение 1. Список реализованных программ.. 29
МОВ – метод опорных векторов
МРЕ – минимальная речевая единица
МЧКК – мелчастотные кепстральные коэффициенты
НС – нейронная сеть
СММ – скрытая Марковская модель
eRBF – экспоненциальная радиальная базисная функция
В конце XX и начале XXI века наблюдается стремительное развитие информационных технологий. Одним из приоритетных направлений исследований в данной области являются задачи хранения, обработки и передачи мультимедиа данных. К сожалению, до сих пор во многих задачах анализа мультимедиа данных компьютер так и не смог окончательно заменить эксперта. Это такие задачи, как синхронный перевод, автоматическая сегментация изображений и видеопоследовательностей, автоматическая стенография. Одной из основных задач обработки мультимедиа информации является задача распознавания и анализа естественной речи человека [8].
В задачу анализа речи входит широкий спектр задач. Традиционно их подразделяют на три подкласса: задачи идентификации, классификации и диагностики. К задачам идентификации относят задачи верификации и идентификации дикторов. К задачам классификации относят задачи распознавания ключевых слов, распознавания слитной речи и задачи семантического анализа речи. К классу задач диагностики относят задачи определения психофизического состояния диктора. Во многих из выше перечисленных задач в последние годы был достигнут значительный прогресс. Скажем, алгоритмы идентификации или верификации дикторов широко используются при проведении криминалистических процедур или для разграничения прав доступа, благодаря высокой точности разработанных методов.
По-прежнему сохраняет свою актуальность задача распознавания слитной речи [3]. Область применения полученных решений довольно обширна: автоматические стенографы, автоматизированные справочные терминалы с речевым управлением, синхронные переводчики, системы сжатия и передачи речевого сигнала с высоким качеством, системы сегментации, индексации и поиска мультимедиа информации.
Методы, которые используются при построении данных систем, активно разрабатываются последние несколько десятилетий, однако по физической сути являются базовыми методами анализа речевых сигналов, разработанными в первой половине прошлого века и в данный момент практически достигшие предела своих возможностей. Разработаны и инновационные методики анализа речевых сигналов, но к сожалению они ещё не получили широкого распространения в силу отсутствия их качественных программно-аппаратных реализаций. В настоящее время исследователи все чаще отказываются от снижения избыточности речевого сигнала, а в отдельных случаях, даже дополняют акустический сигнал сигналами иного рода, скажем параметрическим описанием движений губ говорящего или неявным вводом контекста произношения для более уверенного распознавания речевого сигнала [5].
Одним из основных недостатков существующих моделей является низкая точность распознавания акустически схожих минимальных единиц речи, в качестве которых выступают фонемы, аллофоны или более сложные структурные единицы речи. В связи с данным фактом в данной работе проводятся исследования по возможности улучшения характеристик системы распознавания за счет изменения блока классификации распознающей системы. Так, вместо традиционного распознавания акустико-фонетических единиц с использованием скрытых Марковских моделей (СММ) был использован метод опорных векторов (МОВ) . В качестве методов первичного анализа использовались ставшие традиционными методы спектрального и кепстрального представлений и малораспространенный метод вейвлет-анализа.
Основой моделирования речевого сигнала на фонетическом уровне является построение иерархической структуры состоящей из элементов, которые получили название минимальных речевых единиц (МРЕ) .
В большинстве случаев, в качестве таких единиц используются аллофоны, дифоны, трифоны, слоги и фонемы. Аллофон – набор звуков, имеющих одинаковое признаковое описание. Дифоны – переход между двумя аллофонами без их стационарных участков, чаще всего переход согласный-гласный или гласный-согласный. Трифон – последовательность из трех аллофонов, позволяющая учитывать коартикуляционное воздействие предыдущего и последующего звуков на текущий звук. Фонема – совокупность аллофонов, имеющих одинаковые функции в речеобразовании и не несущие семантических различий. Слог – ядро гласного звука и функционально и формально связанные с ним соседние согласные звуки [6, 7].
В качестве МРЕ могут быть так же использованы и слова. Но для распознавания русского языка использование слов в качестве МРЕ ведет к большим расходом вычислительных ресурсов, в силу того, что слово в русском языке обладает порядка 100 словоформ, все из которых являются возможными МРЕ. Кроме того, для устойчивого распознавания в словаре для каждой МРЕ могут хранится признаковые описания всего класса МРЕ, что ведет к дополнительному расходу ресурсов. Так же, значительно усложняется процесс обучения готовой системы распознавания, построенной с таким использованием такого подхода, так как каждому диктору необходимо произнести каждую МРЕ несколько раз для получения устойчивых эталонов.
С учетом вышеизложенного, можно определить основные требования к МРЕ:
1. Словарь МРЕ должен обладать минимальным возможным размером.
2. Алгоритм сегментации речевого сигнала на МРЕ должен по возможности затрачивать минимальные временно-аппаратные ресурсы.
3. Алгоритм классификации каждой МРЕ также должен минимизировать затраты.
4. МРЕ должны иметь устойчивую классификацию на всем словаре.
Данным требованием удовлетворяют МРЕ, представляющие собой участки речевого сигнала фиксированной длительности, соответствующие фазам фонем или самим фонемам. Количество фонем в русском языке равно 42, из них 6 гласных и 36 согласных. Акустические свойства фонем определяются артикуляторными особенностями их образования – местом и способом.
Место образования гласных фонем обусловлено положением тела языка и губ. Место образования согласных фонем определяется положением щели в ротовой полости, а также заднее или переднее положение языка. Способ образования фонем характеризует динамические и энергетические характеристики речевого образа [7].
Сложность использования фонем в качестве МРЕ заключается в том, что в речевом сигнале, соответствующем разговорной речи, фонемы в «чистом» виде не встречаются по причине того, что фонемы способны изменять свои акустико-артикуляторные параметры в зависимости от окружения. Таким образом, в разговорной речи возникают модификации фонем – аллофоны, число которых резко увеличивается, в сравнении с числом фонем, а именно 480 для гласных и 8800 для согласных. Аллофоны можно разделить на позиционные и комбинаторные. Комбинаторные аллофоны возникают в результате влияния фонетического окружения на текущую фонему и наложение процессов артикуляции – эффект коартикуляции. Позиционные аллофоны возникают в результате изменения звучания фонемы в зависимости от положения к ударному слогу или другим фонемам – эффект редукции. Кроме того, фонемы расположенные рядом на плоскости «место-способ» имеют схожие признаковые описания, как следствие, распознающая система имеет низкую точность классификации схожих фонем, в результате чего, возникают ошибки «замены» для фонем одной группы. Традиционно, разделение близкорасположенных фонем не выделяют в отдельный этап идентификации фонем, а разделимость образов повышают использованием более информационных признаковых описаний.