Анализ существующих подходов к системам локализации области губ человека на изображении (стр. 1 из 2)

Содержание

1 Сведения об объекте исследования............................................................. 3

2 Цель работы................................................................................................. 4

3 Выбор направления исследования.............................................................. 5

3.1 Краткая характеристика и оценка состояния рассматриваемой проблемы 5

3.1.1 Распознавание контуров губ в видеопотоке......................................... 6

3.1.2 Применение скрытых Марковских моделей......................................... 9

3.2 Актуальность работы.............................................................................. 13

3.3 Обоснование выбранного метода направления исследования............. 13

5. Ожидаемые результаты............................................................................ 16

Список использованных источников............................................................ 17

1 Сведения об объекте исследования

В распознавании речи, необходимом для развития и совершенствования интерфейсов между человеком и компьютером, все более значительную роль приобретает визуальная система ввода информации, основанная на задаче чтения по губам. Одним из способов получения входных данных для данной задачи является поиск характерных точек, в частности распознавание контуров губ. Объектом данного исследования являются методы компьютерной обработки и анализа цифрового изображения, а предметом можно считать цифровое изображение, содержащее губы человека, и методы их локализации. От точности решения задачи локализации во многом зависит точность решения задач анализа изображения области губ более высокого уровня. Разработки, рассмотренные в данной работе, являются важным этапомна пути к усовершенствованию интерфейса между человеком и компьютером.

2 Цель работы

Цель написания работы – анализ существующих подходов к решению задачи локализации области губ человека на изображении. А так же ознакомиться с применением всевозможных методов распознавания.

3 Выбор направления исследования

3.1 Краткая характеристика и оценка состояния рассматриваемой проблемы

Технологии автоматического обнаружения и распознавания лица используются в ряде современных систем компьютерного зрения: биометрическая идентификация, человеко-машинный интерфейс, зрение роботов, компьютерная анимация, видеоконференции. Основное отличие данных приложений между собой – это целевые классы, которые являются объектами распознавания. Целевыми классами в задачи распознавания лица могут являться: лицо, лицо с элементами перекрытий, морда животного, лицо человека, живое лицо человека, мимика лица, черты лица, пол, раса, личность человека. Выбор одного из таких целевых классов определяет специфику алгоритма распознавания, остальные классы являются второстепенными и скорее играют роль признаков при распознавании целевого класса.

Основным способом извлечения данных о речи из видеоинформации является анализ движений губ, или чтение по губам. Главным источником получения входных данных для данной задачи является поиск характерных точек, в частности распознавание контуров губ. В большей части исследований, посвященных задаче распознавания речи, поиск контуров губ осуществляется с помощью активных контурных моделей.

Существует также другой возможный способ получения информации о губах, заключающийся в выделении особенностей области рта без поиска характерных точек.

В данной работе рассматривается задача распознавания контуров губ в цветном видеопотоке и локализация с помощью скрытых Марковских моделей.

3.1.1 Распознавание контуров губ в видеопотоке

В данной задаче распознавания контуров губ в видеопотоке предметом анализа являются цветные изображения при условии фронтального расположения лица. Кроме того, рассматривается видеопоток низкого разрешения, характерный для бытовых видеокамер. Такая постановка задачи накладывает ограничения на скорость работы алгоритма, распознавание контуров должно оставлять достаточно времени для распознавания речи. Важными факторами для разрешения этой задачи являются использование цвета в качестве главного источника информации, устойчивость архитектуры, а также применение быстрого алгоритма поиска контуров.

Для распознавания используется цветовая информация. Выделение по цвету человеческой кожи и губ достаточно устойчиво, их цветовые характеристики практически не зависят от освещения. Поэтому цветовое пространство, в котором будет осуществляться поиск, не должно учитывать освещение. Этому условию удовлетворяет цветовое пространство (r/g,b/g), которое используется при построении цветовых классов.

Для улучшения качества распознавания выделяются два цветовых класса - кожа и губы. В используемом двухмерном цветовом пространстве на основе выделенных на изображениях областей строятся двухмерные гистограммы (рис. 1). Предполагая нормальное распределение цветов, можно сократить описание цветовых классов с двухмерной гистограммы до пяти параметров. Функция принадлежности цветовому классу имеет значения в диапазоне [0,1].

На основе определенных цветовых классов строится оценочная функция; функция принадлежности цветовому классу кожи учитывается с обратным знаком. Несмотря на возможность использования обобщенных цветовых классов, для получения лучших результатов используется предварительная подстройка под пользователя.

Устойчивость алгоритма обеспечивает архитектура IFA, при которой алгоритм разделен на несколько этапов. Данные, полученные на предыдущем этапе, уточняются на следующем, и, таким образом, неуспешный поиск на текущем этапе означает возврат к предыдущему. В соответствии с архитектурой IFA решение задачи распознавания контуров разбито на три этапа. Первый этап - приблизительный поиск области губ на изображении, второй - ограничение контура губ эллипсом, третий - уточнение контура алгоритмом, основанном на радиальном расширении.

r/g

b/g

Рисунок 1. Двухмерная гистограмма, губы

Для распознавания важно, чтобы характеристики губ, полученные в результате, были инвариантны относительно освещения и положения лица на изображении. Первый этап - это предварительный поиск положения губ на изображении. На этом этапе происходит поиск начального приближения. Предполагая приблизительный размер области губ, на изображении осуществляется поиск области соответствующей площади. На этом этапе вычисляются приблизительные координаты центра области губ.

Предполагая работу в реальном времени, задачу поиска положения можно упростить, так как она может проводиться не во всех кадрах. Для работы в каждом кадре используются в качестве начального значения результаты поиска положения на предыдущем кадре.

На втором этапе область губ ограничивается эллипсом с помощью статистических методов. Рассматриваются значения оценочной функции в области, найденной на предыдущем этапе. Рассматриваются точки, в которых оценочная функция выше порогового значения. Значение f оценочной функции в точке изображения (xi,yi) интерпретируется как количество попаданий случайных величин X и Y в диапазон ≤ < +1, ≤ < +1 iiiixXxyY. Для случайных величин X и Y вычисляются математические ожидания и матрица ковариации. Оси координат совмещаются с направлениями, соответствующими собственным векторам матрицы. Для случайных величин X’ и Y’, соответствующих новой системе координат, считается среднее квадратическое отклонение. Математические ожидания xm,ym, угол поворота α и средние квадратические отклонения dx,dy однозначно определяют эллипс с центром в (xm,ym), повернутый относительно оси на угол α и с радиусами dx и dy.

На третьем этапе определяются характеристики формы губ, нужных для последующего распознавания. Контур уточняется с помощью алгоритма радиального расширения. В качестве начального приближения для контура используются точки на эллипсе, полученном на предыдущем этапе. Точки на эллипсе берутся в соответствии с точками спецификации MPEG4. Точки перемещаются по радиусам эллипса в зависимости от действия сил. Силы для точки xi определяются как

F_iF_i^outF_iⁱⁿ

_i^int,

F_i^out= k_out,

_i^int=-k_in,

_i^int=-k_int

Где k - коэффициенты, vi - направление перемещения точки xi.

За счет наложения более жестких ограничений на форму контура данный алгоритм позволяет производить более точное и быстрое распознавание, чем алгоритмы на основе активных контурных моделей. Количество итераций также сокращается за счет получения хорошего начального приближения на втором этапе.

В результате работы построен эффективный алгоритм поиска контуров губ для задачи распознавания речи. В отличие от алгоритмов на основе активных контурных моделей, этот алгоритм дает приемлемые результаты при меньшем числе итераций (4-8). Алгоритм позволяет надежно и быстро искать контуры губ в видеопотоке, освобождая больше времени для задачи чтения по губам.

3.1.2 Применение скрытых Марковских моделей

Первым этапом решения задачи чтения по губам является выделение контуров губ; это производится с помощью алгоритма выделения контуров губ на цветном изображении, основанного на алгоритме радиального расширения.