на тема: Подходи за разпознаване статични пози (стр. 3 из 5)

Напоследък се появяват и системи за въвеждане на жестове, които комбинират визуалнo и инструментално базирани техники с цел събирането на повече информация относно жестовете, което спомага за по-точното им разпознаване. Такава хибридна система е представена в [10].

Методите за разпознаване варират в зависимост от това дали знаците представляват статични пози на ръката или динамични жестове. За разпознаването на статични знаци могат да се използват следните техники [6]: сравняване с еталони, класифициране по геометрична характеристика, невронни мрежи, както и други стандартни методи за разпознаване на образци за класифициране. Разпознаването на динамични жестове е по-сложно, тъй като изисква вземането в предвид времеви събития. Обикновено се осъществява с използването на техники като: времево компресиращи образци, динамично изкривяване на времето, скрити Марковски модели (HMM) [7, 8], и Бейсови мрежи.

4.3 Разпознаване на статични знаци

Статичните пози са важна част от една система за разпознаване на динамични жестове, затова и във фокуса на този обзор са методите за разпознаване на статични пози чрез визуално базирани подходи. Предизвикателствата, пред които трябва да се изправи една такава система са: да бъде независима по отношение на жестикулиращия, т.е. да се справя с геометричните отклонения породени от различната анатомия на ръката или различното изпълнение на знаците от различни хора; да се справя със сложен, многоцветен фон, който затруднява сегментирането на ръката. По-долу са представени четири подхода, насочени именно към преодоляването на тези проблеми. Всеки от тях представя интересна техника за обработка и класифициране на позите.

Okapi-Chamfer Matching [12]. Авторите формулират проблема за разпознаване на статична поза на ръката в проблем за извличане на текст, като така създават възможност за интегриране на някои мощни техники за търсене на текст с техники от компютърното зрение. В подхода локалните визуални характеристики се третират като терми, обучаващите изображения като документи, а входните изображения - като заявки. Алгоритъма се базира на техниката на обратно/инвертирано индексиране, ефективно използвано при организирането на колекции от текстови документи. Чрез обратното индексиране се осъществява достъп и търсене на подобие единствено в документи, съдържащи термите на заявката. За да се осъществи обратното индексиране в база от изображения, се построява лексикон от локални визуални характеристики чрез клъстеризиране на характеристиките, извлечени от обучаващите изображения.

Алгоритъма за разпознаване на дадено тестово изображение включва следните стъпки: областта на ръката се сегментира от входното изображение чрез хистограми на цвета на кожата; сегментираното изображение се бинаризира и разделя на подпрозорци с размери 24x24 пиксела, така че минимум 20% и не повече от 80% от пикселите в прозореца да принадлежат на ръката, като по този начин се елиминират прозорците, които са почти изцяло в ръката или във фона; за всеки прозорец се извличат визуални характеристики (локален дескриптор) и се квантуват на базата на лексикона, след което чрез обратно индексиране се идентифицира набора от обучаващи изображения с ненулев коефициент на подобие. За изчисляване на коефициентите на подобие се комбинират модифицирана Okapi теглова формула (само с положителни стойности) и Chamfer distance подхода за измерване на подобие на криви, който взема в предвид пространствената информация при положението на термите. Подхода позволява бързо и прецизно разпознаване на пози на ръката от големи бази с изображения, като се използва само силуета на ръката.

За разлика от традиционните подходи, базирани на глобални измервания при намиране на подобие на обекти, Okapi-Chamfer Matching алгоритъма сравнява групи от локални характеристики и по този начин е по-устойчив при неточно сегментиране на ръката. В допълнение, локалните характеристики позволяват покриването на по-широка област от деформации на формата на ръката. За да се подсигури инвариантност по отношение на ротация в равнината на сцената, скалиране и 2D транслация, всеки локален дескриптор се маркира с пространствен етикет, носещ относителната пространствена информация за дескриптора.

За тестване на подхода се създава обучаваща база от 16 384 изображения (1024 форми на ръката снимани от 16 различни ъгъла), които са генерирани чрез 3D кинематичен мрежов модел на ръката. Използваните тестови изображения са както синтезирани, така и реални снимки на ръката. В последния случай, геометрията на ръката е малко по-различна от тази на 3D модела, затова и пръстовите конфигурации (използвани за изчисляване на минимална квадратична грешка след намиране на подобно изображение) се маркират ръчно, което е времево скъп и предразположен на грешки процес. Поради това, тестовете по отношение на реални изображения не са много обширни.

Подход с Проектирани Ойлерови Ъгли [13]. Представен е прост алгоритъм за класифициране в реално време на изолирани знаци от дактилната азбука, който е базиран на 2D проекция на Ойлерови ъгли. За да се достигне до тези ъгли, дадено входно изображение подлежи на следната обработка: локализиране областта на ръката чрез използването на Гаусов цветови модел на кожата на ръката и изчисляване вероятността даден пиксел да принадлежи на кожата; оконтуряване на ръката чрез анализ на свързаните компоненти в бинарното изображение и намиране на най-големия компонент с цвета на кожата; определяне на характерните точки (на база на кривината) и приблизителния център на дланта, като ръката се разглежда до китката; изчисляване на проектираните Ойлерови ъгли, които се използват като точки в ниско-мерно пространство, като мерността зависи от броя на издадените пръсти.

Класифицирането се осъществява на база на предварително създадена база от по 3 изображения на жест, като за всеки жест се изчисляват 2n+1 ъгли, където n е броя на издадени пръсти. Така ъглите формират характеристичен вектор, а сравняването за подобие се ограничава върху набора от изображенията, които са в едно и също n мерно пространство (брой удължени пръсти) с входната поза.

В алгоритъма се приема, че всеки съществен фрейм от дадено видео съдържа ръка, която е разположена фронтално-паралелно на камерата, осветена е равномерно, заема значителна част от изображението и е в сравнително изправено положение. Предложеният подход постига 91% успех в класифицирането, и макар и идейно прост демонстрира, че правилният избор на характеристики играе важна роля в разпознаването. Предимствата на подхода са, че: работи сравнително бързо, не налага ръчна интервенция по време на фазите на обучение и тестване; не изисква избор на теглови параметри за използваните филтри. Тъй като прецизната сегментация на ръката не е била приоритет за авторите, тази стъпка от алгоритъма е сравнително чувствителна по отношение на осветеността на сцената, и би могла да доведе до лошо клъстеризиране при слаба осветеност и съответно подвеждане на алгоритъма.

Elastic Graph Matching (EGM) [9] – архитектура вдъхновена от теорията за невронна обработка на информацията, но по същество подобна на други подходи за еластично сравнение. Представя различните изгледи на обектите като маркирани графи с двумерна топология. Възлите на графа са маркирани с локално описание на изображението, а ребрата – с вектор на разстоянието. Еластичното сравнение на модел на граф с входно изображение представлява търсене на този набор от позиции на възлите, така че едновременно да са удовлетворени следните ограничения: 1) локалното описание (локална информация за изображението) свързано с всеки възел да е подобно на областта от изображението около позицията, в която е сложен възела и 2) графа не е много изкривен, т.е. разстоянието между подбраните позиции на възлите не трябва да се различават твърде много от оригиналните разстояния. Тези изисквания са отразени с дефинирането на функция на подобието за възлите и оценъчна функция за ребрата на сравнявания граф.

В EGM за локално описание на изображението се използва Gabor Jet, базиран на уейвлет трансформация с комплексни филтри на Габор. Един jet е комплексен вектор, съставен от 24 отговора на комплексни филтри (използват се филтри с 3 различни размера и 8 ориентации). Габор базираните филтри имат формата на равнинни вълни, ограничени от Гаусова покриваща функция, а формата им наподобява рецепторното поле от неврони във визуалния кортекс на бозайниците. За да се осъществи сравнението на jet-овете на графа с точки от изображението, се изчисляват jet-овете за всяка точка от изображението и се сравняват с тези на графа, като се използват две функции на подобие, които са с различни свойства. Коефициента на подобие е между нула и едно.

Една от целите на подхода е да се разпознава позата на ръката при сложен фон. Тъй като ръката може да бъде отчасти върху по-светъл и отчасти върху по-тъмен фон, се въвежда концепцията bunch-graph или куп от графи при представянето на поза на ръката. По този начин се отразява естествената променливост в jet-овете на съответните точки в няколко изображения, с други думи – всеки възел се маркира с колекция от jet-ове вместо само с един.