Напоследък се появяват и системи за въвеждане на жестове, които комбинират визуалнo и инструментално базирани техники с цел събирането на повече информация относно жестовете, което спомага за по-точното им разпознаване. Такава хибридна система е представена в [10].
Методите за разпознаване варират в зависимост от това дали знаците представляват статични пози на ръката или динамични жестове. За разпознаването на статични знаци могат да се използват следните техники [6]: сравняване с еталони, класифициране по геометрична характеристика, невронни мрежи, както и други стандартни методи за разпознаване на образци за класифициране. Разпознаването на динамични жестове е по-сложно, тъй като изисква вземането в предвид времеви събития. Обикновено се осъществява с използването на техники като: времево компресиращи образци, динамично изкривяване на времето, скрити Марковски модели (HMM) [7, 8], и Бейсови мрежи.
4.3 Разпознаване на статични знаци
Статичните пози са важна част от една система за разпознаване на динамични жестове, затова и във фокуса на този обзор са методите за разпознаване на статични пози чрез визуално базирани подходи. Предизвикателствата, пред които трябва да се изправи една такава система са: да бъде независима по отношение на жестикулиращия, т.е. да се справя с геометричните отклонения породени от различната анатомия на ръката или различното изпълнение на знаците от различни хора; да се справя със сложен, многоцветен фон, който затруднява сегментирането на ръката. По-долу са представени четири подхода, насочени именно към преодоляването на тези проблеми. Всеки от тях представя интересна техника за обработка и класифициране на позите.
Алгоритъма за разпознаване на дадено тестово изображение включва следните стъпки: областта на ръката се сегментира от входното изображение чрез хистограми на цвета на кожата; сегментираното изображение се бинаризира и разделя на подпрозорци с размери 24x24 пиксела, така че минимум 20% и не повече от 80% от пикселите в прозореца да принадлежат на ръката, като по този начин се елиминират прозорците, които са почти изцяло в ръката или във фона; за всеки прозорец се извличат визуални характеристики (локален дескриптор) и се квантуват на базата на лексикона, след което чрез обратно индексиране се идентифицира набора от обучаващи изображения с ненулев коефициент на подобие. За изчисляване на коефициентите на подобие се комбинират модифицирана Okapi теглова формула (само с положителни стойности) и Chamfer distance подхода за измерване на подобие на криви, който взема в предвид пространствената информация при положението на термите. Подхода позволява бързо и прецизно разпознаване на пози на ръката от големи бази с изображения, като се използва само силуета на ръката.
За разлика от традиционните подходи, базирани на глобални измервания при намиране на подобие на обекти, Okapi-Chamfer Matching алгоритъма сравнява групи от локални характеристики и по този начин е по-устойчив при неточно сегментиране на ръката. В допълнение, локалните характеристики позволяват покриването на по-широка област от деформации на формата на ръката. За да се подсигури инвариантност по отношение на ротация в равнината на сцената, скалиране и 2D транслация, всеки локален дескриптор се маркира с пространствен етикет, носещ относителната пространствена информация за дескриптора.
За тестване на подхода се създава обучаваща база от 16 384 изображения (1024 форми на ръката снимани от 16 различни ъгъла), които са генерирани чрез 3D кинематичен мрежов модел на ръката. Използваните тестови изображения са както синтезирани, така и реални снимки на ръката. В последния случай, геометрията на ръката е малко по-различна от тази на 3D модела, затова и пръстовите конфигурации (използвани за изчисляване на минимална квадратична грешка след намиране на подобно изображение) се маркират ръчно, което е времево скъп и предразположен на грешки процес. Поради това, тестовете по отношение на реални изображения не са много обширни.
В алгоритъма се приема, че всеки съществен фрейм от дадено видео съдържа ръка, която е разположена фронтално-паралелно на камерата, осветена е равномерно, заема значителна част от изображението и е в сравнително изправено положение. Предложеният подход постига 91% успех в класифицирането, и макар и идейно прост демонстрира, че правилният избор на характеристики играе важна роля в разпознаването. Предимствата на подхода са, че: работи сравнително бързо, не налага ръчна интервенция по време на фазите на обучение и тестване; не изисква избор на теглови параметри за използваните филтри. Тъй като прецизната сегментация на ръката не е била приоритет за авторите, тази стъпка от алгоритъма е сравнително чувствителна по отношение на осветеността на сцената, и би могла да доведе до лошо клъстеризиране при слаба осветеност и съответно подвеждане на алгоритъма.
Elastic Graph Matching (EGM) [9] – архитектура вдъхновена от теорията за невронна обработка на информацията, но по същество подобна на други подходи за еластично сравнение. Представя различните изгледи на обектите като маркирани графи с двумерна топология. Възлите на графа са маркирани с локално описание на изображението, а ребрата – с вектор на разстоянието. Еластичното сравнение на модел на граф с входно изображение представлява търсене на този набор от позиции на възлите, така че едновременно да са удовлетворени следните ограничения: 1) локалното описание (локална информация за изображението) свързано с всеки възел да е подобно на областта от изображението около позицията, в която е сложен възела и 2) графа не е много изкривен, т.е. разстоянието между подбраните позиции на възлите не трябва да се различават твърде много от оригиналните разстояния. Тези изисквания са отразени с дефинирането на функция на подобието за възлите и оценъчна функция за ребрата на сравнявания граф.