Модел на графа на дадена поза се задава ръчно, като за възли се избират такива позиции, които да лежат на ръба на ръката и при високо текстурни места в ръката. Обучаващата извадка се формира, като всяка поза се показва от три различни физически лица и се заснема съответно върху светъл и тъмен фон. Ръчно моделирания граф при първото изображение се поставя върху всяко следващо изображение като начално предположение и при необходимост се донастройва че възлите да попадат върху коректни части на ръката.
За класифицирането на едно изображение се изчисляват стойностите на подобие при всеки куп от графи за всички пози. Избира се позата, чийто модел на граф има най-голямо подобие.
За да постигнат по-голяма устойчивост по отношение на сложния фон, авторите развиват метода до включването на повече типове характеристики, които се извличат за всички възли на графа. Въвеждат понятието за съставен jet (съответно и за съставен куп от графи), който се състои от свързването на няколко локални описания на изображението в даден възел, но с различни характеристики. Разглежданите характеристики в конкретния подход и в допълнение към Gabor jet са: усреднен цвят за локални области с размер 3x3 пиксела; цветови Gabor jet – конволюцията се извършва върху изображения, отразяващи подобието на интензитета на всеки пиксел с цвета на кожата. Тези характеристики са съпроводени и от съответни функции за подобие. По този начин, процента на успешно разпознатите пози значително се увеличава.
Извън фокуса на EGM подхода са: работа в реално време, естественост на жестовете, устойчивост при променливи осветеност. Предимствата му са, че притежава вградена възможност да се справи с геометрични отклонения, не изисква перфектно сегментирано входно изображение, елегантно представя вариациите във визията на обекта, като използва метода на купа от графи. Тъй като при всички стъпки на сравнение EGM използва метода на грубата сила за изчерпателно търсене в ограничена област, този подход е доста скъп по отношение на времето. Трябва да отбележим, че подхода не използва отделен механизъм за сегментиране и локализиране на ръката на базата на интензитет, стерео-визуалност, движение и други. Включването им би повишило ефективността на системата.
Метод на дълбочинни ръбове представен в [11], който разчита на мулти-флаш камера със стратегическо позициониране на светкавиците, така че да хвърлят сенки по дълбочинните прекъсвания на сцената. Това позволява ефикасно и прецизно извличане на дълбочинните ръбове, като по този начин се адресира проблема за надеждно дискриминиране на сложни конфигурации на ръката при дактилната азбука.
По-ранните подходи, използващи сянката като основна характеристика, полагат източниците на светлина на голямо разстояние от центъра на прожекция на камерата, като по този начин сенките са отделени от обектите. За разлика от тях, подхода предложен в [11] разглежда източниците на светлина разположени на малка дистанция от камерата, като позволяват вграждането им в самостоятелен уред, не по-голям от днешните фотоапарати.
Подхода позиционира светлините, така че всяка точка от сцената, която е засенчена в някаква снимка, да бъде заснета без засенчване в поне една друга снимка. Това става като светлините се поставят, така че за всяка да съществува срещуположна от другата страна на камерата. Така дълбочинните ръбове се заснемат от две страни, а близостта на светлините до камерата минимизира промените между различните снимки, дължащи се на други ефекти извън сенките. Авторите избират 4 източника на светлина, които се контролират от PC микроконтролер и осветяват последователно обекта на всеки 4ms.
Метода е разширен да поддържа и динамични сцени, където светкавиците се задействат в циклична поредица с едно светване за фрейм, с което подхода е подходящ и за опериране в реално време. Светкавиците биха могли да се заменят с инфрачервена светлина при интерактивни приложения.
Предложеният метод не открива ръбове при границите на пръстите, където няма дълбочинно прекъсване, което пък осигурява по-уникално описание за всяка дактилна буква. Въпреки че обучаващата извадка е била събрана само от един актьор, се очаква че този подход ще е по-ефективен в сравнение с традиционните Canny Edges и Mean Shift сегментацията, тъй като текстурните ръбове варират при хората (например бръчките, петънцата, вените), а настоящият подход ги елиминира. Контекстните описатели на формата са доказано ефективни при вариации във формата на ръката при различните хора. При по-сложни сцени, отрупана с повече обекти, подхода дава предимството да елиминира текстурните ръбове и запазва контурите, дължащи се на дълбочинни прекъсвания. По този начин значително се намалява сложността на модела на сцената. При една предварителна стъпка от по-грубо сегментиране на ръката (например цветово) се очаква да се увеличи надеждността на подхода в сложна среда.
5. ЗАКЛЮЧЕНИЕ
В реферата се разглежда необходимостта от въвеждането на ръката като естествено средство за комуникацията човек-машина. Представени са няколко практически приложения в сферите видео наблюдение, разпознаване на жестове, и мултимодални машинни интерфейси, където ръката се явява допълнителна модалност към вече съществуващи системи за обработка на реч. Документа завършва с обзор върху някои съществуващи сензорни и визуални подходи за решаване на проблема за разпознаване на статични пози на ръката в сложна среда.
Въз основа на по-детайлно разгледаните четири визуални подхода, заедно с техните предимства и недостатъци, можем да заключим, че все още не съществува перфектен метод за разпознаване позата на ръката. Всеки подход има своите специфични силни и слаби страни, които могат да бъдат повече или по-малко важни в зависимост от конкретното приложение. Таблица 1 съдържа сравнителен анализ между разгледаните техники за разпознаване, като се основава на докладваните устойчивост, работа в реално време, справяне с ниска резолюция, независимост по отношение ъгъла на гледане и жестикулиращия, ефективност.