Модел на графа на дадена поза се задава ръчно, като за възли се избират такива позиции, които да лежат на ръба на ръката и при високо текстурни места в ръката. Обучаващата извадка се формира, като всяка поза се показва от три различни физически лица и се заснема съответно върху светъл и тъмен фон. Ръчно моделирания граф при първото изображение се поставя върху всяко следващо изображение като начално предположение и при необходимост се донастройва че възлите да попадат върху коректни части на ръката.
Еластичното сравняване на даден граф с входно изображение включва следните стъпки: грубо позициониране на графа; сканиране на изображението на груби стъпки от по 5 пиксела в двете посоки и изчисляване коефициента на подобие; скалиране на графа с възможност за разширение до 20% и свиване до 10% без относителни промени в дължината на ребрата (за компенсиране на големината на ръцете на различните субекти и за различно разстояние от камерата); възможност за транслиране на позицията на графа до 6 пиксела; равнинна ротация до 15º в равнината на изображението и около центъра на тежестта на графа; локално разсейване на отделните възли с възможност за транслация на позицията им с един пиксел, за да се компенсират остатъчни геометрични отклонения.За класифицирането на едно изображение се изчисляват стойностите на подобие при всеки куп от графи за всички пози. Избира се позата, чийто модел на граф има най-голямо подобие.
За да постигнат по-голяма устойчивост по отношение на сложния фон, авторите развиват метода до включването на повече типове характеристики, които се извличат за всички възли на графа. Въвеждат понятието за съставен jet (съответно и за съставен куп от графи), който се състои от свързването на няколко локални описания на изображението в даден възел, но с различни характеристики. Разглежданите характеристики в конкретния подход и в допълнение към Gabor jet са: усреднен цвят за локални области с размер 3x3 пиксела; цветови Gabor jet – конволюцията се извършва върху изображения, отразяващи подобието на интензитета на всеки пиксел с цвета на кожата. Тези характеристики са съпроводени и от съответни функции за подобие. По този начин, процента на успешно разпознатите пози значително се увеличава.
Извън фокуса на EGM подхода са: работа в реално време, естественост на жестовете, устойчивост при променливи осветеност. Предимствата му са, че притежава вградена възможност да се справи с геометрични отклонения, не изисква перфектно сегментирано входно изображение, елегантно представя вариациите във визията на обекта, като използва метода на купа от графи. Тъй като при всички стъпки на сравнение EGM използва метода на грубата сила за изчерпателно търсене в ограничена област, този подход е доста скъп по отношение на времето. Трябва да отбележим, че подхода не използва отделен механизъм за сегментиране и локализиране на ръката на базата на интензитет, стерео-визуалност, движение и други. Включването им би повишило ефективността на системата.
Метод на дълбочинни ръбове представен в [11], който разчита на мулти-флаш камера със стратегическо позициониране на светкавиците, така че да хвърлят сенки по дълбочинните прекъсвания на сцената. Това позволява ефикасно и прецизно извличане на дълбочинните ръбове, като по този начин се адресира проблема за надеждно дискриминиране на сложни конфигурации на ръката при дактилната азбука.
По-ранните подходи, използващи сянката като основна характеристика, полагат източниците на светлина на голямо разстояние от центъра на прожекция на камерата, като по този начин сенките са отделени от обектите. За разлика от тях, подхода предложен в [11] разглежда източниците на светлина разположени на малка дистанция от камерата, като позволяват вграждането им в самостоятелен уред, не по-голям от днешните фотоапарати.
Идеята за метода е провокирана от наблюдаваната поява на тънка ивица от сянка при дълбочинните прекъсвания (ръбове) в някаква сцена, когато е снимана с камера с близо разположена светкавица. Установява се, че положението на сянката се определя от относителната позиция на камерата и светкавицата: когато светкавицата е в дясно, сянката се образува в ляво, и т.н. Така при снимането на поредица от изображения с различни източници на светлина, при което обекта е осветен от различни позиции, може да се асемблира карта на дълбочинните ръбове на база на сенките.Подхода позиционира светлините, така че всяка точка от сцената, която е засенчена в някаква снимка, да бъде заснета без засенчване в поне една друга снимка. Това става като светлините се поставят, така че за всяка да съществува срещуположна от другата страна на камерата. Така дълбочинните ръбове се заснемат от две страни, а близостта на светлините до камерата минимизира промените между различните снимки, дължащи се на други ефекти извън сенките. Авторите избират 4 източника на светлина, които се контролират от PC микроконтролер и осветяват последователно обекта на всеки 4ms.
За откриване на сенките във всяка снимка на дадена поза, първо се изчислява незасенчено изображение, т.е. максималното съставно изображение Imax, съдържащо максималния интензитет на всеки пиксел измежду набора от снимки на позата. Imax се сравнява със всяко засенчено изображение, като се изчислява изображение на отношението Ir, т.е. се извършва попикселово интензитетно деление на засенченото към Imaxизображението. Irе със стойности близо до 1 при незасенчени пиксели и близо до 0 в обратния случай. Това спомага за акцентиране на сенките и премахване на интензитетните преходи, дължащи се на повърхностни материални промени. Irсе сканира в посоката на осветяване на обекта и се намират пикселите с прагови ръбове и негативен преход. Съвкупността от всички намерени прагови пиксели по различно осветените снимки на позата (в случая 4 на брой) дефинира дълбочинните ръбове.Метода е разширен да поддържа и динамични сцени, където светкавиците се задействат в циклична поредица с едно светване за фрейм, с което подхода е подходящ и за опериране в реално време. Светкавиците биха могли да се заменят с инфрачервена светлина при интерактивни приложения.
За класифициране на позата се използва описател на формата, който е инвариантен по отношение на транслиране и мащабиране. Състои се в изчисляването на коефициент от 0-255 за всеки от намерените пиксели на дълбочинните ръбове. Анализира се контекста на всеки пиксел, като се преброява броя ръбови пиксели в 8 съседни района. Полученият вектор от осем елемента се нормализира (по общия брой ръбови пиксели), така че всеки елемент кодира информация за висока или ниска плътност на ръбови пиксели по дадено направление. Следва прагуване с емпирично установена стойност от 0.15. Новият вектор от елементи със стойности 0 и 1 се аранжира по посока обратна на часовниковата стрелка от дадена референтна област (в случая долния десен район). Получената децимална стойност гласува в съответен бин от показаната хистограма. След прилагането на този алгоритъм върху всички съществени пиксели, се получава 256-мерен характеристичен вектор – описател. Предварително се създава обучаваща извадка от набор от изображения за всяка поза, за които се намират ръбовите пиксели и се изчислява описателя на формата. Създава се маркирана обучаваща база от 256-мерни вектори, която се използва за намиране на най-добро подобие (по Евклидово разстояние) при някакво входно изображение за класифициране.Предложеният метод не открива ръбове при границите на пръстите, където няма дълбочинно прекъсване, което пък осигурява по-уникално описание за всяка дактилна буква. Въпреки че обучаващата извадка е била събрана само от един актьор, се очаква че този подход ще е по-ефективен в сравнение с традиционните Canny Edges и Mean Shift сегментацията, тъй като текстурните ръбове варират при хората (например бръчките, петънцата, вените), а настоящият подход ги елиминира. Контекстните описатели на формата са доказано ефективни при вариации във формата на ръката при различните хора. При по-сложни сцени, отрупана с повече обекти, подхода дава предимството да елиминира текстурните ръбове и запазва контурите, дължащи се на дълбочинни прекъсвания. По този начин значително се намалява сложността на модела на сцената. При една предварителна стъпка от по-грубо сегментиране на ръката (например цветово) се очаква да се увеличи надеждността на подхода в сложна среда.
5. ЗАКЛЮЧЕНИЕ
В реферата се разглежда необходимостта от въвеждането на ръката като естествено средство за комуникацията човек-машина. Представени са няколко практически приложения в сферите видео наблюдение, разпознаване на жестове, и мултимодални машинни интерфейси, където ръката се явява допълнителна модалност към вече съществуващи системи за обработка на реч. Документа завършва с обзор върху някои съществуващи сензорни и визуални подходи за решаване на проблема за разпознаване на статични пози на ръката в сложна среда.
Въз основа на по-детайлно разгледаните четири визуални подхода, заедно с техните предимства и недостатъци, можем да заключим, че все още не съществува перфектен метод за разпознаване позата на ръката. Всеки подход има своите специфични силни и слаби страни, които могат да бъдат повече или по-малко важни в зависимост от конкретното приложение. Таблица 1 съдържа сравнителен анализ между разгледаните техники за разпознаване, като се основава на докладваните устойчивост, работа в реално време, справяне с ниска резолюция, независимост по отношение ъгъла на гледане и жестикулиращия, ефективност.