Смекни!
smekni.com

на тема: Подходи за разпознаване статични пози (стр. 5 из 5)

В анализа участва и подход базиран на CBIR (Content Based Image Retrieval) чрез системата EFIRS [15], който е разработен в екип с участието на автора на реферата. Накратко, този подход разглежда позата на ръката за класифициране като статично изображение, чийто най-близки подобия се търсят в база данни от изображения образци (БДИО). Образците са 2D проекции на 3D пози (букви от българската дактилна азбука), снимани на малки стъпки в пространствен сектор (до 80º по осите x и y), като всяка проекция е представителен фрейм, извлечен от предварително заснет видео клип, обхождащ сектора на видимост на ръката застинала в даден жест (буква). Системата EFIRS осигурява бърз и шумоустойчив достъп до БДИО, като използва ключове за търсене – глобални описатели на формата (например Фурие и/или Wavelet дескриптори) на дадено изображение. Този тип описатели могат да се справят с обекти с малки текстури, но поради глобалността си изискват много чиста сегментация на обекта. Поради ранния етап на развитие, този подход не се фокусира върху проблема за сегментиране на ръката в сложна среда, а по-скоро е насочен към доказване приложимостта на CBIR подходите за решаване проблема за разпознаване позата на ръката.

Таблица 1: Сравнителен анализ на разгледаните визуално базирани подходи за разпознаване позата на ръката.

Okapi-Chamfer Matching Ойлерови ъгли Elastic Graph Matching Дълбочинни Ръбове CBIR подход чрез EFIRS

Устойчивост при:

Сложна среда

да (1)

да (1)

да

да (1)

не е реализирана

Препокриване на пръсти

да (2)

да, класифици-рането зависи от издадените пръсти

не е обявена

да

да

Променлива осветеност

не е обявена

не

да

не е обявена

не

Инвариантност при ротация в дълбочина, скалиране, транслация

да (използва пространствен дескриптор)

не за ротация; да за скалиране и транслиране

не за ротация; да за минимално скалиране; да за транслиране

не за ротация, да за скалиране и транслиране;

не за ротация, да за скалиране и транслиране;

Работа в реално време

очаквано (3)

да

не

да

да

Работа с изображения от ниска резолюция

не е обявена, но се предполага мин. oбласт на ръката (120x80)

да

не е обявена

не е обявена

не е изследвана

Независимост от ъгъла на снимане

да (до 60град. по x и y)

не

не

не

да (до 80град. по x и y)

Независимост от жестикулиращия

не е обявена

да

да

не е обявена, но се предполага

не е изследвана

Ефективност

не е обявена

91% от 105 базови изобр.; тестване на всяко към базата.

86.2% в сложна среда, 94% при еднороден фон

96% от 72 базови изобр. при еднороден фон и един актьор; тестване на всяко към базата

96% от 344 базови изобр. (~49 за буква) и 358 тестови за всяка буква; при еднороден фон и един актьор

1. Извличането на областта на ръката зависи от цвета на кожата и следователно подхода е сравнително устойчив при сложна среда

2. Обучаващата извадка е генерирана от 3D кинематичен мрежов модел на ръката, заснет от различни ъгли

3. Резултатите са обявени при тестване с остарели машини или без оптимизация на кода. На база на напредъка на компютърната мощност, се очаква изпълнение в реално време

Представените визуални подходи дават идея за тенденциите при задачата за разпознаване пози на ръката. Авторът на реферата вижда предизвикателство в развитието на подходите, използващи локални характеристики на базата на формата и ръбовете, каквито са методите на Ойлеровите ъгли и дълбочинните ръбове, в които се запазва информацията за пространственото положение на характеристиките и в същото време осигуряват инвариантност по отношение на транслация, мащабиране и ротация в екранната равнина. Подобни подходи използват например разстоянието от съществени контурни точки до центъра на тежестта на ръката, скаларното пространство на кривината (Curvature Scale Space), хистограми на направлението на пикселите със значителна вариация от областта на ръката, скелета на ръката (запазва топологичната информация). Тези подходи могат да се комбинират, както и да се изследва ефективността им като различни класификатори в AdaBoost алгоритъма.

За да са гарантира максимална ефективност на предложените методики, е необходимо да се гарантира максимално точна локализация на областта на ръката. Следователно, една бъдеща разработка трябва да отдели немалко внимание и на процеса на сегментиране в сложна среда, като изследва използването на адаптивно сегментиране, различни цветови модели, или търсене на минималния обхващащ правоъгълник.

БИБЛИОГРАФИЯ

[1] K. Thomas, (2002, January), “Glove lends the deaf a hand,” USA Today. Retrieved December 1, 2008, from http://www.usatoday.com/news/science/2002-01-16-deafglove.htm.

[2] CyberGlove (n.d.). Retrieved December 1, 2008 from http://www.vrlogic.com/html/immersion/cyberglove_ii.html.

[3] Glove-Based Input Interfaces (n.d.). Retrieved December 1, 2008 from http://www.geocities.com/mellott124/glove1.htm.

[4] J.L. Hernandez-Rebollar, N. Kyriakopoulos, and R. Lindeman, “The AcceleGlove: A Whole-Hand Input Device for Virtual Reality,” Proc. of ACM SIGGRAPH - 29th International Conference on Computer Graphics and Interactive Techniques, 2002.

[5] B.S. Parton, “Sign Language Recognition and Translation: A Multidisciplined Approach From the Field of Artificial Intelligence,” The entity from which ERIC acquires the content, including journal, organization, and conference names, or by means of online submission from the author.Journal of Deaf Studies and Deaf Education, vol 11, no 1, pp94-101, Win 2006.

[6] N. Adamo-Villani, J. Heisler, and L. Arns, “Two gesture recognition systems for immersive math education of the Deaf,” IMMERSCOM, Oct 10-12, 2007, Italy.

[7] T. Starner, A. Pentland, “Real-time american sign language recognition from video using hidden markov models,” Technical Report MIT TR-375, Media Lab, MIT, 1996.

[8] T. Starner, J. Weaver, and A. Pentland, “Real-time American Sign Language recognition using desk and wearable computer-based video,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no.12, December 1998

[9] J. Triesch and C. von der Malsburg, “A System for Person-Independent Hand Posture Recognition against Comlex Backgrounds,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 12, December 2001

[10] H. Brashear, T. Starner, P. Lukowicz, and H. Junker, “Using Multiple Sensors for Mobile Sign Language Recognition,” In Proceedings of IEEE International Symposium on Wearable Computing, pp. 45-52, 2003.

[11] R. Feris, M. Turk, R. Raskar, K. Tan, and G. Ohashi, "Recognition of Isolated Fingerspelling Gestures Using Depth Edges," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp.43-56, 2005.

[12] H. Zhou, D. J. Lin, and T. S. Huang, “Static Hand Posture Recognition Based on Okapi-Chamfer Matching," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 85-101, 2005.

[13] S. Chandran and A. Sawa, “Appearance-Based Real-Time Understanding of Gestures Using Projected Euler Angles," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 57-66, 2005.

[14] J. Napier, “Hands,” Pantheon Books, New York, 1980.

[15] D. Dimov, A. Marinov, N. Zlateva, “CBIR approach to the recognition of a sign language alphabet, ” In Proceedings of International Conference on Computer Systems and Technologies – CompSysTech, 2007, pp.V.2.1-9.