Смекни!
smekni.com

на тема: Подходи за разпознаване статични пози (стр. 2 из 5)

Определяне на психологичен профил на база анализ на ръката и характерни елементи от поведението на даден човек. Например, показването на показалец по време на разговор може да се интерпретира като силно изтъкване и лична власт или наблягане значимостта на някакво твърдение; отваряне на дланите пък определя отвореност към идеи, докато слабо подвижните или свити ръце се интерпретират като консерватизъм и затвореност. Изследвания посочват, че дори начина на държане на вестника дава информация за човешкия характер.

3. ЗАДАЧИ

Използването на жестове предлага атрактивна алтернатива на отежняващите сензорни оборудвания за комуникация между хората и компютрите. Визуалната интерпретация на ръката позволява мигрирането на естествените средства, които хората използват за комуникация помежду си и върху комуникацията с машините. За разпознаването на жестове една система трябва да е в състояние да определи в какво състояние е ръката: дали е неподвижна, в поза начало, край или междинна. С други думи, в основата лежи задачата за определяне уникалната поза на ръката, а тя може да съдържа следните фази, в зависимост от конкретната реализация: локализиране (дали ръката я има или не на сцената), сегментиране (отделяне района на ръката от общият фон/сцена), оконтуряване, скелетизиране, триангулация, изваждане на характерни точки (характеристичен вектор), интерпретиране на семантичното значение на знака - класифициране спрямо мярка за близост до предварително съществуващи образци, модели или характеристични вектори.

При изграждането на визуална система за локализиране на ръка и разпознаване на нейната поза (форма или знак) трябва да се наблегне и на нейната устойчивост на вариации в околната среда, тъй като изискването за постоянен или еднообразен фон би я направило недостатъчно гъвкава за повечето реални приложения. Необходимо е да се вземе в предвид, че: при една произволна сложна сцена на места ръката може да попада върху светъл фон, а на други - върху тъмен; границата на ръката може да бъде неразличима там, където ръката и фона имат един и същ или подобен цветови интензитет; части от сцената могат да бъдат лъжливи обекти и съответно да бъдат грешно причислени за части на ръката.

Други предизвикателства пред задачата за разпознаване на статична поза на ръката са:

- дискриминиране на конфигурации с висока степен на препокриване на пръстите: често ръбовете във вътрешността на ръката остават неоткрити поради ниската вариация на интензитета на цвета на кожата на местата с препокриване, а в същото време ръбовете на ноктите и гънките на кожата могат да объркат структурата на сцената и самият процес на разпознаване.

- различия в размера, формата и ориентацията на дланта между хората

- изграждане на цветови модел, който да е значително гъвкав по отношение на различните цветове на кожата – понякога осветеността се оказва по-голям фактор за точното локализиране на ръката от самия цвят на кожата. В този смисъл е необходимо и намаляване влиянието на осветеността и сенките върху сцената

- оценяване вероятността даден район от сцената да принадлежи на кожата (изследване на свързаните компоненти)

- определяне на съществени характеристични точки на ръката

- инвариантност по отношение на транслация, ротация, скалиране

- локализиране на дланта, т.е. игнориране на областта на ръката в изображението, съдържаща частта от рамото до китката

- намиране на адекватно решение при препокриване на съществена част на ръката (китката) от ръкав на дреха

- бързодействие, с цел приложимост в реално време – съблюдаване времевите ограничения, поставени от конкретното приложение

- избиране на позиция на камерата и общия ъгъл на снимане на ръката; точна калибровка или стабилност спрямо позицията и ориентацията на камерата

- избиране на подход за класифициране

Горе изброените подзадачи е възможно да наложат приемането на някои леки допускания за сцената, ръката или камерата – с цел решаването на общата задача. Например приемане, че сцената съдържа ръка, разположена фронтално и успоредно на камерата, при еднородна осветеност, а дланта заема значителна част от изображението.

4. ОБЗОР

Съществуват два основни подхода за въвеждане на жестове за разпознаване: чрез преки приспособления и на базата на визуален вход.

4.1 Сензорни подходи

Подхода на преките механизми използва набор от комерсиално налични инструментални ръкавици, сензори за прегъване, проследяване на движения на тялото, и др. Някои от предимствата на преките механизми като инструменталните ръкавици включват: директно измерване на параметри на ръката и пръстите (например ставни ъгли, въртене на китката и 3D пространствена информация), получаване на данни с висока честота на наблюденията, избягване на проблеми с препокриване. Недостатъците включват: намалена област на движение и комфорт, висока цена на прецизните системи. Примери за системи за разпознаване чрез инструментални ръкавици са дадени в [5]:

- Опростената ръкавица на Райън Патерсън [1] за разпознаване на дактилната азбука е с 10 сензора, малка платка съдържаща микроконтролер, аналого-цифров преобразувател (АЦП) и радио-честотен предавател към мобилно устройство, което показва жестикулирания текст върху екрана. Ръкавицата се тренира индивидуално по подобие на програмите за разпознаване на глас, като тренировъчният процес е кратък и се провежда на компютър. Обучените данни се свалят на преносим приемник. Макар и ръкавицата да е предназначена за разпознаване на дактилната азбука, тя може да се препрограмира, така че даден знак да означава дума.

-

CyberGlove [2] – 18 или 22 сензора за прегъване, които измерват с висока точност до 22 ставни ъгли. Сензорите включват и такива за измерване на отклонението на пръстите и китката, преминаването на палеца, извиването на дланта и китката. Ръкавицата предава данни към компютъра безжично по Bluetooth (безжичен протокол за обмяна на данни чрез радио комуникация) . Използва се активно в анимацията, биомеханиката на среди с Виртуална Реалност. Такава е и играта SMILE (Science and Math in an Immersive Learning Environment), която създава 3D фентъзи виртуална среда за образователни математически и научни задачи за глухи и чуващи деца [6]. Самото разпознаване на статичните и динамични жестове се осъществява чрез предварително обучени невронни мрежи за всеки знак (с по 18 входни неврона за 18-те ъгли, извлечени като сензорни данни). Тестовата извадка за всеки знак е събрана от 5 актьора, извършващи знака три пъти.

- VPL DataGlove [3] – подобно на CyberGlove, се състои от fiber-оптични сензори за измерване ъглите на прегъване на пръстите. Необходимо е прекалибриране за всеки индивидуален потребител, в противен случай при по-големи или по-малки ръце, системата не би възпроизвеждала много точни жестове.

-

AcceleGlove [4] – „механични скелети” или сензори разположени директно върху ставите на дланта. Сензорите са двуосови акселерометри, които дават информация за позицията по отношение на гравитационния вектор и могат да се използват за измерване на абсолютната ъглова позиция. AcceleGlove не е точно ръкавица, а набор от сензорни пръстени, което я прави независима по отношение размера на ръката. Дава информация за формата на ръката и нейната ориентация в 12 байтов вектор.

4.2. Визуални подходи

Визуално базираните подходи използват една или повече камери за получаване изображения на ръката, които се интерпретират до извличане на визуални характеристики за разпознаване на жестове. Най-често използваните техники за разпознаване са анализ на 3D модел на ръката, анализ с използване на маркери и маркирани ръкавици, и анализ базиран на характеристики на изображението. Основното предимство на визуално-базираните системи е, че потребителят остава необременен с външни уреди. Основните недостатъци включват: комплексни изчислителни изисквания за извличане на използваема информация, проблеми с препокриване на пръсти, чувствителност към осветеността.

Още през 1992 се разработва камера, която се фокусира върху човешка ръка, носеща ръкавица с маркировки на върха на всеки пръст, а по-късно през 1994 и върху ръка с цветни пръстени около всяка става [5]. Комбинирането на този подход с филтриране по Калман опростява проблемите с препокриване и позволява възстановяването на детайлен модел на ръката при голям обхват на движение. През 1995 Starner започва разработването на система, която в началото си изисквала жестикулиращият да носи две различно оцветени ръкавици, а в последствие нуждата от ръкавици отпада. При тази система камерата се поставя или върху бюро или е монтирана върху шапка, носена от жестикулиращия [8].

За сегментирането на ръцете се сканира изображението до намирането на пиксел с подходящ цвят, т.е. съответстващ на цвета на кожата на ръката по предварително зададен модел. Този пиксел се използва като зърно и района около него се разширява чрез проверка на осемте най-близки съседа за подходящ цвят. Всеки проверен пиксел се счита за част от ръката. Тази операция всъщност извършва морфологична дилатация върху резултантното изображение и спомага за избягване на отклонения в ръбовете и осветеността. При разглеждане на динамични жестове във видео клип, за зърно в следващ фрейм се използва изчисления центроид на вече намерения регион на ръката в настоящия фрейм.