Определяне на психологичен профил на база анализ на ръката и характерни елементи от поведението на даден човек. Например, показването на показалец по време на разговор може да се интерпретира като силно изтъкване и лична власт или наблягане значимостта на някакво твърдение; отваряне на дланите пък определя отвореност към идеи, докато слабо подвижните или свити ръце се интерпретират като консерватизъм и затвореност. Изследвания посочват, че дори начина на държане на вестника дава информация за човешкия характер.
3. ЗАДАЧИ
Използването на жестове предлага атрактивна алтернатива на отежняващите сензорни оборудвания за комуникация между хората и компютрите. Визуалната интерпретация на ръката позволява мигрирането на естествените средства, които хората използват за комуникация помежду си и върху комуникацията с машините. За разпознаването на жестове една система трябва да е в състояние да определи в какво състояние е ръката: дали е неподвижна, в поза начало, край или междинна. С други думи, в основата лежи задачата за определяне уникалната поза на ръката, а тя може да съдържа следните фази, в зависимост от конкретната реализация: локализиране (дали ръката я има или не на сцената), сегментиране (отделяне района на ръката от общият фон/сцена), оконтуряване, скелетизиране, триангулация, изваждане на характерни точки (характеристичен вектор), интерпретиране на семантичното значение на знака - класифициране спрямо мярка за близост до предварително съществуващи образци, модели или характеристични вектори.
При изграждането на визуална система за локализиране на ръка и разпознаване на нейната поза (форма или знак) трябва да се наблегне и на нейната устойчивост на вариации в околната среда, тъй като изискването за постоянен или еднообразен фон би я направило недостатъчно гъвкава за повечето реални приложения. Необходимо е да се вземе в предвид, че: при една произволна сложна сцена на места ръката може да попада върху светъл фон, а на други - върху тъмен; границата на ръката може да бъде неразличима там, където ръката и фона имат един и същ или подобен цветови интензитет; части от сцената могат да бъдат лъжливи обекти и съответно да бъдат грешно причислени за части на ръката.
Други предизвикателства пред задачата за разпознаване на статична поза на ръката са:
- дискриминиране на конфигурации с висока степен на препокриване на пръстите: често ръбовете във вътрешността на ръката остават неоткрити поради ниската вариация на интензитета на цвета на кожата на местата с препокриване, а в същото време ръбовете на ноктите и гънките на кожата могат да объркат структурата на сцената и самият процес на разпознаване.
- различия в размера, формата и ориентацията на дланта между хората
- изграждане на цветови модел, който да е значително гъвкав по отношение на различните цветове на кожата – понякога осветеността се оказва по-голям фактор за точното локализиране на ръката от самия цвят на кожата. В този смисъл е необходимо и намаляване влиянието на осветеността и сенките върху сцената
- оценяване вероятността даден район от сцената да принадлежи на кожата (изследване на свързаните компоненти)
- определяне на съществени характеристични точки на ръката
- инвариантност по отношение на транслация, ротация, скалиране
- локализиране на дланта, т.е. игнориране на областта на ръката в изображението, съдържаща частта от рамото до китката
- намиране на адекватно решение при препокриване на съществена част на ръката (китката) от ръкав на дреха
- бързодействие, с цел приложимост в реално време – съблюдаване времевите ограничения, поставени от конкретното приложение
- избиране на позиция на камерата и общия ъгъл на снимане на ръката; точна калибровка или стабилност спрямо позицията и ориентацията на камерата
- избиране на подход за класифициране
Горе изброените подзадачи е възможно да наложат приемането на някои леки допускания за сцената, ръката или камерата – с цел решаването на общата задача. Например приемане, че сцената съдържа ръка, разположена фронтално и успоредно на камерата, при еднородна осветеност, а дланта заема значителна част от изображението.
4. ОБЗОР
Съществуват два основни подхода за въвеждане на жестове за разпознаване: чрез преки приспособления и на базата на визуален вход.
4.1 Сензорни подходи
Подхода на преките механизми използва набор от комерсиално налични инструментални ръкавици, сензори за прегъване, проследяване на движения на тялото, и др. Някои от предимствата на преките механизми като инструменталните ръкавици включват: директно измерване на параметри на ръката и пръстите (например ставни ъгли, въртене на китката и 3D пространствена информация), получаване на данни с висока честота на наблюденията, избягване на проблеми с препокриване. Недостатъците включват: намалена област на движение и комфорт, висока цена на прецизните системи. Примери за системи за разпознаване чрез инструментални ръкавици са дадени в [5]:
- Опростената ръкавица на Райън Патерсън [1] за разпознаване на дактилната азбука е с 10 сензора, малка платка съдържаща микроконтролер, аналого-цифров преобразувател (АЦП) и радио-честотен предавател към мобилно устройство, което показва жестикулирания текст върху екрана. Ръкавицата се тренира индивидуално по подобие на програмите за разпознаване на глас, като тренировъчният процес е кратък и се провежда на компютър. Обучените данни се свалят на преносим приемник. Макар и ръкавицата да е предназначена за разпознаване на дактилната азбука, тя може да се препрограмира, така че даден знак да означава дума.
-
CyberGlove [2] – 18 или 22 сензора за прегъване, които измерват с висока точност до 22 ставни ъгли. Сензорите включват и такива за измерване на отклонението на пръстите и китката, преминаването на палеца, извиването на дланта и китката. Ръкавицата предава данни към компютъра безжично по Bluetooth (безжичен протокол за обмяна на данни чрез радио комуникация) . Използва се активно в анимацията, биомеханиката на среди с Виртуална Реалност. Такава е и играта SMILE (Science and Math in an Immersive Learning Environment), която създава 3D фентъзи виртуална среда за образователни математически и научни задачи за глухи и чуващи деца [6]. Самото разпознаване на статичните и динамични жестове се осъществява чрез предварително обучени невронни мрежи за всеки знак (с по 18 входни неврона за 18-те ъгли, извлечени като сензорни данни). Тестовата извадка за всеки знак е събрана от 5 актьора, извършващи знака три пъти.- VPL DataGlove [3] – подобно на CyberGlove, се състои от fiber-оптични сензори за измерване ъглите на прегъване на пръстите. Необходимо е прекалибриране за всеки индивидуален потребител, в противен случай при по-големи или по-малки ръце, системата не би възпроизвеждала много точни жестове.
-
AcceleGlove [4] – „механични скелети” или сензори разположени директно върху ставите на дланта. Сензорите са двуосови акселерометри, които дават информация за позицията по отношение на гравитационния вектор и могат да се използват за измерване на абсолютната ъглова позиция. AcceleGlove не е точно ръкавица, а набор от сензорни пръстени, което я прави независима по отношение размера на ръката. Дава информация за формата на ръката и нейната ориентация в 12 байтов вектор.4.2. Визуални подходи
Визуално базираните подходи използват една или повече камери за получаване изображения на ръката, които се интерпретират до извличане на визуални характеристики за разпознаване на жестове. Най-често използваните техники за разпознаване са анализ на 3D модел на ръката, анализ с използване на маркери и маркирани ръкавици, и анализ базиран на характеристики на изображението. Основното предимство на визуално-базираните системи е, че потребителят остава необременен с външни уреди. Основните недостатъци включват: комплексни изчислителни изисквания за извличане на използваема информация, проблеми с препокриване на пръсти, чувствителност към осветеността.
Още през 1992 се разработва камера, която се фокусира върху човешка ръка, носеща ръкавица с маркировки на върха на всеки пръст, а по-късно през 1994 и върху ръка с цветни пръстени около всяка става [5]. Комбинирането на този подход с филтриране по Калман опростява проблемите с препокриване и позволява възстановяването на детайлен модел на ръката при голям обхват на движение. През 1995 Starner започва разработването на система, която в началото си изисквала жестикулиращият да носи две различно оцветени ръкавици, а в последствие нуждата от ръкавици отпада. При тази система камерата се поставя или върху бюро или е монтирана върху шапка, носена от жестикулиращия [8].За сегментирането на ръцете се сканира изображението до намирането на пиксел с подходящ цвят, т.е. съответстващ на цвета на кожата на ръката по предварително зададен модел. Този пиксел се използва като зърно и района около него се разширява чрез проверка на осемте най-близки съседа за подходящ цвят. Всеки проверен пиксел се счита за част от ръката. Тази операция всъщност извършва морфологична дилатация върху резултантното изображение и спомага за избягване на отклонения в ръбовете и осветеността. При разглеждане на динамични жестове във видео клип, за зърно в следващ фрейм се използва изчисления центроид на вече намерения регион на ръката в настоящия фрейм.