Реферат на тема:
Подходи за разпознаване статични пози на ръката в произволна среда
Надежда Златева – докторант към ИИТ-БАН
1. РЪКАТА – СРЕДСТВО ЗА КОМУНИКАЦИЯ
В ежедневната ни комуникация ръцете играят много важна роля: ние не само ги движим, но и обменяме информация, като изразяваме смислени жестове: палец нагоре в смисъл на „да”, вдигната длан в смисъл на „стоп”, махане с ръка за поздрав, задаване на n бройка от нещо с вдигането на n пръсти, посочване на обект към който да обърнем нечие внимание. Затова и не е странно, че значителна част от проучванията в сферата на взаимодействието човек-компютър търсят начин да имитират възприемането на жестове на ръката, подобно на начина, по който ние хората ги разбираме в ежедневните си задачи.
Настоящите широко разпространени технологии (базирани на клавиатура, мишка и монитор) не използват пълния потенциал на интерактивността базирана на ръцете. Компютърната мишка ограничава движенията до двумерно пространство, като натискането на бутони е единственият използван жест. Тъй като повечето модерни интерфейси са основно фокусирани около понятието за контрол, за да се случи някакво действие потребителя изрично трябва да придвижи мишката, да натисне бутон, то може да се каже че концепцията за съобразяване с присъствието на потребителя, неговата локация, поза, идентичност, изражение, и др. напълно липсва. Друг проблем с разпространените компютърни интерфейси е, че те не са еднакво пригодени за употреба от физически затруднени хора, за които биха били подходящи други средства (извън мишката и клавиатурата) за въвеждане на команди или данни в компютъра. Пример за няколко такива средства в помощ на затруднените потребители са жестове, реч, модули с докосване. С използването на Компютърно Зрение компютъра може да разпознае и изпълни жестови команди, зададени от потребителя, като по този начин се измества нуждата от клавиатура.
Новите изчислителни среди, които започнаха да се появяват и ще продължат да се разпространяват, ще разполагат с широка гама от форми, употреба, сценарии за взаимодействие и интерфейси, даващи предимство на естествените човешки умения за комуникация като реч, жестове, лицеви изрази, докосване. Те ще допълнят съществуващите методи за взаимодействие с компютрите и ще допринесат до появата на нови функционалности, които са били невъзможни или неудобни досега.
Докато хората вземат за даденост възможността си да проследяват човешката ръка и да разпознават направените жестове, като се позовават единствено на визуалността, то тази задача е тежка и трудно изпълнима от компютъра. Имайки в предвид, че: всеки пръст разполага с три стави, които му осигуряват 4 степени на свобода (DоF); при палеца степените на свобода са общо 5; безименния и кутрето разполагат с допълнителна 1 DoF в основите си, то цялостната конфигурацията на пръстите има 23 DoF. При добавянето на 4 DoF на китката в 3D пространството, получаваме приблизително около 27 DoF [14]. Като се добавят вариациите във формата и размера и цвета на кожата при различните хора, влиянието на осветеността на сцената и сложността на окръжаващата среда, в която се движи ръката, то сложността на задачата става очевидна. Поради тези големи вариации, устойчивостта на една система за разпознаване на жест или поза на ръката е от основно значение и приоритет в допълнение към необходимостта от бързодействие.
През последните години разпознаването на жестове чрез статична камера е широко изследван проблем. Много от настоящите методи използват сравнително сложни 3D модели на ръце в динамика, които са съпроводени от заплетени методики за решаване на основния нетривиален проблем: разпознаване при едновременно движещи се камера (окото на слушателя) и актьор (говорещият) в случайна среда. Този проблем може да се сведе до задача за откриване на тенденция в положението и формата на ръцете в някаква сложна среда, където сегментирането на ръката и класифицирането (интерпретирането на семантичното значение) на позата са фундаментални стъпки.2. ПРИЛОЖЕНИЕ
Автоматичното определяне на очертанията (позата) на ръката е съществено в много практически приложения като видео наблюдение, разпознаване на жестове, мултимодални машинни интерфейси. Последните можем да определим като приложения в сферата на Взаимодействие Човек-Машина на базата на жестова комуникация чрез конкретен жестов команден език или такъв, сформиран от речник от пози на ръката. Използва се като алтернатива и допълнение на друга важна модалност – речта. Следните примерни демонстрират широкия диапазон на приложимост на комуникацията с ръце и фундаменталността на разпознаването на ръката:
Обучение на ново поколение интелигентни роботи, които могат да се научат как да боравят с обекти в дадена среда, като наблюдават как хората манипулират тези обекти. Тук, подобно на домашните роботи, от основно значение е възможността за просто, неограничено и естествено взаимоотношение между машината и нейните потребители. А базата за уместните действия на роботите е наличието на изчерпателен модел на съответното обкръжение и среда и най-вече на хората и поведението им в нея. Този тип взаимоотношение изисква например умението за разпознаване и интерпретация на реч, жестове или емоции. По отношение на ръката, едни от често използваните интуитивни жестове по време на човешката комуникацията са посочващите жестове, които позволяват интуитивно показване на обекти и тяхното положение и могат да се интерпретират като команди за посока на движение на робота или просто за маркирането на определени обекти. Това е особено полезно в комбинация с разпознаването на реч, тъй като посочващите жестове могат да определят параметри на местоположение на обекти от вербални изрази (например израза „Сложи чашата там!”). Много по-лесно и точно е посочването на обект, отколкото даването на вербално описание за позицията му. В допълнение, командния език на ръката (било в пози или жестове) е много полезен в шумни среди, където речевата модалност не би могла да се използва.
Дистанционно представяне на презентация, като потребителят (под видео наблюдение) задава команди за презентацията, като посочва предефинирана активна зона от нея, а след това извършва и желаната команда. Набора от команди могат да включват команди за следваща и предишна страница или глава, таблица със съдържанието, отбелязване на страница и подчертаване на зона. За момента такава система е реализирана, но тя използва инструментална ръкавица за измерване на сгъването на пръстите и позицията и ориентацията на ръката в 3Д пространството.Реализация на високо стерилни среди, където докосването на екран, клавиатура или мишка е немислимо, а работа в реално време е задължителна. Такъв тип среда е хирургичната зала, където се налага многократно анализиране на скенерни и томографски изображения. Система, използваща разпознаване на команден език от жестове и пози на ръката, е в състояние да осигури необходимата стерилна среда. Набора от команди може да включва показване на предишна или следваща снимка, увеличаване или свиване на изображението, избиране на конкретна зона за манипулация.
Внасяне допълнителна модалност в интелигентни домове и среди, които добиват все по-голяма популярност като домове на бъдещето. По известни са реализациите, при които навсякъде в дома са заложени сензори и компютри с радио комуникация, които оперират съвместно и обвързват различни домашни уреди и мебели. Могат да се контролират дистанционно чрез мобилни устройства (PDA, GSM) или модул с докосване, инсталиран в дома. Заложените компютърни системи определят дали има човек в дадено помещение и вземат решение за конкретно поведение, например светване или изгасване на лампа, включване на радио или телевизор. Напоследък добива все по-голяма популярност и възможността за интерактивност в интелигентните домове чрез гласови команди или жестове на ръцете. Например, докато гледа телевизор през медиа център, потребителят би могъл да смени каналите или да увеличи звука, като използва определен команден език от пози на ръката, а показалецът да служи като дистанционен заместител на мишката за избиране на менюта или бутони. По подобен начин, с обща система за разпознаване на ръцете, може да се контролират светлинните източници и други уреди.
Разпознаване езика на глухонемите, който е основно средство за комуникация между слухово затруднените хора. Езикът на знаците е най-добрият пример за комуникация чрез жестове, който позволява хората да обменят информация по невербален начин. Може да се въведат следните дефиниции: поза – определя дадена позиция на ръката и пръстите в сцената; жест – времева поредица от пози. Езикът на знаците се състои от два основни компонента: 1) знаков речник на ниво дума, където се използват не само пози, но и жестове за изразяване на най-често срещаните думи, като е възможна употребата и на двете ръце и 2) дактилна азбука, където пръстите на едната ръка се използват, за да се спелуват буква по буква лични имена или неясни думи. Лицеви изражения също могат да се използват за различаване на твърдения, въпроси и директиви.
През последното десетилетие са вложени много усилия в разработката на автоматични системи, способни да превеждат езика на глухонемите до глас или текст, целящи да улеснят взаимоотношенията между глухи и чуващи. Значителни изследвания са проведени и на двете нива - азбука и дума, като естественото развитие на една системата за разпознаване на дактилната азбука е разпознаването на езика на глухонемите, а в перспектива – превода на цели изречения в естествена среда и интегрирането на системата към мобилни телефонни устройства. До момента, най-успешните подходи се базират на сензорни ръкавици, които доставят информация за позицията на пръстите. Основните проблеми на повечето системи, които не използват сензорни техники, а се базират на визуални подходи за разпознаване на азбуката, са свързани с разпознаване на знаци с припокриващи се пръсти – чест сценарий в повечето дактилни азбуки. Също така, някои знаци могат да изглеждат доста подобни един на друг, макар и да имат малки разлики в позицията на пръстите, което представлява допълнително предизвикателство за визуалните подходи.