Смекни!
smekni.com

Програма Пошук обличчя людини у відеопотоках стандарту Mpeg-4 (стр. 3 из 5)

2.1.6 Гнучкі контурні моделі обличчя

У даних методах розпізнавання проводиться на основі порівняння контурів обличчя. Контури, звичайно, витягуються для ліній голови, вух, губ, носа, брів і очей (рис.2.7). Контури представлені ключовими позиціями, між якими положення точок, що належать контуру, обчислюється інтерполюванням. Для локалізації контурів в різних методах використовується як апріорна інформація, так і інформація, одержана в результаті аналізу навчального набору.

Ключові точки розміщуються вручну на наборі тренувальних зображень. Потім витягується інформація про інтенсивність пікселів, що лежать на лінії, перпендикулярній контуру для кожної точки контура. При пошуку контурів нового обличчя використовувався метод симуляції відпалу з цільовою функцією з двох складових. Перша із них максимізовувалася при відповідності інтенсивностей пікселів, витягнутих на перпендикулярній контуру лінії аналогічним пікселям з навчальної вибірки. Друга - при збігу контура з формою контурів тренувальних прикладів. Таким чином, витягувався не просто контур, а контур рис обличчя. Як повинен виглядати типовий контур рис обличчя, процедура пошуку знає з тренувальних прикладів. Для порівняння зображень використовуються значення головних компонент, обчислених на наборі векторів, що є координатами ключових точок [2].

Рис 2.8 Контури зображення створені за допомогою перетворення Хау

Головною задачею при розпізнаванні по контурах є правильне виділення цих контурів. У загальному випадку ця задача по складності порівнянна безпосередньо з розпізнаванням зображень. Крім того, використання цього методу самого по собі для задачі розпізнавання недостатньо.

Функція подібності з одним джетом у фіксованій позиції і іншим із змінною позицією є достатньо гладкою, для того, щоб одержати швидку і надійну збіжність при пошуку із застосуванням простих методів, таких як дифузія або градієнтний спуск. Досконаліші функції подібності залучають інформацію про фазу.

Для різних ракурсів відповідні ключові точки відмічені вручну на навчальному наборі. Крім того, щоб для одного і того ж обличчя представити різні варіації його зображення в одному і тому ж графі, для кожної точки використовуються декілька джетів, кожний з яких може відповідати різним локальним характеристикам даної точки, наприклад розплющеному і закритому оку.

Майже аналогічинм є метод еластичного графу. В цьому випадку відмінність між двома графами d (Q,R) обчислюється за допомогою деякої функції, що враховує як значення ознак - вага вершин, так і ступінь деформації ребер графа.

Рис.2.9 Еластичний граф, що покриває зображення обличчя

Деформація графа відбувається шляхом зсуву кожної з його вершин на деяку відстань в певних напрямах щодо її початкового положення і вибору такої позиції, при якій різниця у вазі вершин

графа, що деформується, і відповідній їй вершині
еталона буде мінімальною (рис.2.9). Дана операція виконується по черзі для всіх вершин графа до тих пір, поки не буде досягнуте найменше (для даної пари графів) значення d (Q,R) [5].

2.1.7 Методи, засновані на геометричних характеристиках обличчя

Один з найперших методів - це аналіз геометричних характеристик обличчя. Спочатку застосовувався в криміналістиці і був там детально розроблений. Потім з'явилися комп'ютерні реалізації цього методу. Суть його полягає у виділенні набору ключових точок (або областей) обличчя і подальшому виділенні набору ознак. Кожна ознака є або відстанню між ключовими точками, або відношенням таких відстаней. На відміну від методу порівняння еластичних графів тут відстані вибираються не як дуги графів. Набори найбільш інформативних ознак виділяються експериментально (рис.2.10).

Ключовими точками можуть бути кути очей, губ, кінчик носа, центр ока і т.п. Як ключові області можуть бути прямокутні області, що включають очі, ніс, рот [13].

Рис 2.10 Ідентифікаційні точки і відстані

В процесі розпізнавання порівнюються ознаки невідомого обличчя з ознаками, що зберігаються в базі. Задача знаходження ключових точок наближається до трудомісткості безпосередньо розпізнавання, і правильне знаходження ключових точок на зображенні багато в чому визначає успіх розпізнавання. Тому зображення обличчя людини повинне бути без шумів, що заважають процесу пошуку ключових точок. До таких завад відносять окуляри, бороди, прикраси, елементи зачіски і макіяжа. Освітлення бажане рівномірне і однакове для всіх зображень. Крім того, зображення обличчя повинно мати фронтальний ракурс, можливо з невеликими відхиленнями. Вираз обличчя повинен бути нейтральним. Це пов'язано з тим, що в більшості методів немає моделі врахування таких змін [14].

Таким чином, даний метод пред'являє строгі вимоги до умов зйомки, потребує надійного механізму знаходження ключових точок для загального випадку. Крім того, потрібне застосування досконаліших методів класифікації або побудови моделі змін. У загальному випадку цей метод не найоптимальніший, проте, для деяких специфічних задач перспективний. До таких задач можна віднести документарний контроль, коли вимагається порівняти зображення обличчя, одержаної у нинішній момент з фотографією в документі. При цьому інших зображень цієї людини немає, і, отже, механізми класифікації, засновані на аналізі тренувального набору, недоступні.

2.1.8 Порівняння еталонів

Порівняння еталонів (Template Matching) полягає у виділенні областей обличчя на зображенні, і подальшому порівнянні цих областей для двох різних зображень [11]. Кожна область, що співпала, збільшує міру схожості зображень. Це також один з історично перших методів розпізнавання людини по зображенню обличчя. Для порівняння областей використовуються прості алгоритми, наприклад, попіксельне порівняння [15].

Рис.2.11 Області-еталони обличчя

Недолік цього методу полягає у тому, що він вимагає багато ресурсів, як для зберігання ділянок, так і для їх порівняння. З причини того, що використовується простий алгоритм порівняння, зображення повинні бути отримані в строго встановлених умовах: не допускається помітних змін ракурсу, освітлення, емоційного виразу.

2.1 9. Основи кодування відео

MPEG-4 - це стандарт для запам'ятовування і доставки мультимедійного вмісту. Він був розроблено як наступник для стандартів MPEG-1 і MPEG-2. Первинна мета була зробити стандарт для додатків низького бітрейту, але у фазі специфікації MPEG-4 був розширений для роботи із сильною компресією, що покриває як низькі, так і високі бітрейти.

MPEG-4 - це не тільки кодек відео, використовуваний для стиснення DVD. Фактично кодування/декодування відео - це тільки одна частина стандарту. На додаток до кодування відео, ще є звукове кодування, синтезоване відео і звук, інтерактивність, доставка контенту.

Стандарт MPEG-4 відкритий, що означає, що будь-хто може отримати специфікації і реалізувати їх. Це приводить до змагання реалізацій, які теоретично повинно знизити ціни і збільшити якість продукції. Відкритий стандарт також дозволяє усунути пастки єдиного коду, як наприклад, відсутність модифікацій і усунення дефектів.

Файл відео складається з серій послідовних зображень - фреймів, або візуальних об'єктних площин (VOP) в термінах MPEG-4. Сьогодні більшість кодеків відео, зокрема, MPEG-4 - блочні. У блочних кодах, VOP діляться на блоки одної розмірності - квадрати, наприклад 8x8 або 16x16 пікселів. Вони називаються макроблоками, і різні методи кодування застосовуються до цих макроблоків замість цілого VOP.

Відео може бути стиснене, маніпулюючи індивідуальними фреймами. Цей метод називається інтра-кодуванням, і стислий індивідуальний фрейм називається intra VOP (I-VOP). Через природу відео, два послідовні фрейми часто виглядають подібно один одному за вийнятком деякого руху об'єктів між двома фреймами. Замість стиснення індивідуальних послідовних фреймів, сучасний кодек використовує різні методи кодування, які враховують цю схожість в серіях фреймів. Це інтеркодування використовується для досягнення вищої компресії. Наприклад, в прогнозованому кодуванні, тільки різниця між двома зображеннями запам'ятовується. Це приводить до сильної компресії, коли фрейми більш подібні один одному. Прогнозоване кодування не працює ефективно в ситуаціях, де великі частини зображення перемістилися між двома фреймами як при панорамній зйомці. В даному випадку використовується техніка, яка називається прогноз компенсування руху. Прогноз компенсування руху призначає вектор руху кожному макроблоку і пробує знайти краще можливе представлення фрейма з макроблоками від довідкового фрейма, який перемістився в напрямі вектору руху. Фрейм, який використовує попередній фрейм як довідковий, називається передбаченим VOP (P-VOP) У цьому прикладі більшість даних фрейма може бути представлене тільки одним вектором руху і попереднім фреймом як довідковим (рис.2.12).