Міністерство освіти та науки України
Чернівецький національний університет
імені Юрія Федьковича
Факультет комп¢ютерних наук
Кафедра комп¢ютерних систем і мереж
ПРОГРАМА "ПОШУК ОБЛИЧЧЯ ЛЮДИНИ У ВІДЕОПОТОКАХ СТАНДАРТУ MPEG-4"
482.362.80915-18 81 03-3
(Пояснювальна записка)
2007
Анотація
Пояснювальна записка містить опис призначення та області застосування програмного продукту, його технічні характеристики, опис алгоритму програми, вхідних та вихідних даних, очікувані техніко-економічні показники.
Програмний документ містить: розділів - 3, сторінок - 31.
Зміст
1. Призначення та область застосування
2.1.3 Мережа зі зворотнім розповсюдженням
2.1.5 Метод головних компонент
2.1.6 Гнучкі контурні моделі обличчя
2.1.7 Методи, засновані на геометричних характеристиках обличчя
2.3 Опис і обґрунтування вибору методу організації вхідних і вихідних даних
2.4 Опис і обґрунтування вибору складу технічних і програмних засобів
3. Очікувані техніко-економічні показники
Джерела, використані при розробці
На сьогоднішній день ідентифікація особи по зображенню обличчя є одним з пріоритетних напрямів розвитку біометричних систем. Такі біометричні показники, як відбиток пальця і малюнок райдужної оболонки є конфіденційною інформацією, тоді як зображення обличчя є загальнодоступним. Саме технологія ідентифікації на основі зображення обличчя визнана найприйнятнішою для масового застосування, оскільки вона не вимагає фізичного контакту з пристроєм, ненав'язлива, природна і, в потенціалі, може володіти високою надійністю і швидкістю. Крім того, такий підхід вигідний і з тієї причини, що може використовуватися непомітно для оточуючих в місцях масового скупчення людей.
Системи виявлення і розпізнавання облич використовуються не тільки в системах безпеки і контролю доступу. Вони знайшли широке застосування і в таких областях, як організація відеоконференцій, об'єктно-орієнтоване стиснення відеоданих, розпізнавання емоцій людини, створення систем машинного зору в робототехніці.
З цією метою розроблюється програма 482.362.80915-18 "Пошук обличчя люди у відеопотоках стандарту MPEG-4", на основі технічного завдання, затвердженого на засіданні кафедри комп’ютерних систем та мереж від 28 серпня 2006 р., протокол №1.
З бурхливим розвитком нових інформаційних технологій і медіа, розробляються ефективніші і дружні методи взаємодії людина-комп'ютер (HCI), які не залежать від традиційних пристроїв, як наприклад клавіатури, миші, і дисплею. До того ж, спадаюче співвідношення "ціна/продуктивність" обчислень знижує собівартість отримування відеозображення, що призводить до того, що системи комп'ютерного зору можуть бути розгорнені в домашніх комп'ютерах і вбудованих системах. Швидко розвиваються дослідження в обробці зображень обличчя, яке засноване на факті, що інформація про особу користувача, стан, і наміри може бути витягнена із зображень, і що комп'ютери можуть відповідно до цього реагувати, наприклад, спостерігаючи вираз обличчя особи. За минулі п'ять років, проблема розпізнавання виразу обличчя сконцентрувала багато уваги, проте вона вже вивчається більш ніж протягом 20 років психофізіологами, невронауковцями, і інженерами. Багато дослідних демонстрацій і комерційних додатків розроблені цими зусиллями. Перший крок будь-якої системи обробки обличчя - знаходження області зображення, де присутні обличчя. Проте, виявлення обличчя з єдиного зображення - це задача, яка потребує вирішення через мінливість в масштабах, розташуванні, орієнтації і позі. Емоційний вираз, завади і умови освітлення також впливають на продуктивність системи.
Необхідно автоматизувати процес розпізнавання осіб шляхом розробки програми для локалізації і розпізнавання обличчя людини у вхідному відопотоці. Вхідний відеопоток подається в ЕОМ через під’єднану веб-камеру. Програма повинна бути розроблена засобами Microsoft Visual C++.
Опис вживаних математичних методів подається у підпунктах пункту 2.1
У останні десятиліття в світі для вирішення високоформалізованих задач використовують апарат штучних нейронних мережах (ШНМ). Актуальність досліджень в цьому напрямі підтверджується масою різних застосувань ШНМ. Це автоматизація процесів розпізнавання образів, адаптивне керування, апроксимація функцій, прогнозування, створення експертних систем, організація асоціативної пам'яті і багато інших додатків. За допомогою ШНМ можна, наприклад, передбачати показники біржового ринку, виконувати розпізнавання оптичних або звукових сигналів, створювати системи самонавчання, що здатні керувати автомашиною при парковці або синтезувати мову по тексту [1].
Широкий круг задач, який вирішують ШНМ, не дозволяє в даний час створювати універсальні, могутні мережі, змушуючи розробляти спеціалізовані ШНМ, функціонуючі за різними алгоритмами.
Рис.2.1 Штучний нейрон
Не дивлячись на істотні відмінності, окремі типи ШНМ володіють декількома загальними рисами.
По-перше, основу кожної ШНМ складають відносно прості, в більшості випадків - однотипні, елементи (комірки), що імітують роботу нейронів мозку. Далі під нейроном матиметься на увазі штучний нейрон, що зображений на рис.2.1 тобто осередок ШНМ. Кожен нейрон характеризується своїм поточним станом по аналогії з нервовими клітинами головного мозку, які можуть бути збуджені або загальмовані. Він володіє групою синапсів - однонаправлених вхідних зв'язків, сполучених з виходами інших нейронів, а також має аксон - вихідний зв'язок даного нейрона, з якою сигнал поступає на синапси наступних нейронів. Кожен синапс характеризується величиною синаптичного зв'язку або її вагою wi, який по фізичному значенню еквівалентний електричній провідності.
Поточний стан нейрона визначається, як зважена сума його входів:
(2.1)Вихід нейрона є функція його стану: у = f (s) (2.2)
Рис.2.2 Функції активації
Нелінійна функція f називається активаційною і бути різною (рис.2.2). Однієї з найбільш розповсюджених є нелінійна функція з насиченням, так звана логістична функція або сигмоїд (тобто функція S-образного вигляду):
(2.3)При зменшенні a сигмоїд стає пологішим, в межах при a=0 вироджується в горизонтальну лінію на рівні 0.5, при збільшенні a сигмоїд наближається до функції одиничного стрибка з порогом T в точці x=0. З виразу для сигмоїда очевидно, що вихідне значення нейрона лежить в діапазоні [0,1]. Одна з цінних властивостей сигмоїдной функції - простий вираз для її похідної.
(2.4)Слід зазначити, що сигмоїдная функція диференційована на всій осі абсцис, що використовується в деяких алгоритмах навчання. Крім того вона володіє властивістю підсилювати слабкі сигнали краще, ніж великі, і запобігає насиченню від великих сигналів [1, c.126].
Рис.2.3 Одношаровий перцептрон
Повертаючись до загальних рис, властивих всім ШНМ, відзначимо, по-друге, принцип паралельної обробки сигналів, який досягається шляхом об'єднання великого числа нейронів в так звані шари і з'єднання певним чином нейронів різних шарів, а також нейронів одного шару між собою.
Як приклад простої НС розглянемо трьохнейронний перцептрон (рис.2.3), тобто таку мережу, нейрони якої мають активаційну функцію у вигляді одиничного стрибка. На n входів поступають якісь сигнали, що проходять по синапсах на 3 нейрони, що створюють єдиний шар цієї ШНМ і видаючі три вихідні сигнали:
, j=1...3 (2.5)Оскільки проблема виявлення обличчя може розглядатися як клас розпізнавання, тому були запропоновані різні нейромережеві архітектури. Перевагою використання нейронних мереж для виявлення обличчя є здатність навчання системи захоплювати комплексну густину умов зразків облич.
В запропонованому методі нейронна мережа одержує на вхід набір ознак з регіону 20х20 пікселів зображення і виробляє вихідне значення в межах від 0 до 1. Надаючи тестовий зразок на входи, вихід навченої нейронної мережі вказує присутність обличчя (близько до 1) або іншого зразка (близько до 0). Щоб знайти обличчя через все зображення, нейронну мережу застосовують на всіх ділянках зображення. Щоб знайти обличчя більших за 20х20 пікселів, вхідне зображення циклічно зменшується і мережа застосовується в кожному з масштабів (рис.2.4).
Рис. 2.4 Архітектура нейронної мережі для локалізації обличчя в зображенні.
Попередня обробка - нормалізація інтенсивності. Найпростіша дія нормалізації інтенсивності: зображення І (x, y) відображається в площину