Рис. 1.7. Приклад розпізнавання нормального та патологічногостанів
Рис:1 8. Структурна схема системи розпізнавання образів
Щоб спроектувати систему розпізнавання, потрібно вивчитихарактеристики розподілу вектора ЛГ для кожного класу і визначити відповіднудискримінантну функцію. Складність такого підходу полягає у великій розмірностіівектора ознак розмірність^ що може досягати декількох тисяч. Водночас' відомо,що людина -для розпізнавання використовує невелику кількість Ознак, кожна зяких несе значну інформацію і вибирається відповідно до фізичного значеннязадачі.
Щоб спростити рішення розглянутої задачі потрібно вибрати найбільшінформативні ознаки.
Вибір найбільш інформативних ознак можна розглядати яквідображення и.-мірного простору в простір меншої розмірності А", впроцесі якого необхідно зберегти властивість роздільності розподілів, щовідповідають різним класам.
У результаті отримують новий вектор ознак Y={у1,...,уk}, який єсистемою похідних ознак, по відношенню до вектора Х={х1,...,хп} первиннихознак. Наприклад, у простому випадку практичного аналізу ЕКГ [3,79] на одномуперіоді ЕКГ встановлюють певну кількість характеристичних точок (на рис. 8.9наведені 24 характеристичні точки), що визначають моменти часу t1,...,tm івідповідні їм ординати ζ(t1),..., ζ(tm) кривої ЕКГ, за якими можнаобчислити к значень так званих графоелементів (інтервали хвиль і комплексів,амплітуди, кривизну ліній тощо), які утворюють вектор Y={у1,...,уk}.Встановлення характеристичних точок при цьому можна розглядати як своєрідне«проріджування» масиву Х={х1,...,хп},в результаті якого вектор Xтрансформується у вектор Ξ={t1 ζ(t1);...;tm ζ(tm)}- і лише потімвектор Ξ перетворюють у вектор Y.
Рис. 8.9. Приклад характеристичних точок ЕКГ
Отже, задача розпізнавання образів складається з двох частин:вибір інформативних ознак та формування розв'язувального правила.
Класифікація та особливості систем розпізнавання
Відомо багато підходів до класифікації систем розпізнаванняобразів. Використаємо класифікацію, наведену в, згідно з якою системирозпізнавання поділяються на:
прості та складні системи;
однорівневі та багаторівневі системи;
системи без навчання, системи, що навчаються і системи зсамонавчанням;
детерміновані, імовірнісні, логічні та структурні (лінгвістичні)системи;
традиційні та перспективні (експертні) системи.
Прості та складні системи. Розділення на прості та складні системипроводиться залежно від того, чи мають ознаки, що використовуються для описуоб'єктів, які розпізнаються, єдину чи різну фізичну природу. До простихвідносяться, наприклад, системи розпізнавання ЕКГ, в яких ознаки є сукупністювідліків ЕКГ. До складних систем медичної діагностики відносять такі, де якознаки (симптоми) можуть використовуватися результати аналізу крові, ЕКГ, температури,динаміки кров'яного тиску, ультразвукових досліджень тощо.
Однорівневі та багаторівневі системи. Цей рівень класифікаціїзалежить від того, які ознаки використовуються для прийняггя рішення прооб'єкти, що розпізнаються - первинні, вторинні тощо.
Наприклад, система розпізнавання ЕКГ, в якій як ознаки використанівідліки х(t1),...,х(tn)кривої ЕКГ, є однорівневою; система, в якій ознакамислужать графоелементи ЕКГ, тобто елементи вектора Y, є багаторівневою(трирівневою, якщо врахувати, що вектор ознак X перетворюють спочатку у векторΞ, а потім - у вектор Y).
Системи без навчання, системи, що навчаються і системи зсамонавчанням. У системах без навчання первинної апріорної інформаціїдостатньо, щоб визначити описи ознак, класів, і розв'язувальні правила. Колиознаками є ймовірність, то описами ознак і класів є умовна густина розподілуймовірності значень ознак х(t1),...,х(tn)для кожного класу w1,...,wn, тобтофункції Р(Х/wi), і=1,...,т, а також апріорні ймовірності Р(wi), i=1,...,т появиоб'єктів відповідних класів.
У системах без навчання апріорно відомі або самі функції Р(Х/wi)іР(wi), і=1,...,т або їх оцінки.
Системи, що навчаються, відрізняються тим, що для них визначеніпереліки ознак і класів, проте описи зв'язків між ознаками і класами відсутні абонедостатні для їх використання. Такі системи характеризуються вибір«навчанням зучителем». На етапі навчання «вчитель» багато разів подає системі екземпляринавчальної вибірки об'єктів усіх класів і вказує, до яких класів вони належать.Потім на етапі «іспиту» «учитель» перевіряє якість роботи системи, надаючи їйекземпляри контрольної вибірки, що також містить об'єкти всіх класів. Процедуринавчання і контролю чергуються до тих пір, поки не буде досягнута необхіднаякість розпізнавання, що характеризується частотою помилкових відповідей.
Для систем із самонавчанням визначені лише переліки ознак - рештами з апріорної інформації відсутня. На стадії навчання системи їй надаютьнавчальну вибірку об'єктів, не вказуючи, однак, до яких класів вони належать.
Ці вказівки замінюються набором правил, відповідно до яких системарозпізнавання сама виробляє розв'язувальне правило.
У процесі побудови систем, які навчаються, і систем зсамонавчанням доцільно використовувати принцип зворотного зв'язку, тобто мовайде про принципову можливість донавчання системи за результатами розв'язкузадачі розпізнавання.
Детерміновані, ймовірнісні, логічні та структурні (лінгвістичні)системи. В алгоритмах детермінованих систем розпізнавання використовуєтьсяпоняття відстані між об'єктами, що розпізнаються, та еталонами класів. У ціломудля рішення задач розпізнавання образів використовуються відстані Евкліда,Хемінга або Левенштейна. Відстань Евкліда визначає міру близькості міжоб'єктами в просторі ознак (геометричний принцип); відстань Хемінга визначаєміру близькості між двійковими векторами однакової довжини, міра Левенштейнавизначає кількість елементарних операцій (вставлення, стирання та заміни), щонеобхідні для перетворення опису одного об'єкту в інший. В детермінованих системахнайчастіше використовується відстань Евкліда. Між ознаками та класамивстановлюються жорсткі функціональні залежності.
У ймовірнісних системах для побудови алгоритмів розпізнаваннявикористовуються методи, основані на теорії статистичних рішень. Між ознакамиоб'єктів, що розпізнаються, і класами, до яких ці об'єкти відносяться,встановлюються ймовірнісні залежності.
В логічних системах використовуються методи розпізнавання, щоґрунтуються на дискретному аналізі та численні висловлювань. Зв'язки між ознакамита класами задаються з використанням апарату бульової алгебри.
В структурних (лінгвістичних) системах для побудови алгоритмурозпізнавання використовуються спеціальні граматики та мови, що складаються зречень, кожне з яких описує конкретний об'єкт, що належить до певного класу.Задача розпізнавання в цьому випадку зводиться до перевірки належностіконкретного речення до певної мови (граматики). Для перевірки ступеняблизькості між лінгвістичними одиницями (наприклад, словами) найчастішевикористовується відстань Левенштейна.
В медичних експертних системах діагностики найбільш поширенідетермінований та ймовірнісний підходи.
Детерміновані системи ґрунтуються на реалізації таких основнихметодів:
метод пошуку клінічного прецеденту:
метод ідентифікації;
метод фазового простору;
метод лінійних дискримінантних функцій.
У випадку використання методу пошуку клінічного прецеденту заданими, що описують стан хворого, в медичному архіві знаходиться випадок, щозбігається за показниками з ситуацією, що спостерігається. Мова може йти проповний (повний прецедент) або частковий збіг (частковий прецедент). Недолікцього методу полягає в необхідності зберігання великих архівів інформації.
Метод, ідентифікації є, по суті, розвитком методу пошукуклінічного прецеденту. В цьому випадку використовується відстань Хемінга.Сукупність симптомів хворого подається у вигляді двійкового (бінарного)вектора, в якому 1 означає наявність певного симптому, а 0 - його відсутність.Суть методу полягає у виборі мінімальної відстані Хемінга між векторомсимптомів конкретного хворого та наявних еталонних векторів. Недоліком цьогометоду є його дискретність, тобто наявність тільки двох значень (0 або 1), щоне дає змоги передати кількісні характеристики симптомів захворювання.
У методі фазового простору кожний симптом розглядають як одну зосей координат багатомірного простору з визначеною у цьому просторі метрикою,яка називається «фазовим інтервалом». Ознаками можуть бути будь-які дійснічисла, а не тільки 0 або 1. У випадку наявності великої кількості симптоміввтрачається наочність, властива геометричним представленням, та ускладнюєтьсяреалізація системи.
Метод лінійних дискримінантних лінійних функцій деякою міроюдозволяє вирішити проблему, відому як «прокляття розмірності». У цьому випадкувизначається сума зважених ознак, тобто багатомірний простір ознакперетворюється в одномірний. Однак тут виникає проблема визначення ваговихкоефіцієнтів, яка часто має суб'єктивний характер.
Традиційні та перспективні (експертні) системи розпізнаванняобразів
Особливість традиційних систем розпізнавання образів полягає втому, що їх основу складають цілком визначені переліки ознак і класів. Кожнийклас об'єктів досить чітко описується мовою цих ознак.