Системи оптичного розпізнавання образів (стр. 2 из 2)

Навчання нейронної мережі відбувається звичайним чином, тобто використовується алгоритм зворотнього поширення помилки. Програма навчання одержує на вхід файл із зображеннями символів. При навчанні символи із цієї бази перебираються циклічно. Для кожного зображення з бази виділяються первинні ознаки, після чого виконуються прямий і зворотний проходи по мережі. Модифікація ваг мережі при навчанні виконується після кожного символу. Крок зміни ваг мережі постійний.

Для прискорення й поліпшення навчання погано розпізнавані символи проглядаються частіше за інші. Для цього використовується кеш, у якому зберігаються важко розпізнавані зображення. Растри для навчання вибираються як із вхідного файлу, так і з кешу. Вибір символу з кешу відбувається з урахуванням якості його розпізнавання, тобто погано розпізнавані символи вибираються частіше.

Крім того, при навчанні мережі використовується регулярізація ваг мережі, тобто вводиться їхнє експонентне згасання.

Якість розпізнавання залежить не тільки від алгоритмів, що використовуються програмами розпізнавання й навчання нейронної мережі, але й від того, яким чином навчалася нейронна мережа. На якість навчання нейронної мережі впливають наступні фактори: параметри бази з навчальними растрамиб, розмір, спосіб відбору растрів, порядок растрів у базі, наявність брудних символів і помилок у розмітці.

На різних етапах навчання можливе використання різних оптимізуючих факторів:

1. Крок зміни коефіцієнтів мережі.

2. Використання регуляризації мережі.

3. Історія навчання мережі.

4. Використання додаткового шуму й перекручувань символів.

5. Момент зупинки навчання. Бажано уникати як недостатнього навчання мережі, так і перенавчання.

6. Розмір кешу поганих растрів і відносна частота вибору растрів з навчальної бази даних і з кешу поганих символів.

Параметри навчання взаємозалежні й повинні вибиратися узгоджено. Так, наприклад, при невеликому розмірі навчальної бази використання перекручувань символів може приводити до поліпшення якості навчання, а при збільшенні розміру бази приводить до його погіршення. Використання кешу поганих символів на самому початку навчання не має особливого сенсу. Навпаки, після декількох проходів по базі з навчальними символами більша частина символів з бази розпізнається з дуже великою надійністю. Зміна ваг мережі відбувається головним чином за рахунок растрів, що втримуються в кеші поганих символів.

Регуляризація (тобто введення експонентного згасання ваг при навчанні) приводить до деякого погіршення якості розпізнавання. Однак використання дуже невеликого коефіцієнта згасання дозволяє підвищити стійкість мережі без помітних втрат для розпізнавання.

Для визначення найкращого моменту зупинки мережі можна періодично тестувати якість розпізнавання на невеликій незалежній базі даних.

Порівняння якості різних алгоритмів розпізнавання символів ускладнене тим, що відносне значення числа правильно розпізнаних символів істотно залежить від конкретної бази даних, на якій проводиться тестування. На якість розпізнавання також впливають: обсяг набору розпізнаваних символів, технологія навчання нейронної мережі, методика й алгоритми виділення первинних ознак, технологія підготовки навчальної бази даних й інші фактори.

Алгоритм може бути вдосконалений шляхом пошуку більш адекватного подання структурних ознак розпізнаваних символів. Використання більшої навчальної бази даних і збільшення пам'яті нейронної мережі також може дати деяке поліпшення якості розпізнавання.Проектована система має працювати у режимі, близькому до реального часу, а отже розроблюваний алгоритм має бути досить швидким і, в той же час, мати достатню точність розпізнання.

Для реалізації поставленої мети доцільно буде спочатку виділити на фотознімку номерний знак, а потім, використовуючи адаптовані до реальних умов існуючі алгоритми розпізнавання символів, розпізнати власне державний номер.

З цією метою вхідне зображення проходить етап первинної обробки наступним чином:

- пікселам, колір яких відповідає кольору тла номерного знаку (білий, жовтий, блакитний), привласнюється білий колір — $00FFFFFF у форматі RGB;

- пікселам, колір яких не відповідає кольору тла номерного знаку, привласнюється чорний колір — $00000000 у форматі RGB;

Цей етап можливо проводити як окрему процедуру попередньої обробки, так і в якості складової під час більш детального аналізу зображення.

Зображення аналізується починаючи з верхнього лівого кута і закінчується правим нижнім. Мета аналізу – визначити місця переходу між білою та чорною областю зображення, на їх основі визначити прямі лінії, а на перетині прямих ліній визначити кути отриманої рамки номерного знаку. Дослідним шляхом визначається така кількість послідовних точок переходу, що може трактуватися як пряма лінія. Слід зазначити, що перебирати все зображення попіксельно недоцільно. Після знаходження першого перепаду кольору пряма лінія визначається різницею між кольорами сусідніх пікселів. Для цього використаємо функцію:

де А – амплітуда, відстань по осі ординат аналізованого піксела від прогнозованої границі (підбирається експериментально); В – коефіцієнт розтягнення по осі абсцис (оптимальне значення В=4 – забезпечує прямолінійне діагональне сканування); С – забезпечує початкові умови для сканування (з якого піксела обчислюється перехід кольору).

Коефіцієнти А, В, С доцільно обирати серед множини натуральних чисел. Таким чином кількість аналізованих пікселів можливо скоротити в два рази.

Сучасні методи рішення поставленого завдання не враховують в достатній мері проблеми фіксації й розпізнавання текстових зображень і прийняття відповідних рішень.