Стрімкий розвиток комп'ютерної техніки і її різноманітного програмного забезпечення — це одна з характерних прикмет сучасного періоду розвитку суспільства. Технологи, основним компонентом яких є комп'ютер, проникають практично в усі сфери людської діяльності. Те, що ще недавно вважалось фантастикою, тепер, завдяки науково-технічному прогресу, особливо прогресу в області комп'ютерних технологій, стало реальністю.
Комп'ютерні технології застосовують у видавництвах і великих бібліотеках, у парламентах і міністерствах, у банках і на складах, у системах зв'язку і системах управління транспортом, у податкових інспекціях і у сфері розваг тощо. Тепер практично неможливо уявити сучасний офіс без повсякденного і широкого застосування комп'ютерних технологій. Комп'ютер став неодмінним атрибутом робочого місця працівників багатьох професій. У цих умовах продовжує зростати попит на комп'ютерних спеціалістів, особливо на молодих спеціалістів високої кваліфікації. Великою популярністю користуються спеціалісти з комп'ютерної верстки та макетування, комп'ютерні художники і дизайнери, спеціалісти з банківських та бухгалтерських комп'ютерних систем, спеціалісти з комп'ютерних мереж та ряд інших.
Досить актуальними на сьогоднішній час стали системи оптичного розпізнавання символів ( OCR ).
Системи оптичного розпізнавання символів (Optical Character Recognition) призначені для автоматичного введення друкованих документів в комп'ютер. Однією із таких систем є FineReader.
FineReader - омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".
На сьогоднішній день існує багато версій програми FineReader, однак найбільш популярною і досконалою є програма версії FineReader 5.0, тому в даній дипломній роботі ми детальніше зупинимося саме на ній.
1. Сканування. На першому етапі сканер відіграє роль «ока» комп'ютера: «переглядає» зображення і передає його комп'ютеру. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.
2. Розпізнавання. Обробка зображення OCR-системою.
Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, зображень, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.
Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".
· Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відношень між ними.
· Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.
· Адаптивність - здатність OCR-системи до самонавчання.
Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і відношення, що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття, - відрізки, дуги, кільця і крапки. Виходячи з принципу адаптивності, програма самостійно «налагоджується», використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів друку.
Наслідком роботи у вікні FineReader з'явиться розпізнаний текст, який можна редагувати і записати у найзручнішому форматі.
Нові можливості програми FineReader 5.0.
· Новий режим відображення сторінок пакета Піктограми, у якому сторінки пакета представляються своїми сильно зменшеними зображеннями.
· Можливість сканування розвороту книги: обидві сторінки розкритої книги скануються одночасно, але обробляються окремо. Зображення, що містить парні сторінки, записується в дві різні сторінки пакета.
· У програму додана об'єднана процедура аналізу макета сторінки і розпізнавання. Тепер алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу макету сторінки. Нові алгоритми аналізу використовуються автоматично при запуску розпізнавання на сторінці без блоків, тобто аналіз макета і розпізнавання проводяться за один крок. Старий алгоритм аналізу сторінки, що не використовує розпізнавання, як і раніше доступний (меню Процес>Аналіз макету сторінки).
· Підтримка розпізнавання "вбудованих" зображень: можливо визначити блок "зображення" усередині текстового або табличного блоку.
штучні мови. Основна група утворена з мов зі словниковою підтримкою. Для цих мов у програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).
· Розпізнавання мов програмування (Basic, Cobol, Fortran, Java, C++, Pascal).
· Розпізнавання підрядкових символів (наприклад, H2O).
· Розпізнавання вертикального тексту.
· Коректна передача кольору тексту.
· Можливість збереження розпізнаного тексту у форматі HTML з повним збереженням оформлення сторінки.
· Можливість збереження розпізнаного тексту у форматі PDF із збереженням повного оформлення документа.
· Збереження кольору тексту при збереженні розпізнаного тексту в RTF, PDF і HTML форматах.
· Підтримка Unicode кодування при збереженні розпізнаного тексту в RTF, DOC, XLS, HTML, TXT і CSV форматах.
FineReader працює зі сканерами через TWAIN-інтерфейс. Це єдиний міжнародний стандарт, введений у 1992 році для уніфікації взаємодії пристроїв для введення зображень у комп'ютер (наприклад, сканеру) із зовнішніми програмами.
Якість розпізнавання багато в чому залежить від того, наскільки гарне зображення отримано при скануванні. Якість зображення регулюється задаванням основних параметрів сканування: типу зображення, роздільної здатності та яскравості.
· Тип зображення - сірий (256 градацій).
Сканування в сірому є оптимальним режимом для системи розпізнавання. У випадку сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує більш високу швидкість сканування, але при цьому губиться частина інформації про літери, що може призвести до погіршення якості розпізнавання на документах середньої і низької якості друку. Якщо необхідно, щоб кольорові елементи (картинки, колір літер і фону), що містяться в документі, були передані в електронний документ зі збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках слід використовувати сірий тип зображення.
· Роздільна здатність – найчастіше слід використовувати 300 dpi ( точок на дюйм ) для звичайних текстів (розмір шрифту 10 і більш пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менше пунктів).
· Яскравість - у більшості випадків підходить середнє значення яскравості - 50%. На деяких документах при скануванні у чорно-білому режимі може знадобитися додаткове регулювання параметрів яскравості.
Перш ніж приступити до роботи з програмою FineReader слід встановити її на комп’ютері. Для цього необхідно оптичний диск із дистрибутивом програми вставити у пристрій читання дисків (CDROM). Натиснути кнопку Пуск на Панели Задач і вибрати пункт Настройка/Панель управления. Двічі натиснути на іконку Установка и удаление программ. Вибрати закладку Установка и удаление і натиснути кнопку Установить... Після цього потрібно діяти за вказівками програми встановлення.
Після того, як програма встановлення перевірить систему, слід набрати своє ім'я і вказати, куди потрібно встановити ABBYY FineReader. Програма встановлення відобразить декілька параметрів встановлення. Щоб вибрати один з варіантів встановлення, необхідно натисніть відповідну кнопку ( мал. 1).
Повна - встановлюються усі компоненти дистрибутиву, у тому числі всі мови розпізнавання
Мінімальна (рекомендується) - програма встановлюється у мінімальній конфігурації: Мова інтерфейсу (одна) - обрана під час встановлення; мови розпізнавання - англійська + мова, яку обрано під час встановлення.
Встановлення компонент дистрибутиву на вибір - з запропонованого набору компонентів, що входять у дистрибутив, можна вибрати тільки ті, які потрібні (у тому числі доступні мови розпізнавання).