Смекни!
smekni.com

Робота з програмою FineReader (стр. 1 из 4)

ЗМІСТ

ВСТУП

РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ

1.1. ВХІДНА ІНФОРМАЦІЯ

РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ

2.1. ЗАПУСК ПРОГРАМИ, ВВЕДЕННЯ ПОЧАТКОВИХ ДАНИХ

2.2. РОБОТА З ПРОГРАМОЮ

2.3. ДОДАТКОВА ІНФОРМАЦІЯ

ВИСНОВКИ

СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ


ВСТУП

Стрімкий розвиток комп'ютерної техніки і її різноманітного програмного забезпечення — це одна з характерних прикмет сучасного періоду розвитку суспільства. Технологи, основним компонентом яких є комп'ютер, проникають практично в усі сфери людської діяльності. Те, що ще недавно вважалось фантастикою, тепер, завдяки науково-технічному прогресу, особливо прогресу в області комп'ютерних технологій, стало реальністю.

Комп'ютерні технології застосовують у видавництвах і великих бібліо­теках, у парламентах і міністерствах, у банках і на складах, у системах зв'язку і системах управління транспортом, у податкових інспекціях і у сфері розваг тощо. Тепер практично неможливо уявити сучасний офіс без повсякденного і широкого застосування комп'ютерних технологій. Комп'ютер став неодмінним атрибутом робочого місця працівників багатьох професій. У цих умовах продовжує зростати попит на комп'ютерних спеціалістів, особливо на молодих спеціалістів високої кваліфікації. Великою популярністю користуються спеціалісти з комп'ютерної верстки та макетування, комп'ю­терні художники і дизайнери, спеціалісти з банківських та бухгалтерських комп'ютерних систем, спеціалісти з комп'ютерних мереж та ряд інших.

Досить актуальними на сьогоднішній час стали системи оптичного розпізнавання символів ( OCR ).

Системи оптичного розпізнавання символів (Optical Character Recognition) призначені для автоматичного введення друкованих документів в комп'ютер. Однією із таких систем є FineReader.

FineReader - омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".

На сьогоднішній день існує багато версій програми FineReader, однак найбільш популярною і досконалою є програма версії FineReader 5.0, тому в даній дипломній роботі ми детальніше зупинимося саме на ній.

РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ

1.1. Вхідна інформація

Процес введення документу в комп'ютер можна розділити на два етапи:

1. Сканування. На першому етапі сканер відіграє роль «ока» комп'ютера: «переглядає» зображення і передає його комп'ютеру. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання. Обробка зображення OCR-системою.

Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, зображень, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.

Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".

· Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відношень між ними.

· Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.

· Адаптивність - здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і відношення, що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття, - відрізки, дуги, кільця і крапки. Виходячи з принципу адаптивності, програма самостійно «налагоджується», використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів друку.

Наслідком роботи у вікні FineReader з'явиться розпізнаний текст, який можна редагувати і записати у найзручнішому форматі.

Нові можливості програми FineReader 5.0.

Робота з зображеннями

· Новий режим відображення сторінок пакета Піктограми, у якому сторінки пакета представляються своїми сильно зменшеними зображеннями.

Сканування

· Можливість сканування розвороту книги: обидві сторінки розкритої книги скануються одночасно, але обробляються окремо. Зображення, що містить парні сторінки, записується в дві різні сторінки пакета.

Аналіз макету сторінки

· У програму додана об'єднана процедура аналізу макета сторінки і розпізнавання. Тепер алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу макету сторінки. Нові алгоритми аналізу використовуються автоматично при запуску розпізнавання на сторінці без блоків, тобто аналіз макета і розпізнавання проводяться за один крок. Старий алгоритм аналізу сторінки, що не використовує розпізнавання, як і раніше доступний (меню Процес>Аналіз макету сторінки).

· Підтримка розпізнавання "вбудованих" зображень: можливо визначити блок "зображення" усередині текстового або табличного блоку.

Розпізнавання

Існує два варіанти поставки ABBYY FineReader: EU - 121 мова розпізнавання (латиниця та грецькі); Cyrillic Plus - 176 мов розпізнавання (латиниця, грецька та кирилиця). Усі мови розпізнавання поділяються на основні мови, додаткові та

штучні мови. Основна група утворена з мов зі словниковою підтримкою. Для цих мов у програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).

· Розпізнавання мов програмування (Basic, Cobol, Fortran, Java, C++, Pascal).

· Розпізнавання підрядкових символів (наприклад, H2O).

· Розпізнавання вертикального тексту.

· Коректна передача кольору тексту.

Збереження і редагування

· Можливість збереження розпізнаного тексту у форматі HTML з повним збереженням оформлення сторінки.

· Можливість збереження розпізнаного тексту у форматі PDF із збереженням повного оформлення документа.

· Збереження кольору тексту при збереженні розпізнаного тексту в RTF, PDF і HTML форматах.

· Підтримка Unicode кодування при збереженні розпізнаного тексту в RTF, DOC, XLS, HTML, TXT і CSV форматах.

FineReader працює зі сканерами через TWAIN-інтерфейс. Це єдиний міжнародний стандарт, введений у 1992 році для уніфікації взаємодії пристроїв для введення зображень у комп'ютер (наприклад, сканеру) із зовнішніми програмами.

Якість розпізнавання багато в чому залежить від того, наскільки гарне зображення отримано при скануванні. Якість зображення регулюється задаванням основних параметрів сканування: типу зображення, роздільної здатності та яскравості.

Основними параметрами сканування є:

· Тип зображення - сірий (256 градацій).

Сканування в сірому є оптимальним режимом для системи розпізнавання. У випадку сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує більш високу швидкість сканування, але при цьому губиться частина інформації про літери, що може призвести до погіршення якості розпізнавання на документах середньої і низької якості друку. Якщо необхідно, щоб кольорові елементи (картинки, колір літер і фону), що містяться в документі, були передані в електронний документ зі збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках слід використовувати сірий тип зображення.

· Роздільна здатність – найчастіше слід використовувати 300 dpi ( точок на дюйм ) для звичайних текстів (розмір шрифту 10 і більш пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менше пунктів).

· Яскравість - у більшості випадків підходить середнє значення яскравості - 50%. На деяких документах при скануванні у чорно-білому режимі може знадобитися додаткове регулювання параметрів яскравості.

РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ

2.1. Запуск програми, введення початкових даних

Перш ніж приступити до роботи з програмою FineReader слід встановити її на комп’ютері. Для цього необхідно оптичний диск із дистрибутивом програми вставити у пристрій читання дисків (CDROM). Натиснути кнопку Пуск на Панели Задач і вибрати пункт Настройка/Панель управления. Двічі натиснути на іконку Установка и удаление программ. Вибрати закладку Установка и удаление і натиснути кнопку Установить... Після цього потрібно діяти за вказівками програми встановлення.

Після того, як програма встановлення перевірить систему, слід набрати своє ім'я і вказати, куди потрібно встановити ABBYY FineReader. Програма встановлення відобразить декілька параметрів встановлення. Щоб вибрати один з варіантів встановлення, необхідно натисніть відповідну кнопку ( мал. 1).

Повна - встановлюються усі компоненти дистрибутиву, у тому числі всі мови розпізнавання

Мінімальна (рекомендується) - програма встановлюється у мінімальній конфігурації: Мова інтерфейсу (одна) - обрана під час встановлення; мови розпізнавання - англійська + мова, яку обрано під час встановлення.

Встановлення компонент дистрибутиву на вибір - з запропонованого набору компонентів, що входять у дистрибутив, можна вибрати тільки ті, які потрібні (у тому числі доступні мови розпізнавання).