Смекни!
smekni.com

Автоматизація роботи в офісі Розпізнання документів в програмі Fine Reader (стр. 1 из 3)


з дисципліни:

Інформаційна техніка

Тема. Автоматизація роботи в офісі. Розпізнання документів в програмі FineReader.

Зміст

1. Вступ.

2. Засоби створення електронного документообігу.

2.1 Автоматизація вводу інформації в компютер.

2.2 Автоматичне розпізнання тексту.

2.3 Програми розпізнання тексту.

3. Розпізнання документів в програмі FineReader.

3.1 Вікно програми .

3.2 Порядок розпізнання текстових документів.

3.3 Сканування документів.

3.4 Сегментація документів.

3.5 Розпізнання документа.

3.6 Особливості настройки програми FineReader.

4. Переклад Web-сторінок.

5. Зберігання перекладених документів.

6. Висновок.

7. Література.

Вступ

З моменту появлення на світ ПК в світі існувало багато видів таких машин. Але тепер велика кількість персональних і домашніх компютерів відносяться до типу “ІВМ РС”.

Головна заслуга ІВМ – у виготовлені і встановлені єдиного стандарту на основні частини комп'ютера. До того кожний виробник ПК створював власне унікальне “желізо” – тому, що в результаті він ставав монополістом на збір і обслуговування своїх приладів. Але в результаті ринок був переповнений спільними один з одним спільними апаратами, для кожного із котрих треба було створити власні програми. В період встановлення ринку персональних компютерів, прилади кожного ПК було тайною фірми – виробника, і про ніяке копіювання однією фірмою виробника другою в масових масштабах просто не могло.

Ввести із сканера текст в компютер – задача не дуже важка. Але працювати з таким текстом не можливо, як і любе сканування зображення, сторінка з текстом являється графічним файлом. Звідси і виникають проблеми: по-перше, в графічному форматі сторінка займає дуже багато місця. І друга, сама головна проблема відсканований текст можна буде тільки читати, але редагувати і вставляти його франгменти в створений документ. Але сам сканер розпізнавати букви, як букви не вміє, вони для нього всього лиш точки чорного кольору. На світі є програми , які переводять відсканований текст із графічного в текстовий формат – програми розпізнання тексту або OCR. Сучасна OCR повинна вміти дуже багато, розпізнавати тексти набрані не тільки визначеними шрифтами, але й самими різними шрифтами, а також рукописні. Уміти працювати з текстами, які містять слова на декількох мовах, і правильно розпізнавати таблиці. І саме головне розпізнавати не тільки чітко набрані тексти, але й незрозумілі, нечітко набрані тексти. Наприклад, текст з пожовтілої газетної вирізки або машинописної копії. Само собою розпізнати текст це лише півділа. Не менш важливо забезпечити можливість зберігання результату у файлі популярного текстового або табличного формату.

Засоби створення електронного документообігу

Сучасне суспільство не може існувати без документообігу. Документи супроводжують нас на кожному кроці. Навіть мала покупка товару в магазині супроводжується видачею документа – касового чека.

Кожного дня в світі створюються мільярди копій великих і малих документів. На виготовлення документів розходується дуже велика кількість паперу й лісу, а на реєстрацію, перевірку і зберігання документів тратиться дуже багато часу.

Одна із основних задач інформатики полягає в розробці і застосуванні методів використовуючи обчислювальну техніку для переводу документообігу із паперової форми у електрону. Сучасні мережні технології дозволяють вирішити цю задачу, але тільки частково. Всі банки світу уже зв’язані електронними мережами і фінансові документи циркулюють в основному в електронному вигляді. Постійно виходять із вжитку паперові акції підприємств і другі ціні папери. Їх заміняють електроні дипозитарії – бази даних, в яких відомості про акціонерів зберігаються у вигляді записів.

Порівняно недавно появились електроні гроші. Це теж записи в базах даних. Рух електронних грошей відбувається по без паперовій технології шляхом переносу даних із одних записів в інші. Для персонального використання електронних грошей служать пластикові картки, на якій є відомості про власника електронного рахунку на магнітній полосі, або смарт-карті, в яких є дані записи на великій плоскій мікросхемі вбудованій в карті.

По без паперовій технології сьогодні працюють більшість засобів масової інформації. Всі етапи підготовки газети, журнала, книги або рекламної листівки проводять на комп’ютері. Операційна система типу Windows 9х, дозволяє одночасно готувати і редагувати тексти, створювати і обробляти ілюстрації, а комп’ютерні мережі об’єднують всіх учасників, які працюють над одним проектом в автономні робочі групи. Робоча група може обходитись без паперових документів до повного завершення роботи над проектом. Тільки коли робота закінчується створюється заключний паперовий документ. Це може бути, як макет газети так і повний комплект креслень необхідних для виготовлення даного документа.

В тих випадках коли початкові дані зразу мають електронний вигляд, перевід документообігу на без паперову технологію відбувається порівняно просто. Представимо ,що письменник написав книгу в текстовому редакторі Word, а художник намалював до неї ілюстрації у векторному редакторі AdobeIIIustrator. Представимо, що фотограф підготував необхідні фотографії з допомогою цифрової фотокамери і зробив їх в редакторі AdobePhotoshop. В такому випадку залишається тільки зібрати початкові електроні документи в один заключний документ з допомогою видавничої системи. Всі етапи редагування і коректори також виконують в електронному вигляді з допомогою спеціальних програмних засобів. Робота передається з одного робочого місця на друге по комп’ютерній мережі, і всі учасники роботи допомагають один, одному і виправляють помилки колег без створення паперових документів.

Можливо в далекому майбутньому, коли всі документи будуть зразу готуватись тільки в електронному виді, людство зможе перейти повністю до безпаперовій технології і залишки лісів будуть врятовані, від повного знищення, а целюлозно –паперові комбінати перестануть викидати забруднені води в річки і озера. Сьогодні ПК є не на кожному робочому місці і не всі учасники документообігу об’єднанні комп’ютерними мережами в робочі групи. Тому основним завданням на шляху створення без паперової технології є проблема вводу вихідних даних в електронному виді. В інформатиці ця проблема вирішується створенням і впровадженням спеціально апаратних засобів для переводу графічної і текстової інформації в електрону форму.

Автоматизація вводу інформації в комп’ютер

Основним методом переводу паперових документів в електрону форму являється сканування. Сканування - це технологічний процес, в результаті якого створюється графічний образ паперового документа. Існує декілька видів сканерів, але в їх основу покладено один і той же принцип. Документи освітлюються світлом від спеціального джерела, а відображене світло сприймається світло відображаючим елементом. Мінімальний елемент зображення передається сканером, як кольорова точка. Таким чином в результаті сканування документа створюється графічний файл в, якому зберігається растрове зображення первинного документа. Растрове зображення складається, як відомо з точок. Кількість точок визначається, як розміром зображення так і розширенням сканера.

Автоматичне розпізнання тексту

Після обробки документа сканером виходить графічне зображення документа. Але графічний вигляд не являється текстом документа. Людині досить подивитись на листок паперу з текстом, щоб зрозуміти, що на ньому написано. З точки зору комп’ютера, документ після сканування перетворюється в набір різнокольорових точок, а не в текстовий документ. Проблема розпізнання тексту в складі точкового графічного зображення являється дуже складною. Подібні задачі вирішуються за допомогою спеціальних програмних засобів, називаються вони засоби розпізнання зображень. Реальний технічний прорив в цій області пройшов лише в останні роки. До того розпізнання тексту було можливо лише шляхом порівняння знайдених конфігурацій точок із стандартним зразком. Автори програми критерій “схожості” використовуваний при ідентифікації символів. Такі системи називаються ОСR(OptikalCharactedRecognition-оптичне розпізнання символів) і оперались на спеціально вироблені шрифти. З часом наукові дослідження в області розпізнання зображень буквально перевернули представлення при оптичному розпізнані символів. Сучасні програми можуть ставитись з різноманітними шрифтами без перенастройки. Багато розпізнають навіть малюнковий.

Програми розпізнання текстів

Оскільки потреба в розпізнані тексту відсканованих документів достатньо велика, невипадково, що є велика кількість програм, призначена для такої цілі. Так, як різні наукові методи розпізнання тексту розвивалась незалежно один від одного, багато із цих програм використовують різні алгоритми. Ці алгоритми можуть давати різні результати на різні документи. Наприклад, система OCR здібна розпізнати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не можуть перевершити ні одна із універсальних програм. Сучасні алгоритми розпізнання тексту не орієнтуються на конкретний шрифт, ні на конкретний алфавіт. Більшість програм розпізнають текст на декількох мовах. Один і той же алгоритм можна використовувати для розпізнання російського, латинського, арабського і других алфавітів і навіть змішаних текстів. Розуміється програма повинна знати про який алфавіт іде мова. Нас перш за все інтересують програми здатні розпізнавати текст, написаний на російській мові. Такі програми випускаються вітчизняними виробниками. Найбільш широко відомі і розповсюджені програми FineReader і CuneiForm. Програма FineReader забезпечує високу якість розпізнання і вигоду застосування.