Нові технічні засоби й інформаційні технології покликані забезпечити підвищення продуктивності праці в офісній і адміністративній діяльності. Поряд із цим технічні засоби і комп'ютерні технології, адміністративні й офісні системи виконують, по суті, допоміжні роботи, зв'язані з обробкою інформаційних масивів. Процес прийняття рішень залишається прерогативою людини. Але завдяки автоматизації деяких процесів керування персонал офісу звільняється від виконання рутинних операцій і приділяє більше часу аналітичним та творчим процесам [6].
На сучасному етапі розвитку інформаційних технологій до структури системи автоматизації документообігу електронного офісу традиційно включають наступні підсистеми:
· технології обробки зображень документів (Imaging System);
· системи оптичного розпізнання символів (Optical Character Recognition System, OCR);
· системи керування документами, СКД (Document Management System, DMS);
· повнотекстові бази даних (Full-Text System);
· системи автоматизації ділових процедур, АДП (Workflow System);
· програмне забезпечення для робочих груп (Groupware),
елементи та зв’язки між ними.
Розглянемо структурні та функціональні особливості даних підсистем*.
Технології обробки зображень документів призначені для введення, обробки, збереження і пошуку графічних образів на паперових документах. Подібні системи доцільно застосовувати в організаціях з великим обсягом документообігу. Технічне забезпечення систем включає високошвидкісні сканери, документні контролери (виконують швидку і високоефективну компресію/декомпресію документів і забезпечують швидкісну роботу зі сканерами та принтерами), бібліотеки-автомати на базі оптичних нагромаджувачів з автоматичною подачею дисків. Комп'ютерні образи документів знаходяться на сервері зображень і проглядаються на робочих станціях-клієнтах.
Системи обробки зображень здійснюють сканування документів для запису на сервер, їх класифікацію за різними критеріями, передачу зображень на робочу станцію для перегляду, модифікацію або друк. Подібні системи передбачають також визначення маршруту передачі зображень по мережі, їх розсилання по факсу чи електронній пошті, пошук зображень за окремими елементами.
Оскільки файли зображень досягають великих розмірів, існують різні варіанти організації їхнього збереження. З метою заощадження пам'яті на запам'ятовуючому пристрої більшість систем стискають зображення і створюють спеціальний індекс зображень, де містяться відповідні значення атрибутів документів. Наприклад: найменування, автор, тема.
У високопродуктивних системах реалізовані технології, що дають змогу збільшити швидкість роботи. Наприклад, попередня вибірка і перенесення зображень з повільних оптичних носіїв на більш швидкі магнітні; адаптуюче кешування, що дозволяє зберігати часто використовувані зображення в пам'яті сервера; перенесення на лазерний диск; групове сканування, що забезпечує зчитування кількох сторінок за одну операцію.
Багато систем обробки зображень мають програмне забезпечення оптичного розпізнавання символів (OCR).
Застосування OCR дозволяє вирішити проблему перекладу паперових документів в електронну форму у виді текстового файлу. Системи OCR дозволяють одержувати електронну копію документа з друкованого аркуша або копію документа, що прийшов по факсу. Існують експериментальні системи, що дозволяють подібним чином обробляти також і рукописні матеріали (Intelligent Character Recognition).
У стислому вигляді функціонування системи OCR можна уявити в такий спосіб. За допомогою скануючого пристрою зчитується зображення документа. У результаті розпізнавання тексту зображення документа відображається у файл, відформатований як текстовий. Таким чином, паперовий документ, минаючи трудомістке ручне введення, автоматично перетвориться в електронну форму (див. схема 2).
Виділяють два класи систем OCR — ті, яких навчають, та інтелектуальні. Принцип дії систем першого класу заснований на “поточечному” порівнянні відцифрованого символу зі зразком із довідника. При збігу зразка і символу останній вважається розпізнаним і додається в результуючий файл. При такому способі розпізнавання розміри зразка і шрифту документа повинні збігатися, тобто в системі необхідно мати маски для кожного розміру кожного типу шрифту, тому подібна система більш ефективна у випадку однотипного і якісного тексту. В другому випадку “маска” символу замінюється на його “образ”, що може бути використаний для будь-яких розмірів шрифтів. Для підвищення точності розпізнавання інтелектуальні системи можуть виконувати ряд перевірок результуючого тексту. Наприклад, здійснювати частотний аналіз тексту і порівнювати частоту появи даного символу в тексті з його частотою в мові оригіналу або виявляти неправильне сполучення символів, виходячи з правил орфографії.
У реальних системах OCR сполучаються різні розпізнавальні механізми, що дає можливість обробляти будь-які шрифти і будь-які тексти.
На сьогоднішній день відомо кілька досить якісних програмних продуктів по розпізнаванню тексту, у тому числі дві системи вітчизняних фірм, орієнтовані в першу чергу на розпізнавання російськомовних текстів (Fine Reader та CuneiForm). Середня швидкість роботи системи OCR на устаткуванні середньої потужності складає приблизно одну машинописну сторінку за хвилину. Якість розпізнавання - одна-дві помилки на 1000 знаків у тексті середньої якості.
Можна рекомендувати наступні критерії вибору системи OCR:
· сумісність з існуючим програмним та апаратним забезпеченням;
· швидкість сканування і розпізнавання переважного в даній установи типу тексту, наприклад: факс - українська мова, ксерокопія різної якості, машинопис різної якості та ін.;
· якість розпізнавання текстів різних типів, наприклад, кількість помилок на 1000 знаків;
· здатність розпізнавати рідкісні шрифти;
· здатність навчання новим символам;
· наявність елементів семантичного аналізу тексту;
· наявність модуля перевірки орфографії;
· зручність користувальницького інтерфейсу.
Проте, основними характеристиками читаючих автоматів є достовірність розпізнання та виробничі потужності.
Системи керування документами (СКД) призначені для автоматизації збереження, пошуку і керування електронними документами різноманітних форматів, у тому числі і зображеннями документів. Можна сказати, що СКД фактично виконують роль СКБД для неструктурованої інформації.
Розвинуті системи керування документами здійснюють наступні функції:
· індексування документів;
· повнотекстовий пошук за ключовими словами;
· керування конфігурацією документа з установленням взаємозв'язку між окремими структурними компонентами;
· асембліювання документів, що дає змогу об'єднати всі частини складеного документа для відображення на екрані;
· організація доступу до документа незалежно від місця його збереження;
· пошук і керування документами за допомогою ключових компонентів (зміст або назва розділу);
· багаторівневий захист даних, що дозволяє доступ до документів тільки окремим користувачам або встановлює види доступу (наприклад, “тільки для читання”);
· адміністрування обліку й архівування;
· організація видачі / повернення документа;
· контроль версій документа;
· розсилання документів.
Виконання функції видачі / повернення аналогічне блокуванню запису в БД. Якщо документ уже виданий, інші користувачі редагувати його не можуть. Він залишається доступним тільки для перегляду і копіювання.
Функція контролю за версіями використовується для відстеження різних версій документа, використовуючи попередні редакції документа, які з метою економії пам'яті автоматично архівуються.
Функція розсилання документів здійснюється шляхом інтегрування системи з додатками електронної пошти. Це дозволяє переміщати документи по мережі підприємства і передавати документи від одного працівника до іншого.
Розвиток мережі Internet сприяв появі ряду функцій сучасних СКД. Наприклад: можливість розміщення документів на Web-вузлі; підтримка обміну документами по інтрамережі між працівниками фірми, а по Internet - із клієнтами та партнерами фірми.
Системи керування документами базуються на архітектурі клієнт-сервер, що складається з чотирьох основних елементів:
· центрального додатка, що знаходиться на сервері;
· програм клієнтів, що працюють на мережних робочих станціях і утворюють користувальницький інтерфейс;
· програмного забезпечення для індексування і пошуку, розміщеного на сервері СКБД і працюючого з базою даних, в якій реєструється місце збереження документа;
· документів, які розглядаються системою як об'єкти, що складаються з файлів різних типів (текстів, зображень) і можуть зберігатися як на твердих дисках робочих станцій, так і на серверах.
Лідером на світовому ринку СКБД є компанія Documentum (продукт Enterprise Document Management).
Сьогодні, у сфері систем автоматизації документообігу провідні позиції займають програмні продукти класу Groupware (Lotus, Notes, Windows for Workgroups, Windows NT та інші). Це відкриті системи обміну інформації (між користувачами мережі), які відображають рух від сприймання документа як одного цілого до колективної обробки.
Програмне забезпечення для робочих груп (Groupware) призначене для організацій, працівникам яких за характером їх діяльності потрібний постійний обмін документами. Здійснює функції збереження, перегляду і спільного використання документів. Системи класу groupware дозволяють автоматизувати таку діяльність, що не вписується в стандартні схеми реляційних баз даних. Наприклад, взаємодію великої кількості людей, що виконують різні роботи у фізично віддалених один від одного місцях. Такі додатки можуть обробляти як структуровану, так і неструктуровану інформацію.