Организация учета бумажных и микрографических документов. Архивная система должна учитывать (в отличие от хранения и учета электронных документов) бумажные и микрографические документы. То есть система будет хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций, как-то: выдачи документа, его возврата и т. п.
Поддержка защиты документов от несанкционированного доступа и аудит работы. Архивной системе необходима защита на уровне документа, т. е. каждый документ должен иметь ассоцированный список пользователей, которые имеют право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять его карточку.
Поддержка просмотра документов без загрузки приложений, его породивших. Архивная система должна поддерживать специальные программы просмотра, которые позволяют получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.
Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом пользователям необходима возможность вносить в документ комментарии, не изменяя его основного содержания (в этом состоит отличие от редактирования самого документа). Комментарии (стрелки, знаки, текст, выделения цветом) хранятся в слоях, которые могут быть привязаны к автору, создавшему эти комментарии.
В качестве характерного примера реализации статического архива можно привести стандартную imaging-систему типа WaterMark, PaperWise, ImageWise.
2.1.6.2. Дополнительная функциональность динамических архивов
Для динамических архивов обязательны следующие функции:
Поддержка коллективной работы с документом, которая выражется в обеспечении целостности документов. Для этого должны быть реализованы библиотечные функции выписки и возврата документов на/c редактирование, что предотвращает одновременное редактирование одного и того же документа несколькими пользователями и, тем самым, возможные конфликты; предоставлении возможности в рамках одного документа работать одновременно нескольким пользователям. Для этого вводятся понятия версии и подверсии документа, т. е. один документ может содержать несколько версий, а каждая версия - несколько подверсий; наличии в рамках одного документа и одной версии (подверсии) нескольких его представлений в разных форматах.
Составные документы. Каждый документ может представлять собой совокупность других. В этом случае он носит название составного, или контейнера, а в делопроизводстве - «дела». По своим характеристикам он аналогичен простому. В него объединяют документы с помощью нескольких типов связей, определяющих, какие версии помещаются в контейнер (например последняя по дате, последняя отредактированная, старшая версия и т. п.). Заданные связи определяют, как будет осуществляться сборка документа в контейнер. Для составных документов должно существовать приложение, которое будет производить его окончательную сборку, оно зависит от конкретного формата.
Распространение опубликованных документов. Иногда, после публикации документа, его необходимо распространять. В основном это происходит двумя путями: или через систему электронной почты, рассылкой, или через Internet, публикацией на Web-сервере.
Расширенный спектр прав доступа к документу, а именно: на редактирование, на публикацию, на снятие публикации и на создание новой версии.
2.1.6.3. Структура архива данных
Принцип организации хранения документов в системе изолирует пользователя от физического хранилища документов по двум причинам:
1. При доступе к библиотеке, пользователь не знает, где располагается база данных, и не знает, где располагается сервер, который открывает доступ к базе. Вся эта информация находится под управлением специального приложения.
2. Внутри библиотеки, пользователи работают с логической организацией документов. Они ничего не знают о физической организации библиотеки.
Физическое хранилище скрыто от пользователей, но может в полной мере контролироваться разработчиками и администраторами. Система хранит объекты документов в реляционной базе данных. Содержание документа может храниться различными способами. Обычно это выглядит так: очень маленькие (меньше 2k) объекты хранятся прямо в базе данных; маленькие объекты (меньше 64k) хранятся в базе данных в виде 'Больших Бинарных Объектов' (Blobs); объекты большего объема хранятся в любом файловом виде, в месте, которое доступно серверу системы.
Для данных, хранящихся на внешних носителях, существует несколько уровней ссылок на объекты, которые помогают определить последнее местоположение файла с содержанием. Каждый объект содержания имеет параметр, который указывает на объект хранилища для конкретного объекта содержания. Обычные объекты хранения файлов имеют параметр, который делает ссылку на объект расположения. Объект расположения имеет параметр, который указывает полный путь к хранилищу файлов. Это дает верхний уровень каталога хранения файлов для объекта хранения. Четыре уровня подкаталогов автоматически создаются внутри него, основываясь на внутренних идентификаторах.
Не существует ограничения на количество объектов хранения, которые могут использоваться всеми базами данных.
2.1.6.4. Устройства хранения данных
Как уже отмечалось, все данные в системе могут находиться в двух видах: индекс документа и собственно сам документ. Из-за высоких требований к скорости доступа к индексу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.
Для хранения самих документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2.1). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.
Таблица 2.1.
Оптические и магнитооптические накопители
Тип диска | Емкость | Число циклов перезаписи |
5.25"-магнитооптические диски | 650 Мб, 1.3 Гб, 2.6 Гб | 1млн. |
PD/CD-диски фазоинверсной записи | 650 Мб | 1тыс. |
WORM-диски | 1-10 Гб | однократно |
Компакт-диски CD-R | 650 Мб | однократно |
Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом приводом CD-ROM.
Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.
2.2. Обоснование проектных решений
2.2.1. Математическая модель применяемого метода
Ниже приведен разработанный алгоритм процесса индексирования документа:
1.Присвоение документу уникального идентификатора, внесение в файл идентификаторов
2.Определение формата документа
3.Определение кодировки документа
4.Перевод текста в «плоский» формат
5.Определение единицы поиска
6.Выделение отдельных слов
7.Выделение отдельных предложений
8.Обработка буквы «ё»
9.Исключение из запроса шумовых слов
10. Составление (пополнение) индекса определенного формата (рис. 2.1)