Смекни!
smekni.com

Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения (стр. 9 из 22)

Модульность. Вполне возможно, что заказчику может не потребоваться сразу внедрение всех компонентов системы документооборота, а иногда круг решаемых заказчиком задач меньше всего спектра задач документооборота. Поэтому очевидно, что система должна состоять из отдельных модулей, интегрированных между собой.

Открытость. Система документооборота не может и не должна существовать в отрыве от других приложений, к примеру часто необходимо интегрировать систему с прикладной бухгалтерской программой. Следовательно, система документооборота должна иметь открытые интерфейсы для возможной доработки и интеграции.

2.1.2. Задачи, решаемые системами документооборота

Рассмотрим общий спектр задач электронного документооборота. Задачи и, соответственно, необходимая система автоматизации определяются стадией жизненного цикла документа, которую необходимо поддерживать. Вообще жизненный цикл состоит из двух основных стадий.

1. Разработка документа, которая может включать собственно разработку содержания документа, оформление документа, утверждение документа.

В том случае если документ находится на стадии разработки, он считается неопубликованным, и права на него определяются правами доступа конкретного пользователя.

2. Стадия опубликованного документа, которая может содержать: активный доступ, архивный документ краткосрочного и долгосрочного хранения, уничтожение документа.

Когда документ переходит на вторую стадию, он считается опубликованным, и на него остается только одно право - доступ на чтение. В качестве примера опубликованного документа приведем шаблон стандартного бланка предприятия. Кроме права доступа на чтение могут существовать права на перевод опубликованного документа в стадию разработки.

В зависимости от конкретной стадии жизненного цикла документа, с которым имеют дело архивные системы, они подразделяются на следующие типы.

Статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы.

Динамические архивы (либо системы управления документами) работают как с опубликованными документами, так и с теми, которые находятся в разработке.

Подробнее задачи статических и динамических архивов будут рассмотрены в пунктах 2.1.6.1 и 2.1.6.2 соотевтственно.

2.1.3. Проблема поиска документов

2.1.3.1. Организация поиска документов

Наряду с организацией хранения документов, их необходимо также быстро и эффективно искать. Со скоростью поиска все относительно понятно - чем быстрее вы найдете необходимые документы, тем лучше. А вот с эффективностью поиска документа ситуация не так проста. Что считать эффективным поиском? Для того чтобы понять это, рассмотрим модели поиска. Здесь существует два подхода. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Этот метод применяется в 90% всех случаев. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Очевидно, применение данного подхода целесообразно в аналитических и исследовательских задачах. Для него характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов.

Существует два основных типа поиска. Атрибутивный, когда каждому документу присваивается набор определенных атрибутов (полей). При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу. К атрибутам документа можно отнести имя документа, время создания, автора, машинистку, имя подраздаления, тип документа (факс, письмо, контракт, спецификация). Ясно, что cписок таких атрибутов должен быть расширяем. Их совокупность называется карточкой документа. Поля могут заполняться произвольно или из предопределенных справочников. Причем последнее наиболее предпочтительно, так как сужает области поиска.

Второй тип поиска носит название полнотекстовый. В этом случае автоматически обрабатывается все содержание, как правило предварительно проиндексированного, документа, и затем его можно найти по любому входящему в него слову.

Соответственно, существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа более пригоден атрибутивный поиск, тогда как для исследовательского - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов.

Зависимость от языка выражается в следующих факторах:

Поиск документа более полный, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те, в которых присутствуют различные его словоформы. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма. Для русского языка наиболее эффективен словарный метод, когда слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритм нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского он на несколько порядков больше.

Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и его синонимам.

2.1.4. Проблема индексаци документов

Процессом, аналогичным индексации, в бумажном делопроизводстве является регистрация.

Регистрация является "священной коровой" российского делопроизводства. Историческая неразвитость системы управления в сочетании с большими расстояниями и традиционно низкой ответственностью исполнителей породила своеобразный, скрупулезный подход к регистрации документов на всех уровнях управления.

Хрестоматийным примером может послужить журнал учета входящих документов, уникальный в мировой практике документ, являющийся российским "know-how".

Индексация электронных документов, осуществляемая системами автоматизации делопроизводства, преследует несколько иную цель – получить максимальное количество достоверной информации о формируемом документе и создать его регистрационную карточку. Процесс этот тем более важен, что в дальнейшем система управления документами имеет дело именно с этой карточкой, не затрагивая реальные объекты файловой системы. Далее мы в общих чертах рассмотрим известные методы индексации.

2.1.4.1. Индексация по ключевым словам

Метод индексации по ключевым словам широко использовался на начальном этапе развития СУД. Суть его заключается в выделении совокупности ключевых для работы с данным документом слов, вносимых в индексный файл. Недостатки данного метода очевидны – процесс индексирования требует дорогостоящего экспертного участия, результат индексации субъективен и не гарантирует надежного управления документом. Пользователь, например, при поиске документа вполне может использовать свой набор ключевых слов и, таким образом, не добьется результата.

В настоящее время метод индексации по ключевым словам в чистом виде не применяется.

2.1.4.2. Полнотекстовая индексация

Совершенствование и распространение систем оптического распознавания текста, обсуждавшееся нами в прошлый раз, а также совершенствование алгоритмов, основанных на элементах искусственного интеллекта, вывели на сцену метод автоматической полнотекстовой индексации (Full Text Retrieval). В этом случае весь текст подвергается автоматической обработке, основанной на морфологическом анализе (выделении грамматических классов, морфем и анализе формообразования слов). Обработанный текст заносится в индексный файл и используется при поиске документов.

Таким образом, с минимальными издержками формируется индексная база данных, обеспечивающая пользователям СУД возможности для быстрого и эффективного поиска.
На сегодняшний день та или иная реализация метода полнотекстовой индексации используется практически во всех системах управления документами.

В этой связи хотелось бы рассмотреть "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies – системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки.

Вопрос сравнения эффективности систем, использующих полнотекстовую индексацию и "нечеткий поиск", нетривиальный, требует исследования и здесь не рассматривается. Мы только позволим себе прокомментировать тезисы, с помощью которых принято обосновывать преимущества.

Тезис: "Удельная стоимость ввода одной страницы текста с использованием технологий оптического распознавания в системах с полнотекстовой индексацией высока (2 – 10 USD на страницу) за счет необходимости исправления ошибок ввода".