2.3 Требования к системам массового ввода стандартных форм
Основные требования к системам обработки форм:
1. Соответствие предъявляемым функциональным требованиям.
Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, — вести к лишним расходам.
Поскольку производится обработка образов документов с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные — внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).
2. Точность распознавания.
Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание — ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.
В табл.1 приведены основные характеристики методов распознавания.
Таблица 1
Характеристики методов распознавания
Метод | Точность распознавания, % | Процент нераспознанных символов | Процент символов, распознанных ошибочно |
Вручную | 97-98 | — | 3 |
OCR | 99,5 | 1-2 | 0,1 |
ICR | 90-95 | 10-30 | 0,9-2 |
Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, — те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.
3. Наличие эффективной системы редактирования.
Нельзя построить системы со 100%-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.
4. Настраиваемость системы.
Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:
· Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.
· Наличие редактора форм, настраивающего систему на новые формы.
· Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.
· Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.
· Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.
· Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.
· Возможность наращивания функций системы [1,2,11].
2.4 Подходы к реализации систем обработки форм
В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.
Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.
При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.
При монолитном подходе вся система поставляется одним производителем, например разработчиком систем распознавания изображений. При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.
Во-первых, узость подхода производителя монолитных систем определяется его корнями. Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе — это модуль распознавания их производства, а всё остальное не так важно.
Во-вторых, нельзя гарантировать, что система от одного производителя способна поддерживать на высоком уровне все функциональны особенности.
В-третьих, невозможно заменить какой-либо элемент на более качественный другого производителя.
И, наконец, нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя [1].
Выводы к разделу 2
Ввод информации из полей формы в базу данных, включает несколько этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сегментацию изображения формы и извлечение данных из значимых полей подразумевает обработка форм.
При вводе форм целесообразно придерживаться определённых принципов, брать во внимание основные требования, предъявляемые к системам массового ввода форм и учитывать подходы к их реализации. Это обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных, а также освободит сотни людей от неэффективного утомительного труда.
3 СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ
Существует несколько сотен компаний, которые предлагают решения или компоненты систем обработки форм по всему миру. Выбор решения, наиболее соответствующего потребностям заказчика и являющегося оптимальным по стоимости, — непростая задача. Выбирая систему обработки форм, следует ориентироваться на особенности организации и виды преобладающих в ней форм.
Больших успехов в разработке систем массового ввода и распознавания форм достигли наши отечественные компании. Наиболее известными системами ввода форм являются системы «ABBYYFineReaderForm» и «Cognitive Forms».
3.1 Система ABBYY Fine Reader Form
СистемаFineReaderForm предназначена для автоматического ввода данных из стандартных форм и форматированных документов в информационные системы и базы данных.
Преимущества системы:
· Реализация пилотного проекта и принятие решения о внедрении по его результатам.
· Лёгкость настройки на любые виды форм — как структурированные, так и гибкие.