Смекни!
smekni.com

Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой (стр. 3 из 8)

4. Разрабатывает проекты законов и иных нормативных правовых актов по направлению деятельности.

5. Ведет служебный документооборот, исполняет служебные документы, подготавливает проекты ответов на обращения организаций, граждан.

6. Систематизирует и подготавливает аналитический, информационный материал, в том числе для средств массовой информации.

7. Осуществляет сбор, обработку и предоставление информации о деятельности региональных и муниципальных органов власти области в виде информационных (электронных и печатных) бюллетеней, сборников, буклетов и т.д.

8. Подготавливает материалы для сайта (портала) администрации Тульской области.

9. Определяет тематику, сроки предоставления и оформления аналитических и иных материалов, размещаемых в официальном информационно-правовом издании «Вестник администрации Тульской области», электронных информационных бюллетенях и на сайте администрации области.

2.3 Описание автоматизируемых функций и схемы функциональной структуры АИС «Классификатор»

Используя методологию IDEF0 при проектировании АИС «Классификатор» была получена ее функциональная модель.

Главной функцией системы (А0) является автоматизация процесса классификации информационных сообщений СМИ. Для реализации данной функции необходимо реализовать следующие функции:

А0 Автоматизировать процесс классификации информационных сообщений СМИ

А1 Обработать информационные сообщения СМИ

А11 Открыть файл

А12 Считать информационные сообщения из файла

А13 Сформировать сообщения СМИ для занесения в информационную базу

А2 Вести информационную базу

А21 Создать информационную базу

А22 Добавить запись

А23 Изменить запись

А24 Удалить запись

А25 Сохранить запись

А3 Настроить параметры

А31 Определить каталог с файлами

А32 Задать расширение файлов

А33 Настроить параметры классификации

А4 Выполнять классификацию информационных сообщений СМИ

А41 Найти запись по различным ключам словаря

А42 Классифицировать информационных сообщений СМИ

А43 Выдавать результаты классификации

А5 Формировать отчеты

Дерево узлов, разработанной модели представлено на рисунке 2.2. Контекстная диаграмма А–0 и ее дочерние диаграммы представлены в приложении Б.



2.4 Описание постановки задачи

Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Комплекс задач, реализуемых разрабатываемой системой, должен обеспечивать удобную, быструю и качественную работу консультанта ОТОИ.

Основными задачами АИС «Классификатор» будут следующие:

- создание информационной базы для автоматизированного процесса классификации статей к той или иной категории;

- загрузка информационных сообщений СМИ в базу;

- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;

- классификация информационных сообщений с использованием метода ранжирования;

- открытость структуры рубрикатора и словаря, то есть возможность оперативной их корректировки;

- формирование рекомендаций для принятия решений;

- формирование отчетов.

Входной информацией для реализации задач системы являются:

- информационные сообщения СМИ;

- параметры классификации;

- рубрикатор тем;

- словарь.

Выходными данными являются результаты классификации информационных сообщений СМИ.

Выходными документами являются:

- отчет по результатам классификации;

- отчет по обработанным сообщениям СМИ.


3 ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ

3.1 Перечень входных данных

Для разработки АИС «Классификатор» используются следующие входные данные:

- информационные сообщения СМИ;

- параметры классификации;

- рубрикатор тем;

- словарь.

3.2 Перечень выходных данных и документов

Выходными данными будут результаты классификации информационных сообщений СМИ.

Выходными документами будут:

- отчет по результатам классификации;

- отчет по обработанным сообщениям СМИ.

3.3 Описание информационного обеспечения АИС «Классификатор»

3.3.1 Описание структуры входных информационных сообщений и выходных данных и документов

Информационные сообщения СМИ подготавливаются в виде текстовых файлов.

Текстовые файлы формируются в формате MSDOS в кодировке ASCII.

Имя текстового файла состоит из собственного имени, занимающего 6 знакомест, и 3 символов расширения. Порядок образования имени текстового файла имеет следующую структуру:

ГГЧЧММ.smi,

где ГГ - наименование города, из которого пришло информационное сообщение (2 знакоместа);

ЧЧ - число месяца (2 знакоместа), за которое подготовлено информационное сообщение;

ММ - месяц, в котором подготовлено информационное сообщение;

smi– расширение информационного сообщения СМИ.

3.3.2 Описание структуры информационной части сообщения СМИ

Текстовый файл сформирован без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).

В состав текстового файла может входить несколько информационных сообщений.

При формировании текстового файла с 1-ой позиции на отдельной строке без пропуска строк введена информационная часть сообщения.

Информационная часть сообщения имеет следующую структуру:

АО ХХХХХХХ

==/СМИ

01/ХХХХ

02/ДДММГГ

03/ХХХХХХХХ

04/ХХХХХХХХ

05/ХХ

06/ключевые слова и текст статьи

07/наименование статьи

08/автор статьи

===

где АО ХХХХХХХ – адрес отправителя;

АО - заглавные буквы русского алфавита;

ХХХХХХХ - семизначный код отправителя.

Между буквами (АО) и кодом допускается один пробел.

==/ - признак начала информационной части (два символа "равно" и слеш - справа налево);

СМИ - принадлежность сообщения СМИ.

Каждое информационное сообщение отделяется этим набором символов.

Далее заполняются атрибуты с 1-й позиции по 8-ю:

01/ - четырехзначный код источника информации (код или наименование газеты);

02/ - дата публикации в формате ДДММГГ;

03/ - шести- или восьмизначный код региона;

04/ - наименование населенного пункта (или его 8-разрядный код), о котором пи­шется в статье газеты.

Атрибут заполняется заглавными буквами без указаний г., п., пгт. Под населенным пунктом подразумевается город, село, но не район области, не район города.

05/ - двузначный код отрасли, о которой идет речь в соответствии с классификатором отраслей. Если в статье газеты затрагивается нескольких отраслей, то код каждой из них дается отдельной строкой с указателем - 05/;

06/ - ключевые слова и текст статьи.

Первая строка атрибута – ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:

Бюджет. Задолженность.

Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.

07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;

08/ - автор статьи.

Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.

=== - признак завершения информационного сообщения (три символа "равно").

Пример заполнения информационной части сообщения приведен в приложении В.

3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии

К подготовке информационных сообщений СМИ предъявляются следующие требования:

1. Текст сообщения подготавливается в виде текстового файла.

2. Информация в текстовом файле размещается в одну колонку и не форматируется.

3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).

4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.

5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.

6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.

7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.

8. Текст не должен содержать незаконченных предложений и обрывов в словах.

9. В текстовый файл не заносятся:

- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;

- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;

- спецсимволы, отсутствующие на клавиатуре ПЭВМ.

Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:

По материалам российского радио.

10. Если к статье газеты дается аннотация или комментарий, выделенные

другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:

Комментарий (фамилия автора).

11. Фамилия от инициалов отделяется пробелом.

12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.

13. Аббревиатуры вводятся без точек и разрядки.

14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.

15. В числах между цифрами не должно быть пробелов.

16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.

17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.