Смекни!
smekni.com

Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой (стр. 4 из 8)

18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).

19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:

_________________

(прим.2) - ...

*) ....

20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.

21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».

22. Текст сообщения должен быть отредактирован. Все спецсимволы в

тексте должны быть заменены следующим образом:

- кавычки («») на кавычки (" ");

- номер (№) на номер (латинская буква N);

- длинное тире (¾) на тире (-);

- буква (ё) на букву (е);

- апостроф (') на твердый знак.

Характерными ошибками в текстовых файлах являются:

- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);

- слова написаны слитно без пробела;

- в сложных словосочетаниях пропуск дефиса;

- после сокращения и знаков препинания отсутствует пробел;

- пропуск точки в сокращении и в единицах измерения;

- вместо запятой стоит точка и наоборот;

- вместо номера (латинской буквы N) стоит другой символ.

Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.

Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:

- рубрики 1-го уровня;

- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;

- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;

- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.

Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.

Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат

классификации.

Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.

Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.

Структура выходных данных и документов представлена в приложении Е.

3.4 Описание организации информационной базы

3.4.1 Описание организации внутримашинной базы

Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:

- статьи;

- газета;

- регион;

- отрасль;

- справочник отраслей;

- рубрики;

- классификация;

- рубрикатор 1;

- рубрикатор 2;

- рубрикатор 3;

- рубрикатор 4;

- словарь рубрикатора 3;

- словарь рубрикатора 4.

Их описание представлено в таблицах 3.1 – 3.13 соответственно.

Таблица 3.1 – Таблица «Статьи»

Первичный ключ Атрибуты Тип данных Описание
Код газеты Числовой Длина 2 символа
Код региона Числовой Длина 8 символов
Код статьи Счетчик Последовательное значение
Уникальный ключ Наименование Текстовый Длина 150 символов
Ключевые слова Текстовый Длина 255 символов
Текст Поле MEMO
Дата Дата/время Краткий формат даты
Автор Текстовый Длина 150 символов
Файл Текстовый Длина 255 символов
Классифицировано Логический Истина/ложь

Таблица 3.2 – Таблица «Газета»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код газеты Числовой Длина 2 символа
Наименование Текстовый Длина 150 символов

Таблица 3.3 – Таблица «Регион»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код региона Числовой Длина 8 символов
Наименование региона Текстовый Длина 150 символов

Таблица 3.4 – Таблица «Отрасль»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код статьи Числовой Длинное целое
Код отрасли Числовой Длинное целое

Таблица 3.5 – Таблица «Справочник отраслей»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код отрасли Числовой Длинное целое
Наименование Текстовый Длина 150 символов

Таблица 3.6 – Таблица «Рубрики»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код рубрики Числовой Длинное целое
Код статьи Числовой Длинное целое
Уровень рубрики Числовой Длинное целое

Таблица 3.7 – Таблица «Классификация»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код статьи Числовой Длинное целое
Код рубрики Числовой Длинное целое
Уровень рубрики Числовой Длинное целое
По названию статьи Числовой Длинное целое
По ключевым словам Числовой Длинное целое
По тексту статьи Числовой Длинное целое
Результат Текстовый Длина 50 символов

Таблица 3.8 – Таблица «Рубрикатор 1»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_1 Счетчик Последовательное значение
Индекс_1 Числовой Длинное целое
Наименование_1 Текстовый Длина 150 символов

Таблица 3.9 – Таблица «Рубрикатор 2»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_2 Счетчик Последовательное значение
Индекс_2 Числовой Длинное целое
Наименование_2 Текстовый Длина 150 символов
Код_1 Числовой Длинное целое

Таблица 3.10 – Таблица «Рубрикатор 3»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_3 Счетчик Последовательное значение
Индекс_3 Числовой Длинное целое
Наименование_3 Текстовый Длина 150 символов
Код_2 Числовой Длинное целое

Таблица 3.11 – Таблица «Рубрикатор 4»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_4 Счетчик Последовательное значение
Индекс_4 Числовой Длинное целое
Наименование_4 Текстовый Длина 150 символов
Код_3 Числовой Длинное целое

Таблица 3.12 – Таблица «Словарь рубрикатора 3»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_3 Числовой Длинное целое
Слова Текстовый Длина 255 символов

Таблица 3.13 – Таблица «Словарь рубрикатора 4»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код_4 Числовой Длинное целое
Слова Текстовый Длина 255 символов

Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.


Рисунок 3.4.1 – Инфологическая модель базы

Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.

Рисунок 3.4.2 – Иерархия заполнения таблиц базы


4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

4.1 Математическая постановка задачи классификации информационных сообщений СМИ

Пусть дано множество статей Х, множество ключевых слов статьи W и множество названий статей A. Каждое множество описывается своим набором элементов:

X = {x1, x2, …, xc},

где xi – i- я статья;

c – количество статей;

W = {w1, w2, …, wc},

где wi – строка ключевых слов i-ой статьи,

;

A = {a1, a2, … ac},

где ai– название i-ой статьи,

.

Имеется рубрикатор, состоящий из четырех уровней:

R1 = {r11, r12, … r1k},

где k – количество элементов рубрикатора 1;

R2 = {r21, r22, … r2l},