18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).
19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:
_________________
(прим.2) - ...
*) ....
20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.
21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».
22. Текст сообщения должен быть отредактирован. Все спецсимволы в
тексте должны быть заменены следующим образом:
- кавычки («») на кавычки (" ");
- номер (№) на номер (латинская буква N);
- длинное тире (¾) на тире (-);
- буква (ё) на букву (е);
- апостроф (') на твердый знак.
Характерными ошибками в текстовых файлах являются:
- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);
- слова написаны слитно без пробела;
- в сложных словосочетаниях пропуск дефиса;
- после сокращения и знаков препинания отсутствует пробел;
- пропуск точки в сокращении и в единицах измерения;
- вместо запятой стоит точка и наоборот;
- вместо номера (латинской буквы N) стоит другой символ.
Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.
Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:
- рубрики 1-го уровня;
- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;
- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;
- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.
Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документов представлена в приложении Е.
3.4 Описание организации информационной базы
3.4.1 Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:
- статьи;
- газета;
- регион;
- отрасль;
- справочник отраслей;
- рубрики;
- классификация;
- рубрикатор 1;
- рубрикатор 2;
- рубрикатор 3;
- рубрикатор 4;
- словарь рубрикатора 3;
- словарь рубрикатора 4.
Их описание представлено в таблицах 3.1 – 3.13 соответственно.
Таблица 3.1 – Таблица «Статьи»
Первичный ключ | Атрибуты | Тип данных | Описание |
Код газеты | Числовой | Длина 2 символа | |
Код региона | Числовой | Длина 8 символов | |
Код статьи | Счетчик | Последовательное значение | |
Уникальный ключ | Наименование | Текстовый | Длина 150 символов |
Ключевые слова | Текстовый | Длина 255 символов | |
Текст | Поле MEMO | ||
Дата | Дата/время | Краткий формат даты | |
Автор | Текстовый | Длина 150 символов | |
Файл | Текстовый | Длина 255 символов | |
Классифицировано | Логический | Истина/ложь |
Таблица 3.2 – Таблица «Газета»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код газеты | Числовой | Длина 2 символа |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.3 – Таблица «Регион»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код региона | Числовой | Длина 8 символов |
Наименование региона | Текстовый | Длина 150 символов |
Таблица 3.4 – Таблица «Отрасль»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код статьи | Числовой | Длинное целое |
Код отрасли | Числовой | Длинное целое |
Таблица 3.5 – Таблица «Справочник отраслей»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код отрасли | Числовой | Длинное целое |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.6 – Таблица «Рубрики»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код рубрики | Числовой | Длинное целое |
Код статьи | Числовой | Длинное целое | |
Уровень рубрики | Числовой | Длинное целое |
Таблица 3.7 – Таблица «Классификация»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код статьи | Числовой | Длинное целое |
Код рубрики | Числовой | Длинное целое | |
Уровень рубрики | Числовой | Длинное целое | |
По названию статьи | Числовой | Длинное целое | |
По ключевым словам | Числовой | Длинное целое | |
По тексту статьи | Числовой | Длинное целое | |
Результат | Текстовый | Длина 50 символов |
Таблица 3.8 – Таблица «Рубрикатор 1»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_1 | Счетчик | Последовательное значение |
Индекс_1 | Числовой | Длинное целое | |
Наименование_1 | Текстовый | Длина 150 символов |
Таблица 3.9 – Таблица «Рубрикатор 2»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_2 | Счетчик | Последовательное значение |
Индекс_2 | Числовой | Длинное целое | |
Наименование_2 | Текстовый | Длина 150 символов | |
Код_1 | Числовой | Длинное целое |
Таблица 3.10 – Таблица «Рубрикатор 3»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_3 | Счетчик | Последовательное значение |
Индекс_3 | Числовой | Длинное целое | |
Наименование_3 | Текстовый | Длина 150 символов | |
Код_2 | Числовой | Длинное целое |
Таблица 3.11 – Таблица «Рубрикатор 4»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_4 | Счетчик | Последовательное значение |
Индекс_4 | Числовой | Длинное целое | |
Наименование_4 | Текстовый | Длина 150 символов | |
Код_3 | Числовой | Длинное целое |
Таблица 3.12 – Таблица «Словарь рубрикатора 3»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_3 | Числовой | Длинное целое |
Слова | Текстовый | Длина 255 символов |
Таблица 3.13 – Таблица «Словарь рубрикатора 4»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код_4 | Числовой | Длинное целое |
Слова | Текстовый | Длина 255 символов |
Данные таблицы объединены в инфологическую модель, схема которой представлена на рисунке 3.4.1.
Рисунок 3.4.1 – Инфологическая модель базы
Иерархия заполнения таблиц базы представлена на рисунке 3.4.2.
Рисунок 3.4.2 – Иерархия заполнения таблиц базы
4 МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
4.1 Математическая постановка задачи классификации информационных сообщений СМИ
Пусть дано множество статей Х, множество ключевых слов статьи W и множество названий статей A. Каждое множество описывается своим набором элементов:
X = {x1, x2, …, xc},
где xi – i- я статья;
c – количество статей;
W = {w1, w2, …, wc},
где wi – строка ключевых слов i-ой статьи,
;A = {a1, a2, … ac},
где ai– название i-ой статьи,
.Имеется рубрикатор, состоящий из четырех уровней:
R1 = {r11, r12, … r1k},
где k – количество элементов рубрикатора 1;
R2 = {r21, r22, … r2l},