Предмет и объект прикладной информатики (стр. 23 из 34)

С помощью OLAP сервера может быть организовано физическое хранение обработанной многомерной информации, что позволяет быстро выдавать ответы на запросы пользователя. Кроме того, предусматривается преобразование данных из реляционных и других баз в многомерные структуры в режиме реального времени.

В таблице 3 приведены сравнительные характеристики различных моделей управления данными:

Таблица 3

Характеристики	Реляционные СУБД OLTP	Реляционные СУБД СППР/Хранилища данных	Многомерные СУБД OLAP
Типовая операция	Обновление	Отчет	Анализ
Уровень аналитических требований	Низкий	Средний	Высокий
Экраны	Неизменяемые	Определяемые пользователем	Определяемые пользователем
Объем данных на транзакцию	Небольшой	От малого до большого	Большой
Уровень данных	Детальные	Детальные и суммарные	В основном суммарные
Сроки хранения данных	Только текущие	Исторические и текущие	Исторические, текущие и прогнозируемые
Структурные элементы	Записи	Записи	Массивы

В архитектуре, одновременно использующей реляционные и многомерные системы, данные хранятся на OLAP-сервере или OLAP-структуры используются в качестве кэша для реляционных данных.

Многомерные базы данных

Появились равномерно с реляционными подходом. Реально многомерных СУБД очень мало. Полчком послужило 12 требований кода и систем класса OLAP. Многомерная СУБД является усреднено специальной и предназначены для интерактивной аналитической обработки данных.

Агригируемость - рассмотрение информации на различных уровнях её обобщения (аналитик, оператор, руководитель)

Историчность- предполагается высокий уровень статичности не изменяемости данных и их привязка ко времени.

Прогнозируемость - задания функции прогнозирования и применения к различным интревалам

Многомерность - модели данных означает не многомерность реализации данных, а многомерное логическое представление структуры информации. Многомерное более наглядно и информировано чем простая модель. Её размерность более 2, то визуализация в гиперкубах и мегаразмерах. Пользователю удобнее иметь дело с многомерной моделью. Данные представляются в виде вырезок из многомерной модели.

Основные понятия: измерение-множество однозначных данных образующих график гипер куба. Показатель-ячейка-поле значения которого однозначно определяется фиксированным набором. Тип поля-числовой. В зависимости от того как формируется значение ячейки, она может быть переменной. Значения могут загружаться их переменных источников, либо может быть формула: гиперкубическая, полекубическая. Полекубическая-может быть применено несколько гипер кубов, с различной размерностью и с различным измерением разности грани.

Гипер кубическая схема-все показатели определяются 1 и тем же набором измерений: средой, вращением, агрегацией, детализацией.

Среда-подмножество гипер куба, полученное в результате фиксации 1 или нескольких измерений.

Вращение- применяется при 2 мерном представлении данных и заключается в измененном порядке измерений

Агрегация-переход к большому общему

Дотализация- переход к большому детальному представлению информации.

Назначение хранилищ данных — предоставление пользователям информации для статистического анализа и принятия управленческих решений.

Хранилища данных должны обеспечивать высокую скорость получения данных, возможность получения и сравнения так называемых срезов данных, а также непротиворечивость, полноту и достоверность данных.

OLAP (On-Line Analytical Processing) является ключевым компонентом построения и применения хранилищ данных. Эта технология основана на построении многомерных наборов данных — OLAP-кубов, оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные.

Приложения с OLAP-функциональностью должны предоставлять пользователю результаты анализа за приемлемое время, осуществлять логический и статистический анализ, поддерживать многопользовательский доступ к данным, осуществлять многомерное концептуальное представление данных и иметь возможность обращаться к любой нужной информации.

Документальные информационно-поисковые системы. Информационно-поисковые языки. Система индексирования

Информационно-поисковая система (ИПС) - автоматизированная поисковая система, реализованная на средствах вычислительной техники и предназначенная для нахождения и выдачи ее пользователям информации по заданным критериям.

ИПС представляет собой совокупность информационно-поискового языка, программных средств и правил перевода текстов на этот язык (индексирования), а также обеспечения поиска необходимых документов и/или данных.

Поисковый образ документа получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ. Состоит из:

Банк данных - автоматизированная информационная система централизованного хранения и коллективного использования данных.

Информационный запрос - в широком смысле - текст, выражающий информационную потребность.

Поиск информации - в узком смысле - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу).

Информационно-поисковые системы делятся на два типа.

Фактографическая информационная поисковая система -это система, где, объектом или сущностью есть то, что представляет интерес (сотрудник, договор, изделие и т.п.). хранятся не документы, а факты, относящиеся к какой-либо предметной области.

Документальные (документографические) ИПС объектом сохранения и обработки есть собственно документы.. Хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа.

Компоненты:

• массив документов (текстов) или фактов, выступающих в качестве объектов хранения и поиска;

• информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;

• правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операция над ними на информационно-поисковом языке;

• комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;

• обслуживающий персонал, включающий администраторабанка документов, системных аналитиков, программистов и индексаторов.

Банки документов работают обычно в двух режимах:1) избирательного распределения информации, информирование пользователей банка о новых поступлениях документов;2) ретроспективного поиска информации по разовым запросам во всем массиве документов.

Важнейший этап обработки слагается из следующих действий:

1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных потребностей пользователя системы);

2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получения соответствующего поискового образа документа (ПОД).

Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы: • классификационные языки;•дескрипторные;• комбинированные.

Языки классификационного типа: • ИПЯ иерархической структуры;• ИПЯ фасетной структуры;• эмпирические (неиерархические) языки.

Классификационные системы. В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным.

Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны на методе координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной точностью и полнотой выражено списком ключевых слов, содержащихся в тексте

Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.

По области или по сфере применения информационно-поисковых языков можно выделить:

1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);