С помощью OLAP сервера может быть организовано физическое хранение обработанной многомерной информации, что позволяет быстро выдавать ответы на запросы пользователя. Кроме того, предусматривается преобразование данных из реляционных и других баз в многомерные структуры в режиме реального времени.
В таблице 3 приведены сравнительные характеристики различных моделей управления данными:
Таблица 3
Характеристики | Реляционные СУБД OLTP | Реляционные СУБД СППР/Хранилища данных | Многомерные СУБД OLAP |
Типовая операция | Обновление | Отчет | Анализ |
Уровень аналитических требований | Низкий | Средний | Высокий |
Экраны | Неизменяемые | Определяемые пользователем | Определяемые пользователем |
Объем данных на транзакцию | Небольшой | От малого до большого | Большой |
Уровень данных | Детальные | Детальные и суммарные | В основном суммарные |
Сроки хранения данных | Только текущие | Исторические и текущие | Исторические, текущие и прогнозируемые |
Структурные элементы | Записи | Записи | Массивы |
В архитектуре, одновременно использующей реляционные и многомерные системы, данные хранятся на OLAP-сервере или OLAP-структуры используются в качестве кэша для реляционных данных.
Многомерные базы данных
Появились равномерно с реляционными подходом. Реально многомерных СУБД очень мало. Полчком послужило 12 требований кода и систем класса OLAP. Многомерная СУБД является усреднено специальной и предназначены для интерактивной аналитической обработки данных.
Агригируемость - рассмотрение информации на различных уровнях её обобщения (аналитик, оператор, руководитель)
Историчность- предполагается высокий уровень статичности не изменяемости данных и их привязка ко времени.
Прогнозируемость - задания функции прогнозирования и применения к различным интревалам
Многомерность - модели данных означает не многомерность реализации данных, а многомерное логическое представление структуры информации. Многомерное более наглядно и информировано чем простая модель. Её размерность более 2, то визуализация в гиперкубах и мегаразмерах. Пользователю удобнее иметь дело с многомерной моделью. Данные представляются в виде вырезок из многомерной модели.
Основные понятия: измерение-множество однозначных данных образующих график гипер куба. Показатель-ячейка-поле значения которого однозначно определяется фиксированным набором. Тип поля-числовой. В зависимости от того как формируется значение ячейки, она может быть переменной. Значения могут загружаться их переменных источников, либо может быть формула: гиперкубическая, полекубическая. Полекубическая-может быть применено несколько гипер кубов, с различной размерностью и с различным измерением разности грани.
Гипер кубическая схема-все показатели определяются 1 и тем же набором измерений: средой, вращением, агрегацией, детализацией.
Среда-подмножество гипер куба, полученное в результате фиксации 1 или нескольких измерений.
Вращение- применяется при 2 мерном представлении данных и заключается в измененном порядке измерений
Агрегация-переход к большому общему
Дотализация- переход к большому детальному представлению информации.
Назначение хранилищ данных — предоставление пользователям информации для статистического анализа и принятия управленческих решений.
Хранилища данных должны обеспечивать высокую скорость получения данных, возможность получения и сравнения так называемых срезов данных, а также непротиворечивость, полноту и достоверность данных.
OLAP (On-Line Analytical Processing) является ключевым компонентом построения и применения хранилищ данных. Эта технология основана на построении многомерных наборов данных — OLAP-кубов, оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные.
Приложения с OLAP-функциональностью должны предоставлять пользователю результаты анализа за приемлемое время, осуществлять логический и статистический анализ, поддерживать многопользовательский доступ к данным, осуществлять многомерное концептуальное представление данных и иметь возможность обращаться к любой нужной информации.
Документальные информационно-поисковые системы. Информационно-поисковые языки. Система индексирования
Информационно-поисковая система (ИПС) - автоматизированная поисковая система, реализованная на средствах вычислительной техники и предназначенная для нахождения и выдачи ее пользователям информации по заданным критериям.
ИПС представляет собой совокупность информационно-поискового языка, программных средств и правил перевода текстов на этот язык (индексирования), а также обеспечения поиска необходимых документов и/или данных.
Поисковый образ документа получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ. Состоит из:
Банк данных - автоматизированная информационная система централизованного хранения и коллективного использования данных.
Информационный запрос - в широком смысле - текст, выражающий информационную потребность.
Поиск информации - в узком смысле - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу).
Информационно-поисковые системы делятся на два типа.
Фактографическая информационная поисковая система -это система, где, объектом или сущностью есть то, что представляет интерес (сотрудник, договор, изделие и т.п.). хранятся не документы, а факты, относящиеся к какой-либо предметной области.
Документальные (документографические) ИПС объектом сохранения и обработки есть собственно документы.. Хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа.
Компоненты:
• массив документов (текстов) или фактов, выступающих в качестве объектов хранения и поиска;
• информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;
• правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операция над ними на информационно-поисковом языке;
• комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;
• обслуживающий персонал, включающий администраторабанка документов, системных аналитиков, программистов и индексаторов.
Банки документов работают обычно в двух режимах:1) избирательного распределения информации, информирование пользователей банка о новых поступлениях документов;2) ретроспективного поиска информации по разовым запросам во всем массиве документов.
Важнейший этап обработки слагается из следующих действий:
1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных потребностей пользователя системы);
2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получения соответствующего поискового образа документа (ПОД).
Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы: • классификационные языки;•дескрипторные;• комбинированные.
Языки классификационного типа: • ИПЯ иерархической структуры;• ИПЯ фасетной структуры;• эмпирические (неиерархические) языки.
Классификационные системы. В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным.
Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны на методе координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной точностью и полнотой выражено списком ключевых слов, содержащихся в тексте
Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.
По области или по сфере применения информационно-поисковых языков можно выделить:
1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);