Хранилища данных
(курс лекций)
СОДЕРЖАНИЕ
Эволюция корпоративных информационных систем.. 3
Ориентированность на предметную область. 7
Хранилище данных (в узком смысле) 10
Оперативный склад данных (Operational Data Store - ODS) 10
Подсистема загрузки данных. 12
Подсистема обработки запросов и представления данных. 12
Подсистема администрирования хранилища. 13
Методика (методология) построения хранилищ данных. 13
Системно-аналитическое обследование. 14
Автоматизируемые процессы и функции. 15
Информационное обеспечение. 16
Выбор метода реализации Хранилищ данных. 19
Некоторые термины и понятия. 32
Типичная структура хранилищ данных. 34
OLAP на клиенте и на сервере. 41
Технические аспекты многомерного хранения данных. 42
Условные сокращения и обозначения. 45
Список использованных источников. 47
Эффективное управление крупным и средним бизнесом сегодня немыслимо без применения передовых информационных технологий — систем поддержки принятия решений (СППР).
Процесс управления сводится к решению 3 задач:
· Где мы находимся?
· Куда мы хотим прийти?
· Как мы туда попадем?
Процесс управления — итерационный характер (принятие решения — применение управляющего воздействия — оценка состояния системы — оценка правильности выбранного решения — при наличии отклонений снова принятие решения).
Современные информационные технологии позволяют аналитику формулировать и решать следующие классы:
· Аналитические (вычисление заданных показателей и статистических характеристик).
· Визуализация данных
· Добыча знаний (data mining —проверка статистических гипотез, кластеризация, нахождение ассоциаций и временных шаблонов и т.п.)
· Имитационные (проведение на ЭВМ экспериментов на моделях, описывающих поведение сложных систем, например, в интервалы времени для анализа возможных последствий принятия того или иного решения)
· Синтез управления (для определения допустимых управляющих воздействий, обеспечивающих достижение заданной цели, оценка достижимости цели, определение множества возможных управляющих воздействий)
· Оптимизационные (интеграция имитационных, управленческих, оптимизационных и статистических методов моделирования и прогнозирования, выбор наиболее эффективного решения).
Однако в настоящее время нет информационных средств для решения всех задач в комплексе.
Бизнес — это сложный объект, который состоит из множества различных по свойствам подсистем, между которыми действует большое число разнородных связей. В кибернетике такие объекты получили название сложных систем, а методы их изучения — системным анализом (эта наука развивается с начала 40-х гг. в период 2-й мировой войны).
Общая с точки зрения теории познания триада имеет вид:
Гипотеза — модель — решение.
Гипотеза — это открытие, которое является новым положением, осуществляется на основе интуиции (из глубин человеческого подсознания, сформированного на основе личного опыта).
По гипотезе строится модель — формальное математическое описание — и находится решение. Полученное решение проверяется в эксперименте (отвергается или принимается). В результате получается знание, которым можно руководствоваться в практике.
Проблемы (в бизнесе):
1. динамичное изменение экономической ситуации, что мешает применять накопленный опыт, не успевает вырабатываться интуиция.
2. в условиях свободного рынка нет возможности проводить целенаправленные эксперименты.
В настоящее время актуальна разработка и использование комплексного ПО, реализующего задачи 1, 2 и 3-го классов. Сейчас стремительно развиваются OLAP- технологии.
Сейчас более 100 крупных производителей программ включились в конкуренцию.
OLAP — это инструменты оперативного анализа данных, содержащихся в хранилище, которые предназначены для общения аналитика с проблемой, а не с компьютером.
Эволюция корпоративных информационных систем
Развитие предприятий происходило без стратегического плана, снизу вверх по мере осознания необходимости автоматизации того или иного участка производства.
Условия для автоматизации — появление:
· информационных технологий
· аппаратно-программных средств
· людских ресурсов
· бюджетных средств.
В большинстве компаний имеются информационные системы (ИС) на базе СУБД и обслуживают повседневную деятельность отделов компании.
Такие ИС получили название транзакционных или OLТP (On-Line Transactions Processing).
Накопление больших объемов данных в последнее время сделали актуальными прикладные задачи, предназначенные для извлечения, сбора и представления конечному пользователю информации, необходимой для анализа текущего состояния дел и прогноза будущего решения. Такие ИС получили название систем поддержки принятия решений. Исторически первыми такими системами стали ИС руководителя (EIS — Executive Information Systems).
Существует два подхода к интеграции корпоративной информации:
· децентрализованное объединение источников (схема спагетти) (рис.1а)
· централизованное объединение источников (рис.1б)
(рис.1а) (рис.1б)
Второй подход стимулировал появление технологии хранилищ данных, позволяющей извлекать, преобразовывать и представлять информацию из общей кучи данных.
Основная цель хранилищ — создание единого логического представления данных, содержащихся в разнотипных БД или в единой модели корпоративных данных.
Хранилища данных (Datawarehouse) и оперативный анализ данных (On-LineAnalyticalProcessing, OLAP) – новые информационные технологии, которые обеспечивают аналитикам, управленцам и руководителям высшего звена возможность изучать большие объемы взаимосвязанных данных при помощи быстрого интерактивного отображения информации на разных уровнях детализации с различных точек зрения в соответствии с представлениями пользователя о предметном пространстве.
Еще лет пять назад мало, кто слышал об этих технологиях. Сегодня хранилища данных и OLAP становятся неотъемлемой частью современных корпоративных систем поддержки принятия решений. Это одно из наиболее динамично развивающихся направлений индустрии создания программного обеспечения.
Концепция информационных хранилищ, зародилась в 80-х годах в недрах IBM. Идея хранилищ данных обязана своим развитием многим людям. Хотя эту идею предвосхищали в своих работах многие исследователи, можно смело утверждать, что первой публикацией, посвященной именно хранилищам данных, была статья Девлина (Devlin) и Мэрфи(Murphy) , вышедшая в 1988 году. В 1992 году Уильям Г.Инмон(William H. Inmon), который был техническим директором компании Prism и написал монументальную монографию «Building the Data Warehouse» («Построение хранилищ данных»), в которой дал определение хранилища данных:
Опр.: Хранилище данных — это предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений.
Имеются 2 определения хранилищ данных:
В узком смысле: по Инмону.
В широком:
Хранилище данных — ориентированная на поддержку управленческих решений автоматизированная система, состоящая из организационной структуры, технических средств, базы или совокупности базы данных (БД) и ПО, которое выполняет, как правило, следующие функции:
· извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище;
· администрирование данных и хранилища;
· извлечение данных из хранилища, аналитическая обработка и представление данных конечным пользователям.
Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным» (см., например, Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», John Wiley & Sons, 2000). Он же сформулировал и основные требования к хранилищам данных:
Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, с помощью хранилища данных.