Смекни!
smekni.com

Методические указания для студентов Москва 2005 удк 681. 3 (стр. 1 из 8)

Финансовая академия при Правительстве РФ

Н.В.Катаргин

ОПЕРАТИВНАЯ АНАЛИТИЧЕСКАЯ

ОБРАБОТКА ДАННЫХ

OLAP.

ИНТЕЛЛЕКТУАЛЬНЫЕ

ИНФОРМАЦИОННЫЕ СИСТЕМЫ

Методические указания для студентов

Москва 2005


УДК 681.3

Рецензенты:

Доктор экономических наук, профессор, зав.кафедрой ИТУ и ВТ Академии труда и социальных отношений В.Н.Квасницкий

Доцент кафедры ВТ и ПМ Московского государственного агроинженерного университета им.В.П.Горячкина Т.И.Воловник

Катаргин Н.В.

Оперативная аналитическая обработка данных OLAP.

Интеллектуальные информационные системы.

Методическое пособие для студентов – 26 с.

Описан новый подход к оперативной аналитической обработке данных - On-Line Analytical Processing (OLAP), основанный на предварительном отборе информации из баз данных, проведении обработки и структуризации данных и расчетных величин в виде многомерных кубов. Рассмотрены различные технологии создания многомерных хранилищ данных и программные средства для создания и использования кубов в СУБД SQL Server и Excel. Рассмотрены интеллектуальные информационные системы, в том числе экспертные системы и интеллектуальный анализ данных совместно с OLAP.


Введение

В 1970 году Е.Ф.Кодд (E.F.Codd) опубликовал ряд статей, в которых заложил основы алгебры отношений, или реляционной алгебры, послужившей основой для создания реляционных баз данных, как настольных (dBase, FoxPro, Paradox, Access), так и серверных: Oracle, SQL Server, MySQL, SyBase, Informix и др., в которых данные размещаются в двумерных таблицах. Поиск и обработка данных по нескольким таблицам обеспечиваются путем связывания полей таблиц, содержащих одинаковые атрибуты отображаемых в базе данных объектов. Обычно в одной из таблиц связываемое поле является ключевым, что обеспечивает непротиворечивость данных в различных таблицах. В реляционных базах данных накопилось огромное количество информации, алгоритмы ее обработки и требования к скорости и удобству аналитической обработки данных выросли, что потребовало нового подхода и программного обеспечения. В 1993 году Кодд предложилновый подход к аналитической обработке данных - On-Line Analytical Processing (OLAP), основанный на предварительном отборе информации из баз данных, проведении математической обработки и структуризации данных и расчетных величин в виде многомерных кубов, в которых значение каждого элемента данных зависит не от двух индексов, как в двумерной таблице (номер строки и номер столбца), а от нескольких. Трехмерный куб можно себе представить как набор двумерных таблиц, индексы каждого элемента данных при этом - номер строки, номер столбца и номер таблицы. Четырехмерный куб представить себе уже невозможно, но математические методы и программные средства позволяют эффективно с ними работать. Заметим, что в OLAP-кубах не соблюдаются требования нормализации таблиц реляционных баз данных: в них можно размещать расчетные значения (агрегаты). Отбор данных из OLAP-куба геометрически можно представить как его сечение плоскостью или более сложной поверхностью.

В последние годы принят ряд концепций хранения и анализа корпоративных данных:

1) Хранилища данных, или Склады данных (Data Warehouse);

2) Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP) ;

3) Интеллектуальный анализ данных - ИАД (Data Mining).

Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки - Data Mining. Поэтому наилучшим вариантом является комплексный подход к их внедрению.

В настоящее время программные средства для использования OLAP-технологии имеются в пакетах серверных реляционных СУБД Oracle, SQL Server и др., а также в Excel и в клиентских приложениях, создаваемых с помощью Delphi, C++Builder, Visual Basic. Суммарный объем рынка OLAP, включая расходы на разработку программных продуктов, в конце 90-х г.г. составлял несколько миллиардов долларов, а темпы роста составляли 40% в год.

1. Способы аналитической обработки данных

Понятие об идеологии Клиент-Сервер. Современные информационные технологии основаны на компьютерных сетях: глобальной сети Internet, локальных сетях и виртуальных корпоративных сетях, использующих для связи между удаленными подразделениями фирмы городские телекоммуникации.

Обычно обработку данных проводят по схеме “Клиент-Сервер”, представленной на Рис.1. При этом данные хранятся в мощном компьютере - сервере, а компьютер пользователя (клиент) может иметь минимальные ресурсы, вплоть до мобильного телефона с выходом в Internet по протоколу GPRS. В компьютере пользователя должна быть программа-клиент, обеспечивающая передачу запросов от программы пользователя через линию связи машине-серверу, прием ответов и их передачу программе пользователя для визуализации. В машине-сервере должна быть программа-сервер, обеспечивающая прием запросов от клиентов и их передачу системе управления базой данных (СУБД) для выполнения, а также передачу ответов клиентам.


Данные Программа

СУБД Сервер пользователя Клиент
Сервер Клиент
Линия связи

Рис.1. Обработка данных по схеме Клиент-Сервер

Информационно-аналитические системы поддержки принятия решения (СППР) являются одним из видов информационных систем и развиваются уже полвека. Системы поддержки принятия решений в финансовой сфере – одно из направлений развития информационных технологий, вызывающее особый интерес российских банков. Причина очевидна – расширение спектра услуг и усложнение правил игры на финансовом рынке требуют систематизации информации и углубленного анализа с целью оптимизации оперативной деятельности, определения тактических действий и разработки стратегии развития. В частности, были сформулированы требования к совершенствованию информационной системы банка:

· необходимость анализа показателей деятельности банка, определяющих принятие управленческих решений на различных уровнях;

· возможность исторического анализа показателей за любой временной период;

· повышенные требования к возможностям динамического анализа, включая нерегламентированные отчеты, различные виды представления информации в виде таблиц и диаграмм, агрегирование данных по любым разрезам, использование методов прогнозирования и моделирования, гибкие средства формирования производных показателей на основе базовых, выполнение анализа по сценариям “что-если” и др.

· получение показателей на основе данных, накапливающихся в различных структурах банка, при этом процесс анализа показателей не должен сказываться на производительности и без того достаточно загруженных оперативных систем.

· необходимость сравнения и/или согласования данных, полученных из разных оперативных систем и внешних источников.

В основе современного подхода к информационному обеспечению СППР лежит идея интегрированного хранилища данных, обеспечивающего единый логический взгляд и доступ к информации, разбросанной по разнообразным оперативным системам организации и поступающей из внешних источников. При этом существенно, что данные в хранилище имеют исторический характер, т.е. обеспечивается интеграция не только разнородных источников, но и архивных данных, возникающих в процессе функционирования той или иной оперативной системы.

Данные из оперативных систем и внешних источников подвергаются различным преобразованиям, согласованию и загружаются в централизованное хранилище, которое содержит всю информацию, необходимую для всевозможных процессов принятия решений, но оно не ориентировано на выполнение тех или иных прикладных функций и с этой точки зрения является нейтральным по отношению к приложениям. Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки. Для информационного обеспечения отдельных функционально замкнутых задач используются так называемые витрины данных, в которые информация попадает либо из хранилища (зависимые витрины) либо непосредственно из источников данных, проходя предварительные согласования и преобразования (независимые витрины). Витрины данных строятся на основе реляционных или, что более популярно, многомерных СУБД. Дело в том, что для решения большинства задач анализа оказываются полезными принципы многомерной модели данных и соответствующие им многомерные базы данных.

Ранее были разработаны информационно-аналитические системы в расчете на непосредственное использование лицами, принимающими решения – простые в применении, но жестко ограниченные в функциональности. Такие статические системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS) . Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, не предусмотреный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических СППР, за которую активно борется большинство заказчиков информационно-аналитических систем, оборачивается катастрофической потерей гибкости.