ИАД (Data Mining) – это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.
В общем случае процесс ИАД состоит из трёх стадий (рис. 9):
1) выявление закономерностей (свободный поиск);
2) использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);
3) анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.
Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).
Рис.9. Стадии процесса интеллектуального анализа данных
Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными:
· Исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.
· Информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (нетрактуемыми).
Две эти группы и примеры входящих в них методов представлены на рис. 10.
Рис. 10. Классификация технологических методов ИАД
Оперативная аналитическая обработка и интеллектуальный анализ данных – две составные части процесса поддержки принятия решений. Но сегодня большинство систем OLAP заостряет внимание только на обеспечении доступа к многомерным данным, а большинство средств ИАД, работающих в сфере закономерностей, имеют дело с одномерными перспективами данных. Эти два вида анализа должны быть тесно объединены, то есть системы OLAP должны фокусироваться не только на доступе, но и на поиске закономерностей. Как заметил N. Raden, "многие компании создали прекрасные хранилища данных, идеально разложив по полочкам горы неиспользуемой информации, которая сама по себе не обеспечивает ни быстрой, ни достаточно грамотной реакции на рыночные события". Предложены несколько вариантов интеграции двух технологий:
· "Cubing then mining". Возможность выполнения интеллектуального анализа должна обеспечиваться над любым результатом запроса к многомерному концептуальному представлению, то есть над любым фрагментом любой проекции гиперкуба показателей.
· "Mining then cubing". Подобно данным, извлечённым из хранилища, результаты интеллектуального анализа должны представляться в гиперкубической форме для последующего многомерного анализа.
· "Cubing while mining". Этот гибкий способ интеграции позволяет автоматически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа (перехода между уровнями обобщения, извлечения нового фрагмента гиперкуба и т. д.).
К сожалению, очень немногие производители предоставляют сегодня достаточно мощные средства интеллектуального анализа многомерных данных в рамках систем OLAP. Проблема также заключается в том, что некоторые методы ИАД (байесовские сети, метод k-ближайшего соседа) неприменимы для задач многомерного интеллектуального анализа, так как основаны на определении сходства детализированных примеров и не способны работать с агрегированными данными.
Рис. 11. Архитектура системы многомерного интеллектуального анализа данных
В отличие от данных знания предполагают описание связей между данными и алгоритмы обработки данных. Предполагается, что исходные знания способны порождать новые знания в соответствии с запросами пользователя к системе. Охарактеризуем основные свойства знаний:
1) Внутренняя интерпретация, т.е. хранение в памяти не только данных, но и их описаний – метаданных, например, заголовков таблиц.
2) Внутренняя структура связей. Предполагается, что в качестве информационных единиц используются не отдельные данные, а их упорядоченные определенными отношениями (родовидовыми, причинно-следственными и др.) структуры. Эти отношения называются классифицирующими.
3) Внешняя структура связей – связи объектов между собой.
4) Шкалирование – упорядочение информационных единиц путем измерения интенсивности отношений и свойств.
5) Семантическая метрика позволяет соотносить понятия, к которым неприменимы количественные шкалы.
6) Активность – получение новых знаний на основе существующих.
Знания можно классифицировать по различным основаниям:
· По способу существования различают факты (хорошо известные обстоятельства) и эвристики (знания из опыта экспертов.
· По способу использования: факты, правила принятия решений, описание знаний – метазнания.
· По формам представления: декларативные (факты в виде наборов структурированных данных) и процедурные (алгоритмы в виде процедур обработки фактов).
· По способу приобретения: научные и житейские, бытовые.
Сравнительно новая модель представления знаний – фреймовая. Фрейм – это минимальная структура информации, необходимая для представления знаний о стереотипных классах объектов, явлений, ситуаций, процессов и др. с помощью фреймов можно моделировать знания о самых разнообразных объектах интересующей исследователя предметной области – важно лишь. Чтобы эти объекты составляли класс концептуальных (повторяющихся, стереотипных) объектов, процессов и др. По содержательному смыслу фрейма выделяют фреймы-понятия, фреймы-меню и фреймы с иерархически вложенной структурой.
В настоящее время среди всех систем искусственного интеллекта наибольшее развитие получили экспертные системы (ЭС) –до 90%. ЭС – это программная система, выполняющая действия, аналогичные тем, которые выполняет эксперт в некоторой прикладной предметной области, делая определенные заключения в ходе выдачи советов и консультаций. Эксперты поставляют информацию (знания) для ЭС, и она выдает решения, аналогичные тем, которые формулируют эксперты.
Огромный интерес к ЭС обусловлен тремя основными обстоятельствами:
· ЭС ориентированы на решение широкого круга задач в ранее неформализуемых областях, которые считались малодоступными для использования ЭВМ;
· ЭС предназначены для решения задач в диалоговом режиме со специалистами, от которых не требуется знания программирования – это резко расширяет сферу использования вычислительной техники, которая в данном случае выступает как инструментподдержки памяти специалиста и усиления его способностей к логическому выводу;
· Специалист, использующий ЭС для решения своих задач, может достигать, а иногда и превосходить по результатам возможности экспертов в данной области знаний, что позволяет резко поднять его квалификацию.
Основные области применения ЭС: медицинский диагноз и консультации, программирование и анализ программ, проектирование интегральных схем, обучение, диагностика и рекомендации по ремонту оборудования, анализ данных (в том числе OLAP) и планирование, интерпретация геологических данных и рекомендации по обнаружению полезных ископаемых, космические исследования, рекомендации по синтезу химических соединений, анализ рисков в экономике и политике.
Структура типовой ЭС представлена на рис.12.
Рис.12. Структура экспертной системы