Смекни!
smekni.com

Анализ, синтез, планирование решений в экономике (стр. 43 из 65)

Множество И есть иерархическая система, состоящая из S уров­ней. Номеру каждого уровня можно поставить в соответствие его ранг, так как К— упорядоченное множество, а названия всех клас­сов одного ранга считать категорией.

При практической реализации иерархических классификаций строятся дендрограммы, являющиеся графическим способом изображения системы, что делает наглядной структуру иерархи­ческой системы. Последовательный процесс построения сгуще­ний начинается с рассмотрения q объектов {q Î H(1)). Таким образом, на первом шаге каждый объект из заданного множества считается классом. Далее два наиболее схожих объекта объе­диняются в один класс, и общее число последних становится равным q -1. Эти классы принадлежат разбиению H(2), являюще­муся сгущением Н(1). Если число схожих объектов п, то объеди­няются любые два из них. Среди оставшихся снова отыскивают­ся наиболее схожие, которые также объединяются. Аналогичные процедуры осуществляются до тех пор, пока все объекты не попадут в один класс H(S).

Одним из наиболее распространенных и простых подходов построения дендрограмм является подход, основанный на исполь­зовании матрицы сходства.

Определение сходства каждого вновь образованного класса со всеми остальными может производиться на основе матриц сходства шестью наиболее употребительными методами, которые опи­сываются единой формулой:

где G(Hj,Hk) — мера сходства или различия классов Hj и Hk = и ,Hl}.

Здесь nu, nk — число объектов соответственно u-го и k-го клас­сов; пk = nu + nl.

Конкретный метод подбирается проектировщиком индивиду­ально для исследуемой предметной области с учетом ее специфи­ки. Единых правил выбора не существует. Главным критерием для выбора метода классификации может являться хорошая интерпре­тируемость получаемых результатов, не противоречащих физичес­кому смыслу изучаемой предметной области.

Обобщенные алгоритмы классификационных построений

Алгоритм построения матриц отношений сходства и вклю­чения. Этот алгоритм отличается для указанных двух мер лишь методом расчета значений матриц сходства и включения.

Шаг 1. Формируются два множества: множество исследуе­мых объектов J = { S1, S2,..., Sq} и множество признаков Z = { Z1, Z2,..., Zp}. Каждый объект Si описывается подмножеством призна­ков {Zi} Î Z, являющимся качественным признаковым образом. Все образы объектов систематизируются в матрицу образов, где представляются индексированными множествами (табл. 5.5).

Шаг 2. Генерируются все парные сочетания объектов, и для каждой пары описаний объектов Si и Sj строится индексная матрица В = ║ xij ║; i =

; j =
; где р — число строк матрицы образов, соответствующее числу рассматриваемых признаков m(Z). На основе индексной матрицы рассчитываются меры сходства C(Si, Sj) или включения W(Si, Sj). Для определения меры сходства может быть использована одна из формул, приведенных в табл. 5.4. Расчет мер включения осуществляется по формулам (5.5).

Таблица 5.5

Пример матрицы образов

Например, для пары объектов S1 и S2 (см. табл. 5.5) меры сход­ства и включения имеют следующие значения:

Шаг 3. На основе рассчитанных на шаге 2 значений мер сход­ства и включения (см. табл. 5.5) строятся соответствующие мат­рицы размерностью q x q (табл. 5.6, 5.7).

Матрица мер сходства симметрична относительно главной ди­агонали, а матрица мер включения таким свойством в общем слу­чае не обладает. В приведенной матрице включения число 0,57 (первый столбец и вторая строка) соответствует W(S1; S2), а число 0,67 (второй столбец и первая строка) соответствует W(S2, S1). Таким образом, индекс при названии первого множества в скоб­ках указывает номер столбца, а второго — номер строки матрицы включения. При построении матрицы сходства индекс при первом множестве в мере сходства указывает номер строки матрицы, а при втором — номер столбца.

Шаг 4. Задается отношение сходства или включения в следу­ющем виде:

где Δ — произвольное число (0 £ Δ £ 1,0); i, j Î J.

Для заданного значения Δ строится матрица сходства [СΔ] или включения [BΔ], в которой все значения, большие или равные Δ, заменяются единицами, а оставшиеся — нулями.

Примеры матриц [С0,60] и [B0,67] Для значений Δ ³ 0,60 и Δ ³ 0,67 приведены в табл. 5.8, 5.9.

Матрицы [С0,60] и [B0,67] отображены соответствен­но графами и орграфами отношений сходства и включений (рис 5.3). Дуги и стрелки соединяют те объекты, которые имеют единицу на пересечении соответствующих строк и столбцов матриц.

Направление стрелки в графе отношений включе­ния устанавливается таким образом, что она начинает­ся в вершине графа, соответствующей Si-му объекту, принадлежа­щему i-й строке матрицы, и заканчивается в Sj объекте, принад­лежащем j-му столбцу матрицы. При этом Si-й и Sj-й объекты дол­жны быть связаны отношением включения, т. е. иметь на пересече­нии Si-го и Sj-го объектов в матрице отношений включения единицу. Чем больше стрелок входит в тот или иной объект, тем более он оригинален по сравнению с другим объектом. Например, наиболее оригинальным является объект S2, так как в него входят три стрел­ки (рис. 5.3б).

При практическом использовании выше приведенных отноше­ний величину Δ находят путем перебора серии значений, добива­ясь при этом установления всех существенных связей.

Алгоритм построения иерархической классификация (дендрограммы)

Приводимый здесь алгоритм построения иерархической клас­сификации основан на анализе значений матрицы сходства. Ана­логично проводится построение иерархической классификации на основе меры различия. Рассмотрим пошаговую обработку дан­ных для построения дендрограммы сходства с иллюстрацией ряда процедур на примерах в целях лучшего понимания алгоритма.

Шаг 1. Определяются два множества: множество исследуе­мых объектов J= {S1, S2, ..., Sq} и множество признаков Z = {Z1, Z2, ..., Zp}. Экспертно формируются индексированные множества по каждому объекту. Строится матрица сходства

где Sij значение меры сходства объекта Si с объектом Sj;

q число анализируемых объектов.

Последующую иллюстрацию алгоритма осуществим на примере матрицы сходства {см. табл. 5.6).

Шаг 2. Просматриваются все элементы матрицы сходства [С], расположенные выше главной диагонали. Определяется и метится элемент, имеющий максимальное значение меры сходства С (Si, Sj)max (данный элемент не принадлежит к элементам главной диагонали). Для рассматриваемой матрицы сходства таким эле­ментом является С (S4, S5) = 0,75. Если в матрице сходства более одного элемента с одинаковым максимальным значением, то от­бирается и метится любой их них.

Шаг 3. Определяются номера i-й строки j-го столбца, на пересечении которых расположен отмеченный на шаге 2 элемент. Из матрицы сходства извлекаются все значения, соответствующие i-й строке и j-му столбцу, из которых формируются два массива значений мер сходства: