Hi=Si | S1 | S2 | S3 | S4 | S5 | S6 | S7 |
С(S4, Si) | 0,44 | 0,60 | 0 | 1 | 0,75 | 0,25 | 0,67 |
C(S5, Si) | 0,55 | 0,5 | 0,73 | 0,75 | 1 | 0,60 | 0,55 |
Ш а г 4. Определяется мера сходства классов G (Н, Н^) одним из методов, описываемых обобщенной формулой (5.6). Используем метод медианы. Тогда
С учетом метода медианы имеем
Hi=Si | S1 | S2 | S3 | S4, S5 | S6 | S7 |
С(S4,5, Si) | 0,50 | 0,55 | 0,37 | 1 | 0,43 | 0,61 |
Полученный массив данных вписывается на место четвертой и пятой строк и четвертого и пятого столбцов вновь формируемой матрицы сходства. Наша исходная матрица сходства примет следующий вид:
S1 | S2 | S3 | S4,5 | S6 | S7 | |
S1 | 1 | 0,62 | 0,50 | 0,55 | 0,55 | 0,5 |
S2 | 0,62 | 1 | 0,46 | 0,55 | 0,50 | 0,62 |
S3 | 0,50 | 0,46 | 1 | 0,37 | 0,73 | 0,33 |
S4,5 | 0,50 | 0,55 | 0,37 | 1 | 0,43 | 0,61 |
S6 | 0,55 | 0,50 | 0,73 | 0,43 | 1 | 0,36 |
S7 | 0,50 | 0,62 | 0,33 | 0,61 | 0,36 | 1 |
На данном шаге запоминаются значения индексов вновь образованного класса (S4,5) и меры сходства, при которой этот класс образовался, — С (S4, S5) = 0,75.
Шаг 5. Процедура обработки матрицы сходства вновь начинается с шага 2. Итерационный процесс продолжается до тех пор, пока размерность матрицы сходства не уменьшится до 2 х 2. На этом процесс построения иерархической классификации заканчивается.
В результате работы алгоритма определяются перечень индексов классов в том порядке, в котором они объединялись в новые классы, а также уровни сходства, на которых это объединение происходило. Для рассматриваемого примера имеем следующие результаты:
Полученные результаты используются для построения дендрограмм. Дендрограмма делает наглядной структуру иерархической классификации. В данном примере (рис. 5.4) наибольшим сходством обладают классы S4 и S5, наименьшим — классы Н5 = {S1, S2, S4, S5, S7} и Н2= {S3, S6}.
Мера сходства на основе экспертной оценки
Для повышения точности определения сходства исследуемых объектов меру сходства можно формировать на основе экспертной оценки.
Экспертная оценка сходства объектов проводится двумя способами.
Способ 1. Для рассматриваемых объектов первоначально определяется множество признаков {fij }.
На основе множеств признаков и рассматриваемых объектов для последних строится матрица образов, в которой принадлежность признака объекту Si отображается единицей, а отсутствие — нулем (табл. 5.10).
Таблица 5.10
Матрица образов анализируемых объектов
Все значения каждого признака сравниваются попарно экспертом, который формирует матрицы сходства признаков. Далее составляются матрицы сходства объектов по каждому признаку и на их основе рассчитывается интегральная матрица сходства. Значения мер сходства объектов интегральной матрицы определяются по выражению
где Cl (Si, Sj) — значение меры сходства двух объектов по l-му признаку;
rl(Si, Sj) — весовой коэффициент l-го признака, характеризующий его вклад в интегральное значение меры сходства
т — число признаков, по которым оценивается сходство объектов.
Значение Сl (Si, Sj) определено в интервале {0...1}, причем Cl(Si, Sj) = 1 при i =j.
Способ 2. Мера сходства между альтернативами устанавливается экспортно по одному или нескольким критериям качества, таким, как качество выполнения основных функций, надежность, технологичность, экологичность, эстетичность и т. д.
Вычисление интегрального значения меры сходства альтернатив по нескольким критериям качества осуществляется по технологии, аналогичной той, которая использовалась в первом способе. Отличие состоит лишь в том, что во втором способе индекс l=1,т в формуле (5.7) обозначает принадлежность к l-му критерию качества, а т-число критериев качества, учитываемых в рассмотрении.
Экспертные методы оценки меры сходства объектов позволяют проводить более точный анализ по сравнению с методом, основанным на обработке качественных бинарных признаков. Однако экспертные методы требуют привлечения высококвалифицированных специалистов, что не всегда бывает возможно, а также существенно повышают время предварительного анализа объектов. Поэтому при анализе большого числа объектов (сотни или тысячи единиц) со значительным числом признаков, характеризующих эти объекты, целесообразно проводить различные классификационные построения в два этапа. На первом этапе, не используя экспертные методы оценки сходства, проводить грубое усечение исходного множества объектов, а на втором — выполнять более тонкие исследования, применяя экспертные методы оценки мер сходства (различия) объектов.
Обработка количественных признаковых образов
В работе [6] введено понятие дескриптивных множеств и определены меры пересечения и объединения двух множеств {S1 и S2) для случая применения количественных данных:
где п — число признаков, представляющее объединение множеств признаков двух текущих сравниваемых описаний объектов Sjи Sk.
При учете данного подхода многие меры сходства, различия, включения и т. д. можно определять для описаний, состоящих из количественных признаков.
Пусть дано два объекта S1 и S2, которые охарактеризованы экспортно по множеству критериев качества: К1 — надежность, К2 — технологичность, К3 — стоимость, К4 — компактность. Описания объектов имеют следующие количественные значения критериев:
Требуется найти меры сходства и включения описаний S1 и S2.
Из приведенных примеров видно, что при определении числа пересечений двух множеств подсчитывается сумма минимальных значений, образующих эти множества, а при определении числа элементов множества — суммируются все его значения.
Определение оригинальных и типовых систем
На основе матриц сходства и включения можно установить наиболее типовые системы или, напротив, наиболее оригинальные. Выявление указанных закономерностей осуществляется методом определения правого собственного вектора указанных матриц.