Где
Следующая операция заключается в нахождении значения k, для которого выполняется соотношение, являющееся основанием разбиения множества естественным образом. Этой цели служит неравенство:
Может оказаться, что в ряду вычисленных отношений приведенное неравенство будет выполнятся несколько раз. В этом случае вводится дополнительное условие. Оно позволяет выбрать лучшее из двух естественных разбиений
Перед описанием этого метода дадим геометрическую модель для простейшего случая двумерного пространства. Единицы исследуемого множества характеризуются только двумя признаками и изображаются точками на плоскости. Тогда их можно представить как множество точек
Для выполнения дальнейших преобразований необходимо знать некоторую величину
Дальнейшее разбиение производится подобным же образом, но число элементов множества уменьшается за счет элементов первого подмножества
|
|
Рис.2.6 Разбиение множества единиц, характеризуемых двумя признаками.
На рис. 2.6 показано расположение пяти точек-единиц. Поскольку эти единицы описываются только двумя признаками, их можно поместить на плоскости. После вычерчивания кругов и подсчета числа точек в них не трудно убедится, что первое подмножество образуют точки- единицы заштрихованного круга.
Опишем теперь общий порядок действий, относящихся к пространству произвольной размерности.
Пусть дано множество
Затем подсчитывается число точек
Если обозначить через
Дальнейшие действия производятся таким же самым образом , только относятся не ко всем объектам, а лишь к тем, которые остались после исключения первого подмножества. Это значит, что при дальнейшем выделении подмножеств рассматривается множество
Описанная процедура, очевидно, продолжается до момента полного исчерпания множества
Теперь осталось выяснить проблему, связанную с оценкой величины
В первом
Во втором
Величина
В результате применения рассмотренного метода получаются подмножества, однородные в смысле изотропности, т.е. подмножества точек-данных, которые расположены в многомерном пространстве так, что по форме облако рассеивания больше похоже на шар чем на эллипсоид.
С точки зрения потребностей экономического моделирования подобные подмножества представляют собой результат искусственного , навязанного, а не естественного разбиения исследуемой совокупности объектов. При таком способе разбиения существует потенциальная возможность разделить действительно однородные объекты. Подобное нежелательное разбиение может возникнуть вследствие того, что в значениях признаков присутствуют обе компоненты( структуры и потенциала).
2.3 Метод корреляционных плеяд.
Метод корреляционных плеяд самый первый из эвристических методов классификации данных и он наименее формализован. Выглядит этот метод очень трудоемким особенно это становится явным при достаточно большом числе объектов.
Преимущество этого метода в том что он учитывает все связи он не отбрасывает как два предыдущих метода «не нужную информацию». Исторически метод корреляционных плеяд применяется и используется до сих пор к матрицам корреляции. Но в принципе технику этого метода можно применить и получить корректные данные на матрицах расстояний.
Осуществляется следующим образом:
В матрице коэффициентов корреляции выбирается максимальный по абсолютной величине коэффициент корреляции( не считая диагональных). Пусть им оказался