Рассмотрим основные меры, порождающие отношения на множестве исследуемых систем.
Меры сходства и различия. Мерой сходства (близости) обычно называется величина С (Sj, Sk), имеющая предел и возрастающая с возрастанием близости объектов. Под мерой сходства будем понимать неотрицательную вещественную функцию С (Sj, Sk), обладающую следующими свойствами:
Здесь Sj, Sk — множества значений признаков, описывающие сравниваемые объекты. Мера, коэквивалентная мере сходства, называется мерой различия D (Sj, Sk) и обладает свойствами метрики, если:
Свойствами (5.2) обладает, в частности, континуум эквивалентных мер, представляемых формулой
Меры сходства и различия "изобретаются" по специальным правилам [4], а выбор конкретных мер зависит, в первую очередь, от суперзадачи — цели конкретного исследования, а также от шкалы измерений. В табл. 5.4 приведены наиболее распространенные меры сходства и различия для различных значений коэффициента и (5.3), предназначенные для обработки качественных и количественных признаков.
Вычисление значений меры сходства двух сравниваемых объектов по качественным признакам удобно производить на основе бинарной матрицы, которая в терминах теории множеств задается следующим образом:
Здесь S — индексированное множество с элементами Sj (алфавит описаний), Sj —j-e описание объекта; Z — индексированное множество с элементами Zi (алфавит признаков или значений признаков); Zi — i-й признак (значение признака); xiy — одно из двух значений {0, 1} i-гo признака y j-го объекта (xij = 1, если i-й признак есть у j-го объекта, в противном случае xij = 0); J и I— индексные множества.
Бинарная матрица для вычисления меры сходства между двумя объектами имеет следующий вид:
Вычисление меры сходства, например, по формуле Чекановского — Серенсена (см. табл. 5.4) с учетом бинарной матрицы (5.4) осуществляется по следующему выражению:
где xi1, xi2 — одно из двух значений {0, 1).
Рассмотрим правила вычисления количества элементов некоторых множеств, получаемых в результате операций над ними. Количество элементов множества S равно
где р — общее число элементов множества S;
xi — значение i-ro элемента множества S, при этом
Î S®xi = 1.Количество элементов пересечения двух множеств S1 Ç S2 равно
где xi1, xi2 — соответственно значения i-го элемента для множеств S1 и S2 .
Количество элементов объединения двух множеств S1 È S2 равно
Мера включения. Она отражает различную степень включения одного объекта в другой и позволяет выявить, какой из двух сравниваемых объектов содержит больше специфических признаков, т. е. определить, какой объект более оригинален, а какой — более типичен среди множества анализируемых объектов.
Меры включения множества S2 в множество S1 и S1 в S2 определяются следующим образом:
Меры включения несимметричны, а включение j-го описания в самом себе стопроцентно, так как
Для более полного анализа множеств исследуемых объектов рассчитываются меры сходства, различия и включения для всех пар объектов. Полученные после вычислений значения соответствующих мер сводятся в квадратные матрицы порядка q x g, номерами строк и столбцов которых являются номера изучаемых объектов.
Отношения мер сходства, включения и иерархии
Отношения мер сходства (различия), включения и иерархии позволяют при обработке множеств исследуемых объектов выявлять наиболее интересные закономерности строения анализируемых множеств. В общем случае под отношением понимается пара <А, М>, где М— множество, на котором отношение определено, а А — подмножество пар М x М, для которых это отношение выполнено. Множество М называется областью задания отношения А.
Отношения мер сходства и иерархии исследуются на основе матриц сходства множества рассматриваемых объектов, а отношения мер различия и включения исследуются на основе матриц мер различия и включения. При этом матрицы сходства и различия по определению соответствующих мер обладают свойством симметрии относительно главной диагонали, а матрицы мер включения таким свойством не обладают.
Отношения сходства, различия и включения, порождаемые соответствующими мерами, определяются следующим образом:
Здесь j, k Î J; СD, DD, BD —соответственно отношения сходства, различия и включения; D— некоторое произвольное число (0 £ D £ 1,0 для отношения сходства и включения). Записи Sj СD Sk и Sj BD Sk означают соответственно то, что Sj и Sk находятся в отношении "D-сходства" и "D-банальности". Отношение "банальности" или "экзотичности" порождается мерой включения. При этом запись Sj BD Sk означает, что описание Sj "банальнее" Sk при пороге D. Например, если рассчитанные для пары объектов меры включения имеют следующие значения: W(S1; S2) = 0,57, W(S2; S1)= 0,67, то эти результаты можно интерпретировать следующим образом. Мера включения первого описания во второе (0,67) показывает, что второй объект "оригинальнее", или "экзотичнее", первого. Т. e. описание второго объекта содержит больше специфических признаков, чем описание первого объекта, поскольку первое описание включено во второе на 67 %, а второе включено в первое на 57 %.
Отношение иерархии определяется следующим образом. Если множество H(i) образовано соединением некоторых классов из множества Н(i), то f: Н(i) ® Н(j) сюръективно: каждому элементу Н(i) соответствует хотя бы один элемент из Н(j). То обстоятельство, что класс появляется классом более широким, чем Н(j) отображается через отношение иерархии И следующим образом: Н(i) И Н(j) (класс H(i) подчиняет класс H(j)).
Множество H(i) называется сгущением H(j), если хотя бы один из классов H(i) есть соединение классов из H(j).
Если И = {Н(1),..., H(S)} есть множество разбиений, таких, что Н(k) сгущение Н(k-1), где k Î К, К = {k ½ k — целое число, 1 £ k £ S}, то в предельном случае Н(1) состоит из всех классов, содержащих ровно по одному элементу, a H(S) — из одного класса, совпадающего с исходным множеством исследуемых объектов J. При этом если задано разбиение, то элементы, входящие в один и тот же класс, являются неразличимыми (эквивалентными). Здесь под разбиением Н множества J понимается представление J в виде совокупности непустых подмножеств Hk, k = 1, 2,..., п , таких, что