Таблица 5.2
Представление знаний об альтернативе в виде множества классификационных признаков
5.4. Кластерный анализ морфологических множеств
Основы кластерного анализа систем
Для выявления закономерностей строения сложных систем целесообразно в первую очередь собранные данные разложить "по полочкам", классифицировать. Вопросы кластерного анализа рассмотрены в учебнике А. М. Дуброва, В. С. Мхитаряна, Л. И. Трошиной [З].
Стремление собрать похожие объекты "в кучу" вполне понятно, поскольку именно классификация помогает исследователю ориентироваться в огромном многообразии объектов и тем самым является средством экономии памяти. В общем виде классификации позволяют, с одной стороны, относить объекты к одному из классов, а с другой — формировать сами "образы", число которых заранее может быть неизвестно.
Таким образом, анализ структуры данных — необходимый этап проводимых исследований. Особую актуальность классификационные построения приобретают при разработке новых информационных технологий, предназначенных для исследования сложных систем.
Рассмотрению подлежат в основном детерминистские методы построения и исследования систем-классификаций, основанные на качественных и количественных признаках.
Системы-классификации
Система определяется как непустое множество объектов (или несколько таких множеств), между которыми установлены некоторые отношения. Таким образом, в системе набор элементов рассматривается как целостное единство, обладающее интегративными свойствами и противостоящее окружению или среде.
Система может быть представлена пятеркой:
Если хотя бы один член пятерки изменяется во времени или пространстве, то система называется динамичной, в противном случае — статичной.
Системы-классификации — это результат классификационных построений на множествах объектов. Примерами таких систем могут являться множество описаний объектов с заданным отношением эквивалентности, т.е. принадлежности к одному и тому же классу; множество классов с заданным отношением иерархии; множество классификаций с заданным отношением доминирования и т.д. В приведенных примерах указаны системы-модели, т.е. некоторые абстрактные аналоги реальных систем, которые значительно проще последних по большинству аспектов, исключая самые важные для конкретного рассмотрения. Системы-классификации сочетают субъективные и объективные начала, так как человек при классификационных построениях учитывает лишь ограниченное число признаков из бесконечного числа возможных. Таким образом, для бесконечного набора, которым обладает реальный объект, существует также бесконечное множество вариантов выбора ограниченных наборов.
Следовательно, если множество признаков, учитываемое на объектах, является системой описания, а множество значений каждого из учитываемых признаков на конкретных объектах — описанием этих объектов, то аналоги-модели объектов (в частности, системы-классификации) — это системы множеств, каждое из которых есть описание. Система-модель С = С ( I, R, A(S), A(ps) , A(SP) ) является образом системы-оригинала С' = С ( I', R', А(S')), A(RS'), A(SR')). Отображение множества С' на множество С является гомоморфным, если С имеет тот же состав, что и С' (обратное неверно). Из сказанного видно, что система-модель содержит меньшее число элементов и связей, чем система-оригинал, но все элементы и связи, которые имеются в модели, правильно копируют прототип.
Для выбора "правильной модели" не существует формальной процедуры, она определяется целями классификационных построений и уровнем знаний конкретного исследователя.
Основные этапы построения и исследования систем-классификаций
Первым этапом классификационных построений является глубокое проникновение в суть рассматриваемых явлений и выбор соответствующего принципа классификации.
Второй этап — установление списка признаков и их значений, подлежащих учету на отдельных объектах. В список включаются признаки, наиболее полно характеризующие изучаемые объекты в смысле заданной цели. Из рассмотрения исключаются признаки, имеющие слабые разделительные свойства.
Третий этап — отбор репрезентативной выборки объектов и производство измерений.
Четвертый этап — выбор отношений на множестве описаний объектов; мер, порождающих отношения; решающих правил и критериев эффективности. Здесь же производятся вычисления.
Пятый этап — построение и анализ структурной схемы системы, в которой связи между элементами соответствуют выполнению отношений между ними. Способом представления структурных схем являются графы и дендрограммы.
Шестой этап — интерпретация полученных результатов, т. е. перенос полученных утверждений с системы-модели на систему-прототип.
Первые три этапа построения систем-классификаций составляют творческую часть процедуры классификации, которая целиком зависит от исследователя и не может быть формализована.
На четвертом и пятом этапах классификации требуется перерабатывать большой объем информации по определенным правилам логики. В связи с этим актуальной становится задача формализации процедур на этих этапах и реализации их в виде компьютерных систем.
Виды измерений
Системы, подлежащие классификации, изучаются прежде всего относительно наличия у них характерных свойств или состояний, которые отражаются различными признаками. Значения признаков могут измеряться с различной точностью.
Для измерения признаков применяются шкалы наименований, порядка, отношений, балльные, интервалов.
При использовании шкалы наименований указывается только, одинаковы или нет объекты относительно измеряемого признака.
Порядковые или ранговые признаки сравниваются только по отношению "больше — меньше".
Более точные измерения предполагают и большее число значений. В этом случае используются балльные шкалы. Значения балльной шкалы представляют собой ограниченный дискретный ряд чисел, отстоящих друг от друга на одинаковом расстоянии.
При дальнейшем увеличении точности измерений число значений можно увеличивать, доводя его до максимально осуществимого.
Условно все виды оценок делят на качественные и количественные. В соответствии с рекомендациями, приведенными в работе [4], качественными можно считать только те из них, которые измеряются в шкале наименований.
Формализация обработки качественных признаков
Множество вариантов, систематизированных в морфологических таблицах, может быть отражено списком качественных признаков. Список признаков, определяющий вариант морфологического множества, представляет его признаковый образ. Количество признаковых образов и собственно признаков, используемое в конкретном исследовании, может быть достаточно большим. Это делает морфологическое множество труднообозримым и малодоступным для анализа на умозрительном уровне.
Более четкие результаты могут быть получены при использовании математических методов, специально предназначенных для сжатия информации и количественной характеристики интегрированных свойств анализируемого материала.
Множество образов вариантов систем может быть представлено как матрица, имеющая q столбцов и р строк (порядка p х q), причем номеру столбца соответствует наименование системы Sj (j = 1, 2, ... , q), а номеру строки — название признака Zi (i =1, 2,..., р). В ряде случаев номеру строки ставится в соответствие значение признака. Информационным содержанием матриц являются указания о присутствии или отсутствии каждого из учитываемых признаков в рассматриваемых системах. При этом если i-й признак присутствует в j-й системе, то на пересечении i-й строки и j-ro столбца помещается "1", в противном случае — "0".
Любой j-й столбец матрицы назовем описанием j-й системы, любую i-ю строку — описанием i-го признака. В терминах теории множеств
Формула (5.1) читается: семейство множеств S, состоящее из всех Sj, таких, у которых элементы j принадлежат множеству J. Аналогично семейство множеств
есть индексированное множество, а I — индексное множество:
Индексация позволяет различать множества, состоящие из одинаковых элементов.
Пример матрицы образов представлен в табл. 5.3.
Таблица 5.3
Матрица образов как семейство множеств
S1 | S2 | S3 | … | Sq | |
Z1 | 0 | 1 | 0 | … | 1 |
Z2 | 1 | 1 | 0 | … | 1 |
Z3 | 1 | 1 | 1 | … | 0 |
… | … | ... | ... | … | … |
Zp | 0 | 0 | 0 | 0 | 0 |
Семейство множеств S или Z с заданными на них отношениями можно рассматривать как системы, в которых связи между элементами образуют определенную структуру. Следовательно, содержание задач по обработке матриц образов систем включает подбор типов отношений и анализ структуры порождаемых ими систем.