3. простота и доступность процедур кластерных методов распознавания образов позволяет сосредоточить внимание исследователя на содержании сложных многофакторных объектов;
4. методы кластерного анализа позволяют накапливать знания с помощью информации, полученной в результате каждого эксперимента (измерения), выполненного в ходе использования кластерной модели. При этом характеристики кластеров могут корректироваться этими новыми знаниями, благодаря чему идет их накопление на каждой итерации (повторении).
Помимо всего этого, кластерный анализ позволяет сокращать размерность данных, делать ее наглядной; так же может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.
Сочетание таких характеристик делает аппарат кластерного анализа незаменимым инструментом в задачах управления, классификации, оптимизации и прогноза промышленных, экономических и социальных систем.
Существенно затрудняет работу при использовании кластерного анализа лишь то, что развивался он параллельно сразу в нескольких направлениях, таких как психология, биология и др., поэтому у большинства методов существует по два и более названий.
Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний - широко используемые таксономии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Так же широкое применение кластерного анализа присутствует в маркетинговых исследованиях в истории, географии, экономике, филологии, искусствоведении,
36. Задача кластеризации
Задача кластерного анализа состоит в разбиении неоднородного множества, состоящего из каких-либо элементов, имеющих сходные измерения, на группу подмножеств, каждое из которых признается условно однородным. При этом основополагающую роль играет изучение различий между элементами множества, разными объектами, подмножествами, множествами.
На основе функций близости (схожести) элементов возможно несколько способов решения задач классификации:
1. Исследователь может задать заранее известные ему характеристики исследуемых множеств или кластеров и после этого сформировать граничные условия этих кластеров, обозначив их контуры и целевые функции. Далее каждый элемент исходного неоднородного множества проверяется на близость каждому кластеру и в результате присоединяется к одному из них. Однако интуитивное определение кластеров не совсем корректно, так как объекты зачастую имеют большое количество взаимозависимых функций, в результате чего часть обозначенных первоначально кластеров может оказаться пустыми или же возможна неоднородность большинства характеристик внутри кластера.
2. Кластеры могут быть определены в автоматическом режиме в процессе нейтрального изучения функций расстояния. В этом случае рассматриваются некоторые сгущения объектов, проводятся границы между получившимися сгущениями, и, таким образом, определяются кластеры. Полученные в автоматическом режиме кластеры анонимны, не изучены и требуют определения наиболее существенных характеристик кластеров в процессе разделения исходного множества.
3. Исследователь может задать определенные критерии оптимальности, исходя из которых, решением задачи кластерного анализа может быть некоторая структура групп. Эти критерии, заданные целевыми функциями, определяют содержание кластеров, их характеристики, количество групп и факторов управления. В качестве целевой функции можно принять максимальную плотность элементов внутри групп или минимум отклонений от ядра группы, т. е. наименьшее расхождение характеристик.
Для решения задач кластерного анализа необходимо количественно определить меру сходства, подобия и различия объектов исследования. Эта мера в кластерном анализе называется функцией расстояния и определяется не только для объектов, имеющих естественные количественные характеристики, но и для тех объектов, параметры которых носят качественный характер.
37. Понятие кластера
Само название метода – кластерный анализ – этимологически берет начало от слов «класс», «классификация». Английское слово «the cluster» имеет значения: группа, пучок, куст, гроздь, т.е. объединение каких-то однородных явлений. В данном контексте оно близко к математическом понятию «множество». Кластер представляет собой множество условно однородных (схожих) элементов (объектов). Степень однородности (сходства) может быть различной и определяется целями классификации.
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных. Кластеры могут быть перекрывающимися. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными. Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам.
Радиус кластера - максимальное расстояние точек от центра кластера.
Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.
Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом пространстве по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство – это область варьирования всех признаков совокупности изучаемых явлений.
38. Функции расстояния (различия, несходства)
Если уподобить признаковое пространство обычному пространству, имеющему евклидову метрику, то тем самым можно получить возможность измерять «расстояния» между точками признакового пространства.
Наиболее распространенной функцией расстояния между двумя объектами по некоторому признаку является расстояние в метрике Евклида или евклидово расстояние.
Метрика Евклида позволяет не учитывать знаковые различия, пропорционально увеличивает расстояние между объектами в случае разных абсолютных значений показателей. В результате увеличивается размерность кластерного поля, объекты искусственно отдаляются друг от друга, в результате чего границы между кластерами становятся более четкими и точными.
Второй по значимости функцией расстояния принято считать метрику несхожести Хемминга.
Метрика Хемминга может использоваться в тех случаях, когда знаковые различия характеристик объектов имеют принципиальное значение. За счет нивелирования знаковых различий показателей объекты оказываются сконцентрированными к области ядра кластера, но при этом утрачиваются важные знаковые характеристики различий.
Так же существуют следующие функции расстояния:
1. L-норма
2. норма – верхняя граница
3. функция Махаланобиса
Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.
4. функция Джеффриса-Сатуситы
5. коэффициент дивергенции.
39. Дистанционный коэффициент (Эвклидово расстояние)
Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
расстояние(x,y) = {∑i (xi - yi)2 }1/2
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится,
40. Информационные признаки, используемые при кластеризации
Особенностью информационного сопровождения задач, решаемых методами кластеризации, является возможность использования практически любой информации об объектах исследования: формализованной и записанной в произвольной форме, объективной и субъективной, непосредственно измеренной или полученной косвенными путями, систематизированной и хаотичной - причем любая информация представляет определенную ценность для исследования. Такую разнородную и неструктурированную информацию об изучаемых объектах правомерно считать сложным множеством, требующим декомпозиции, шкалирования и нормирования для последующей кластеризации, структурного и содержательного анализа.