Смекни!
smekni.com

Применение кластерного анализа для сегментации рынка (стр. 2 из 2)

Метод средней связи (average linkage) действует аналогично. Однако в этом методе расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров.

Широко известным дисперсионным методом, используемым для этой цели, является Метод Варда (Ward'sprocedure) Дисперсионный метод, в котором кластеры формируют таким образом, чтобы минимизировать квадраты евклидовых расстояний до кластерных средних. Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вычисляют квадраты евклидовых расстояний до кластерных средних. Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два кластера с наименьшим приростом в полной внутрикластерной дисперсии.

В центроидных методах (centroid method) расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных). Центроидный метод (centroid method) Дисперсионный метод иерархической кластеризации, в котором расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных). Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Варда показывают наилучшие результаты по сравнению с другими методами.

К другому типу процедур кластеризации относятся неиерахические методы кластеризации (nonhierarchical clustering), часто называемые методом k-средних. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение. В последовательном пороговом методе (sequential threshold method) выбирают центр кластера и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают новый кластерный центр, и процесс повторяют для несгруппированных точек. После того как объект помещен в кластер с этим новым центром, его уже не рассматривают как объект для дальнейшей кластеризации.

Аналогично работает параллельный пороговый метод (parallel threshold method), за исключением того, что одновременно выбирают несколько кластерных центров и объекты в пределах порогового уровня группируют с ближайшим центром.

Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соответствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий, такой как среднее внутри кластерное расстояние для данного числа кластеров. Два главных недостатка неиерархических методов состоят в том, что число кластеров определяется заранее и выбор кластерных центров происходит независимо. Более того, результаты кластеризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают первые k случаев (k — число кластеров), не пропуская никаких значений в качестве начальных кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использовать при большом числе объектов или наблюдений, Высказано предположение о возможности использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное решение по кластеризации получают, используя такие иерархические методы, как метод средней связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов используют в качестве исходных данных в методе оптимизирующего распределения. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадраты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Некоторые из неиерархических методов также используют квадраты евклидовых расстояний.

3.4 Принятие решения о количестве кластеров

Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых правил, позволяющих быстро принять решение, но можно руководствоваться следующим.

1. При определении количества кластеров руководствуются теоретическими и практическими соображениями. Например, если цель кластеризации — выявление сегментов рынка, то менеджмент может захотеть получить конкретное число кластеров.

2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры/

3. В неиерархической кластеризации чертят график зависимости отношения суммарной внутригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров. Увеличение числа кластеров за эту точку обычно безрезультативно.

4. Относительные размеры кластеров должны быть достаточно выразительными.

3.5 Интерпретация и профилирование кластеров

Интерпретация и профилирование кластеров включает проверку кластерных центроидов. Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку. Если компьютерная программа кластеризации не выдаст такую информацию, ее можно получить через дискриминантный анализ.

Часто имеет смысл профилировать кластеры через переменные, которые не явились основанием для кластеризации. Эти переменные могут включать демографические, психографические характеристики, использование продукта или другие переменные. Например, кластеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осуществляют через демографические или психографические переменные, чтобы определить маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся между кластерами, можно идентифицировать дискриминантным анализом и однофакторным дисперсионным анализом.

3.6 Оценка надежности и достоверности

Имея несколько умозаключений, выведенных из кластерного анализа, не следует принимать никакого решения по кластеризации, не выполнив оценку надежности и достоверности этого решения. Формальные процедуры оценки надежности и достоверности решений кластеризации достаточно сложны и не всегда оправданы поэтому мы их опустим. Однако следующие процедуры обеспечат адекватную проверку качества кластерного анализа.

1. Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием различных способов измерения расстояния. Сравните результаты, полученные на основе разных мер расстояния, чтобы определить, насколько совпадают полученные результаты.

2. Используйте разные методы кластерного анализа и сравните полученные результаты.

3. Разбейте данные на две равные части случайным образом. Выполните кластерный анализ отдельно для каждой половины. Сравните кластерные центроиды двух подвыборок.

4. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по сокращенному набору переменных. Сравните результаты с полученными на основе полного набора переменных.

5. В неиерархической кластеризации решение может зависеть от порядка случаев в наборе данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабильного решения.

Вывод

Кластерный анализ является очень удобным средством для выделения сегментов рынка. В особенности в наш век высоких технологий, когда на помощь человеку приходят машины, и столь трудоемкий процесс становиться буквально секундным делом.

Образование сегментов зависит от имеющихся данных, а не определяется заранее.

Переменные, которые являются основанием для кластеризации, следует выбирать, исходя из опыта предшествующих исследований, теоретических предпосылок, проверяемых гипотез, а также по усмотрению исследователя. Кроме того, следует выбрать соответствующую меру расстояния (сходства). Особенность иерархической кластеризации — разработка иерархической или древовидной структуры. Иерархические методы кластеризации могут быть агломеративными или дивизивными. Агломеративные методы включают: метод одиночной связи, метод полной связи и метод средней связи. Широко распространенным дисперсионным методом является метод Барда. Неиерархические методы кластеризации часто называют методами k-средних. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение. Иерархические и неиерархические методы можно применять совместно. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны.

Решение о числе кластеров принимают по теоретическим и практическим соображениям. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объединение кластеров. Относительные размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроидов. Часто интерпретировать кластеры помогает их профилирование через переменные, которые не лежали в основе кластеризации. Надежность и достоверность решений кластеризации оценивают разными способами.