Смекни!
smekni.com

Дискриминантный анализ (стр. 2 из 3)

Рис. 1. Выполнение дискриминантного анализа.

Формулирование проблемы
Первый шаг дискриминантного анализа — формулирование проблемы с помощью определения целей, зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует в первую очередь перевести в статус категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать исходя из теоретической модели или уже проведенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя.

Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выборка (analysis sample) — используется для вычисления дискриминантной функции.

Анализируемая выборка (analysis sample)Часть общей выборки, которую используют для вычисления дискриминантной функции.

Другая часть — проверочная выборка (validation sample) — предназначена для проверки дискриминантной функции.

Проверочная выборка (validation sample)Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки.

Когда выборка достаточно велика, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она аналогична методу, рассмотренному в регрессионном анализе.

Часто распределение количества случаев в анализируемой и проверочной выборках следует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны содержать каждая по 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять неоднократно. Каждый раз выборку следует разбивать на две части — для анализа и проверки. Вычисляют дискриминантную функцию и выполняют анализ достоверности модели. Таким образом, оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы.

Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся к примеру. Предположим, что мы хотим определить главные характеристики семей, которые отдыхали на курорте в последние два года. Данные получены на основании выборки, включающей 42 семьи. Из них 30 включены в анализируемую выборку, а оставшиеся 12 тали частью проверочной выборки.

№п.п Посещение курорта Ежегодный доход семьи (тыс. долл.) Отношение к путешествию Значение, придаваемое семейному отдыху Размер семьи Возраст главы семьи Сумма, потраченная семьей на отдых
1 1 50,2 5 8 3 43 С (2)
2 1 70,3 6 7 4 61 Б(3)
3 1 62,9 7 5 6 52 Б(3)
4 1 48,5 7 5 5 36 М(1)
5 1 52,7 6 6 4 55 Б(3)
6 1 75,0 8 7 5 68 Б(3)
7 1 46,2 5 3 3 62 С (2)
8 1 57,0 2 4 6 51 С (2)
9 1 64,1 7 5 4 57 Б(3)
10 1 68,1 7 6 5 45 Б(3)
11 1 73,4 6 7 5 44 Б(3)
12 1 71,9 5 8 4 64 Б(3)
13 1 56,2 1 8 6 54 С (2)
14 1 49,3 4 2 3 56 Б(3)
15 1 62,0 5 6 2 58 Б(3)
16 2 32,1 5 4 3 58 М(1)
17 2 36,2 4 3 2 55 М(1)
18 2 43,2 2 5 2 57 С (2)
19 2 50,4 5 2 4 37 С (2)
20 2 44,1 6 6 3 42 С (2)
21 2 38,3 6 6 2 45 М(1)
22 2 55,0 1 2 2 57 С (2)
23 2 46,1 3 5 3 51 М(1)
24 2 35,0 6 4 5 64 М(1)
25 2 37,3 2 7 4 54 М(1)
26 2 41,8 5 1 3 56 С (2)
27 2 57,0 8 3 2 36 С (2)
28 2 33,4 6 8 2 50 М(1)
29 2 37,5 6 2 3 48 М(1)
30 2 41.3 3 3 2 42 М(1)

Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).

Определение коэффициентов дискриминантной функции
После определения анализируемой выборки мы можем вычислить коэффициенты дискриминантной функции, используя два метода. Прямой метод (direct method) — вычисление дискриминантной функции при одновременном введении всех предикторов.

Прямой метод (direct method). Метод дискриминантного анализа, в котором дискриминантную функцию вычисляют при одновременном введении всех предикторов.

В этом случае учитывается каждая независимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы. Альтернативным методом будет пошаговый метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вводят последовательно, в зависимости от их способности различить (дискриминировать) группы.

Пошаговый дискриминантный анализ (stepwise discriminant analysis)Дискриминантный анализ, при котором предикторы вводятся последовательно, в зависимости от их способности различить группы.

Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию. Коэффициент X (f-статистика) и f-критерий для одномерной выборки с одной и 28 степенями свободы.

Переменная Коэффициент X Уилкса Значение F Значимость
Доход 0,45310 33,80 0,0000
Путешествие 0,92479 2,277 0,1425
Отдых 0,82377 5,990 0,0209
Размер семьи 0,65672 14,64 0,0007
Возраст 0,95441 1,338 0,2572

Структурная матрица
Объединенная корреляционная матрица между дискриминирующими переменными и каноническими дискриминантными функциями (переменные расположены в соответствии с размером корреляции внутри функции)

Функция 1
Доход 0,82202
Размер семьи 0,54096
Отдых 0,34607
Путешествие 0,21337
Возраст 0,20922
Группа Функция 1
Доход 0,8476710Е-01
Путешествие 0.4964455Е-01
Отдых 0,1202813
Размер семьи 0,4273893
Возраст 0.2454380Е-01
(Константа) -7,975476

Некоторые результаты можно получить, изучив групповые средние и стандартные отклонения. Маркетологи обнаружили, что в деление совокупности на две группы самый большой вклад внесла переменная «Доход». Кроме того, оказалось, что переменная «Значение, придаваемое семейному отдыху», важнее для различения групп, чем переменная «Отношение к путешествию». По возрасту главы семьи две группы различаются мало, а стандартное отклонение этой переменной большое.

Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффициенты корреляции между предикторами. Маловероятно, что возникнет проблема мультиколлинеарности. Значимость одномерных f-статистик (отношений внутригрупповых сумм квадратов к общей сумме квадратов) указывает, что когда предикторы рассматриваются по отдельности, то только доход, а также значение, придаваемое семейному отдыху, и размер семьи значимо различаются между семьями, которые посетили курорт, и между теми, кто не отдыхал на курорте.

Поскольку имеется две группы, оценивается только одна дискриминантная функция. Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреляция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 = 0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется этой моделью. Следующая стадия дискриминантного анализа включает определение значимости дискриминантной функции.

Определение значимости дискриминантной функции
Бессмысленно интерпретировать результаты анализа, если определенные дис-криминантные функции не будут статистически значимыми. Поэтому следует выполнить статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных функций во всех группах генеральной совокупности. В программе SPSS эта проверка базируется на коэффициенте X Уилкса. Если одновременно проверяют несколько функций, как в случае множественного дискриминантного анализа, то коэффициент X является суммой одномерных X для каждой функции. Уровень значимости оценивают исходя из преобразования F-статистики в статистику хи-квадрат (исходя из распределения X-квадрат, которому подчиняется F-статистика). При проверке значимости в примере с посещением курорта можно отметить, что X, равная 0,3589, преобразуется в хи-квадрат-статистику, равную 26,13 с пятью степенями свободы. Она значима при уровне, превышающем 0,05. В программе SAS вычисляют приближенную F-статистику, основанную на апроксимации к распределению отношения правдоподобия. В программе BMDP проверка нулевой гипотезы базируется на преобразовании Х- статистики Уилкса в F-статистику. В Minitab нельзя выполнить проверку значимости. Если нулевую гипотезу отклоняют, что указывает на значимую дискриминацию, то можно приступать к интерпретации результатов.