Несмещенные оценки элементов ковариационной матрицы Σ есть
(1.3)Cледовательно, можно определить
и по l выборкам в каждом классе при помощи (1.2), (1.3), получив оценки, точку х необходимо отнести к классу, для которой функция f(х) максимальна.Необходимо ввести предположение, что все классы, среди которых должна проводиться дискриминация, имеют нормальное распределение с одной и той же ковариационной матрицей Σ.
В результате существенно упрощается выражение для дискриминантной функции.
Класс, к которому должна принадлежать точка х, можно определить на
основе неравенства
(1.4)Необходимо воспользоваться формулой (1.1) для случая, когда их ковариационные матрицы равны:
, а ( есть вектор математических ожиданий класса i. Тогда (1.4) можно представить неравенством их квадратичных форм (1.5)Если имеется два вектора Z и W, то скалярное произведение можно записать
. В выражении (1.5) необходимо исключить справа и слева, поменять у всех членов суммы знаки. Теперь преобразоватьАналогично проводятся преобразования по индексу i. Необходимо сократить правую и левую часть неравенства (1.5) на 2 и, используя запись квадратичных форм, получается
(1.6)Необходимо ввести обозначения в выражение (1.6):
Тогда выражение (1.6) примет вид
Следствие: проверяемая точка х относится к классу i, для которого линейная функция
(1.8)Преимущество метода линейной дискриминации Фишера заключается в линейности дискриминантной функции (1.8) и надежности оценок ковариационных матриц классов.
Пример
Имеются два класса с параметрами
и . По выборкам из этих совокупностей объемом n1n2 получены оценки и . Первоначально проверяется гипотеза о том, что ковариационные матрицы равны. В случае если оценки и статистически неразличимы, то принимается, что и строится общая оценка , основанная на суммарной выборке объемом n1+n2 , после чего строится линейная дискриминантная функция Фишера (1.8).2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ ПРИ НОРМАЛЬНОМ ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ
Имеются две генеральные совокупности Х и У, имеющие трехмерный нормальный закон распределения с неизвестными, но равными ковариационными матрицами.
Алгоритм выполнения дискриминантного анализа включает основные этапы:
1. Исходные данные представляются либо в табличной форме в виде q подмножеств (обучающих выборок) Mk и подмножества М0 объектов подлежащих дискриминации, либо сразу в виде матриц X(1), X(2), ..., X(q), размером (nk×p):
Таблица 1
Номер подмножества Mk (k = 1, 2, ..., q) | Номер объекта, i (i = 1, 2, ..., nk) | Свойства (показатель), j (j = 1, 2, ..., p) | |||
x1 | x2 | … | x0 | ||
Подмножество M1 (k = 1) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
n1 | … | ||||
Подмножество M2 (k = 2) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
n2 | … | ||||
… | … | … | … | … | … |
Подмножество Mq (k = q) | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
nq | … | ||||
Подмножество M0, подлежащее дискриминации | 1 | … | |||
2 | … | ||||
… | … | … | … | … | |
m | … |
где X(k) - матрицы с обучающими признаками (k = 1, 2, ..., q),
X(0) матрица новых m-объектов, подлежащих дискриминации (размером m×p),
р — количество свойств, которыми характеризуется каждый i-й объект.
Здесь должно выполняться условие: общее количество объектов N множества М должно быть равно сумме количества объектов m (в подмножестве M0), подлежащих дискриминации, и общего количества объектов
в обучающих подмножествах: , где q - количество обучающих подмножеств (q≥2). В реальной практике наиболее часто реализуется случай q=2, поэтому и алгоритм дискриминантного анализа приведен для данного варианта.