Многомерный статистический анализ (стр. 9 из 9)

где

- функция стандартного нормального распределения вероятностей с математическим ожиданием 0 и дисперсией 1, а

- обратная ей функция.

Если классы описываются выборками из многомерных нормальных совокупностей с одинаковыми матрицами ковариаций, а для классификации применяется классический линейный дискриминантный анализ Р.Фишера, то величина

представляет собой состоятельную статистическую оценку так называемого расстояния Махаланобиса между рассматриваемыми двумя совокупностями (конкретный вид этого расстояния сейчас не имеет значения), независимо от порогового значения, определяющего конкретное решающее правило. В общем случае показатель

вводится как эвристический.

Пусть алгоритм классификации применяется к совокупности, состоящей из т объектов первого класса и n объектов второго класса.

Теорема 2. Пусть т, п®¥. Тогда для всех х

где

- истинная "прогностическая сила" алгоритма диагностики;

- ее эмпирическая оценка,

;

) - плотность стандартного нормального распределения вероятностей с математическим ожиданием 0 и дисперсией 1.

С помощью теоремы 2 по

обычным образом определяют доверительные границы для "прогностической силы"

Как проверить обоснованность пересчета на модель линейного дискриминантного анализа? Допустим, что классификация состоит в вычислении некоторого прогностического индекса у и сравнении его с заданным порогом с; объект относят к первому классу, если у<с, ко второму, если у>с. Возьмем два значения порога с₁ и c₂. Если пересчет на модель линейного дискриминантного анализа обоснован, то "прогностические силы" для обоих правил совпадают:

. Эту статистическую гипотезу можно проверить.

Пусть

- доля объектов первого класса, для которых y<c₁, а

- доля объектов первого класса, для которых c₁<y<c₂. Аналогично пусть

- доля объектов второго класса, для которых c₁<y<c₂, а

- доля объектов второго класса, для которых у>с₂. Тогда можно рассчитать две оценки одного и того же расстояния Махаланобиса. Они имеют вид:

Теорема 3. Если истинные прогностические силы двух правил диагностики совпадают,

то при

при всех х

Где

;

Из теоремы 3 вытекает метод проверки рассматриваемой гипотезы: при выполнении неравенства

она принимается на уровне значимости, асимптотически равном

, в противном случае - отвергается.

Подходы к построению прогностических правил. Для решения задач диагностики используют два подхода – параметрический и непараметрический. Первый из них обычно основан на использовании того или иного индекса и сравнения его с порогом. Индекс может быть построен по статистическим данным, например, как в уже упомянутом линейном дискриминантном анализе Фишера. Часто индекс представляет собой линейную функцию от характеристик, выбранных специалистами предметной области, коэффициенты которой подбирают эмпирически. Непараметрический подход связан с леммой Неймана-Пирсона в математической статистике и с теорией статистических решений. Он опирается на использование непараметрических оценок плотностей распределений вероятностей, описывающих диагностические классы.

Обсудим ситуацию подробнее. Математические методы диагностики, как и статистические методы в целом, делятся на параметрические и непараметрические. Первые основаны на предположении, что классы описываются распределениями из некоторых параметрических семейств. Обычно рассматривают многомерные нормальные распределения, при этом зачастую принимают гипотезу о том, что ковариационные матрицы для различных классов совпадают. Именно в таких предположениях сформулирован классический дискриминантный анализ Фишера. Как известно, обычно нет оснований считать, что наблюдения извлечены из нормального распределения.

Поэтому более корректными, чем параметрические, являются непараметрические методы диагностики. Исходная идея таких методов основана на лемме Неймана-Пирсона, входящей в стандартный курс математической статистики. Согласно этой лемме решение об отнесении вновь поступающего объекта (сигнала, наблюдения и др.) к одному из двух классов принимается на основе отношения плотностей f(x)/g(x), где f(x) - плотность распределения, соответствующая первому классу, а g(x) - плотность распределения, соответствующая второму классу. Если плотности распределения неизвестны, то применяют их непараметрические оценки, построенные по обучающим выборкам. Пусть обучающая выборка объектов из первого класса состоит из n элементов, а обучающая выборка для второго класса - из m объектов. Тогда рассчитывают значения непараметрических оценок плотностей f_n(x) и g_m(x) для первого и второго классов соответственно, а диагностическое решение принимают по их отношению. Таким образом, для решения задачи диагностики достаточно научиться строить непараметрические оценки плотности для выборок объектов произвольной природы.

Методы построения непараметрических оценок плотности распределения вероятностей в пространствах произвольной природы рассмотрены в главе 8.

Цитированная литература

1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. - 416 с.

2. Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

3. Орлов А.И. Оценка размерности модели в регрессии. – В сб.: Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. - С.92-99.

4. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

5. Красильников В.В. Статистика объектов нечисловой природы. - Наб. Челны: Изд-во Камского политехнического института, 2001. - 144 с.

6. Кендэл М. Ранговые корреляции. - М.: Статистика, 1975. - 216 с.

7. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976. – 736 с.

8. Орлов А.И. Некоторые вероятностные вопросы теории классификации. – В сб.: Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. – С.166-179.

9. Орлов А.И.; Гусейнов Г.А. Математические методы в изучении способных к математике школьников – В сб.: Исследования по вероятностно-статистическому моделированию реальных систем. - М.: ЦЭМИ АН СССР, 1977. - С.80-93.

10. Куперштох B.JI., Миркин Б.Г., Трофимов В.А. Сумма внутренних связей как показатель качества классификации // Автоматика и телемеханика. 1976. № 3. С.91-98.

11. Гельфанд И.М., Алексеевская М.А., Губерман Ш.А. и др. Прогнозирование исхода инфаркта миокарда с помощью программы "Кора-3" // Кардиология. 1977. Т.17. № 6. С.19-23.