Метод главных компонент, сущность которого состоит в сведении множества показателей к нескольким суммарным интегральным оценкам, в данном случае обладает существенными преимуществами [3] по сравнению с другими статистическими методами, такими как дисперсионный, регрессионный и факторный анализы [7,9].
Однако, недостаток метода главных компонент состоит в сложности нахождения собственных чисел и собственных векторов матриц большой размерности [3,6] при ручной обработке которых, невозможно получить достаточно точные результаты за приемлемое время, поэтому необходима ее автоматизация с применением ЭВМ.
Для достижения цели проекта требуется решить следующие задачи:
- изучить теоретические основы метода главных компонент;
- разработать математическую модель работы отделений учреждения, т. е. выделить исследуемые и измеряемые параметры, установить зависимости между ними и дать математическую постановку задачи;
- выбрать метод решения задачи;
- разработать алгоритм и программу, реализующей этот метод.
Объекты изучения в прикладных областях могут быть всесторонне охарактеризованы только при помощи целого набора признаков. При характеристике объекта исследования случайными многомерными признаками строится корреляционная матрица, элементы которой учитывают тесноту линейной стохастической связи. Однако при большом числе признаков характеристика выявленных связей становится труднообозримой задачей. Возникает потребность в описании объектов меньшим числом обобщенных показателей, например факторами или главными компонентами. Главные компоненты являются более удобными укрупненными показателями. Они отражают внутренние объективно существующие закономерности, которые не поддаются непосредственному наблюдению.
При корреляционном или регрессионном анализе на основе полученной корреляционной матрицы строятся, например, уравнения регрессии, связывающие факторные признаки с результативными. Сами уравнения регрессии являются конечной целью исследования. По ним проводится содержательная интерпретация полученных результатов и принимаются соответствующие решения. При использовании метода главных компонент корреляционная матрица используется как исходная ступень для дальнейшего анализа наблюдаемых ранее значений признаков. Появляется возможность извлечения дополнительной информации об изучаемом процессе или объекте.
2.1.2 Задачи решаемые методом главных компонент
С помощью метода главных компонент можно решить четыре основных типа задач.
Первая задача - отыскание скрытых, но объективно существующих закономерностей, определяемых воздействием внутренних и внешних причин.
Вторая задача - описание изучаемого процесса числом главных компонент m, значительно меньшим, чем число первоначально взятых признаков n. Главные компоненты адекватно отражают исходную информацию в более компактной форме. Выделенные главные компоненты содержат больше информации, чем непосредственно замеряемые признаки.
Третья задача - выявление и изучение стохастической связи признаков с главными компонентами. Выявление признаков, наиболее тесно связанных с данной главной компонентой., что позволяет принять научно обоснованное управляющее воздействие, способствующее повышению эффективности функционирования изучаемого процесса.
Существует возможность использования полученных данных для решения четвертой задачи, которая заключается в прогнозировании хода развития процесса на основе уравнения регрессии, построенного по полученным главным компонентам.
Негативной стороной метода является сложность математического аппарата, требующая знания как теории вероятностей и математической статистики, так и линейной алгебры и математического обеспечения ЭВМ. Однако, в настоящее время, в связи с большим прогрессом в области вычислительной техники и программного обеспечения ЭВМ, большинство вычислительных трудностей относительно легко разрешаются.
2.1.3 Анализ условий допущений и ограничений задачи
В ходе алгоритма нахождения главных компонент требуется найти собственные векторы и собственные значения матрицы парных корреляций. На настоящий момент наиболее быстрыми являются алгоритмы QR разложения [2,5] и их частные случаи. В частности, в связи с тем, что получающиеся в ходе исследования матрицы являются симметричными (симметрическими), то для нахождения собственных чисел и собственных векторов удобен относительно простой метод Якоби [6].
2.2. Обоснование проектных решений
2.2.1. Математическая модель метода главных компонент
Известно, что истинная величина изучаемого объекта содержит по крайней мере два компонента: истинную характеристику оцениваемого явления и ошибку измерения, которая зависит от большого числа причин. Если измерения проводятся в таких областях, как экономика, биология, медицина, психология, то добавляется третья составляющая, зависящая от вариабельности изучаемого признака, индивида или объекта. Таким образом, зарегистрированное значение может быть представлено в виде суммы
, где - зарегистрированное значение изменяемого признака н i-ого объекта исследования, - истинное значение (математическое ожидание) измеряемого признака у i - ого индивида, - вариативное значение изменяемого признака i - ого индивида, - ошибка измерения при определении j - ого признака у i - ого объекта исследования.В основу метода главных компонент положена линейная модель. Если N - число исследуемых объектов, n - число признаков, то математическая модель принимает вид:
, (2.1)где r,j =1,2,...n; f - r-я главная компонента;
- вес r-ой компоненты в j-ой переменной; -нормированное значение j-ого признака, полученное из эксперимента, на основе наблюдения. В матричной форме y=Af.Для исследования начальными данными являются ковариации или коэффициенты корреляции. В дальнейшем будем использовать коэффициенты корреляции.
Для установления связи между главными компонентами и коэффициентами корреляции перепишем формулу для любого i в виде:
(2.2)Вариабельность, зависящая от особенностей объектов, является причиной разброса показаний признаков от объекта к объекту относительно математического ожидания. Полная дисперсия выражается через дисперсию главных компонент, а так как дисперсии нормированных величин равны единице, то можно записать:
.(2.3)Поскольку главные компоненты ортогональны, то выражение упрощается
. Слева записана дисперсия, а справа доли полной дисперсии, относящиеся к соответствующим главным компонентам. Дисперсия является характеристикой изменчивости случайной величины, её отклонений от среднего значения. Полный вклад r-ого факторов дисперсию всех n признаков определяет ту долю общей дисперсии, которую данная главная компонента объясняет.Этот вклад вычисляется по формуле:
(2.4)Различают два вида компонент, общие и генеральные. Генеральные главные компоненты существенно связаны со всеми признаками задачи, общие - более чем с одним.
Несмотря на то, что вместо признаков получено такое же количество главных компонент, вклад в общую дисперсию большинства оказывается небольшим. Можно исключить из рассмотрения те компоненты, вклад которых мал.
Итак, при проведении эксперимента мы получаем результаты в виде матрицы наблюдаемых величин ХN,nгде N - число наблюдаемых объектов, n - число измеряемых признаков.
Элементы данной матрицы центрируются и нормируются, и мы получаем матрицу Y.
Выясним, что представляют собой весовые коэффициенты между признаками и главными компонентами. Для этого умножим
на первую главную компоненту и получим: . (2.5)Чтобы получит коэффициент корреляции между j-ым признаком и первой главной компонентой, просуммируем левую часть по всем N наблюдениям и разделим сумму на число наблюдений N, тогда правая часть примет вид:
. (2.6)Учитывая, что
, перепишем выражение: , (2.7)где
-коэффициент корреляции между j-ым признаком и r-й главной компонентой, - коэффициент корреляции между r-й и первой главной компонентой, - весовые коэффициенты, которые называются в факторном анализе коэффициентами отображения. Поскольку в методе главных компонент компоненты не коррелированны между собой, можно записать =0 (r¹k), поэтому = . И в общем случае в методе главных компонент можно написать = .