Метод главных компонент, сущность которого состоит в сведении множества показателей к нескольким суммарным интегральным оценкам, в данном случае обладает существенными преимуществами [3] по сравнению с другими статистическими методами, такими как дисперсионный, регрессионный и факторный анализы [7,9].
Однако, недостаток метода главных компонент состоит в сложности нахождения собственных чисел и собственных векторов матриц большой размерности [3,6] при ручной обработке которых, невозможно получить достаточно точные результаты за приемлемое время, поэтому необходима ее автоматизация с применением ЭВМ.
Для достижения цели проекта требуется решить следующие задачи:
- изучить теоретические основы метода главных компонент;
- разработать математическую модель работы отделений учреждения, т. е. выделить исследуемые и измеряемые параметры, установить зависимости между ними и дать математическую постановку задачи;
- выбрать метод решения задачи;
- разработать алгоритм и программу, реализующей этот метод.
Объекты изучения в прикладных областях могут быть всесторонне охарактеризованы только при помощи целого набора признаков. При характеристике объекта исследования случайными многомерными признаками строится корреляционная матрица, элементы которой учитывают тесноту линейной стохастической связи. Однако при большом числе признаков характеристика выявленных связей становится труднообозримой задачей. Возникает потребность в описании объектов меньшим числом обобщенных показателей, например факторами или главными компонентами. Главные компоненты являются более удобными укрупненными показателями. Они отражают внутренние объективно существующие закономерности, которые не поддаются непосредственному наблюдению.
При корреляционном или регрессионном анализе на основе полученной корреляционной матрицы строятся, например, уравнения регрессии, связывающие факторные признаки с результативными. Сами уравнения регрессии являются конечной целью исследования. По ним проводится содержательная интерпретация полученных результатов и принимаются соответствующие решения. При использовании метода главных компонент корреляционная матрица используется как исходная ступень для дальнейшего анализа наблюдаемых ранее значений признаков. Появляется возможность извлечения дополнительной информации об изучаемом процессе или объекте.
2.1.2 Задачи решаемые методом главных компонент
С помощью метода главных компонент можно решить четыре основных типа задач.
Первая задача - отыскание скрытых, но объективно существующих закономерностей, определяемых воздействием внутренних и внешних причин.
Вторая задача - описание изучаемого процесса числом главных компонент m, значительно меньшим, чем число первоначально взятых признаков n. Главные компоненты адекватно отражают исходную информацию в более компактной форме. Выделенные главные компоненты содержат больше информации, чем непосредственно замеряемые признаки.
Третья задача - выявление и изучение стохастической связи признаков с главными компонентами. Выявление признаков, наиболее тесно связанных с данной главной компонентой., что позволяет принять научно обоснованное управляющее воздействие, способствующее повышению эффективности функционирования изучаемого процесса.
Существует возможность использования полученных данных для решения четвертой задачи, которая заключается в прогнозировании хода развития процесса на основе уравнения регрессии, построенного по полученным главным компонентам.
Негативной стороной метода является сложность математического аппарата, требующая знания как теории вероятностей и математической статистики, так и линейной алгебры и математического обеспечения ЭВМ. Однако, в настоящее время, в связи с большим прогрессом в области вычислительной техники и программного обеспечения ЭВМ, большинство вычислительных трудностей относительно легко разрешаются.
2.1.3 Анализ условий допущений и ограничений задачи
В ходе алгоритма нахождения главных компонент требуется найти собственные векторы и собственные значения матрицы парных корреляций. На настоящий момент наиболее быстрыми являются алгоритмы QR разложения [2,5] и их частные случаи. В частности, в связи с тем, что получающиеся в ходе исследования матрицы являются симметричными (симметрическими), то для нахождения собственных чисел и собственных векторов удобен относительно простой метод Якоби [6].
2.2. Обоснование проектных решений
2.2.1. Математическая модель метода главных компонент
Известно, что истинная величина изучаемого объекта содержит по крайней мере два компонента: истинную характеристику оцениваемого явления и ошибку измерения, которая зависит от большого числа причин. Если измерения проводятся в таких областях, как экономика, биология, медицина, психология, то добавляется третья составляющая, зависящая от вариабельности изучаемого признака, индивида или объекта. Таким образом, зарегистрированное значение может быть представлено в виде суммы
В основу метода главных компонент положена линейная модель. Если N - число исследуемых объектов, n - число признаков, то математическая модель принимает вид:
где r,j =1,2,...n; f - r-я главная компонента;
Для исследования начальными данными являются ковариации или коэффициенты корреляции. В дальнейшем будем использовать коэффициенты корреляции.
Для установления связи между главными компонентами и коэффициентами корреляции перепишем формулу для любого i в виде:
Вариабельность, зависящая от особенностей объектов, является причиной разброса показаний признаков от объекта к объекту относительно математического ожидания. Полная дисперсия выражается через дисперсию главных компонент, а так как дисперсии нормированных величин равны единице, то можно записать:
Поскольку главные компоненты ортогональны, то выражение упрощается
Этот вклад вычисляется по формуле:
Различают два вида компонент, общие и генеральные. Генеральные главные компоненты существенно связаны со всеми признаками задачи, общие - более чем с одним.
Несмотря на то, что вместо признаков получено такое же количество главных компонент, вклад в общую дисперсию большинства оказывается небольшим. Можно исключить из рассмотрения те компоненты, вклад которых мал.
Итак, при проведении эксперимента мы получаем результаты в виде матрицы наблюдаемых величин ХN,nгде N - число наблюдаемых объектов, n - число измеряемых признаков.
Элементы данной матрицы центрируются и нормируются, и мы получаем матрицу Y.
Выясним, что представляют собой весовые коэффициенты между признаками и главными компонентами. Для этого умножим
Чтобы получит коэффициент корреляции между j-ым признаком и первой главной компонентой, просуммируем левую часть по всем N наблюдениям и разделим сумму на число наблюдений N, тогда правая часть примет вид:
Учитывая, что
где