Курс социально-экономической статистики (стр. 169 из 182)

= 3,515 – 0,006x₁ + 15,542x₂ + 110x₃ + 4,475х₄ - 2,932x_5. (53.22)

(-0,01) (0,72) (0,13) (2,90) (-0,95)

В скобках указаны t_набл (β_j) = t_j — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н₀: β_j = 0, j = 1, 2, 3, 4, 5. Критическое значение t_кр = 1,76 найдено по таблице t-распределения при уровне значимости α = 0,1 и числе степеней свободы v = 14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при х₄, так как |t₄| = 2,90 > t_кр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х₁ и x₅, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х₁) и средствами оздоровления растений (x₅) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x₁, х₂ или x₃), получаем окончательное уравнение регрессии

= 7,342 + 0,345x₁ + 3,294x₄. (53.23)

(11,12) (2,09) (3,02)

Уравнение значимо при α = 0,05, так как F_набл = 266 > F_кр = 3,20, найденного по таблице F-распределения при α = 0,05, v₁ = 3 и v₂ = 17. Значимы и коэффициенты регрессии β₁ и β₄, так как |t_j| > t_кр = 2,11 (при α = 0,05, v = 17). Коэффициент регрессии β₁ следует признать значимым (β₁ ≠ 0) из экономических соображений; при этом t₁ = 2,09 лишь незначительно меньше t_кр = 2,11. В случае если α = 0,1, t_кр = 1,74 и коэффициент регрессии β₁ статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (b₁ = 0,345).

Коэффициенты эластичности Э₁ = 0,068 и Э₄ = 0,161 (Э_j =

) показывают, что при увеличении показателей x₁ и х₄ на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации r

= 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x₁ и x₄), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х₂, x₃, х₅, погодными условиями и др.). Средняя относительная ошибка аппроксимации

= 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s² = 1,97.

53.3. Компонентный анализ

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

размерности п х k, где х_ij.— значение j-го показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние значения показателей

а также s₁, ..., s_k и матрицу нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

(53.24)

с элементами

(53.25)

где j, l= 1, 2, .... k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Модель компонентного анализа имеет вид

(53.26)

где a_iv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k.

В матричной форме модель (53.26) имеет вид

(53.27)

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта);

a_iv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f_v =

, a главные компоненты не коррелированы между собой. Из этого следует, что

(53.28)

Выражение (53.28) может быть представлено в виде

(53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z_j и, например, f₁-й главной компонентой. Так как z_о и f₁ нормированы, будем иметь с учетом (53.26):

Принимая во внимание (53.29), окончательно получим

Рассуждая аналогично, можно записать в общем виде

(53.30)

для всех j = 1, 2, .,., k и v = 1, 2, .... k.

Таким образом, элемент a_jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z_j и главной компонентой f_v, т.е. –1 ≤ a_jv ≤ +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной z_j. С учетом (53.26) будем иметь

где v, v'= 1, 2, ..., k.

Учитывая (53.29), окончательно получим

(53.31)

По условию, переменные z_j нормированы и s

= 1. Таким образом, дисперсия переменной z_j, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

(53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Учитывая (53.28), окончательно получим

(53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

(53.34)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ_v > 0 для любых v =1, 2, ..., k.

В компонентном анализе элементы матрицы Λ ранжированы: λ₁ ≥ λ₂ ≥ ... ≥ λ_v ... ≥ λ_k ≥ 0. Как будет показано ниже, собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.