Смекни!
smekni.com

«Анализ модели множественной линейной регрессии» (стр. 5 из 7)

Для спецификации нашей модели будем использовать следующий метод.

Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от

составляет
. Затем добавим еще несколько переменных, доведя их общее число до m, и обьясненная сумма квадратов возрастает до
. Таким образом, мы объясняем дополнительную величину
, использован для этого дополнительные (m-k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.

Используется F-тест, и соответствующая F-статистика может быть
описана следующим образом:

(5.1)

Поскольку

— необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется

и
- необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется
, улучшение качества уравнения при добавлении (m-k) переменных, представленное как разность
, записывается в виде выражения
. Следовательно, соответствующая F-статистика равна:

, (5.2)

в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы.

В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно

,
,
,
и в каждом из этих случаев проверить выполнение вышеописанной гипотезы. Затем проделать то же самое с комбинациями из двух и трех переменных.

Исключим из модели переменную

R

0,6893

ESS3

15,8539

RSS3

7,1461

ESS4

15,86964

RSS4

7,13036

F

0,04195

Fcr

4,3512

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Исключим

R

0,689954

ESS3

15,86894

RSS3

7,13106

ESS4

15,86964

RSS4

7,13036

F

0,00188

Fcr

4,3512

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Исключим

R

0,617456

ESS3

14,20149

RSS3

8,79851

ESS4

15,86964

RSS4

7,13036

F

4,44507

Fcr

4,3512

Следовательно, дополнительные переменные увеличивают возможности объяснения уравнения.

Исключим

R

0,683111

ESS3

15,71154

RSS3

7,28846

ESS4

15,86964

RSS4

7,13036

F

0,42128

Fcr

4,3512

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Вывод: исключать

не желательно.

Исключим теперь

и
.

R

0,689276

ESS2

15,85336

RSS2

7,14664

ESS4

15,86964

RSS4

7,13036

F

0,0217

Fcr

3,4668

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Исключим

и
.

R

0,683

ESS2

15,709

RSS2

7,291

ESS4

15,86964

RSS4

7,13036

F

0,214

Fcr

3,4668

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Исключим

и
.

R

0,6831

ESS2

15,711

RSS2

7,289

ESS4

15,86964

RSS4

7,13036

F

0,212

Fcr

3,4668

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Вывод: исключение переменных

и
влияет на модель весьма незначительно.

Исключим теперь все переменные, кроме

.

R

0,683

ESS1

15,708

RSS1

7,292

ESS4

15,86964

RSS4

7,13036

F

0,143

Fcr

3,05

Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.

Таким образом, приходим к выводу, что оптимальной будет модель, в которой y зависит только от

.

Скорректированный коэффициент детерминации

, (5.3)

где k – число независимых переменных в этом случае будет равен 0,676.

6. Анализ особенностей модели

Итак, нами проведен подробный анализ множественной линейной регрессии.

В результате этого анализа мы выяснили, что в данном случае выполняется условие гомоскедастичности, отсутствует автокорреляция, но присутствует мультиколлинеарность, так как переменные

,
,
связаны с переменной
линейной зависимостью. В ходе анализа спецификации модели мы пришли к выводу, что оптимальной будет модель с одним регрессором -
. В этом случае устраняется проблема мультиколлинеарности. В пользу этого свидетельствует также тот факт, что согласно t-критерию только коэффициент при
в исходной модели признан статистически значимым.