Смекни!
smekni.com

Линейное уравнение регрессии (стр. 2 из 3)

Протокол корреляционного анализа

Главная цель анализа данных состоит в выявлении корреляционной связи зависимой переменной Y с независимыми переменными Хi, а также выявление независимых переменных, имеющих высокий уровень корреляции между собой.

Критическое значение коэффициента корреляции rкр = 0,2002. Это означает, что все коэффициенты корреляции, значения которых меньше rкр принимаются равными нулю, а связь между этими параметрами считается незначимой.

Влияние независимой переменной Х3, Х4, включенной в исследование, имеет высокий уровень (r > 0,7), причем это влияние положительно (rух3 = 0,872, rух4 = 0,917).

Х5 оказывает умеренное положительное влияние на величину Y (rух5 = 0,303).

Х1, Х2, Х6, Х7, Х8 не оказывают влияния на величину Y (rух2 = 0,010, rух6 = = -0,104, rух7 = 0,119, rух8 = -0,005).

3) Построим уравнение регрессии, характеризующее зависимость цены от всех факторов, в линейной форме.

Линейная регрессия

Уравнение будет иметь вид:

у(х) = -0,505 – 0,966х1 + 0,824х2 + 0,390х3 + 0,191х4 + 0,091х5 + 5,835х6 + 1,244х7 – 0,011х8

Линейная или близкая к ней связь между факторами называется мультиколлинеарностью. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,7.

Рассмотрим матрицу парных коэффициентов корреляции между факторами Хj, включенными в дальнейшем анализ.


Матрица парных корреляций

Явление сильной коллинеарности наблюдается между факторами:

Х1 и Х3, т.к. rх1х3 = 0,872 > 0,7

Х1 и Х4, т.к. rх1х4 = 0,917 > 0,7

Х3 и Х4, т.к. rх3х4 = 0,966 > 0,7

4) Построим модель у = f (х3, х6, х7, х8, z) в линейной форме.


Результаты регрессионного анализа

Модель в линейной форме будет иметь вид:

у(х) = -5,64 + 0,715х2 + 0,475х3 + 6,786х6 + 1,284х7 – 0,037х8

Х6 (тип дома), значимо воздействует на формирование цены квартиры в модели.

5) Оценим статистическую значимость параметров регрессионной модели с помощью t-критерия; нулевую гипотезу о значимости уравнения регрессии проверим с помощью F-критерия; оценим качество уравнения регрессии с помощью коэффициента детерминации R2.

Характеристика остатков линейной регрессии

Характеристика Значение
Среднее значение 0,000
Дисперсия 10,579
Приведенная дисперсия 12,220
Средний модуль остатков 2,237
Относительная ошибка 7,144
Критерий Дарбина-Уотсона 1,154
Коэффициент детерминации 0,991
F - значение ( n1 = 8, n2 = 58) 764,697
Критерий адекватности 36,993
Критерий точности 47,492
Критерий качества 44,867
Уравнение значимо с вероятностью 0.95

Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 99,1% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.

Табличное значение F-критерия (Fкрит) при доверительной вероятности 0,95 при n1 = 8 и n2 = 58 составляет 2,10. Проверка гипотезы о значимости уравнения регрессии проводится на основании:

если Fфакт > Fкрит, то модель статистически значима;

если Fфакт < Fкрит, то модель статистически незначима.

Fфакт > Fкрит, значит модель статистически значима, т.е. пригодна к использованию.

Оценим с помощью t-критерия Стьюдента статистическую значимость коэффициентов уравнения регрессии.

Табличное значение t-критерия при 5% уровне значимости и степени свободы k = 69-8-1 = 60 составляет 2,0003.

Если tрасч > tтабл, то коэффициент статистически значим.

Характеристика модели

Коэффициенты Стандартная ошибка t-статистика
Y-пересечение -6,10491 1,867676003 -3,268720937
Переменная Х 1 -0,16426 1,096321271 -0,149825399
Переменная Х 2 0,744173 0,335026167 2,221237839
Переменная Х 3 0,36827 0,092869614 3,965447278
Переменная Х 4 0,147869 0,132602783 1,115126788
Переменная Х 5 0,177213 0,195399452 0,906925347
Переменная Х 6 6,93635 0,869661345 7,975921084
Переменная Х 7 1,777648 1,124095736 1,581402513
Переменная Х 8 -0,04802 0,072432334 -0,662966567

tb0 = 3,2687 > 2,0003 => коэффициент регрессии b0 статистически значим;