Y X1 X2 X3 X4 X5
Y 1,00000 0,95179 -0,94538 0,44751 0,94534 0,68268
X1 0,95179 1,00000 -0,94202 0,39826 0,99738 0,54441
X2 -0,94538 -0,94202 1,00000 -0,17453 -0,92843 -0,74841
X3 0,44751 0,39826 -0,17453 1,00000 0,41992 -0,11842
X4 0,94534 0,99738 -0,92843 0,41992 1,00000 0,51508
X5 0,68268 0,54441 -0,74841 -0,11842 0,51508 1,00000
Проанализировав корреляционную матрицу, выявляем, что все предикторы являются хорошими и положительная зависимость существует со всеми предикторами, кроме Х2 (ожидаемая продолжительность жизни).
Для нас не представляет интереса брать предикторы Х2 и Х4, так как они сильно коррелированны с другими предикторами. По данной корреляционной матрице мы выбираем предикторы Х1 (детская смертность), Х3 (плодовитость женщин), Х5 (рост сельского населения), так как они в лучшей степени объясняют У (уровень рождаемости).
Всего можно построить 9 моделей с двумя предикторами, но т.к. мы не рассматриваем предикторы Х2 и Х4, то приведем модели с оставшимися предикторами и установим какая модель описывает Уровень рождаемости в большей степени.
1. Модель с предиктором Х1 (детская смертность):
Уравнение регрессии:
Уровень рождаемости = 5,85 + 0,712 Детская смертность
Предиктор Х1 описывает Уровень рождаемости на 90,6 %.
2. Модель с предиктором Х3 (плодовитость женщин):
Уравнение регрессии:
Уровень рождаемости = - 1,27 + 8,02 Плодовитость женщин
Предиктор Х3 описывает Уровень рождаемости всего лишь на 20%.
3. Модель с предиктором Х5 (рост сельского населения):
Уравнение регрессии:
Уровень рождаемости = 9,35 + 2,00 Рост сельского хозяйства
Предиктор Х5 описывает Уровень рождаемости на 46,6%.
4. Модель предикторами Х1, Х3, Х5:
Уравнение регрессии:
Уровень рождаемости = 1,58 + 0,510 Детская смертность
+ 3,86 Плодовитость женщин
+ 0,987 Рост сельского населения
Предикторы Х1, Х3, Х5 описывают Уровень рождаемости на 97,6%.
5. Модель с предикторами Х1 и Х3:
Уравнение регрессии:
Уровень рождаемости = 4,01 + 0,687 Детская смертность
+ 1,46 Плодовитость женщин
Предикторы Х1 и Х3 описывают Уровень рождаемости на 91,1%.
6. Модель с предикторами Х1 и Х5:
Уравнение регрессии:
Уровень рождаемости = 6,27 + 0,616 Детская смертность
+ 0,686 Рост сельского населения
Предикторы Х1 и Х5 описывают Уровень рождаемости на 94,4 %.
7. Модель с предикторами Х3 и Х5:
Уравнение регрессии:
Уровень рождаемости = - 3,63 + 9,61 Плодовитость женщин
+ 2,19 Рост сельского населения
Предикторы Х3 и Х5 описывают Уровень рождаемости на 74,9%.
8. Модель со всеми предикторами:
Уравнение регрессии:
Уровень рождаемости = 0,3 - 0,017 Детская смертность
- 0,413 Ожидаемая продолжительность жизни при рождении + 5,15 Плодовитость женщин
+ 0,69 Женское население
+ 0,546 Рост сельского населения
R-Sq = 98,3%
Проанализировав все наилучшие модели, приходим к выводу, что лучшей моделью является модель с тремя предикторами Х1 (детская смертность), Х3 (плодовитость женщин) и Х5 (рост сельского населении), зависимость данных предикторов с Уровнем рождаемости составляет 0,95179, 0,44751, 0,68268 соответственно. Коэффициент детерминации R2 равен 97,6%, это значит, что эти предикторы описывают Уровень рождаемости (Y) на 97,6 %.
Хотя модель со всеми предикторами имеет самый высокий коэффициент детерминации, равный 98,3%, данная модель не может исследоваться в качестве наилучшей, так как между некоторыми предикторами существует высокая коллинеарность.
Проводя дальнейшие исследования будет использована модель с тремя предикторами (Х1, Х3 и Х5).
Проверка F теста с заданным уровнем доверия.
F-тест проверяет значимость уравнения регрессии в целом, существует ли зависимость между постоянной и переменными.
Выдвигаем гипотезы:
H1: ρ2 >0
При нулевой гипотезе подтверждается, что между переменными и постоянной не существует зависимость.
Если же подтверждается первая гипотеза, то устанавливается, что между постоянной и переменными существует зависимость.
Для проверки теста понадобятся значения Fstat и Ftab.
Fstat находим по следующей формуле:
Source DF SS MS F P
Regression 3 22,4816 7,4939 244,05 0,000
Residual Error 18 0,5527 0,0307
Total 21 23,0343
Найдем Ftab с уровнем доверия α= 0,05
Ftab= 3,15991
Сравнив значения Ftab и Fstat приходим в выводу, что Ftab< Fstat (3,15991<244,05), значит, отвергается нулевая гипотеза, и устанавливается, что выбранное уравнение регрессии в значительной степени описывает Уровень рождаемости на протяжении всех годов, которые были выбраны к качестве данных.
Тест на коэффициент регрессии проводится, чтобы установить все ли выбранные предикторы одинаково хорошо описывают модель во все периоды времени или всё же существуют некоторые отклонения.
Выдвинем следующие гипотезы:
H0: β1≠0
H1: β1=0
H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Детской смертностью нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
H0: β3≠0
H1: β3=0
H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Плодовитостью женщин нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
H0: β5≠0
H1: β5=0
H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Ростом сельского населения нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
df=(n-k)=(22-4)=18
Так как мы проводим 2-х хвостовой тест, мы находим ttab с уровнем доверия α/2= 0,05/2=0,025.
t(0,05/2)(18)= 2,10092
tstat вычисляется по следующей формуле:
Для вычисления tstat вычислим Sb (Стандартная ошибка коэффициента регрессии ) по формуле:
S1=0,03
S3=0,79
S5=0,14
Predictor Coef SE Coef T VIF
Constant 1,5836 0,9771 1,62
Детская смертность 0,51050 0,03914 13,04 2,1
Плодовитость женщин 3,8616 0,7928 4,87 1,5
Рост сельского населения 0,9869 0,1419 6,96 1,8
t(0,05/2)(18)<t
По данным видно, что для всех предикторов отвергается нулевая гипотеза. Из этого следует, что между Уровнем рождаемости и всеми предикторами – детская смертность, плодовитость женщин и рост сельского населении существует линейная зависимость, на всем исследуемом промежутке времени.
Проведя t-тест, установлены наилучшие предикторы, которые описывают изменения Уровня рождаемости.
Коэффициент детерминации показывает, на сколько зависит зависимая переменная от независимой.
В данной задаче коэффициент детерминации показывает насколько взятые предикторы, объясняют изменение Уровня рождаемости.
Определим коэффициент детерминации по формуле:
илиДля данной задачи коэффициент детерминации составляет R2 = 97,6%, т.е. Уровень рождаемости на 97,6 % объясняется Детской смертностью, Плодовитостью женщин и Ростом сельского населения.
Стандартная ошибка оценивания - это величина изменчивости, наблюдаемых значений Y, вокруг линии регрессии:
S = 0,175230
Это значит, что значения Y (Уровень рождаемости) будут отклоняться от линии регрессии на 0,175.
Интерпретация коэффициентов уравнения.
Для того, чтобы понять в какой степени Детская смертность, Плодовитость женщин и Рост сельского населения влияют на изменение Уровень рождаемости.
Уравнение регрессии имело следующий вид:
Уровень рождаемости = 1,58 + 0,510 Детская смертность
+ 3,86 Плодовитость женщин
+ 0,987 Рост сельского населения
Y=1,58+0,51X1+3,86Х3+0,987X5
b0=1,58 b1=0,51 b3=3,86 b5=0,987
Данные коэффициенты интерпретируются следующим образом:
b0 показывает постоянный Уровень рождаемости, при отсутствии Детской смертности, Плодовитости женщин и Роста сельского населения. Из этого следует, что если все предикторы будут равняться нулю, то Уровень рождаемости будет составлять 1,58 ребенка на 1000 людей.