Смекни!
smekni.com

Уровень рождаемости в Германие и факторы, влияющие на данный уровень (стр. 2 из 3)

Y X1 X2 X3 X4 X5

Y 1,00000 0,95179 -0,94538 0,44751 0,94534 0,68268

X1 0,95179 1,00000 -0,94202 0,39826 0,99738 0,54441

X2 -0,94538 -0,94202 1,00000 -0,17453 -0,92843 -0,74841

X3 0,44751 0,39826 -0,17453 1,00000 0,41992 -0,11842

X4 0,94534 0,99738 -0,92843 0,41992 1,00000 0,51508

X5 0,68268 0,54441 -0,74841 -0,11842 0,51508 1,00000

Проанализировав корреляционную матрицу, выявляем, что все предикторы являются хорошими и положительная зависимость существует со всеми предикторами, кроме Х2 (ожидаемая продолжительность жизни).

Для нас не представляет интереса брать предикторы Х2 и Х4, так как они сильно коррелированны с другими предикторами. По данной корреляционной матрице мы выбираем предикторы Х1 (детская смертность), Х3 (плодовитость женщин), Х5 (рост сельского населения), так как они в лучшей степени объясняют У (уровень рождаемости).

Всего можно построить 9 моделей с двумя предикторами, но т.к. мы не рассматриваем предикторы Х2 и Х4, то приведем модели с оставшимися предикторами и установим какая модель описывает Уровень рождаемости в большей степени.

1. Модель с предиктором Х1 (детская смертность):

Уравнение регрессии:

Уровень рождаемости = 5,85 + 0,712 Детская смертность

R-Sq = 90,6%

Предиктор Х1 описывает Уровень рождаемости на 90,6 %.

2. Модель с предиктором Х3 (плодовитость женщин):

Уравнение регрессии:

Уровень рождаемости = - 1,27 + 8,02 Плодовитость женщин

R-Sq = 20,0%

Предиктор Х3 описывает Уровень рождаемости всего лишь на 20%.

3. Модель с предиктором Х5 (рост сельского населения):

Уравнение регрессии:

Уровень рождаемости = 9,35 + 2,00 Рост сельского хозяйства

R-Sq = 46,6%

Предиктор Х5 описывает Уровень рождаемости на 46,6%.

4. Модель предикторами Х1, Х3, Х5:

Уравнение регрессии:

Уровень рождаемости = 1,58 + 0,510 Детская смертность

+ 3,86 Плодовитость женщин

+ 0,987 Рост сельского населения

R-Sq = 97,6%

Предикторы Х1, Х3, Х5 описывают Уровень рождаемости на 97,6%.

5. Модель с предикторами Х1 и Х3:

Уравнение регрессии:

Уровень рождаемости = 4,01 + 0,687 Детская смертность

+ 1,46 Плодовитость женщин

R-Sq = 91,1%

Предикторы Х1 и Х3 описывают Уровень рождаемости на 91,1%.

6. Модель с предикторами Х1 и Х5:

Уравнение регрессии:

Уровень рождаемости = 6,27 + 0,616 Детская смертность

+ 0,686 Рост сельского населения

R-Sq = 94,4%

Предикторы Х1 и Х5 описывают Уровень рождаемости на 94,4 %.

7. Модель с предикторами Х3 и Х5:

Уравнение регрессии:

Уровень рождаемости = - 3,63 + 9,61 Плодовитость женщин

+ 2,19 Рост сельского населения

R-Sq = 74,9%

Предикторы Х3 и Х5 описывают Уровень рождаемости на 74,9%.

8. Модель со всеми предикторами:

Уравнение регрессии:

Уровень рождаемости = 0,3 - 0,017 Детская смертность

- 0,413 Ожидаемая продолжительность жизни при рождении + 5,15 Плодовитость женщин

+ 0,69 Женское население

+ 0,546 Рост сельского населения

R-Sq = 98,3%

Проанализировав все наилучшие модели, приходим к выводу, что лучшей моделью является модель с тремя предикторами Х1 (детская смертность), Х3 (плодовитость женщин) и Х5 (рост сельского населении), зависимость данных предикторов с Уровнем рождаемости составляет 0,95179, 0,44751, 0,68268 соответственно. Коэффициент детерминации R2 равен 97,6%, это значит, что эти предикторы описывают Уровень рождаемости (Y) на 97,6 %.

Хотя модель со всеми предикторами имеет самый высокий коэффициент детерминации, равный 98,3%, данная модель не может исследоваться в качестве наилучшей, так как между некоторыми предикторами существует высокая коллинеарность.

Проводя дальнейшие исследования будет использована модель с тремя предикторами (Х1, Х3 и Х5).

Проверка F теста с заданным уровнем доверия.

F-тест проверяет значимость уравнения регрессии в целом, существует ли зависимость между постоянной и переменными.

Выдвигаем гипотезы:

H0: ρ2=0

H1: ρ2 >0

При нулевой гипотезе подтверждается, что между переменными и постоянной не существует зависимость.

Если же подтверждается первая гипотеза, то устанавливается, что между постоянной и переменными существует зависимость.

Для проверки теста понадобятся значения Fstat и Ftab.

Fstat находим по следующей формуле:

Source DF SS MS F P

Regression 3 22,4816 7,4939 244,05 0,000

Residual Error 18 0,5527 0,0307

Total 21 23,0343

Найдем Ftab с уровнем доверия α= 0,05

Ftab= 3,15991

Сравнив значения Ftab и Fstat приходим в выводу, что Ftab< Fstat (3,15991<244,05), значит, отвергается нулевая гипотеза, и устанавливается, что выбранное уравнение регрессии в значительной степени описывает Уровень рождаемости на протяжении всех годов, которые были выбраны к качестве данных.

Тест на коэффициент регрессии проводится, чтобы установить все ли выбранные предикторы одинаково хорошо описывают модель во все периоды времени или всё же существуют некоторые отклонения.

Выдвинем следующие гипотезы:

H0: β1≠0

H1: β1=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Детской смертностью нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H0: β3≠0

H1: β3=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Плодовитостью женщин нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

H0: β5≠0

H1: β5=0

H0-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Ростом сельского населения нет линейной зависимости

H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.

df=(n-k)=(22-4)=18

Так как мы проводим 2-х хвостовой тест, мы находим ttab с уровнем доверия α/2= 0,05/2=0,025.

t(0,05/2)(18)= 2,10092

tstat вычисляется по следующей формуле:

Для вычисления tstat вычислим Sb (Стандартная ошибка коэффициента регрессии ) по формуле:

S1=0,03

S3=0,79

S5=0,14

Predictor Coef SE Coef T VIF

Constant 1,5836 0,9771 1,62

Детская смертность 0,51050 0,03914 13,04 2,1

Плодовитость женщин 3,8616 0,7928 4,87 1,5

Рост сельского населения 0,9869 0,1419 6,96 1,8

t(0,05/2)(18)<t

По данным видно, что для всех предикторов отвергается нулевая гипотеза. Из этого следует, что между Уровнем рождаемости и всеми предикторами – детская смертность, плодовитость женщин и рост сельского населении существует линейная зависимость, на всем исследуемом промежутке времени.

Проведя t-тест, установлены наилучшие предикторы, которые описывают изменения Уровня рождаемости.

Коэффициент детерминации показывает, на сколько зависит зависимая переменная от независимой.

В данной задаче коэффициент детерминации показывает насколько взятые предикторы, объясняют изменение Уровня рождаемости.

Определим коэффициент детерминации по формуле:

или

Для данной задачи коэффициент детерминации составляет R2 = 97,6%, т.е. Уровень рождаемости на 97,6 % объясняется Детской смертностью, Плодовитостью женщин и Ростом сельского населения.

Стандартная ошибка оценивания - это величина изменчивости, наблюдаемых значений Y, вокруг линии регрессии:

S = 0,175230

Это значит, что значения Y (Уровень рождаемости) будут отклоняться от линии регрессии на 0,175.

Интерпретация коэффициентов уравнения.

Для того, чтобы понять в какой степени Детская смертность, Плодовитость женщин и Рост сельского населения влияют на изменение Уровень рождаемости.

Уравнение регрессии имело следующий вид:

Уровень рождаемости = 1,58 + 0,510 Детская смертность

+ 3,86 Плодовитость женщин

+ 0,987 Рост сельского населения

Y=1,58+0,51X1+3,86Х3+0,987X5

b0=1,58 b1=0,51 b3=3,86 b5=0,987

Данные коэффициенты интерпретируются следующим образом:

b0 показывает постоянный Уровень рождаемости, при отсутствии Детской смертности, Плодовитости женщин и Роста сельского населения. Из этого следует, что если все предикторы будут равняться нулю, то Уровень рождаемости будет составлять 1,58 ребенка на 1000 людей.