На основе предыдущем этапе были изложены причины использования именно линейной модели по каждому фактору.
Тогда для моделирования используем линейную множественную регрессионную модель
для генеральной совокупности.Для выборки модель также линейна:
. В результате отбора факторов найдём наиболее качественную модель.Найдем объяснённую часть модели - линейное уравнение регрессии по выборке:
. Пока окончательное количество факторов m нам неизвестно.Этап 5 Идентификация
Для построения модели используем классический подход - метод наименьших квадратов МНК.
С помощью Exel проведём расчёты первой модели, с факторами Х1, Х2, Х3, Х4, Х5,Х6. Получим уравнение множественной регрессии и наблюдаемое значение t-критерия для каждого коэффициента регрессии aj:
t набл по модулю: 0,58 4,65 2,76 1,34 1,41 3,34 0,63
Сравним
с табличным на уровне значимости d=0,05 с (n-m-1)=(47-6-1)=40 степенями свободы tтабл=2,02. Так как a0 не статистически значимо, то получаем уравнение:tнабл по модулю: 0 4,67 3,13 1,26 2 3,54 0,4
Из всех коэффициентом статистически значимыми могут быть признаны коэффициенты при Х1, Х2,Х5.
Коэффициент при Х3 – не может быть признан статистически значимым, поэтому фактор Х3 удаляем из модели. Т.е. несмотря на то, что утечка умов влияет на фундаментальные исследования, но все таки ее влияние не значительно, т. к. наука постоянно развивается, поэтому происходит замена в кадровом составе и им на смену приходят молодые ученые.
Коэффициент при Х4 – не может быть признан статистически значимым, поэтому фактор Х4 удаляем из модели. Т.е. несмотря на то, что качество жизни влияет на фундаментальные исследования, но все таки ее влияние не значительно, т. к. в каждой стране происходят фундаментальные исследования, независимо от качества жизни. И как мы предполагали ранее, Х6 также следует исключить, так как ВВП является не всегда важным показателем развития науки, хотя и влияет на финансовые возможности страны.
Итак, оставляем в модели Х1, Х2, Х5
С помощью Exel проведём расчёты второй модели, с факторами Х1, Х2, Х5. Получим уравнение множественной регрессии и наблюдаемое значение t-критерия для каждого коэффициента регрессии aj:
tнабл по модулю: 10,39 3,014 3,82
Сравним
с табличным на уровне значимости d=0,05 с (n-m-1)=(47-3-1)=43 степенями свободы tтабл=2,02.Как видим, все коэффициенты получились значимыми.
У | Х1 | Х2 | Х5 | |
У | 1 | |||
Х1 | 0,884148423 | 1 | ||
Х2 | 0,526521959 | 0,533871035 | 1 | |
Х5 | 0,441017751 | 0,273023712 | -0,045987724 | 1 |
Но мультиколлинеарность высокая между факторами Х1 и Х2.
Рассмотрим две модели: Х1 , Х5; Х2 ,Х5
Рассмотрим модель Х1 , Х5:
tнабл по модулю: 44,55 2,94
Сравним
с табличным на уровне значимости d=0,05 с (n-m-1)=(47-2-1)=44 степенями свободы tтабл=2,02.Как видим, все коэффициенты получились значимыми.
Fнабл= 1527,72>Fтабл
Рассмотрим модель Х2 Х5:
tнабл по модулю: 24,56 4,69
Сравним
с табличным на уровне значимости d=0,05 с (n-m-1)=(47-2-1)=44 степенями свободы tтабл=2,02Как видим, все коэффициенты получились значимыми.
Fнабл=519,0835>Fтабл
Все модели хорошего качества, их все можно использовать для дальнейшего исследования, но по t-критерию фактор Х1 (44,55) выше фактора Х2 (24,56), ошибки аппроксимации в первой модели меньше, чем во второй.
Для дальнейших этапов исследуем первую модель с Х1 , Х5. И при этом практически не изменились по сравнению с первой моделью. Можно сделать вывод:
1) эти факторы действительно являются определяющими и показывают истинную зависимость
2) в модели невелика мультиколлинеарность.
По t-критериям эту модель можно признать наиболее качественной.
Чтобы установить окончательно, так ли это, проверим мультиколлинеарность в ней.
Рассчитаем линейные парные коэффициенты корреляции между Y и каждым фактором, и попарно между всеми факторами. Составим общую корреляционную матрицу:
У | Х1 | Х5 | |
У | 1 | ||
Х1 | 0,884 | 1 | |
Х5 | 0,441 | 0,273 | 1 |
Видим, что корреляция между Х1 и Х5 (0,273) крайне слаба, можно сказать, практически отсутствует.
Рассчитаем определитель матрицы межфакторной корреляции:
Х1 | Х5 | |
Х1 | 1 | |
Х5 | 0,273 | 1 |
А также учитывая, что коэффициенты модели оказались устойчивы к изменению модели, можно постановить, что проблема мультиколлинеарности практически не искажает результаты моделирования, и её последствия незначительны.
Можем провести дальнейший анализ модели.
Этап 6 Верификация
Итак, получена модель:
Экономическая интерпретация коэффициентов множественной регрессии
а1=0,96 – показывает, что при уменьшении развития технологии на 1 ед., увеличивается уровень фундаментальных исследований на 0,96 балла.
а2=0,032 – показывает, что увеличение общих расходов на НИР на 1 млрд. долл. приведет к увеличению фундаментальных исследований на 0,032 балла.
Доверительные интервалы для параметров множественной регрессии aj:
.При уровне значимости d=5%, используя расчёты Exel, получаем 95%-ные доверительные интервалы:
для a1: (0,913; 1,004), для a2: (0,005; 0,01).
Ширина интервалов маленькая, можно предположить, что точность модели будет хорошей.
Коэффициент детерминации
R2= 0,985
Скорректированный коэффициент детерминации
63 показывает, что изменение числа фундаментальных исследований Y на 96,3% обусловлены совокупным изменением таких факторов, как финансирование развития технологии и технологии и общие расходы на НИР.Остальные 3,7% изменений стоимости обусловлены другими факторами, не включёнными в модель или необнаруженными в данном исследовании и случайными.
Средние коэффициенты эластичности
Для линейной регрессии:
.Рассчитаем сначала средние значения:
, , млрд. долл., .Как видим, эластичность Y по каждому фактору разная. Наиболее сильна эластичность Y по фактору Х1, а по фактору Х5 очень мала.
При увеличении финансирования развития технологии на 1% от среднего балла фундаментального исследования увеличивается на 0,95% от среднего балла фундаментального исследования.
При увеличении общих расходов на НИР на 1% от среднего балла фундаментального исследования в среднем увеличивается на 0,038% от среднего балла фундаментального исследования.
Чтобы достоверно ранжировать факторы по силе влияния на Y найдём уравнение множественной регрессии в стандартизированном масштабе:
.