Множественная регрессия и корреляция
Пусть требуется построить линейную модель зависимости некоторого выходного экономического показателя
Пусть
Здесь
Для адекватной работы метода наименьших квадратов требуется выполнение следующих гипотез:
1.
2.
столбцы линейно независимые, т.е. ранг этой матрицы равен
3.
3а.
3b.
3с.
Справедлива теорема Гаусса-Маркова, что при этих условиях метод наименьших квадратов дает наилучшую в некотором смысле модель. Если некоторые из условий не выполняются, то приходится использовать более сложные методы.
В результате применения метода наименьших квадратов находятся оценки коэффициентов модели
Метод наименьших квадратов состоит в том, что среди всех возможных наборов коэффициентов модели находится набор, минимизирующий
Если все коэффициенты модели, кроме константы
( total sum of squares) называется общей суммой квадратов.
За счет того, что не все коэффициенты модели равны нулю, сумма квадратов отклонений уменьшается. В соответствии с этим величина
означает объясненную сумму квадратов (regression sum of squares).
После получения оценок
Для полученной модели необходимо уметь определять, можно ли отбросить несколько входящих в нее объясняющих переменных или добавить переменные, не входящие в модель. С этой целью, проводят тест для определения какая модель лучше – «длинная» или «короткая». Также необходимо проверять однородность модели для разных наборов переменных. Для этого предназначен тест Чоу. Для оценки адекватности модели надо проверять тесты на выполнение условий теоремы Гаусса-Маркова.
Тест на выбор «длинной» или «короткой» регрессии
Данный тест используется для отбора наиболее существенных объясняющих переменных. Например, переход от большого числа исходных показателей состояния анализируемой системы к меньшему числу наиболее информативных переменных может быть обусловлен дублированием информации, доставляемой сильно взаимосвязанными признаками или неинформативностью признаков, мало меняющихся при переходе от одного объекта к другому. Так, если две какие-либо объясняющие переменные сильно коррелированы с результирующим показателем и друг с другом, то часто бывает достаточно включения в модель одной из них, а дополнительным вкладом от включения другой можно пренебречь.
Пусть
т.е. последние коэффициентов
Тест по проверке данной гипотезы состоит в следующем:
1. Построить по МНК «длинную» (unrestricted) регрессию по всем параметрам
2. Используя МНК, построить «короткую» (restricted) регрессию по первым
3. Вычислить F-статистику:
4. Найти критическую точку распределения Фишера при выбранном уровне значимости
5. Если
Если
Тест Чоу на однородность зависимости объясняемой переменной от объясняющих
На практике нередки случаи, когда имеются две выборки пар значений зависимой и объясняющей переменных