Y=
- вектор-столбец наблюдений (размерности п)X=
— матрица значений регрессоров (размерности п на k+1) - вектор-столбец неизвестныхпараметров, (размерности k+1) - вектор-столбец случайныхошибок,(размерности п)Тогда множественную линейную регрессионную модель можно записать, вматричной форме:
Метод наименьших квадратов
Необходимо найти методом наименьших квадратов оценки неизвестных параметров β.
Они определяются исходя из условия минимизации суммы квадратов остатков по компонентам вектора β.
7. Проверка гипотез в модели регрессии. Проверка гипотезы о коэффициенте регрессии. Значимость коэффициента, p-значение. Доверительный интервал для коэффициентов регрессии
Часто на практике необходимо ответить на вопрос: значимо ли отличается коэффициент регрессии от определенного значения С.
Схема тестирования гипотезы (критерий Стьюдента) выглядит следующим образом:
Н0: β = С – нулевая гипотеза
H1: β ≠ С – альтернативная гипотеза
• Вычисляются МНК-оценки коэффициентов регрессии и их стандартные ошибки
• Рассчитывается наблюдаемое значение статистики t: tнабл
• Выбирается требуемый уровень надежности γ (95%, 99%,99,9%) и находится критическое значение статистики Стьюдента с соответствующим количеством степеней свободы: tкрит
• Если |tнабл| > tкрит (по модулю), то нулевая гипотеза отвергается в пользу альтернативной, если нет – нулевая гипотеза не отвергается.
P-значение
Часто удобнее рассматривать непосредственно вероятность того, что наблюдаемое значение не превысит критическое:P-значение или p-value – это вероятность принятия гипотезы, т.е. если p-значение < уровня значимости, который равен 0,01; 0,05 или 0,10 (чаще всего это 0,05), то нулевая гипотеза Н0 – отвергается. Часто проверяется гипотеза H0: β = 0, которую в этом случае называют гипотезой о незначимости коэффициента.
Доверительные интервалы для коэффициентов регрессии
Доверительный интервал – это вычисленный на данных интервал, который с заданной вероятностью покрывает интересующий нас неизвестный параметр генеральной совокупности. В его основе используется стандартная ошибка оцениваемого параметра.
Приведенный интервал называют γ-процентным (90-, 95- или 99-процентным) доверительным интервалом для истинного значения коэффициента β.
8. Проверка гипотез в модели регрессии. Общая линейная гипотеза. Гипотеза о качестве регрессионной модели. Сравнение длинной и короткой регрессий. Тест Чоу
Общая линейная гипотеза
Гипотезу Hβ = r называют общей линейной гипотезой. Линейные гипотезы обычно вытекают из знаний экспериментатора или его предположений относительно возможных моделей. Проблема сравнения двух подвыборок является частным случаем общей линейной гипотезы.
Гипотеза о качестве регрессионной модели ни один регрессор не оказывает влияние на зависимую переменную. Гипотеза о равенстве нулю каждого из коэффициентов регрессии в отдельности Н0: bi=0. Для этого вычисляется Р-значение. Здесь следует подчеркнуть, что принятие Hо (высокое Р-значение) еще не говорит о том, что рассматриваемый признак xi нужно исключить из модели. Этого делать нельзя, поскольку суждение о ценности данного признака может выноситься, исходя из анализа совокупного взаимодействия в модели всех признаков. Поэтому высокое p-значение служит только «сигналом» о возможной неинформативности того или иного признака. Для проверки значимости модели регрессии используется F-критерий Фишера.
Сравнение длинной и короткой регрессий. Рассчитываем F-статистику и если это значение превышает критическое – делаем выбор в пользу неограниченной (длинной) регрессии, иначе – в пользу ограниченной (короткой).
Тест Чоу. Тест на равенство коэффициентов регрессии в двух выборках, называют тестом Чоу. Нулевая гипотеза проверяется с помощью F-статистики для гипотезы о том, что коэффициенты при всех добавленных переменных равны нулю.Выборку делят на части, у различных интервалов различный У, строят много интервалов, который наиболее значим по тесту Чоу, где используют сумму квадратов остатков модели для н-подмножеств.
9. Нелинейные регрессионные модели. Построение нелинейной модели. Оценивание эластичности с помощью регрессионной модели
Pri mnogoobrazii ekonom rpocessov casto zavisimostj budet nelinejnoj (spros,elasticnostj). Для оценки параметров нелинейных моделей используются два подхода. Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных. Таким образом, функции, которые показывают изменение одной переменной от другой в процентах или в несколько раз являются функциями, отражающими эластичность.
10. Сравнение регрессионных моделей. Тест Бокса-Кокса, процедура Зарембки
1. Критерий Хоэла.Estj dve pohozie modeli, Строят тестовую линейную зависимость в виде уравнения в параметрической форме. Проверка сводится к оценке в уравнении углового коэффициента . Если значимо положителен (1), от модели
отказываются в пользу второй модели . Если незначимо положителен (<1), то нельзя определить, какая из моделей лучше. Критерий Хоэла называется несимметричным, так как он может использоваться только при >0.2. Критерий Вильяма и Клута. Для сравнения двух регрессионных моделей, которые, по крайней мере, первоначально представляются равноценными, можно использовать симметричный критерий Вильяма и Клута. Проверка осуществляется путем оценки параметра в тестовом уравнении корреляция регрессия гетероскедастичность логарифмирование
Sravnivaem aljternativnie modeli po R2, esli odinakovie, to Тогда следует применять стандартную процедуру в виде теста Бокса — Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки- eto сравнения среднеквадратичной ошибки (СКО) в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги.
1. Вычисляется среднее геометрическое значений у в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от у.
2. Пересчитываются наблюдения у таким образом, что они делятся на полученное на первом шаге значение.
3. Оценивается регрессия для линейной модели с использованием пересчитанных значений у вместо исходных значений у и для логарифмической модели с использованием логарифма от пересчитанных значений у. Теперь значения СКО для двух регрессий сравнимы, и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений.
4. Для проверки того, что одна из моделей не обеспечивает значимо лучшее соответствие, можно использовать произведение 1/2 числа наблюдений на логарифм отношения значений СКО в пересчитанных регрессиях с последующим взятием абсолютного значения этой величины. Такая статистика имеет распределение χ2 с одной степенью свободы (обобщение нормального распределения).
Возможные ошибки спецификации регрессионной модели:
- Невключение значимых переменных
- Включение незначимых переменных
Невключение значимых переменных
• (–) Смещенность оценок коэффициентоврегрессии
• (–) Смещенность оценки дисперсии ошибокрегрессии
• (+) Меньшая вариация оценок коэффициентов регрессии
Включение незначимых переменных
• (+) Несмещенность оценок коэффициентоврегрессии
• (+) Несмещенность оценки дисперсии ошибокрегрессии
• (–) Большая вариация оценок коэффициентов регрессии
Замещающие переменные, причины:
1. Необходимость показателя не была учтена при составлении выборки
2. Переменная трудноизмерима (например, уровень образования)
3. Сбор данных о переменной x1 требует значительных затрат
При оценивании модели без переменной x1 полученные оценки будут смешенными.
Последствия использования замещающих переменных:
1. Оценки коэффициентов при переменных x2,…, xk становятся несмещенными
2. Стандартные ошибки и t-статистики коэффициентов te ze
3. R2 имеет такое же значение, как и при оценивании с переменной x1
4. Коэффициент β1 нельзя оценить (оценивается только β1δ1), но его стандартная ошибка и t-статистика позволяет оценить значимость x1
5. Получить оценку свободного члена модели невозможно (но она часто и не особенно важна) последствия справедливы приблизительно
12. Мультиколлениарность в регрессионной модели: понятие, причины, последствия
Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными.