Смекни!
smekni.com

Y=

- вектор-столбец наблюдений (размерности п)

X=

— матрица значений регрессоров (размерности п на k+1)

- вектор-столбец неизвестныхпараметров, (размерности k+1)

- вектор-столбец случайныхошибок,(размерности п)

Тогда множественную линейную регрессионную модель можно записать, вматричной форме:

Метод наименьших квадратов

Необходимо найти методом наименьших квадратов оценки неизвестных параметров β.

Они определяются исходя из условия минимизации суммы квадратов остатков по компонентам вектора β.


7. Проверка гипотез в модели регрессии. Проверка гипотезы о коэффициенте регрессии. Значимость коэффициента, p-значение. Доверительный интервал для коэффициентов регрессии

Часто на практике необходимо ответить на вопрос: значимо ли отличается коэффициент регрессии от определенного значения С.

Схема тестирования гипотезы (критерий Стьюдента) выглядит следующим образом:

Н0: β = С – нулевая гипотеза

H1: β ≠ С – альтернативная гипотеза

• Вычисляются МНК-оценки коэффициентов регрессии и их стандартные ошибки

• Рассчитывается наблюдаемое значение статистики t: tнабл

• Выбирается требуемый уровень надежности γ (95%, 99%,99,9%) и находится критическое значение статистики Стьюдента с соответствующим количеством степеней свободы: tкрит

• Если |tнабл| > tкрит (по модулю), то нулевая гипотеза отвергается в пользу альтернативной, если нет – нулевая гипотеза не отвергается.

P-значение

Часто удобнее рассматривать непосредственно вероятность того, что наблюдаемое значение не превысит критическое:P-значение или p-value – это вероятность принятия гипотезы, т.е. если p-значение < уровня значимости, который равен 0,01; 0,05 или 0,10 (чаще всего это 0,05), то нулевая гипотеза Н0 – отвергается. Часто проверяется гипотеза H0: β = 0, которую в этом случае называют гипотезой о незначимости коэффициента.

Доверительные интервалы для коэффициентов регрессии

Доверительный интервал – это вычисленный на данных интервал, который с заданной вероятностью покрывает интересующий нас неизвестный параметр генеральной совокупности. В его основе используется стандартная ошибка оцениваемого параметра.

Приведенный интервал называют γ-процентным (90-, 95- или 99-процентным) доверительным интервалом для истинного значения коэффициента β.

8. Проверка гипотез в модели регрессии. Общая линейная гипотеза. Гипотеза о качестве регрессионной модели. Сравнение длинной и короткой регрессий. Тест Чоу

Общая линейная гипотеза

Гипотезу Hβ = r называют общей линейной гипотезой. Линейные гипотезы обычно вытекают из знаний экспериментатора или его предположений относительно возможных моделей. Проблема сравнения двух подвыборок является частным случаем общей линейной гипотезы.

Гипотеза о качестве регрессионной модели ни один регрессор не оказывает влияние на зависимую переменную. Гипотеза о равенстве нулю каждого из коэффициентов регрессии в отдельности Н0: bi=0. Для этого вычисляется Р-значение. Здесь следует подчеркнуть, что принятие Hо (высокое Р-значение) еще не говорит о том, что рассматриваемый признак xi нужно исключить из модели. Этого делать нельзя, поскольку суждение о ценности данного признака может выноситься, исходя из анализа совокупного взаимодействия в модели всех признаков. Поэтому высокое p-значение служит только «сигналом» о возможной неинформативности того или иного признака. Для проверки значимости модели регрессии используется F-критерий Фишера.

Сравнение длинной и короткой регрессий. Рассчитываем F-статистику и если это значение превышает критическое – делаем выбор в пользу неограниченной (длинной) регрессии, иначе – в пользу ограниченной (короткой).

Тест Чоу. Тест на равенство коэффициентов регрессии в двух выборках, называют тестом Чоу. Нулевая гипотеза проверяется с помощью F-статистики для гипотезы о том, что коэффициенты при всех добавленных переменных равны нулю.Выборку делят на части, у различных интервалов различный У, строят много интервалов, который наиболее значим по тесту Чоу, где используют сумму квадратов остатков модели для н-подмножеств.

9. Нелинейные регрессионные модели. Построение нелинейной модели. Оценивание эластичности с помощью регрессионной модели

Pri mnogoobrazii ekonom rpocessov casto zavisimostj budet nelinejnoj (spros,elasticnostj). Для оценки параметров нелинейных моделей используются два подхода. Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных. Таким образом, функции, которые показывают изменение одной переменной от другой в процентах или в несколько раз являются функциями, отражающими эластичность.

10. Сравнение регрессионных моделей. Тест Бокса-Кокса, процедура Зарембки

1. Критерий Хоэла.Estj dve pohozie modeli, Строят тестовую линейную зависимость в виде уравнения в параметрической форме. Проверка сводится к оценке в уравнении углового коэффициента . Если  значимо положителен (1), от модели

отказываются в пользу второй модели
. Если  незначимо положителен (<1), то нельзя определить, какая из моделей лучше. Критерий Хоэла называется несимметричным, так как он может использоваться только при >0.

2. Критерий Вильяма и Клута. Для сравнения двух регрессионных моделей, которые, по крайней мере, первоначально представляются равноценными, можно использовать симметричный критерий Вильяма и Клута. Проверка осуществляется путем оценки параметра  в тестовом уравнении корреляция регрессия гетероскедастичность логарифмирование

Sravnivaem aljternativnie modeli po R2, esli odinakovie, to Тогда следует применять стандартную процедуру в виде теста Бокса — Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки- eto сравнения среднеквадратичной ошибки (СКО) в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги.

1. Вычисляется среднее геометрическое значений у в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от у.

2. Пересчитываются наблюдения у таким образом, что они делятся на полученное на первом шаге значение.

3. Оценивается регрессия для линейной модели с использованием пересчитанных значений у вместо исходных значений у и для логарифмической модели с использованием логарифма от пересчитанных значений у. Теперь значения СКО для двух регрессий сравнимы, и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений.

4. Для проверки того, что одна из моделей не обеспечивает значимо лучшее соответствие, можно использовать произведение 1/2 числа наблюдений на логарифм отношения значений СКО в пересчитанных регрессиях с последующим взятием абсолютного значения этой величины. Такая статистика имеет распределение χ2 с одной степенью свободы (обобщение нормального распределения).

11. Спецификация регрессионной модели. Ошибки спецификации модели – включение незначимых и невключение значимых переменных. Замещающие переменные

Возможные ошибки спецификации регрессионной модели:

- Невключение значимых переменных

- Включение незначимых переменных

Невключение значимых переменных

• (–) Смещенность оценок коэффициентоврегрессии

• (–) Смещенность оценки дисперсии ошибокрегрессии

• (+) Меньшая вариация оценок коэффициентов регрессии

Включение незначимых переменных

• (+) Несмещенность оценок коэффициентоврегрессии

• (+) Несмещенность оценки дисперсии ошибокрегрессии

• (–) Большая вариация оценок коэффициентов регрессии

Замещающие переменные, причины:

1. Необходимость показателя не была учтена при составлении выборки

2. Переменная трудноизмерима (например, уровень образования)

3. Сбор данных о переменной x1 требует значительных затрат

При оценивании модели без переменной x1 полученные оценки будут смешенными.

Последствия использования замещающих переменных:

1. Оценки коэффициентов при переменных x2,…, xk становятся несмещенными

2. Стандартные ошибки и t-статистики коэффициентов te ze

3. R2 имеет такое же значение, как и при оценивании с переменной x1

4. Коэффициент β1 нельзя оценить (оценивается только β1δ1), но его стандартная ошибка и t-статистика позволяет оценить значимость x1

5. Получить оценку свободного члена модели невозможно (но она часто и не особенно важна) последствия справедливы приблизительно

12. Мультиколлениарность в регрессионной модели: понятие, причины, последствия

Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными.