Смекни!
smekni.com

Создание макроса на языке Statistica Visual Basic для проверки гипотезы о нормальности остатков регрессии (стр. 3 из 7)

- число степеней свободы для остаточной суммы квадратов отклонений. [Елисеева-136-137]

Критический уровень t при любом уровне значимости зависит от числа степеней свободы, которое равно

: число наблюдений минус число оцененных параметров. [Доугерти 154]

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции (

) и его квадрата – коэффициента детерминации (
). [Елисеева-112]

Показатель множественной корреляции может быть найден как индекс множественной корреляции:

где

- общая дисперсия результативного признака;

- остаточная дисперсия для уравнения

Границы изменения индекса множественной корреляции: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. [Елисеева-113]

Коэффициент детерминации

определяет долю дисперсии
, объясненную регрессией. [Доугерти 159]

Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера:


где

- факторная сумма квадратов на одну степень свободы;

- остаточная сумма квадратов на одну степень свободы;

- коэффициент (индекс) множественной детерминации;

- число параметров при переменных
(в линейной регрессии совпадает с числом включенных в модель факторов);

- число наблюдений. [Елисеева-129]

Смысл проверяемой гипотезы заключается в том, что все коэффициенты линейной регрессии, за исключением свободного параметра, равны нулю (случай отсутствия линейной функциональной связи).

Величина F имеет распределение Фишера с степенями свободы

. Распределение Фишера - двухпараметрическое распределение неотрицательной случайной величины, являющейся в частном случае при m = 1 квадратом случайной величины, распределенной по Стьюденту. [Салманов 48]. В определенном смысле этот тест дополняет t-тесты, которые используются для проверки значимости вклада отдельных случайных переменных, когда проверяется каждая из гипотез

.. [Доугерти 160]

Для проверки нулевой гипотезы при заданном уровне значимости по таблицам находится критическое значение Fкрит, и нулевая гипотеза отвергается, если

.

Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это особенно важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных или, наоборот, включения их в это число. [Салманов 48].

2.2 Требования к остаткам

При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки относительно случайной составляющей

. В модели

случайная составляющая

представляет собой ненаблюдаемую величину. В задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений
, т. е. остаточных величин.

Проверка статистической достоверности коэффициентов регрессии и корреляции осуществляется с помощью t-критерия Стьюдента, F-критерия Фишера и Z-преобразования (для коэффициентов корреляции). При использовании этих критериев делаются предположения относительно поведения остатков

- остатки представляют собой независимые случайные величины и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Оценки параметров регрессии должны быть несмещенными, состоятельными и эффективными. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Исследования остатков

предполагают проверку наличия следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от

;

3) гомоскедастичность - дисперсия каждого отклонения

одинакова для всех значений х;

4) отсутствие автокорреляции остатков. Значения остатков

распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если распределение случайных остатков

не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Прежде всего проверяется случайный xapактер остатков

- первая предпосылка МНК.

С этой целью стоится график зависимости остатков

от теоретических значений результативного признака (рис. 3.2).

Рис.3.2. Зависимость случайных остатков

от теоретических значений

Если на графике получена горизонтальная полоса, то остатки

представляют собой случайные величины и MНK оправдан, теоретические значения
хорошо аппроксимирует фактические значения у.

Возможны следующие случаи: если

зависит от
, то:

а) остатки

не случайны;

б) остатки

не имеют постоянной дисперсии;

в) остатки

носят систематический характер.

В случаях а), б), в) необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки

не будут случайными величинами.

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что

. Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных.

Вместе с тем несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин х, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью строится график зависимости случайных остатков

от факторов, включенных в регрессию
(рис. 3.4).

Рис. 3.4. Зависимость случайных остатков от величины фактора

Если остатки на графике расположены в виде горизонтальной полосы (рис. 3.4), то они независимы от значений

. Если же график показывает наличие зависимости
и
,то модель неадекватна.