Смекни!
smekni.com

Создание макроса на языке Statistica Visual Basic для проверки гипотезы о нормальности остатков регрессии (стр. 4 из 7)

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F.[1] Всегда, прежде чем сделать окончательные выводы, стоит рассмотреть распределения представляющих интерес переменных. Можно построить гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.[электрон-уч]

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора

остатки
имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 3.5).

Рис. 3.5. Пример гетероскедастичности: дисперсия остатков растет по мере увеличения х;

Используя трехмерное изображение, получим следующие графики, иллюстрирующие гомо- и гетероскедастичность (рис. 3.6, 3.7).


Рис. 3.6. Гомоскедастичность остатков

Рис. 3.7. Гетероскедастичность остатков

Рис. 3.6 показывает, что для каждого значения

распределения остатков
одинаковы в отличие от рис. 3.7, где диапазон варьирования остатков меняется с переходом от одного значения
другому. Соответственно на рис. 3.7 демонстрируется неодинаковая дисперсия при разных значениях
.

Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков

от теоретических значений результативного признака
.
Так, для рис 3.5зависимость остатков от
представлена на рис. 3.8.

Рис. 3.8. Гетероскедастичность: большая дисперсия

для больших значений

При построении рефессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК - отсутствие автокорреляции остатков, т. е. значения остатков

, распределены независимо друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. [1]

Одним из основных предполагаемых свойств отклонений

от регрессионной модели является их статистическая независимость между собой. Поскольку значени
остаются неизвестными, то проверяется статистическая независимость их аналогов — отклонения
(наблюдаемые значения ошибок).При этом устанавливается некоррелированность сдвинутыми на период величинами
. Для этих величин можно рассчитать коэффициент автокорреляции первого порядка (выборочный коэффициент корреляции между
и
):

На практике в качестве теста используют тесно связанную с коэффициентом автокорреляции

статистику Дарбина — Уотсона. Тест Дарбина — Уотсона (DW) на наличие или отсутствие автокорреляции ошибок рассчитывается по формуле:

Нулевая гипотеза состоит в отсутствии автокорреляции. Статистику Дарбина-Уотсона можно выразить через коэффициент автокорреляции:

[2]

Содержательный смысл статистики Дарбина-Уотсона заключается в следующем: если между

и
имеется достаточно высокая положительная корреляция, то
и
близки друг другу и величина статистики DWмала. Это согласуется с последним выражением: если коэффициент
близок к единице, то величина DW близка к нулю. Отсутствие корреляции означает, что DW близка к 2. [3]

Если бы распределение статистики DW было известно, то для проверки гипотезы

против альтернативы
можно было бы для заданного уровня значимости (например, для 5%-уровня) найти такое критическое значение
,что если
,то гипотеза Но не отвергается, в противном случае она отвергается в пользу Н1. Проблема, однако, состоит в том, что распределение DW зависит не только от числа наблюдений п и количества регрессоров к, но и от всей матрицы X, и, значит, практическое применение этой процедуры невозможно. Тем не менее, Дарбин и Уотсон доказали, что существуют две границы, обычно обозначаемые
и
,
(и = upper - верхняя, l=low - нижняя), которые зависят лишь от n, к и уровня значимости (а следовательно, могут быть затабулированы) и обладают следующим свойством: если
, то
и, значит, гипотеза H0 не отвергается, а если
то
, и гипотеза Ноотвергается в пользу H1. В случае
ситуация неопределенна, т. е. нельзя высказаться в пользу той или иной гипотезы. Если альтернативной является гипотеза об отрицательной корреляции
, то соответствующими верхними и нижними границами будут 4-dl и 4-du. Целесообразно представить эти результаты в виде следующей таблицы.

Таблица 6.3.

Значение статистики DW

Значение статистики DW Вывод
4 -dl< DW < 4 Гипотеза Но отвергается, есть отрицательная корреляция
4 - du < DW < 4 - dl Неопределенность
du < DW < 4 - du Гипотеза Но не отвергается
dl < DW < du Неопределенность
0 < DW < dl Гипотеза Но отвергается, есть положительная корреляция

Наличие зоны неопределенности, представляет определенные трудности при использовании теста Дарбина-Уотсона. [3]

Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. [1]

2.3 Проверка гипотезы о нормальности остатков в модуле MultipleRegressionStatistica

STATISTICA является интегрированной системой комплексного статистического анализа и обработки данных в среде Windows. Все методы обработки в системе разбиты на несколько групп - модулей - в соответствии с основными разделами статистического анализа. Модуль Multiple Regression -Множественная регрессия включает в себя набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы. Система STATISTICA позволяет вычислить всесторонний набор статистик и расширенной диагностики, включая полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, статистику Дарбина-Уотсона и многие другие. Анализ остатков и выбросов может быть проведен при помощи широкого набора графиков. [Салманов, с. 245-246]