Цель: научиться обосновывать умозаключения о состоятельности регрессионной модели.
Основные формулы и понятия:
— доверительный интервал для b; — доверительный интервал для a;— стандартная ошибка для параметра b;
1. t-тест (тест Стьюдента). Тест на значимость коэффициента b.
Нулевая гипотеза H0:b = 0
Альтернативная гипотеза H1:b¹0
t-статистика имеет вид:
— область принятия нулевой гипотезы.Если выполняется данное условие, то принимается нулевая гипотеза, и регрессор признается незначимым. В противном случае принимается альтернативная гипотеза, и регрессор признаётся значимым.
2. F-тест (тест Фишера). Тест на значимость всей регрессии.
Нулевая гипотеза H0: R2 = 0
Альтернативная гипотеза H1: R2 ¹ 0
область принятия нулевой гипотезы.
Если выполняется данное условие, то принимается нулевая гипотеза, и вся регрессионная модель признается незначимой. В противном случае принимается альтернативная гипотеза, и модель признаётся значимой.
3. t-тест (тест Стьюдента). Тест на значимость коэффициента корреляции во всей генеральной совокупности
Нулевая гипотеза H0:rx,y = 0
Альтернативная гипотеза H1:rx,y¹ 0
t-статистика имеет вид:
— область принятия нулевой гипотезы.В парном регрессионном анализе результаты проверки всех трех гипотез эквивалентны.
Электронная таблица Excel
В лабораторной работе № 2 нами были проведено исследование зависимости спроса от цены на основании таблицы 1, для которой посредством надстройки была получена итоговая таблица 4 и регрессионная модель вида y = –7,7145x + 240,14. Часть полученной таблицы нами уже рассматривалась.
При этом мы не учитывали, что на диалоговом окне надстройки Регрессия (рис. 8) имеется независимый переключатель Уровень надежности, который по умолчанию равен 95 %. Уровень надежности — это то значение, посредством которого строятся доверительные интервалы для коэффициентов. Можно говорить о том, что Уровень надежности + Уровень значимости = 1, то есть уровень надежности в 95 % отвечает уровню значимости в 5 % и т. д. Данное значение может быть изменено. Для этого в диалоговом окне Регрессия необходимо отметить опцию Уровень надежности, после чего можно поставить любое числовое значение от 0 до 100. Чаще всего используются уровни надежности в 99 % или 90 %.
В итоговой таблице имеется значения t-тестов для каждого из коэффициентов регрессии и значение F-теста на состоятельность регрессии. Рассмотрим данную таблицу ещё раз.
Таблица 9
ВЫВОД ИТОГОВ | |
Регрессионная статистика | |
Множественный R | 0,887036 |
R-квадрат | 0,786833 |
Нормированный R-квадрат | 0,770435 |
Стандартная ошибка | 2,264609 |
Наблюдения | 15 |
Продолжение табл. 9
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 1 | 246,0889 | 246,0889 | 47,985 | 1,04E–05 | |
Остаток | 13 | 66,66991 | 5,128455 | |||
Итого | 14 | 312,7588 | ||||
Коэффи циенты | Стандартная ошибка | t-ста тистика | P- значение | Нижние 95 % | Верхние 95 % | |
Y-пересечение | 240,142 | 17,70861 | 13,56075 | 4,76E–09 | 201,8849 | 278,3991 |
X | –7,71453 | 1,113671 | –6,92712 | 1,04E–05 | –10,1205 | –5,30859 |
В разделе Дисперсионный анализ выдается значение F-теста. Данное значение равно 47,985. Однако не происходит проверки гипотезы с некоторым уровнем значимости, а находится само значение данного уровня. Поскольку, как правило, используются уровни в 5 % и 1 %, то при условии, что данное значение меньше 0,01, регрессия считается значимой, и при значении больше 0,05 — незначимой. В данном случае Значимость F равна 1,04E – 5 = 0,000104, то есть всю регрессионную модель можно признать значимой.
При желании можно самостоятельно найти критическое значение. Так, критическое значение с уровнем значимости 95 % можно найти по формуле FРАСПОБР(0,05;1;13) = 4,6671. Первое число степеней свободы равно числу регрессоров 1, а второе равно числу наблюдений, уменьшенному на 2, то есть 13.
В последнем разделе, где выводится значение коэффициентов, также имеется t-статистика для каждого коэффициента, их значимость и доверительные интервалы значений. В данном случае также не производится проверка с некоторым уровнем значимости, а выдаются значения t-статистики и P-значение для каждого параметра.
Анализ полученных значений происходит подобным образом. Если значение меньше чем 0,01, то нулевая гипотеза отвергается, и регрессор признается значимым, если это значение больше чем 0,05, то нулевая гипотеза принимается, и соответственно регрессор признается незначимым. Как правило, эти рассуждения касаются только гипотезы H0:b = 0. В данном случае значение статистики равно 1,04E-05, а, следовательно, регрессор можно признать значимым. При необходимости можно самостоятельно получить значения критических точек распределения Стьюдента для проверки гипотезы с некоторым уровнем значимости.
В последних двух столбцах раздела “Коэффициенты” выдаются доверительные интервалы с некоторым уровнем значимости.
Если в итоговой таблице регрессии имеются результаты о значимости коэффициентов регрессии и всей модели в целом, то гипотезу о значимости коэффициента корреляции необходимо проводить самостоятельно. (Хотя в случае парной регрессионной модели это может и не понадобиться, поскольку все гипотезы эквивалентны.)
Задания для самостоятельной работы
1. Проверить гипотезы о значимости параметров регрессии и всей регрессионной модели для данных своего варианта.
2. Найти 99 % доверительный интервал для параметров a и b.
3. Самостоятельно проверить гипотезу на значимость коэффициента корреляции (для этого необходимо вычислить значение соответствующей статистики, а затем проверить с критическим значением распределения Стьюдента).
Цель: научиться выбирать наилучшую регрессионную модель.
Основные формулы и понятия:
Модели нелинейной регрессии
Полиноминальная (степени p)
Логарифмическая
Гиперболическая
Дробно-линейная
Показательная
Степенная
Логистическая
Средняя ошибка аппроксимации
.Электронная таблица Excel
В электронной таблице имеются возможности получения коэффициентов и значение детерминации для логарифмической, степенной, экспоненциальной функций и полинома произвольной степени. Для этого также, как и ранее, необходимо построить точечную диаграмму, а затем вызвать контекстное меню произвольной точки. В полученном меню необходимо выбрать пункт Добавить линию тренда, после него появится диалоговое окно (рис. 5), у которого на закладке Тип имеется возможность выбрать соответствующую нелинейную модель. Если кроме этого отметить опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации (R^2, то на графике кроме самой линии тренда появятся уравнение модели и значение коэффициента детерминации.
Например, для данных таблицы 5, построив линейную, экспоненциальную и логарифмическую модели, можно получить диаграмму, изображенную на рисунке 11:
Рис. 11
То есть имеем
линейную модель: y = –7,7145x + 240,14 R2 = 0,786,