Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.
Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.
Парная регрессия – уравнение связи двух переменных у иx:
,где у – зависимая переменная (результативный признак);
х – независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия:
.Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:
• полиномы разных степеней
•равносторонняя гипербола
Регрессии, нелинейные по оцениваемым параметрам:
• степенная ;
• показательная
• экспоненциальная
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических
минимальна, т.е.Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b:
Можно воспользоваться готовыми формулами, которые вытекают из этой системы:
Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции
для линейной регрессиии индекс корреляции
- для нелинейной регрессии ( ):Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:
Допустимый предел значений
– не более 8 – 10%.Средний коэффициент эластичности
показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора xна 1% от своего среднего значения:Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
где
– общая сумма квадратов отклонений; – сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»); –остаточная сумма квадратов отклонений.Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R2:
Коэффициент детерминации – квадрат коэффициента или индекса корреляции.
F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Ноо статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера. Fфактопределяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
п – число единиц совокупности;
т – число параметров при переменных х.
Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.
Если Fтабл < Fфакт, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики – tтабл и tфакт– принимаем или отвергаем гипотезу Hо.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством
Если tтабл < tфакт, то Hо отклоняется, т.е. а, bи
не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт, то гипотеза Ноне отклоняется и признается случайная природа формирования a, bили .Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:
Формулы для расчета доверительных интервалов имеют следующий вид:
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение
определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза : гдеи строится доверительный интервал прогноза:
гдеЗадача:
По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):
№ региона | X | Y |
1,000 | 2,800 | 28,000 |
2,000 | 2,400 | 21,300 |
3,000 | 2,100 | 21,000 |
4,000 | 2,600 | 23,300 |
5,000 | 1,700 | 15,800 |
6,000 | 2,500 | 21,900 |
7,000 | 2,400 | 20,000 |
8,000 | 2,600 | 22,000 |
9,000 | 2,800 | 23,900 |
10,000 | 2,600 | 26,000 |
11,000 | 2,600 | 24,600 |
12,000 | 2,500 | 21,000 |
13,000 | 2,900 | 27,000 |
14,000 | 2,600 | 21,000 |
15,000 | 2,200 | 24,000 |
16,000 | 2,600 | 34,000 |
17,000 | 3,300 | 31,900 |
19,000 | 3,900 | 33,000 |
20,000 | 4,600 | 35,400 |
21,000 | 3,700 | 34,000 |
22,000 | 3,400 | 31,000 |
Задание