Парная регрессия (стр. 1 из 5)

Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х₁, Х₂, … Х_р и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

Парная регрессия – уравнение связи двух переменных у иx:

где у – зависимая переменная (результативный признак);

х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия:

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

• полиномы разных степеней

•равносторонняя гипербола

Регрессии, нелинейные по оцениваемым параметрам:

• степенная

;

• показательная

• экспоненциальная

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических

минимальна, т.е.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции

для линейной регрессии

и индекс корреляции

- для нелинейной регрессии (

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Допустимый предел значений

– не более 8 – 10%.

Средний коэффициент эластичности

показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора xна 1% от своего среднего значения:

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:

где

– общая сумма квадратов отклонений;

– сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);

–остаточная сумма квадратов отклонений.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R²:

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Н_оо статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F_факт и критического (табличного) F_таблзначений F-критерия Фишера. F_фактопределяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

п – число единиц совокупности;

т – число параметров при переменных х.

F_табл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.

Если F_табл < F_факт, то H₀ – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F_табл > F_факт, то гипотеза Н₀не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н₀о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Сравнивая фактическое и критическое (табличное) значения t-статистики – t_табл и t_факт– принимаем или отвергаем гипотезу H_о.

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t_табл < t_факт, то Hо отклоняется, т.е. а, bи

не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t_табл > t_факт, то гипотеза Н_оне отклоняется и признается случайная природа формирования a, bили

Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение

определяется путем подстановки в уравнение регрессии

соответствующего (прогнозного) значения

. Вычисляется средняя стандартная ошибка прогноза

где

и строится доверительный интервал прогноза:

где

Задача:

По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):

№ региона	X	Y
1,000	2,800	28,000
2,000	2,400	21,300
3,000	2,100	21,000
4,000	2,600	23,300
5,000	1,700	15,800
6,000	2,500	21,900
7,000	2,400	20,000
8,000	2,600	22,000
9,000	2,800	23,900
10,000	2,600	26,000
11,000	2,600	24,600
12,000	2,500	21,000
13,000	2,900	27,000
14,000	2,600	21,000
15,000	2,200	24,000
16,000	2,600	34,000
17,000	3,300	31,900
19,000	3,900	33,000
20,000	4,600	35,400
21,000	3,700	34,000
22,000	3,400	31,000

Задание