1. Линейная парная регрессия
1.1. Основные понятия и определения
Корреляционная зависимость может быть представлена в виде
Mx(Y) = j(x) (1)
или My(X) = y(у), где j(x) ¹const, y(у) ¹const.
В регрессионном анализе рассматривается односторонняя зависимость случайной переменной Y от одной (или нескольких) неслучайной независимой переменной Х. Такая зависимость Y от X (иногда ее называют регрессионной) может быть также представлена в виде модельного уравнения регрессии Y от X (1). При этом зависимую переменную Y называют также функцией отклика(объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком), а независимую переменную Х – объясняющей(входной, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором, факторным признаком).
Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х, т.е. Х = х. В статистической практике такую информацию получить, как правило, не удается, так как обычно исследователь располагает лишь выборкой пар значений (xi, yi) ограниченного объема n. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:
= ( x, b0, b1, …, bp) (2)где
- условная (групповая) средняя переменной Y при фиксированном значении переменной X = x;b0, b1, …, bp – параметры кривой.Уравнение (2) называется выборочным уравнением регрессии.
В дальнейшем рассмотрим линейную модель и представим ее в виде
= b0 + b1x. (3)Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0, b1).
Согласно методу наименьших квадратов (МНК) неизвестные параметры b0 и b1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значенийyi от значений
, найденных по уравнению регрессии (3), была минимальной: . (4)На основании необходимого условия экстремума функции двух переменных S = S(b0, b1) (4) приравняем к нулю ее частные производные, т.е.
откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:
(5)Теперь, разделив обе части уравнений (5) на n, получим систему нормальных уравнений в следующем виде:
(6)где соответствующие средние определяются по формулам:
; (7) ; (9) ; (8) . (10)Решая систему (6), найдем
, (11)где
- выборочная дисперсия переменной Х: , (12) - выборочный корреляционный момент или выборочная ковариация: . (13)Коэффициент b1 называется выборочным коэффициентом регрессииY по X.
Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.
Отметим, что из уравнения регрессии
следует, что линия регрессии проходит через точку , т.е. = b0 + b1 .На первый взгляд, подходящим измерителем тесноты связи Y от Х является коэффициент регрессии b1. Однако b1 зависит от единиц измерения переменных. Очевидно, что для "исправления" b1 как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Если представить уравнение
в эквивалентном виде: . (14)В этой системе величина
называется выборочный коэффициент корреляции и является показателем тесноты связи.Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.
Учитывая (7)–(13) получим следующие формулы для расчета коэффициента корреляции:
; (15) . (16)Выборочный коэффициент корреляции обладает следующими свойствами:
1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.
2.Приr=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.
3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.
В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной Y будут в большей или меньшей мере отклоняться от функции регрессии j(Х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:
Y = j(X) + e,
где e-случайная переменная (случайный член), характеризующая отклонение от функции регрессии.
Рассмотрим линейный регрессионный анализ, для которого унция j(Х) линейна относительно оцениваемых параметров:
Mx(Y) = b0 + b1x.(17)
Предположим, что для оценки параметров линейной функции регрессии (17) взята выборка, содержащая п пар значений переменных (xi, yi), где i = 1, 2, …, п. В этом случае линейная парная регрессионная модель имеет вид:
yi = b0 + b1xi + ei. (18)
Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).
1. В моделиyi = b0 + b1xi + ei возмущение eiесть величина случайная, а объясняющая переменная xi– величина неслучайная.
2. Математическое ожидание возмущения eiравно нулю:
M(ei) = 0. (19)
3. Дисперсия возмущения eiпостоянна для любого i:
D(ei) = s2. (20)
4. Возмущения ei и ejне коррелированны:
M(eiej) = 0 (i¹j). (21)
5. Возмущения eiесть нормально распределенная случайная величина.
Оценкой модели (18) по выборке является уравнение регрессии
Теорема Гаусса-Маркова. Если регрессионная модель
yi = b0 + b1xi + ei удовлетворяет предпосылкам 1-5, то оценкиb0, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров b0 и b1.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров. Вспомним основные понятия и определения необходимые для анализа значимости параметров регрессии.
Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое мы хотим проверить по имеющимся данным.