Смекни!
smekni.com

Линейная парная регрессия (стр. 1 из 4)

1. Линейная парная регрессия

1.1. Основные понятия и определения

Корреляционная зависимость может быть представлена в виде

Mx(Y) = j(x) (1)

или My(X) = y(у), где j(x) ¹const, y(у) ¹const.

В регрессионном анализе рассматривается односторонняя зависимость случайной переменной Y от одной (или нескольких) неслучайной независимой переменной Х. Такая зависимость Y от X (иногда ее называют регрессионной) может быть также представлена в виде модельного уравнения регрессии Y от X (1). При этом зависимую переменную Y называют также функцией отклика(объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком), а независимую переменную Хобъясняющей(входной, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором, факторным признаком).

Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х, т.е. Х = х. В статистической практике такую информацию получить, как правило, не удается, так как обычно исследователь располагает лишь выборкой пар значений (xi, yi) ограниченного объема n. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:

=
( x, b0, b1, …, bp) (2)

где

- условная (групповая) средняя переменной Y при фиксированном значении переменной X = x;b0, b1, …, bp – параметры кривой.

Уравнение (2) называется выборочным уравнением регрессии.

В дальнейшем рассмотрим линейную модель и представим ее в виде

= b0 + b1x. (3)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0, b1).

Согласно методу наименьших квадратов (МНК) неизвестные параметры b0 и b1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значенийyi от значений

, найденных по уравнению регрессии (3), была минимальной:

. (4)

На основании необходимого условия экстремума функции двух переменных S = S(b0, b1) (4) приравняем к нулю ее частные производные, т.е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

(5)

Теперь, разделив обе части уравнений (5) на n, получим систему нормальных уравнений в следующем виде:

(6)

где соответствующие средние определяются по формулам:

; (7)
; (9)

; (8)
. (10)

Решая систему (6), найдем

, (11)

где

- выборочная дисперсия переменной Х:

, (12)

- выборочный корреляционный момент или выборочная ковариация:

. (13)

Коэффициент b1 называется выборочным коэффициентом регрессииY по X.

Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.

Отметим, что из уравнения регрессии

следует, что линия регрессии проходит через точку
, т.е.
= b0 + b1
.

На первый взгляд, подходящим измерителем тесноты связи Y от Х является коэффициент регрессии b1. Однако b1 зависит от единиц измерения переменных. Очевидно, что для "исправления" b1 как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Если представить уравнение

в эквивалентном виде:

. (14)

В этой системе величина

называется выборочный коэффициент корреляции и является показателем тесноты связи.

Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.

Учитывая (7)–(13) получим следующие формулы для расчета коэффициента корреляции:

; (15)

. (16)

Выборочный коэффициент корреляции обладает следующими свойствами:

1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.

2.Приr=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной Y будут в большей или меньшей мере отклоняться от функции регрессии j(Х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

Y = j(X) + e,

где e-случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Рассмотрим линейный регрессионный анализ, для которого унция j(Х) линейна относительно оцениваемых параметров:

Mx(Y) = b0 + b1x.(17)

Предположим, что для оценки параметров линейной функции регрессии (17) взята выборка, содержащая п пар значений переменных (xi, yi), где i = 1, 2, …, п. В этом случае линейная парная регрессионная модель имеет вид:

yi = b0 + b1xi + ei. (18)

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В моделиyi = b0 + b1xi + ei возмущение eiесть величина случайная, а объясняющая переменная xi– величина неслучайная.

2. Математическое ожидание возмущения eiравно нулю:

M(ei) = 0. (19)

3. Дисперсия возмущения eiпостоянна для любого i:

D(ei) = s2. (20)

4. Возмущения ei и ejне коррелированны:

M(eiej) = 0 (i¹j). (21)

5. Возмущения eiесть нормально распределенная случайная величина.

Оценкой модели (18) по выборке является уравнение регрессии

= b0 + b1x. Параметры этого уравнения b0 и b1 определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (18) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии (см. табл. 1).

Теорема Гаусса-Маркова. Если регрессионная модель
yi = b0 + b1xi + ei удовлетворяет предпосылкам 1-5, то оценкиb0, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров b0 и b1.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров. Вспомним основные понятия и определения необходимые для анализа значимости параметров регрессии.

Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое мы хотим проверить по имеющимся данным.