Множественный регрессионный анализ – это статистический метод исследования зависимости случайной величины y от переменных xj, рассматриваемых как неслучайные величины независимо от истинного закона распределения xj. Предполагается, что y имеет нормальный закон распределения с условным мат. ожиданием y=j(x1,x2,…,xk), являющимся функцией от аргументов xj, и с постоянной, не зависящей от аргументов дисперсией s2. Наиболее часто встречаются линейные уравнения регрессии вида y=b0+b1x1+b2x2+…+bjxj+…+bkxk, линейные относительно неизвестных параметров bj (j=0,1,…,k) и аргументов xj.
Коэффициент регрессии bjпоказывает, на какую величину в среднем изменится результативный признак y, если переменную xj увеличить на единицу ее измерения, т.е. является нормативным коэффициентом.
В матричной форме регрессионная модель имеет вид
Y=Xb+e,
где Y – случайный вектор-столбец размерности [n´1] наблюдаемых значений результативного признака (y1,y2,…,yn); X – матрица размерности [n´ (k+1)] наблюдаемых значений аргументов. Элемент матрицы xijрассматривается как неслучайная величина (i=1,2,…,n; j=0,1,2,…,k; xоi=1);b– вектор-столбец размерности [(k+1)´1] неизвестных коэффициентов регрессии модели; e – случайный вектор-столбец размерности [n´1] ошибок наблюдений (остатков). Компоненты вектора независимы между собой, имеют нормальный закон распределения с нулевым мат. ожиданием и неизвестной дисперсией. На практике рекомендуется, чтобы n превышало k как минимум в три раза.
y*=b0+b1x1+b2x2+…+bjxj+…+bkxk.
Cогласно методу наименьших квадратов вектор оценок коэффициентов регрессии определяется по формуле
b=(XTX)-1XTY,
где
1 | x11 | … | x1k | y1 | b0 | |||
. | . | . | . | . | ||||
. | . | . | . | . | ||||
X= | 1 | xi1 | … | xik | Y= | yi | b= | bj |
. | . | . | . | . | ||||
. | . | . | . | . | ||||
1 | xn1 | … | xnk | yn | bk |
XT – транспонированная матрица X;(XTX)–1– матрица, обратная к матрице XTX.
Оценка ковариационной матрицы коэффициентов регрессии вектора b определяется из выражения
S*(b)=S*2(XTX)–1,
где S*2=(Y-Xb)T(Y-Xb)/(n-k-1).
Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем
S*2b(j–1)= S*2[(XTX)–1]jjдля j=1,2,…,k, k+1.
Значимость уравнения регрессии, т.е. гипотеза H0: b=0 (b0=b1=…=bk=0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле
Fнабл=(QR/(k+1))/(Qост/(n-k-1)),
где QR=(Xb)T(Xb), Qост=(Y-Xb)T(Y-Xb).
По таблице F-распределения (Приложение 1) для заданных a, n1=k+1, n2=n-k-1 находят Fкр.
Гипотеза H0 отклоняется с вероятностью a, если Fнабл>Fкр. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.
Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотез H0: bj=0, где j=1,2,…,k, используют t-критерий и вычисляют tнабл(bj)=bj/S*bj.По таблице t-распределения (Приложение 1) для заданных a, n=n-k-1 находят tкр.
Гипотеза H0 отвергается с вероятностью ошибки a, если êtнабл ê>tкр. Из этого следует, что соответствующий коэффициент регрессии bj значим, т.е. bj ¹ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. После этого реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначимых переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.
Для решения задачи требуется:
1. Найти оценку уравнения регрессии вида y=b0+b1x1+b2x2.
2. Проверить значимость уравнения регрессии при a=0,05 или a=0,01.
3. Проверить значимость коэффициентов регрессии.
4. Дать экономическую интерпретацию коэффициентам регрессии и оценить адекватность полученной модели по величине абсолютных ei и относительных diотклонений.
5. При необходимости перейти к алгоритму пошагового регрессионного анализа, отбросив один из незначительных коэффициентов регрессии.
6. Построить матрицы парных и частных коэффициентов корреляции.
7. Найти множественные коэффициенты корреляции и детерминации.
8. Проверить значимость частных и множественных коэффициентов корреляции.
9. Провести содержательный экономический анализ полученных результатов.
Пример решения задачи 1
По данным годовых отчетов десяти (n=10) предприятий (табл.4) провести анализ зависимости себестоимости товарной продукции y (млн. р.) от объема валовой продукции x1(млн. р.) и производительности труда x2 (тыс. р. на чел.).
Исходная информация | Результаты расчета | |||||||
№ | xi1 | xi2 | yi | y*i | (y*i)2 | ei=yi-y*i | (ei)2 | di= ei/ y*i |
1 | 3 | 1,8 | 2,1 | 2,31572 | 5,36255 | -0,21572 | 0,04653 | -0,09315 |
2 | 4 | 1,5 | 2,8 | 3,48755 | 12,16300 | -0,68755 | 0,47273 | -0,19714 |
3 | 5 | 1,4 | 3,2 | 4,35777 | 18,99015 | -1,15777 | 1,34043 | -0,26568 |
4 | 5 | 1,3 | 4,5 | 4,50907 | 20,33171 | -0,00907 | 0,00008 | -0,00201 |
5 | 5 | 1,3 | 4,8 | 4,50907 | 20,33171 | 0,29093 | 0,08464 | 0,064521 |
6 | 5 | 1,5 | 4,9 | 4,20647 | 17,69439 | 0,69353 | 0,48098 | 0,164872 |
7 | 6 | 1,6 | 5,5 | 4,77408 | 22,79184 | 0,72592 | 0,52696 | 0,152054 |
Исходная информация | Результаты расчета | |||||||
№ | xi1 | xi2 | yi | y*i | (y*i)2 | ei=yi-y*i | (ei)2 | di= ei/ y*i |
8 | 7 | 1,2 | 6,5 | 6,09821 | 37,18816 | 0,40179 | 0,16144 | 0,065887 |
9 | 15 | 1,3 | 12,1 | 11,6982 | 136,84905 | 0,40175 | 0,16140 | 0,034343 |
10 | 20 | 1,2 | 15,0 | 15,4441 | 238,52177 | -0,44415 | 0,19727 | -0,02876 |
Сред. знач. | S= | 530,22437 | S= | 3,47247 | ||||
7,5 | 1,41 | 6,14 | ||||||
y*i – значения, вычисленные по уравнению регрессии | ||||||||
ei – абсолютные ошибки аппроксимации | ||||||||
di – относительные ошибки аппроксимации |
1. Определение вектора b оценок коэффициентов
уравнения регрессии
Расчет оценок коэффициентов уравнения регрессии y*=b0+b1x1+b2x2 производится по уравнению b=(XTX)–1XTY:
n | Sxi1 | Sxi2 | 10 | 75 | 14,1 | ||
XTX = | Sxi1 | Sx2i1 | Sxi1xi2 | = | 75 | 835 | 100,4 |
Sxi2 | Sxi1xi2 | Sx2i2 | 14,1 | 100,4 | 20,21 |
Syi | 61,4 | b0 | 2,88142 | ||||
XTY = | Sxi1yi | = | 664,5 | b = | b1 | = | 0,71892 |
Sxi2yi | 82,23 | b2 | -1,51303 |
Таким образом, оценка уравнения регрессии примет вид
y*=2,88142+0,71892x1-1,51303x2.
2. Проверка значимости уравнения y*=2,88142+0,71892x1-1,51303x2.
а) QR=(Xb)T(Xb)=Sy*i =530,224365;
б) Qост=(Y-Xb)T(Y-Xb)=Se2i=3,472465;
в) несмещенная оценка остаточной дисперсии:
S*2= Qост/(n-3)=3,472465 / 7 = 0,496066;
г) оценка среднеквадратичного отклонения:
S*= 0,7043195;
д) проверяем на уровне a=0,05 значимость уравнения регрессии, т.е. гипотезу H0: b=0 (b0=b1=b2=0). Для этого вычисляем
Fнабл=(QR/(k+1))/(Qост/(n-k-1))=(530,224365 / 3))/(3,472465 / 7))=356,32776.
Далее по таблице F-распределения для a=0,05, n1=k+1=3, n2=n-k-1=7 находим Fкр=4,35. Так как Fнабл>Fкр (356,32776>4,35), то гипотеза H0 отвергается с вероятностью ошибки 0,05. Т.о. уравнение является значимым.
3. Проверка значимости отдельных коэффициентов регрессии
а) Найдем оценку ковариационной матрицы вектора b:
5,52259 | -0,08136 | -3,44878 | |
S*(b)=S*2(XTX)–1=0,496066(XTX)–1= | -0,08136 | 0,00267 | 0,04348 |
-3,44878 | 0,04348 | 2,21466 |
Так как на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов уравнения регрессии, то получим следующие несмещенные оценки этих дисперсий: