Параметры уравнения a0, a1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yiот выравненных
:S(yi –
)2 = S(yi – a0 – a1xi)2® min (1.1.4)Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
(1.1.5)Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
Определив значения a0, a1 и подставив их в уравнение связи
=a0+a1x, находим значения , зависящие только от заданного значения х.1.4. Парная корреляция и регрессия
Часто при анализе взаимосвязей социально-экономических явлений среди различных факторов, влияющих на результат, бывает важно выделить наиболее значимый факторный признак, который в большей степени обусловливает вариацию результативного признака (например, зависимость проданных туристическими фирмами путевок от затрат на рекламу или зависимость производительности труда операторов ЭВМ от стажа работы). Этим обусловлена необходимость измерения парных корреляций и построения уравнений парных регрессий.
Парная корреляция характеризует тесноту и направленность связи между результативным и факторным признаками. Парная регрессия позволяет описать форму связи в виде уравнения парной регрессии (табл.2).
Таблица 1
Основные виды уравнений парной регрессии
В данной таблице
– теоретическое значение результативного признака (y) при определенном значении факторного признака (x), подставленном в регрессионное уравнение; а0 – свободный член уравнения; a1, a2 – коэффициенты регрессии.Параметры уравнений парной регрессии a1, a2 называют коэффициентами регрессии. Для оценки параметров уравнения парной регрессии используется метод наименьших квадратов (МНК). Он заключается в определении параметров а0, a1, a2, при которых сумма квадратов отклонений фактических значений результата (yi) от теоретических (
) минимизируется. Так, (1.1.8) описывает исходное условие МНК для парной линейной корреляционной связи: или (1.1.8)На основе (1.1.8) определяются частные производные функции f(а0, a1), которые затем приравниваются к 0. Далее полученные уравнения преобразуются в систему нормальных уравнений, из которых определяются параметры а0, a1. При этом число нормальных уравнений в общем случае будет равно числу параметров. При использовании СПП параметры регрессионного уравнения определяются автоматически.
В частности, коэффициент парной линейной регрессии a1 определяется в соответствии с (1.1.9) и характеризует меру связи между вариациями факторного и результативного признаков. Коэффициент регрессии показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного на единицу:
(1.1.9)где n – объем совокупности.
Тесноту и направление парной линейной корреляционной связи измеряют с помощью линейного коэффициента корреляции (1.1.10), принимающего значения в пределах от –1 до +1 (см. табл.2):
(1.1.10)Квадрат коэффициента корреляции называют коэффициентом детерминации (r2). Коэффициент детерминации можно интерпретировать как долю общей дисперсии результативного признака (y), которая объясняется вариацией факторного признака (x).
Таблица 2
Оценка характера связи по линейному коэффициенту корреляции
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента: проверяется нулевая гипотеза об отсутствии связи между факторным и результативным признаками (H0: r = 0). Для проверки H0 по формуле (1.1.11) следует рассчитать t-статистику (tр) и сравнить ее с табличным значением (tт), определяемым с использованием таблицы приложения 2 по заданным уровню значимости (α) и числу степеней свободы (d.f.). Если tр > tт, то гипотеза H0 отвергается с вероятностью ошибки меньше чем α·100%. Это свидетельствует о значимости линейного коэффициента корреляции и статистической существенности зависимости между факторным и результативным признаками.
(1.1.11)где k = n-2 для малой выборки,
k = n при большом числе наблюдений (n>100).
Аналогично оценивается значимость коэффициента регрессии; tр рассчитывают как отношение взятого по модулю коэффициента регрессии к его средней ошибке с заданными уровнем значимости (α) и числом степеней свободы d.f.= n-2.
1.5. Множественная корреляция и регрессия
При анализе взаимосвязей социально-экономических явлений, как правило, выясняется, что на результат влияет ряд факторных признаков, основные из которых следует включить в регрессионную модель. При этом следует помнить, что все факторы учесть в модели невозможно по ряду причин: часть факторов просто неизвестна современной науке, по части известных факторов нет достоверной информации или количество включаемых в модель факторов может быть ограничено объемом выборки (количество факторных признаков должно быть на порядок меньше численности изучаемой совокупности).
Множественная регрессия описывает форму связи в виде уравнения множественной регрессии, или регрессионной модели (табл.3).
Таблица 3
Основные виды множественной регрессии
– теоретическое значение результативного признака (y) при определенных значениях факторных признаков (x1, x2,…, xm), подставленных в регрессионное уравнение;а0 – свободный член уравнения;
a1,a2,…,am – коэффициенты множественной регрессии.
Параметры уравнения множественной регрессии a1,a2,…,am называют коэффициентами множественной регрессии и определяют с помощью МНК путем решения системы нормальных уравнений МНК. При этом число нормальных уравнений в общем случае будет равно числу параметров. Если связь отдельного фактора с результатом не является линейной, то производят линеаризацию уравнения. Для упрощения решения системы нормальных уравнений значения всех признаков заменяют на отклонения индивидуальных значений признаков от их средних величин. Полученные коэффициенты множественной регрессии являются именованными числами и показывают, на сколько изменится результативный признак (по отношению к своей средней величине) при отклонении факторного признака от своей средней на единицу и при постоянстве (фиксированном уровне) других факторов.
Значимость коэффициентов множественной регрессии оценивается на основе t-критерия Стьюдента; tр рассчитывают как отношение взятого по модулю коэффициента регрессии к его средней ошибке с заданными уровнем значимости (α) и числом степеней свободы d.f.= n-m-1.
Коэффициенты регрессии можно преобразовать в сравнимые относительные показатели - стандартизованные коэффициенты регрессии, или β-коэффициенты (1.1.13). β-коэффициент позволяет оценить меру влияния вариации факторного признака на вариацию результата при фиксированном уровне других факторов:
(1.1.13)