Корреляционная связь (от англ. corelation - соответствие) является частным случаем статистической связи, при которой изменение среднего значения результативного признака обусловлено изменением значений факторного признака (парная корреляция) или множества факторных признаков (множественная корреляция). Для оценки тесноты связи (связь отсутствует, слабая, умеренная, сильная), определения ее направленности (связь прямая или обратная), а также формы (связь линейная, параболическая, гиперболическая, степенная и т.д.) используется корреляционно-регрессионный метод.
Корреляционно-регрессионный анализ позволяет количественно измерить тесноту, направление связи (корреляционный анализ), а также установить аналитическое выражение зависимости результата от конкретных факторов при постоянстве остальных действующих на результативный признак факторных признаков (регрессионный анализ).
Основные условия применения корреляционно-регрессионного метода:
1. Наличие достаточно большой по объему выборочной совокупности. Считается, что число наблюдений должно превышать более чем в 10 раз число факторов, влияющих на результат.
2. Наличие качественно однородной исследуемой совокупности.
3. Подчинение распределения совокупности по результативному и факторным признакам нормальному закону или близость к нему. Выполнение этого условия обусловлено использованием метода наименьших квадратов (МНК) при расчете параметров корреляции и некоторых др.
Основные задачи корреляционно-регрессионного анализа
1. Измерение тесноты связи между результативным и факторным признаком (признаками). В зависимости от количества влияющих на результат факторов задача решается путем вычисления корреляционного отношения, коэффициентов парной, частной, множественной корреляции
или детерминации.
2. Оценка параметров уравнения регрессии, выражающего зависимость средних значений результативного признака от значений факторного признака (признаков). Задача решается путем вычисления коэффициентов регрессии.
3. Определение важнейших факторов, влияющих на результативный признак. Задача решается путем оценки тесноты связи факторов с результатом.
4. Прогнозирование возможных значений результативного признака при задаваемых значениях факторных признаков. Задача решается путем подстановки ожидаемых значений факторов в регрессионное уравнение и вычисления прогнозируемых значений результата.
Часто при анализе взаимосвязей социально-экономических явлений среди различных факторов, влияющих на результат, бывает важно выделить наиболее значимый факторный признак, который в большей степени обусловливает вариацию результативного признака (например, зависимость проданных туристическими фирмами путевок от затрат на рекламу или зависимость производительности труда операторов ЭВМ от стажа работы). Этим обусловлена необходимость измерения парных корреляций и построения уравнений парных регрессий.
Парная корреляция характеризует тесноту и направленность связи между результативным и факторным признаками. Парная регрессия позволяет описать форму связи в виде уравнения парной регрессии (табл.1).
Таблица 1.Основные виды уравнений парной регрессии
Наименование формы парной регрессии | Вид уравнения парной регрессии |
Линейная | y= а0 + a1x |
Гиперболическая | y= а0 + a1 (1/x) |
Параболическая | y= а0 + a1x + a2x2 |
Степенная | y= а0 xa1 |
Источник http://ru.wikipedia.org
В данной таблице –теоретическое значение результативного признака (y) при определенном значении факторного признака (x), подставленном в регрессионное уравнение; а0 – свободный член уравнения; a1, a2 – коэффициенты регрессии.
Параметры уравнений парной регрессии a1, a2 называют коэффициентами регрессии. Для оценки параметров уравнения парной регрессии используется метод наименьших квадратов (МНК). Он заключается в определении параметров а0, a1, a2, при которых сумма квадратов отклонений фактических значений результата (yi) от теоретических (~ i ) минимизируется. Так описывает исходное условие МНК для парной линейной корреляционной связи:
На его основе определяются частные производные функции f(а0, a1),которые затем приравниваются к 0. Далее полученные уравнения преобразуются в систему нормальных уравнений, из которых определяются параметры а0, a1. При этом число нормальных уравнений в общем случае будет равно числу параметров. При использовании СПП параметры регрессионного уравнения определяются автоматически. В частности, коэффициент парной линейной регрессии a1 определяется в соответствии с (2.2.) и характеризует меру связи между вариациями факторного и результативного признаков. Коэффициент регрессии показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного на единицу:
Тесноту и направление парной линейной корреляционной связи измеряют с помощью линейного коэффициента корреляции , принимающего значения в пределах от –1 до +1 :
Квадрат коэффициента корреляции называют коэффициентом детерминации (r2). Коэффициент детерминации можно интерпретировать как долю общей дисперсии результативного признака (y), которая объясняется вариацией факторного признака (x).
Таблица 2. Оценка характера связи по линейному коэффициенту корреляции.
Значения линейного коэффициента корреляции | Характер связи |
r = -1 | функциональная |
-1< r < -0,7 | обратная сильная |
-0,7 ≤ r ≤ -0,5 | обратная умеренная |
-0,5 < r < 0 | обратная слабая |
r=0 | отсутствует |
0 < r < + 0,5 | прямая слабая |
+0,5 ≤ r ≤ +0,7 | прямая умеренная |
+ 0,7< r < + 1 | прямая сильная |
r = +1 | функциональная |
Источник http://ru.wikipedia.org
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента: проверяется нулевая гипотеза об отсутствии связи между факторным и результативным признаками (H0: r = 0). Для проверки H0 по формуле следует рассчитать t-статистику (tр) и сравнить ее с табличным значением (tт), определяемым с использованием таблицы приложения 2 по заданным уровню значимости (α) и числу степеней свободы (d.f.). Если tр > tт, то гипотеза H0 отвергается с вероятностью ошибки меньше чем α·100%. Это свидетельствует о значимости линейного коэффициента корреляции и статистической существенности зависимости между факторным и результативным признаками.
Аналогично оценивается значимость коэффициента регрессии; tр рассчитывают как отношение взятого по модулю коэффициента регрессии к его средней ошибке с заданными уровнем значимости (α) и числом степеней свободы d.f.= n-2.
3. Анализ связи между размером пенсий и прожиточным минимумом.
Для проведения анализа связи между прожиточным минимумом и размером пенсий, были подобраны данные за период с 2000 по 2007 года (Таблица 3).
Таблица 3
Прожиточный минимум и размер пенсий
Года | Размер пенсий | Прожиточный минимум |
2000 | 694,3 | 909 |
2001 | 1023,5 | 1144 |
2002 | 1378,5 | 1379 |
2003 | 1637 | 1605 |
2004 | 1914,5 | 1801 |
2005 | 2364 | 2418 |
2006 | 2726,1 | 2731 |
2007 | 3115,5 | 3065 |
(Источник:Разработка автора )
По полученным данным была построена диаграмма (Рисунок 1).
Рис. 1. Сравнение размера пенсий и прожиточного минимума.
Далее были рассчитаны параметры линейного и степенного уравнений (Таблица 4)
Таблица4
Коэффициенты уравнений
Линейное | Степенное | |
A | 168,7469 | 0,5515 |
B | 0,9225 | 0,8341 |
Уравнение | y=168,7469+0,9225x | y=0,5515+x0,8341 |
(Источник: разработка автора)
Были вычислены показатели корреляции и детерминации. (Таблица 5).
Таблица 5
Показатели корреляции и детерминации
Показатели | Линейное | Степенное |
Корреляция | 0,9946 | 0,9891 |
Детерминация | 0,9892 | 0,9783 |
(Источник: разработка автора)
Из таблицы 3 видно, что наиболее тесная связь наблюдается в линейном уравнении.
После вычисления t-критериев (таблица 6) и табличного t-критерия
Ттаб= 2,4469 можно прийти к выводу, что tтабл<tфакт в степенном уравнении, поэтому гипотеза Но отклоняется, т.е. a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х.
tтабл>tфакт в линейном уравнении, поэтому гипотеза Но не отклоняется и признается случайная природа формирования а, b.
Таблица 6
Т-критерии
Линейное | Степенное | |
t | 2,133237477 | 3,36453837 |
23,50544425 | 16,43799525 |
(Источник: разработка автора)
Далее вычислим F-критерии выбранных функций(Таблица 7):
Таблица 7
F-критерии
Линейное | Степенное | |
f | 552,5059092 | 270,2076877 |
(Источник: разработка автора)
Сравним с табличным f -критерием, который равен 5,99 и придем к выводу, что оба уравнения имеют высокую статистическую надежность результатов регрессионного моделирования.