Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.
Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.
Корреляция – это статистическая зависимость между случайными величинами, не имющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).
2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.
В задачи корреляционного анализа входит:
-установление направления (положительное или отрицательное) и формы (линейная или нелинейная) связи между варьирующими признаками,
-измерение тесноты связи (значения коэффициентов корреляции),
-проверка уровня значимости коэффициентов корреляции.
Диаграмма рассеивания (рисунок 1) применяется для выяснения зависимости одной переменной величины (показателя качества продукции, параметра технологического процесса, величины затрат на качество и т.п.) от другой.
Например:
-характеристика качества и влияющий на нее фактор;
-две различные, но связанные между собой характеристики качества;
-два фактора, влияющие на одну характеристику качества.
Рисунок 1. Диаграмма рассеивания
Виды корреляционных связей между измеренными признаками могут быть линейными и нелинейными, положительными или отрицательными. Варианты корреляционных связей отражены на рисунке 2 (а – г).Возможна также ситуация, когда между переменными невозможно установить какую-либо зависимость (рисунок 2 - в). В этом случае говорят об отсутствии корреляционной связи. С целью выявления характеристик корреляционных зависимостей применяют корреляционный анализ. Прежде чем начать исследование парной стохастической зависимости, необходимо убедиться, что массив данных характеризует наличие только двух переменных, корреляционные связи которых надо раскрыть. То есть надо проанализировать собранную информацию на предмет расслоения данных измерения, проверить возможность вмешательства в одну из переменных дополнительного стратифицирующего фактора.
Рисунок 2. Диаграммы рассеяния: а) положительная корреляция,
б) отрицательная корреляция, в) корреляция отсутствует,
г) выбросы измерений из поля корреляции
Определение коэффициента корреляции. Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.
Для характеристики тесноты связи между двумя переменными обычно пользуются выборочным парным коэффициентом
. Парный коэффициент корреляции в случае линейной формы связи вычисляют по формуле . (1)При малом числе наблюдений выборочный коэффициент корреляции удобно вычислять по следующей формуле:
(2)Величина коэффициента корреляции изменяется в интервале
.При
между двумя переменными существует функциональная связь, при - прямая функциональная связь. Если , то значение X иYв выборке некоррелированны; в случае, если система случайных величин имеет двумерное нормальное распределение, то величины X иY будут и независимыми.Если коэффициент корреляции находится в интервале
, то между величинами X иY существует обратная корреляционная связь. Это находит подтверждение и при визуальном анализе исходной информации. В этом случае отклонение величины Y от среднего значения взяты с обратным знаком.Если каждая пара значений величин X иYчаще всего одновременно оказывается выше (ниже) соответствующих средних значений, то между величинами существует прямая корреляционная связь и коэффициент корреляции находится в интервале
.Если же отклонение величины X от среднего значения одинаково часто вызывают отклонения величины Y вниз от среднего значения и при этом отклонения оказываются все время различными, то можно предполагать, что значение коэффициента корреляции стремится к нулю.
Следует отметить, что значение коэффициента корреляции не зависит от единиц измерения и выбора начала отсчета. Это означает, что если переменные X иY уменьшить (увеличить) в К раз либо на одно и то же число С, то коэффициент корреляции не изменится.
Определение уравнений регрессии. Корреляционную зависимость между переменными X и Y можно выразить с помощью уравнений типа:
, (4)которые называются уравнениями регрессии. В этих уравнениях
и являются средними арифметическими переменных X и Y.Графическое выражение регрессионного уравнения называют линией регрессии. Предположи, что связь между переменными линейная (рисунок 3), тогда соответствующая регрессионная модель имеет вид:
, (5)В уравнении (5) наоборот x – зависимая переменная, а Y – независимая,
- свободный член, - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.Рисунок 3. Парная линейная регрессия.
Количественное установление связи (зависимости) между Xи Y (или между Yи X) называется регрессионным анализом.Главная задача регрессионного анализа состоит:
· в определение коэффициентов
,· в определение уровня значимости полученных уравнений регрессии связывающих между собой переменные Xи Y.
Коэффициент регрессии
вычисляютсяпо формуле: , (6)Если коэффициент корреляции не известен, коэффициент регрессии можно вычислить по следующей формуле:
. (7)Свободный член уравнений регрессии
вычисляется по формуле [6]: . (8)Вычисление по формулам (6) – (8) достаточно трудоемко, поэтому в регрессионном анализе используют метод наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т. е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных
от выровненных :