Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.
С точки зрения взаимодействующих факторов связь бывает парной – если характеризуется связь двух признаков, и множественной – если изучаются более, чем две переменные.
По виду бывают непосредственные – факторы взаимодействуют между собой непосредственно; косвенные – характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками; ложная – это связь, установленная формально и, как правило, подтверждённая только количественными оценками, она не имеет под собой качественной основы или вообще бессмысленна.
По силе различают слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
Задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.
Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.
Количественная взаимосвязь факторов называется регрессией. А важной характеристикой корреляционной связи является линия регрессии – эмпирическая в модели аналитической группировки и теоретическая в модели регрессионного анализа. Недостаток эмпирических линий состоит в небольшой точности и практически невозможной алгоритмизации полученных зависимостей.
Эмпирическая линия регрессии представлена групповыми средними результативного признака
, каждая из которых принадлежит соответствующему интервалу значений группировочного фактора . Теоретическая линия регрессии описывается определённой функцией , которую называют уравнением регрессии, а - теоретическим уровнем результативного признака.Разные явления по разному реагируют на изменение факторов. Для того, чтобы отобразить характерные особенности связи конкретных явлений, статистика использует разные по функциональному виду регрессионные уравнения:
· если при изменении фактора
результат изменяется более-менее равномерно, такая связь описывается линейной функцией ;· если неравномерное соотношение вариаций взаимосвязанных признаков (например, когда прирост значений
при смене ускорен или замедлен, или направление связи изменяется), используют нелинейные регрессии:1. Степенную
;2. Гиперболическую
;3. Параболическую
.Наряду с определением характера связи и эффекта влияния факторов
на результат важное значение имеет оценка плотности связи – то есть оценка согласованности вариации взаимосвязанных признаков. Если влияние факторного признака на результативный существенный, это проявится в закономерной смене значений при смене значений , то есть фактор своим влиянием формирует вариацию . При отсутствии связи вариация не зависит от вариации .Для оценки плотности связи статистика использует группу коэффициентов с такими общими особенностями:
· при отсутствии какой-либо связи значение коэффициента приближается к нулю; при функциональной связи – к единице;
· при наличии корреляционной связи коэффициент выражается дробью, которая по абсолютной величине тем больше, чем плотнее связь.
Среди мер плотности связи самым распространённым является:
1) коэффициент корреляции Пирсона -
. Поскольку сфера его использования ограничивается линейной зависимостью, то и в названии его фигурирует слово «линейный».Коэффициент корреляции определяется по формуле:
.2) Коэффициент детерминации – квадрат коэффициента корреляции (
), показывающий, какая часть общей вариации результативного признака определяется исследуемым фактором.3) Мерою плотности связи является также корреляционное отношение:
,где
- межгрупповая дисперсия, которая измеряет вариацию признака под влиянием фактора , - общая дисперсия.Корреляционное отношение показывает, сколько процентов вариации признака объясняется вариацией фактора и используется для оценки плотности связи по данным аналитической группировки (например, для оценки плотности связи между глубиной разработки угольных пластов и фондоёмкости добычи угля).
Взаимосвязь между признаками, которые можно ранжировать, прежде всего, на основе бальных оценок, измеряется методами ранговой корреляции. Упорядочение единиц совокупности по значению признака называется ранжированием. Рангами называются числа натурального ряда, которые согласно значениям признака присваиваются элементам совокупности и в определённой степени упорядочивают её. Ранжирование проводится по каждому признаку отдельно: первый ранг присваивается наименьшему значению признака, последний – наибольшему или наоборот. Количество рангов равно объёму совокупности. Учитывая то, что ранговая корреляция не требует соблюдения каких-либо математических предпосылок распределения признаков, ранговые оценки плотности связи целесообразно использовать для совокупностей небольшого объёма.
Решение типовых задач
С помощью методов периодизации выделены периоды однотипной динамики безработицы и преступности.
1. По одному из таких периодов с помощью линейного коэффициента корреляции определите наличие связи между числом преступлений и численностью лиц, не занятых в экономике. Дайте оценку.
2. Постройте уравнение регрессии.
3. Нанесите на график эмпирическую и теоретическую линии регрессии.
Таблица 1
Год | Лица в трудоспособном возрасте, не занятые в экономике, тыс. чел. | Число зарегистрированных преступлений |
1999 | 117,1 | 54 929 |
2000 | 134,7 | 77 915 |
2001 | 191,9 | 86 615 |
2002 | 215,0 | 72 404 |
Ход решения:
Так как с увеличением числа лиц в трудоспособном возрасте (
), не занятых в экономике, равномерно увеличивается число зарегистрированных преступлений ( ), то оценку зависимости проводим с помощью линейного уравнения регрессии, а оценку тесноты связи – линейного коэффициента корреляции.1. Линейный коэффициент корреляции рассчитывается по формуле:
= .2. Уравнение прямой, с помощью которой оценивается форма зависимости изучаемых показателей, имеет вид:
,