Рис. 9.1. Виды связей между двумя переменными
Основными показателями корреляции являются:
1) коэффициент Фехнера;
2) коэффициент ассоциации;
3) коэффициент контингенции;
4) критерий согласия - χ²;
5) коэффициент корреляции рангов;
6) коэффициент корреляции;
7) коэффициент детерминации;
8) корреляционное отношение.
Рассмотрим все эти показатели подробнее.
Коэффициент Фехнера (Fechner-Koeffizient, Fechnercoefficient):
nс – число совпадений знаков отклонений индивидуальных величин от средней;
nн - число несовпадений знаков отклонений индивидуальных величин от средней.
Пример (см. табл.9.1.):.
Вывод: существует слабо выраженная негативная связь между X и Y.
Коэффициент Фехнера изменяется от -1 до +1.
В общем случае, если показатели корреляции:
0 ≤ П ≤ 0,3 , то существует слабая связь;
0,3 ≤ П ≤ 0,7 – умеренная связь;
0,7 ≤ П ≤ 1 – сильная связь.
Таблица 9.1.
Данные для расчета коэффициента Фехнера
Носитель признака | Факторный признакX | Результативный признак Y |
1 | 5 (+) | 5 (+) |
2 | 4 (-) | 5 (+) |
3 | 4 (-) | 4 (-) |
4 | 5 (+) | 4 (-) |
5 | 5 (+) | 3 (-) |
По номинально измеряемым признакам можно рассчитать лишь коэффициенты ассоциации (Assoziationskoeffizient, Associationcoefficient) и контингенции (Kontingenzkoeffizient, Contingentcoefficient) .
Таблица 9.2
Данные для расчета коэффициентов ассоциации и контингенции
Участники мероприятия | Спортсмены | Не спортсмены |
Мужчины | 20 (а) | 60 (в) |
Женщины | 15 (с) | 80 (d) |
Существует ли зависимость между двумя качественными признаками – полом и отношением к спорту?
1) по коэффициенту ассоциации
Вывод: вряд ли существует такая зависимость, т.е. степень зависимости невелика.
2) по коэффициенту контингенции:
Вывод: связь еще слабее.
Более точным по сравнению с рассматриваемыми коэффициентами является критерий согласия - χ² Пирсона (χ² AnpassungstestnachPearson, Pearson χ²-testofgoodnessoffit), отражающий связь между двумя и более признаками.
О – реальные значения признаков;
Е – теоретически выровненные значения признаков.
Пример .По данным таблицы 9.3. нужно ответить на вопрос: зависит ли частота несчастных случаев от смены? Предварительная гипотеза: связь отсутствует.
Таблица 9.3
Данные о несчастных случаях по предприятию N
Номер смены | Число несчастных случаев | |
Реальное | Теоретически выровненное | |
1 | 1 | 5 |
2 | 7 | 5 |
3 | 7 | 5 |
Итого: | 15 | 15 |
Вычислим критерий согласия - χ²:
Чем больше χ², тем больше вероятность того, что между О и Е есть существенные различия, т.е. наша гипотеза (связь отсутствует) неверна. Напротив, чем меньше χ², тем несущественнее, случайнее различия между О и Е, т.е. тем больше вероятность верности гипотезы.
По специальным таблицам находим критериальное значение χ² с вероятностью 95 % и числом степеней свободы 2 (равно числу строк таблицы-1, т.е. 3-1=2):
χ² = 5,99
Таким образом, в нашем примере χ² небольшой (4,8 < 5,99), различия между О и Е случайны, фактическое распределение несчастных случаев по сменам не отличается существенно от теоретически выровненного. Вывод: с 95 % вероятностью можно утверждать, что наша гипотеза верна.[2]
Для ординально измеряемых признаков применяется коэффициент корреляции рангов по Спирмену r (SpearmanscherRangkorrelations-koeffizient, Spearman'srankcorrelationcoefficient).
d – разность порядковых номеров (рангов) факторного и результативного признаков;
n – число наблюдений.
Пример: (см. табл. 9.4):
Вывод: существует сильная положительная зависимость между стажем и производительностью
Таблица 9.4
Стаж и производительность труда по 5 работникам предприятия N
№ работника | Стаж | Производительность | X*Y | X² | Y² | d | d² | ||
X | Ранг | Y | Ранг | ||||||
1 | 1 | 1 | 2 | 1 | 2 | 1 | 4 | 0 | 0 |
2 | 2 | 2 | 4 | 2 | 8 | 4 | 16 | 0 | 0 |
3 | 3 | 3 | 8 | 4 | 24 | 9 | 64 | -1 | 1 |
4 | 4 | 4 | 6 | 3 | 24 | 16 | 36 | 1 | 1 |
5 | 5 | 5 | 10 | 5 | 50 | 25 | 100 | 0 | 0 |
Итого | 15 | 30 | 108 | 55 | 220 | 2 |
Наиболее точным показателем корреляции является коэффициент корреляции (Korrelationskoeffizient, Coefficientofcorrelation ). Он позволяет учесть не только знаки отклонений значений признака от их средних, но и саму величину отклонений. Его можно рассчитать в два шага:
1) расчет показателя ковариации (kovarianz, covariance)
Однако полученные абсолютные величины нельзя сравнивать между собой, т.к. сами признаки Xи Y могут быть выражены в разных единицах измерения или средние `Х и`Y могут быть различны по величине. Поэтому отклонения значений признаков от средних нормируют по среднему квадратическому отклонению, т.е. выражают в долях от sxи sy .
2) расчет коэффициент корреляции
На практике применяют другую формулу:
По данным табл. 9.4 рассчитаем коэффициент корреляции:
Вывод: между стажем и производительностью труда существует сильная положительная связь.
Коэффициентдетерминации (Bestimmtheitskoeffizient, coefficient of determination):
Он имеет очень простой смысл: какая часть колебаний результативного признака вызвана факторным признаком. В нашем примере 72.25% изменений в производительности труда вызван влиянием стажа работника.
Все эти коэффициенты применяются без ограничений при прямолинейной зависимости. При криволинейной зависимости (параболической) они не годятся. Здесь применяются показатель, называемый корреляционным отношением h (Korrelationsverhältnis, Correlationratio).
δ² - межгрупповая дисперсия;
σобщ² - общая дисперсия совокупности.
Учитывая правило сложения дисперсии, можно написать видоизмененную формулу корреляционного отношения
- средняя из групповых дисперсий.Различают эмпирическое (фактическое) корреляционное отношение и теоретическое корреляционное отношение. В последнем для расчета δ² берут выровненные (т.е. рассчитанные по уравнению регрессии) значения результативного признака y. Теоретическое корреляционное отношение еще называют индексом корреляции.
В целом корреляционное отношение является универсальным показателем корреляции и используется при прямо- и криволинейной зависимости. При строго прямолинейной зависимости коэффициент корреляции и корреляционное отношение совпадают, но чем больше кривизна, тем сильнее они отличаются друг от друга.
Для этого коэффициента существует аналогичный предыдущему коэффициент детерминации - η².
Для проверки значимости показателей корреляции рассчитывают их ошибки. Средние квадратические ошибки показателей корреляции имеют вид: