Смекни!
smekni.com

Корреляционный анализ (стр. 2 из 5)


Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к

, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.[2]

1.4Этапы корреляционного анализа

Практическая реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию[3].

1.5Коэффициенты корреляции

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

- дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

- Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

- ранговой корреляции Спирмена (Spearmen's rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

- j - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

- тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах[4].

Линейная связь между переменными Xi и Xjоценивается коэффициентом корреляции:

,

где Xi и Xj – исследуемые переменные; mXi и mXj – математические ожидания переменных; σXи σX– дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

,

или по преобразованной формуле:

,

где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); xi, xj – оценки математических ожиданий; SXi, SXj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин Xi и Xjкоэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь[5].

1.6Нормированный коэффициент корреляции Браве-Пирсона

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений xi и yi согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона (

) относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:

Из формулы видно, что для вычисления

необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего
. Зная эти значения, находятся суммы
. Затем, вычислив значение
, необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если
, то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если
, то между признаками наблюдается недостоверная корреляционная взаимосвязь[2].

Пример 1.10 студентам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X — обозначает среднее время решения наглядно-образных, а переменная Y— среднее время решения вербальных заданий тестов.

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столбцы, необходимые для расчета по формуле.

Таблица 1 – Условия задачи

№ испытуемых x y хi-
i-
)2
yi-
(yi-
)2
1 19 17 -16,7 278,89 -7,2 51,84 120,24
2 32 7 -3,7 13,69 -17,2 295,84 63,64
3 33 17 -2,7 7,29 -7,2 51,84 19,44
4 44 28 8,3 68,89 3,8 14,44 31,54
5 28 27 -7,7 59,29 2,8 7,84 -21,56
6 35 31 -0,7 0,49 6,8 46,24 -4,76
7 39 20 3,3 10,89 -4,2 17,64 -13,86
8 39 17 3,3 10,89 -7,2 51,84 -23,76
9 44 35 8,3 68,89 10,8 116,64 89,64
10 44 43 8,3 68,89 18,8 353,44 156,04
Сумма 357 242 588,1 1007,6 416,6
Среднее 35,7 24,2

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона: