Значение коэффициента Пирсона не может выйти за границы интервала (-1; 1).
Влияние линейного преобразования переменных на коэффициент кореляции
Вместо xi вводим в формулу bx+a, где a, b– коэффициенты, для yi вводим в формулу dy+c, где c, d– коэффициенты.
Вопрос о кореляции между переменными будучи решен положительно не означает наличия более общего вида связи (заработная плата учителям и количество поступивших в ВУЗы после окончания школы). Если мы проводим идентификацию групп с различным средним, наличие кореляции не исключено, но возможно другое объяснение взаимосвязи, чем вытекающее их эксперимента. Отсутствие связи при нулевом коэффициента Пирсона означает всего лишь отсутствие линейной связи.
Дисперсия суммы и разности переменных
Предсказание и оценивание
Переменная, которую мы хотим оценить называется зависимой переменной или откликом , обозначим ее через y.
Переменная которую мы используем для оценки называется независимой переменной или фактором, ее обозначим через x.
Конкретная характеристика (переменная x) имеющаяся в нашем распоряжении, позволяет получить до проведения эксперимента значение y, зависимой переменной. Мы получаем
используя xi и коэффициенты b1и b0.Даже при наилучшем линейном предсказании, предсказание
будет отличаться от реального yi на какую-то величину, которую мы назовем ошибкойоценки и обозначим ei:
Точность предсказания зависит от того, насколько удачно подобраны коэффициента b1и b0. Критерием успешности подбора коэффициентов является минимальная величина суммы квадратов всех ошибок оценки
– критерий наименьших квадратовДругой критерий:
. Этот критерий приводит к медианой линии регрессии. Из уравнения следуетИсходя из минимизации формулы наименьших квадратов найдем формулы:
;Наше исследование получается наиболее результативным, если мы предполагаем, что фактор и отклик имеют двумерные нормальные распределения.
Свойства двумерного нормального распределения
1. Выборочные средние отклика (y) для каждого значения x лежат на прямой;
2. Для любого значения x, соответствующие значения y нормально распределены;
3. Для любого значенияx, y – имеют одинаковую дисперсию
.При прогнозировании является ли среднее ошибок оценки подходящей мерой для прогнозирования.
Средняя ошибка оценки всегда равна нулю. Один из способов доказать этот факт, это выбрать в качестве меры прогнозирования дисперсию ошибки оценки.
Стандартная ошибка оценки
Стандартную ошибку оценки применяют для определения пределов, в окрестности предсказанного
попадает фактическое значение yi.В приделах Se– расположено 69% фактических значений объекта, в приделах 2Se– 95%, в приделах 3Se– 97,5%.
Связь b1 и b0 с другими описательными статистиками
Если x и y распределены по нормальному закону и имеют одинаковую дисперсию, то
.Поскольку rxyне зависит от Sx и Sy, b1 - принимает максимальное значение при rxy =1 и минимальное значение при rxy = -1, следовательно b1 никогда не может быть больше
, при rxy =1 и не может быть меньше при rxy = -1.Если между переменными отсутствует линейная связь, b1=0 уравнение регрессии сводится к прямой без наклона, то есть
.Измерение нелинейной связи между переменными
Для определения меры нелинейной связи между переменными используется коэффициент
Эта мера может быть использована и для оценки линейной связи.
Пример вычисления:
x/возраст | 10 | 14 | 18 | 22 | 26 | 30 | 34 | 38 |
7 | 8 | 9 | 11 | 9 | 8 | 7 | 8 | |
8 | 9 | 10 | 11 | 10 | 9 | 9 | ||
9 | 10 | 11 | 12 | 11 | 9 | 10 | ||
9 | 11 | 12 | 12 | 10 | ||||
10 |
Находим среднее для каждого возраста и суммируем отношения каждого yi от среднего соответствующего группы.
Для 10 -
=8,6; 18 – 9,5; 22 – 11,5; 26 – 10; 90 – 9; 34 – 8,67; 38 – 8. - является мерой нелинейности связи иДругие меры связи
1. Измерения в дихотомической шкале (например, женат – не женат, мужчина – женщина)
2. Измерение в дихотомической шкале наименований в предположении нормального распределения. Предполагается, что при более полных, более совершенных измерениях данные распределятся по нормальному закону.
3. Шкала порядка
4. Измерение в шкале интервалов или отношений.
Рассмотренный ранее коэффициент кореляции Пирсона соответствует сочетанию J при измерении исходных данных. Для описания степени кореляции при других комбинациях шкал измерений исходных данных используются следующие меры.Случай A.
px– доля людей имеющих 1 по x, py– доля людей имеющих 1 по y
qx– доля людей имеющих 0 по x, qy– доля людей имеющих 0 по y
pxy - доля людей имеющих 1 по x и y
№ | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
x | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 1 |
y | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 1 |
x – женат / холост
y – исключенные из учебного заведения / оставшиеся
px=0,4167 ; py= 0,5 ; qx=0,5833 ; qy= 0,5 ; pxy =0,333; φ=0,507
Если нет особого интереса к доле pxи py, дихатомические данные располагают в таблице сопряженности признаков. Пример таблицы сопряженности по приведенным данным
φ – определяется по формуле:Коэффициент φ, это тот же коэффициент кореляции Пирсона, но эти данные не похожи на двумерное нормальное распределение, которое мы представляли при вычислении коэффициента Пирсона. Это рассматривается как большое неудобство статистиками.
Случай B.
Удовлетворительного коэффициента для этого случая не существует, рекомендуется исходить из предположения о нормальном распределении данных и вычислять φ в качестве меры связи для этого случая.