Чтобы использовать формулу для линейного коэффициента корреляции рассчитаем дисперсию:
Данный коэффициент попадает в интервал
- это говорит о том, что связь между признаками сильная, а положительный знак коэффициента говорит о том, что связь прямая.- это говорит о том, что связь мед++тной группы от 20 до 24ся актуальным, так какДля оценки значимости коэффициента корреляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального.
При линейной однофакторной связи t-критерий можно рассчитать по формуле:
,где (n - 2) – число степеней свободы при заданном уровне значимости α и объеме выборки n.
Полученное значение tрасч сравнивают с табличным значением t-критерия (для α = 0,05 и 0,01)
Подставляем данные в формулу:
Получаем, что tрасч > tтабл=2,7764[1] , линейный коэффициент считается значимым, а связь между x и y – существенной, т.е. мы можем исключить случайную ошибку и сказать, что коэффициент однозначно отражает связь между изучаемыми признаками.
Рассчитаем коэффициент детерминации, который показывает долю вариации результативного признака под влиянием вари признака-фактора. В нашем случае
, т.е. спрос на 76% зависит от частоты посещаемости предприятия.С помощью мастер диаграмм строим графическую зависимость по данным таблицы 5, показывающую влияния частоты посещений на спрос на предприятии общественного питания «Источник» (рис.2). Добавляем линию тренда и величину достоверности аппроксимации (показывает точность описания уравнения регрессии)-R2.
Таблица 5
Распределение значений частоты посещений предприятий общественного питания и спроса на предприятии среди населения в возрасте от 20 до 46лет
Возраст населения | Численность населения, n | Частота посещения предприятия х | Спрос на предприятии у |
20-24 | 7 | 4 | 7 |
25-29 | 9 | 8 | 10 |
30-34 | 9 | 8 | 13 |
35-39 | 9 | 4 | 7 |
40-44 | 12 | 4 | 10 |
45-49 | 14 | 1 | 4 |
Рис 2
В основе зависимости спроса от частоты посещений предприятия лежит прямолинейная связь, которая может быть выражена простым линейным уравнением регрессии:
ŷ = a0 + a1x,
где ŷ - теоретические расчётные значения результативного признака (спрос на предприятиях), полученные по уравнению регрессии;
a0 , a1 - коэффициенты (параметры) уравнения регрессии;
х – частота посещений предприятий.
Параметры уравнения a0 , a1 находят методом наименьших квадратов (МНК - метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi от выровненных ŷ :
S(yi – ŷ)2 = S(yi – a0 – a1xi)2 ® min
Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
Решим эту систему в общем виде:
;Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
, , - средние значения результативного и факторного признаков соответственно.Определим значения a0 , a1 данным рассчитанным в таблице 6, подставим их в уравнение связи ŷ = a0 + a1x, и найдем значения ŷ, зависящие только от заданного значения х.
Получаем:
Таблица 6
Расчетные значения
Возраст населения | Численность населения | Частота посещений предприятий, кол-во раз в мес. x | Спрос на предприятии, порции y | ||||
20-24 | 7 | 4 | 7 | -0,83 | 0,6889 | -4,5 | 1,245 |
25-29 | 9 | 8 | 10 | 3,17 | 10,0489 | -0,5 | 4,755 |
30-34 | 9 | 8 | 13 | 3,17 | 10,0489 | -0,5 | 14,265 |
35-39 | 9 | 4 | 7 | -0,83 | 0,6889 | -4,5 | 1,245 |
40-44 | 12 | 4 | 10 | -0,83 | 0,6889 | -4,5 | -1,245 |
45-49 | 14 | 1 | 4 | -3,83 | 14,6689 | -7,5 | 17,235 |
итого | 60 | 29 | 51 | 36,8334 | 37,5 |
Таким образом, регрессионная модель зависимости спроса от частоты посещений может быть записана в виде конкретного простого уравнения регрессии:
.Проверка адекватности модели может быть дополнена нахождением значения средней ошибки аппроксимации: