Если п объектов какой-либо совокупности N пронумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi, указывает место, которое занимает i-й объект среди других n объектов, расположенных в соответствии с признаком Х (i= 1,2,…. п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т.п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то можно попытаться установить степень линейной зависимости между ними. Предположим, имеется 5 продуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В (табл. 3).
Таблица 3
Характеристики для ранжирования | Продукт | ||||
V | W | X | Y | Z | |
А | 2 | 5 | 1 | 3 | 4 |
B | 1 | 3 | 2 | 4 | 5 |
Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различии между рангами:
D = Ранг А – Ранг В.
Альтернативные признаки – это признаки, принимающие только два возможных значения. Исследование их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков:
а | в |
с | d |
Например, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 4).
Таблица 4
Заболели | Не заболели | Итого | |
Привитые | 30 | 20 | 50 |
Непривитые | 15 | 5 | 20 |
Всего | 45 | 25 | 70 |
Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).
Уточнение формы связи, нахождение ее аналитического выражения производится путем построения уравнения связи (уравнения регрессии).
Регрессия – это односторонняя статистическая зависимость.
Уравнение регрессии позволяет определить, каким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X), если остальные факторы, влияющие на Y и не связанныес X, рассматривались неизменными (т.е. мы абстрагировались от них).
К задачам регрессионного анализа относятся:
1) установление формы зависимости;
2) определение функции регрессии;
3) оценка неизвестных значений зависимой переменной.
По аналитическому выражению различают прямолинейную и криволинейную связи.
Прямолинейная связь имеет место, когда с возрастанием (или убыванием) значений Х значения Y увеличиваются (или уменьшаются) более или менее равномерно.
В этом случае уравнение связи записывается так:
`yх= b0 + b1х.
Криволинейная форма связи может выражаться различными кривыми, из которых простейшими являются:
1) парабола второго порядка
`yх =b0 + b1х +b2х2;
2) гипербола
`yx =b0+b1 /x;
3) показательная
`yx = b0b1x;
либо в логарифмическом виде
ln`yx = lnb0 + xlnb1.
После определения формы связи, т.е. вида уравнения регрессии, по эмпирическим данным определяют параметры искомого уравнения.
При этом отыскиваемые параметры должны быть такими, чтобы рассчитанные по уравнению теоретические значения результативного признака максимально приближались к эмпирическим данным.
Чаще всего определение параметров уравнения регрессии осуществляется с помощью метода наименьших квадратов, в котором предполагается, что сумма квадратов отклонений теоретических значений от эмпирических должна быть минимальной,
В зависимости от формы связи в каждом конкретном случае определяется своя система уравнений, удовлетворяющая принципу минимизации.
Предположение о парной линейной зависимости между Х и Y можно описать функцией
Y = b0 + b1Х + и,
где b0, b1 – истинные значения параметров уравнения регрессии в генеральной совокупности; и – случайная составляющая.
Существует несколько причин возникновения случайной составляющей:
1) невключение объясняющих переменных в уравнение регрессии;
2) агрегирование объясняющих переменных, включенных в уравнение регрессии;
3) неправильное описание структуры модели, т.е. неверный выбор объясняющих переменных;
4) неправильная функциональная спецификация модели. Например, для моделирования использована линейная функция, в то время как зависимость между переменными – нелинейная;
5) ошибки наблюдения (ошибки данных).
По выборочным данным определяются оценки истинных (в случае правильной спецификации модели) параметров уравнения регрессии и случайной составляющей
`yx=b0+b1х+e
где b0, b1, е – оценки неизвестных b0, b1, и. В случае парной линейной зависимости вида
`yx=b0+b1х
В настоящее время необходимость в ручных расчетах отпала, так как существует множество компьютерных программ, реализующих методы регрессионного анализа. Важно понимать смысл параметров и уметь их адекватно интерпретировать.
На основе уравнений регрессии часто рассчитывают коэффициенты эластичности результативного признака относительно факторного.
Коэффициент эластичности (Э) показывает, на сколько процентов в среднем изменится результативный признак Y при изменении факторного признака Х на 1%.
Рассмотрим методы регрессионного и корреляционного анализов. Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. Мы провели исследование в 20 случайно выбранных магазинах и получили следующие данные (табл. 6):
Таблица 6. Данные исследования
Номер магазина | Число посетителей | Выручка, у.е. |
1 | 907 | 11,20 |
2 | 926 | 11,05 |
3 | 506 | 6,84 |
4 | 741 | 9,21 |
5 | 789 | 9,42 |
6 | 889 | 10,08 |
7 | 874 | 9,45 |
8 | 510 | 6,73 |
9 | 529 | 7,24 |
10 | 420 | 6,12 |
11 | 679 | 7,63 |
12 | 872 | 9,43 |
13 | 924 | 9,46 |
14 | 607 | 7,64 |
15 | 452 | 6,92 |
16 | 729 | 8,95 |
17 | 794 | 9,33 |
18 | 844 | 10,23 |
19 | 1010 | 11,77 |
20 | 621 | 7,41 |
Итого | 14,623 | 176,11 |
Для прогноза объемов продаж применим простую модель парной регрессии, в которой используется только одна факторная переменная – Х (число посетителей магазина). С увеличением числа посетителей растет выручка от продажи. Рассчитаем параметры уравнения регрессии:
`yx =b0+b1x
Для облегчения расчетов воспользуемся табл. 7.
Таблица 7
Магазин | Число покупателей X | Выручка Y | X2 | Y2 | XY |
1 | 907 | 11,20 | 822 649 | 125,4400 | 10 158,40 |
2 | 926 | 11,05 | 857 476 | 122,1025 | 10 232,30 |
3 | 506 | 6,84 | 256,036 | 46,7856 | 3461,04 |
4 | 741 | 9,21 | 549 081 | 84,8241 | 6 824,61 |
5 | 789 | 9,42 | 622 521 | 88,7364 | 7 432,38 |
6 | 889 | 10,08 | 790 321 | 101,6064 | 8961,12 |
7 | 874 | 9,45 | 763 876 | 89,3025 | 8 259,30 |
8 | 510 | 6,73 | 260 100 | 45,2929 | 3 432,30 |
9 | 529 | 7,24 | 279 841 | 52,4176 | 3 829,96 |
10 | 420 | 6,12 | 176 400 | 37,4544 | 2 570,40 |
11 | 679 | 7,63 | 461 041 | 58,2169 | 5 180,77 |
12 | 872 | 9,43 | 760 384 | 88,9249 | 8 222,96 |
13 | 924 | 9,46 | 853 776 | 89,4916 | 8 741,04 |
14 | 607 | 7,64 | 368 449 | 58,3696 | 4 637,48 |
15 | 452 | 6,92 | 204304 | 47,8864 | 3 127,84 |
16 | 729 | 8,95 | 531 441 | 80,1025 | 6 254,55 |
17 | 794 | 9,33 | 630 436 | 87,0489 | 7 408,02 |
18 | 844 | 10,23 | 712 336 | 104,6529 | 8634,12 |
19 | 1010 | 11,77 | 1 020 100 | 138,5329 | 11 887,70 |
20 | 621 | 7,41 | 385 641 | 54,9081 | 4 601,61 |
Итого | 14623 | 176,11 | 11 306 209 | 1 602,0971 | 134 127,90 |
Коэффициент b1 характеризует наклон линии регрессии. b1 = 0,00873. Это означает, что при увеличении Х на единицу ожидаемое значение Y возрастет на 0,00873. То есть регрессионная модель указывает на то, что каждый новый посетитель магазина в среднем увеличивает недельную выручку магазина на 0,00873 у.е. (или можно сказать, что ожидаемый прирост ежедневной выручки составит 8,73 у.е. при привлечении в магазин 100 дополнительных посетителей). Отсюда b1 может быть интерпретирован как прирост ежедневной выручки, который варьирует в зависимости от числа посетителей магазина.
Свободный член уравнения b0 = +2,423 у.е., это – эначение Y при X, равном нулю. Поскольку маловероятно число посетителей магазина, равное нулю, то можно интерпретировать b0 как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии.
Регрессионная модель может быть использована для прогноза объема ежедневной выручки. Например, мы хотим использовать модель для предсказания средней ежедневной выручки магазина, который посетят 600 покупателей.
Когда мы используем регрессионные модели для прогноза, важно помнить, что обсуждаются только значения независимых переменных, находящиеся в пределах от наименьшего до наибольшего значений факторного признака, используемые при создании модели. Отсюда, когда мы предсказываем Y по заданным значениям X, мы можем интерполировать значения в пределах заданных рангов Х, но мы не можем экстраполировать вне рангов X. Например, когда используется число посетителей для прогноза дневной выручки магазина, то мы знаем из данных примера, что их число находится в пределах от 420 до 1010. Следовательно, предсказание недельной выручки может быть сделано только для магазинов с числом покупателей от 420 до 1010 чел.