Смекни!
smekni.com

Классификация регионов РФ по доходам от услуг связи (стр. 7 из 12)

Рис. 3.5

Рис. 3.5 Результаты регрессионного анализа для всей совокупности регионов.

X1=0,686084*X5

Необходимо проверить значимость уравнения регрессии. Для этого находим наблюдаемое значение статистики F. И получаем, что F=52,470. Так как наблюдаемое значение статистики F превосходит его критическое, то на уровне значимости 0,1 можно утверждать, что полученное уравнение регрессии значимое.

Далее необходимо проверить значимость коэффициентов уравнения. С вероятностью 0,1 можно утверждать, что коэффициент при X5 значим. Коэффициент детерминации составил 47,1%. Следовательно, на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. А значит данная регрессионная модель имеет низкое практическое значение.

Мы провели регрессионный анализ в каждом из кластеров, которые были получены в ходе кластерного анализа. В каждой из групп влияние на доход от услуг связи населению. Далее представлена сводная таблица (табл. 3.9).

Табл.3.9.

Кластеры

Уравнение регрессии

R^2

Fнабл

1

X1=-0,5248-0,3774*X4

23,1 %

4,7929

2

X1=0,1144+0,3002*X4+0,8074*X5

58,8 %

8,5576

3

X1=0,1155-0,4086*X2

24,1 %

5,3965

4

X1=1,7055-0,6151*X2+0,5564*X5

79,1 %

7,5856

Табл. 3.9. Сводная таблица регрессионного анализа по кластерам.

Далее рассчитаем коэффициенты эластичности для каждого показатели в каждом кластере. Коэффициент эластичности рассчитывается по следующей формуле:

Коэффициент эластичности показывает влияние каждого из факторов регрессионный модели на зависимый признак.

Ниже представлена сводная таблица, в которой рассчитаны коэффициенты эластичности по каждому из кластеров (табл. 3.10). Расчет коэффициентов эластичности представлен в таблицах расчета коэффициента эластичности по кластерам Приложения 6.

Табл. 3.10

X2

X3

X4

X5

1

-

-

-0,03916

-

2

-

-

0,05484

3

-0,05004

-

-

-

4

-0,05971

-

0,004338

-

Табл. 3.10. Сводная таблица коэффициентов эластичности.

Проанализировав таблицу 3.10 можно сделать следующие выводы. Влияние факторов на доход от услуг связи населению, перечисленных в данных регрессионных моделях, невелик. Причем, число квартирных телефонных аппаратов влияет на результативный признак только в кластерах 3 и 4, то есть в регионах, где среднедушевой доход населения либо самый большой, либо усреднен. Как видно из сводной таблицы показатель средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек( на конец года; штук) вовсе не влияет на исследуемый признак. Это обусловлено тем, что данная услуга связи устаревает и потеряла свою популярность в современном. Среднедушевой доход влияет на исследуемый признак только лишь во втором кластере, где сосредоточены регионы с его низким уровнем. Зато, число зарегистрированных абонентских терминалов сотовой связи влияет на доход от услуг связи населению в трёх кластерах: в первом, втором и четвертом. Причем, в первом кластере это единственный показатель, который влияет на результативный признак. Данная тенденция вызвана тем, что в современном обществе очень большую роль играет мобильная связь.


Глава 4. Дискриминантный анализ.

Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Дискриминантный анализ – это общий термин, относящийся к нескольким тесно связанным статистическим процедурам. Эти процедуры можно разделить на методы интерпретации межгрупповых различий дискриминации и методы классификации наблюдений по группам.[3]

Цель дискриминантного анализа состоит в том, чтобы на основе некоторой «зависимой переменной» определить линейные классификационные модели, позволяющие «предсказать» поведение новых элементов (или исключенных элементов) на основании измерения ряда независимых факторов, которыми они характеризуются. Дискрминантный анализ используется как метод разведочного анализа.

Рис 4.1. Исходные данные.

Проведем дискриминантный анализ на основе рейтинга регионов России по обеспеченности населения услугами связи и среднедушевому доходу. Исходный массив данных составляет 61 регион России (исходные данные приведены на рис. 4.1), обследованных по следующим пяти признакам:

X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);

Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);

Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);

Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);

Х5 – среднедушевые доходы населения (рублей).

Данные показатели в ходе анализа будут являться дискриминантными.

После проведенного кластерного анализа было выделено 4 группы регионов России:

· Кластер 1: Регионы со средним уровнем оказываемых услуг связи и среднедушевого дохода.

· Кластер 2: Регионы с низким уровнем оказываемых услуг связи и среднедушевого дохода.

· Кластер 3: Регионы высоким уровнем оказываемых услуг связи и срднедушевого дохода.

· Кластер 4: Регионы с самым высоким уровнем оказываемых услуг связи и среднедушевым доходом населения.

При этом к первому классу отнесено 18 регионов России, ко второму – 15 регионов, к третьему 19 регионов и к четвертому классу было отнесено 7 регионов России.

В качестве проверки корректности обучающих выборок посмотрим результаты классификационной матрицы (табл. 4.1).

Табл. 4.1.

Percent

G_1:1

G_2:2

G_3:3

G_4:4

cases

Correct

p=,29508

p=,24590

p=,31148

p=,14754

G_1:1

100,0000

18

0

0

0

G_2:2

100,0000

0

15

0

0

G_3:3

100,0000

0

0

19

0

G_4:4

88,8889

0

0

1

8

Total

98,3607

18

15

20

8

Табл. 4.1. Классификационная матрица.

Как можно заметить из классификационной матрицы почти все объекты были распределены верно по кластерам, но как видно из рис. 4.2. не все объекты попали в в верную группу. Ошибочно распределенные объекты помечены знаком «*».

Рис 4.2.

Рис 4.1. Классификация случаев.

На рисунке классификации случаев (рис 4.2) некорректно отнесённым объектом оказался регион под номером 42. Это Самарская область. Изначально, она была отнесена к самой оснащённой услугами связи группе регионов.

Таким образом, задача получения корректных обучающих выборок состоит в том, чтобы исключить из обучающих выборок те объекты, которые по своим показателям не соответствуют большинству объектов, образующих однородную группу.

Для этого с помощью метрики Махаланобиса определятся расстояние от всех n объектов до центра тяжести каждой группы (вектор средних), определяемых по обучающей выборке. Отнесение экспертом i-го объекта в j-ю группу считается ошибочным, если расстояние Махаланобиса от объекта до центра его группы значительно выше, чем от него до центра других групп, а апостериорная вероятность попадания в свою группу ниже критического значения. В этом случае объект считается некорректно отнесенным и должен быть исключен из выборки.[4]

Процедура исключения объекта из обучающих выборок состоит в том, что в таблице исходных данных (рис 4.1) у объекта, который должен быть исключен из выборки (он помечен "*"), убирается номер принадлежности к этой группе, после чего процесс тестирования повторяется.