Смекни!
smekni.com

Социальные различия имущественной обеспеченности населения в российских регионах (стр. 2 из 4)

Таким образом, в нашем распоряжении имеются данные о социально-экономической обстановке по регионам Российской Федерации. Указанный уровень обобщения (регион) будет представлять исходные данные для построения кластерной модели в нашей работе. См. пример данных в таблице 1. Полностью данные приведены в сборнике [1].


Таблица 1 «Показатели социально-экономической дифференциации регионов РФ за 2004 г» (фрагмент)

Регион Коэффициент Джини Коэффициент фондов Соотношение среднедушевых денежных доходов с величиной ПМ, % Соотношение среднемесячной начисленной зарплаты с величиной ПМ, % Соотношение среднего размера назначенных месячных пенсий с величиной ПМ, % Численность населения с денежными доходами ниже величины ПМ
Белгородская область 0,352 10,2 244,2 263,o 125,2 21,2
Брянская обл. область 0,355 10,3 223,2 209,2 125,2 25,3
Санкт-Петербург 0,410 15,3 381,3 267,3 106,2 13,5

Единицей наблюдения является регион, а показателями – статистика по этому региону, полученная на основе исследований. Хотя данные присутствовали почти по всем российским регионам, в анализе была использована информация только по 70 из них, включая Москву и Санкт-Петербург (о причинах этого см. ниже).

Регион характеризуется 6 показателями. По результатам кластерного анализа можно ожидать появление «богатых» и «бедных» регионов (или же регионов с высоким и низким уровнем жизни). В данном случае нас интересует типовые группы регионов рассматриваемых по схожим социально-экономическим показателям.

Для работы с базой данных и статистического анализа используется статистический пакет SPSS 13.0 для Windows. Для обработки в статистическом пакете информация должна быть организована в особом виде. Традиционным представлением является прямоугольная таблица, матрица данных. В исходных данных представлена статистика по регионам, а также – информация по группам регионов (федеральным округам) и России в целом. Для того чтобы обработать данные в статистическом пакете, нужно привести их к нужной структуре т.е. оставить только информацию по регионам.

В файле данных информация по показателям социально-экономического положения представлена переменными (информация об одном и том же показателе записывается в один столбец, а регион формирует строку файла данных). Список переменных с их краткой характеристикой из [1] представлен в таблице 2.

Таблица 2 «Список переменных»

Имя Тип Описание Смысл показателя
1 Region Номинальный Регион Регион
2 Gini Числовой Коэффициент Джини (индекс концентрации доходов / заработной платы) Характеризует степень отклонения линии фактического распределения общего объема доходов /заработной платы от линии их равномерного распределения.
3 Fond Числовой Коэффициент Фондов Коэффициент дифференциации доходов / заработной платы. Характеризует степень соц. расслоения и определяется как соотношение между средними уровнями денежных доходов / заработной платы 10% процентов населения (работников) с самыми высокими доходами и 10 % процентов населения (работников) с самыми низкими доходами / заработной платой
4 Sdohod Числовой Соотношение среднедушевых денежных доходов с величиной ПМ, % Характеризует общий уровень денежных доходов населения относительно установленного прожиточного минимума
5 Szarplata Числовой Соотношение среднемесячной начисленной зарплаты с величиной ПМ, % Характеризует общий уровень заработной платы населения относительно установленного прожиточного минимума
6 Spensii Числовой Соотношение среднего размера назначенных месячных пенсий с величиной ПМ, % Характеризует общий уровень пенсий населения относительно установленного прожиточного минимума.
7 ChislMin Числовой Численность населения с денежными доходами ниже величины ПМ Определяется на основе данных о распределении населения по величине среднедушевых денежных доходов и является результатом их соизмерения с величиной прожиточного минимума

На практике большую проблему представляют пропущенные значения (пункты, по которым отсутствует информация). Связано это с тем, что нельзя отнести регион к какому либо кластеру, не имея полной информации о нем. В данной таблице пропусков довольно мало. Информация полностью отсутствует по Чеченской Республике. Статистические исследования в этом регионе не проводились в связи с проходившими на территории Чечни военными действиями. Также, вне зоны нашего внимания останутся такие регионы как Архангельская область, Пермская область, Тюменская область, Красноярский край, Иркутская область и Читинская область из-за частичного или полного отсутствия статистических данных. По остальным регионам, включая Москву и Петербург, все данные находятся в нашем распоряжении. Поэтому в дальнейшем исключим выше перечисленные субъекты из рассмотрения, и модель будем строить на базе информации о 70 регионах РФ.

Анализ и интерпретация

В задачи работы входит построение кластерной модели социально-экономического положения по регионам РФ. Требуется выделить группы регионов, имеющих схожую, однородную социально-экономическою обстановку. Таким образом, исходными данными должна являться статистика показателей социально-экономического положения на региональном уровне (по всем регионам РФ).

Описательная статистика. Для начала работы стоит провести разведочный анализ с целью определения перспектив кластеризации. Прибегнем к возможностям SPSS и получим описательные статистики показателей социально-экономического положения.

Таблица 3 «Описательная статистика показателей»

Количество Минимум Максимум Среднее Стандартное отклонение
Gini 70 ,314 ,578 ,36346 ,036434
Fond 70 7,8 44,0 11,430 4,4475
Sdohod 70 105,1 674,0 231,597 73,1439
Szarplata 70 168,1 309,4 234,240 36,9582
Spensii 70 80,7 132,6 111,811 13,0245
ChislMin 70 13,5 73,0 26,624 10,0924

Наиболее важным показателем для нас является стандартное отклонение. Чем выше стандартное отклонение величины (чем больше ее изменчивость), тем больше эта переменная будет оказывать влияние на результаты кластеризации. Мы видим, например что переменные Sdohodили Szarplataимеют наибольшее стандартное отклонение и возможно разделение регионов на группы именно по этим признакам. Практически большее стандартное отклонение означает, что между регионами существует большая дифференциация по данным показателям: в какой-то части регионов показатели малы, а в какой-то части регионов наоборот велики. Таким образом, справедливо ожидать, что показатели с большей «дифференцирующей способностью» (большей дисперсией) окажут большее влияние на результат кластеризации [4, 5]

Видно, что, как и для многих экономических показателей, чем меньше среднее показателя, тем меньше стандартное отклонение этого показателя. Связано это с невозможностью переменных принимать отрицательные значения. Это значит, что наибольшее влияние на результаты кластеризации окажут переменные с большей средней величиной.

Так же большое подспорье в оценке перспектив кластеризации окажут гистограммы абсолютных или стандартизированных значений по тем переменным по которым она проводиться. Далее мы будем рассматривать только стандартизированные значения, в связи с тем, что стандартные отклонения слишком различны. Стандартизация показателей проводилась с помощью меню SPSSAnalyze – DescriptiveStatistics – Descriptives с установкой флажка стандартизации. Изучим гистограммы наших показателей.

При анализе гистограммы Коэффициента Джини мы видим, что все регионы отчетливо делятся на две группы. Причем одна из этих групп крайне велика и туда входит большая часть всех регионов РФ.

Анализ гистограмм для коэффициента фондов, численности населения с доходами, ниже ПМ и соотношения денежных доходов с ПМ выявил аналогичные распределение регионов как и для коэффициента Джини.

А вот анализ гистограмм Szarplataи Spensii не выявил очевидного деления на какие-либо группы регионов.

Стоит также рассмотреть и корреляции всех показателей.

Таблица 4 «Матрица корреляций показателей»

Gini Fond Sdohod Szarplata Spensii ChislMin
Gini 1 ,953(**) ,872(**) ,455(**) -,225 -,384(**)
Fond ,953(**) 1 ,881(**) ,370(**) -,257(*) -,301(*)
Sdohod ,872(**) ,881(**) 1 ,599(**) -,046 -,658(**)
Szarplata ,455(**) ,370(**) ,599(**) 1 -,069 -,668(**)
Spensii -,225 -,257(*) -,046 -,069 1 -,250(*)
ChislMin -,384(**) -,301(*) -,658(**) -,668(**) -,250(*) 1

Как следует из справочной информации по пакету SPSS, звёздочками отмечены значимые корреляции, то есть, те, на которые имеет смысл обращать внимание. Исследовав таблицу корреляций мы можем заметить, что Коэффициент фондов и Коэффициент Джини дают нам крайне близкую информацию (корреляция 0,953) что в свою очередь позволяет нам вместо обоих показателей воспользоваться одним. В данной ситуации более предпочтительным для работы является коэффициент фондов так как он в свою очередь обладает большим относительным разбросом. Об этом нам может сказать коэффициент вариации (отношение стандартного отклонения переменной к среднему значению этой переменной). У коэффициента Джини он составляет порядка 0,1 а у коэффициентов фондов около 0,389 (в таблицах не показано).