Смекни!
smekni.com

Анализ возможности применения методов многомерного анализа для классификации и оценки конкурентоспособности регионов (стр. 2 из 3)

2. Методы многомерного шкалирования и кластерного анализа

В данной работе правильнее будет остановиться на обзоре более доступной информации, конкретнее - данных статистического учета официальной статистики, доступных для каждого научного работника или государственного служащего. Так как эта информация отражает различные и не всегда взаимосвязанные между собой стороны существования регионов, мы предлагаем следующий подход в проведении классификации регионов:

1) метод многомерного шкалирования;

2) метод кластерного анализа (иерархический кластер-анализ, метод K-средних).

Основная идея методов многомерного шкалирования состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. Значения этих факторов определяются на основании "сжатия" факторного пространства до 1-3 факторов. Реализация этого метода позволит нам представить объект, описываемый большим количеством факторов наглядно на плоскости в двухмерном или трехмерном изображении. Если же имеется группа объектов, то мы сможем увидеть и по возможности интерпретировать их взаимное расположение относительно друг друга в пространстве.

Для анализа были использованы данные официальной статистики за 2004 год по следующим показателям:

Коэффициент естественной убыли/прироста населения (на 1000 человек населения).

Уровень безработицы (на конец года; в процентах к численности экономически активного населения).

Номинальная начисленная среднемесячная заработная плата работников (тыс. рублей).

Средняя обеспеченность населения жильем в расчете на одного жителя в городских поселениях и сельской местности (на конец года; квадратных метров общей площади жилищ).

Численность врачей всех специальностей на 10000 человек населения (человек).

Численность населения на 1 больничную койку (на конец года, человек).

Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников, тонн.

Объем промышленной продукции в фактических отпускных ценах, миллиардов рублей.

Доля негосударственных предприятий в общем объеме производства по предприятиям, состоящим на самостоятельном балансе, в процентах.

Износ промышленно-производственных основных фондов, в процентах к наличию основных фондов на конец года.

Урожайность зерновых культур в хозяйствах всех категорий, центнеров с одного гектара.

Урожайность картофеля в хозяйствах всех категорий, центнеров с одного гектара.

Урожайность овощей в хозяйствах всех категорий, центнеров с одного гектара.

Реализация скота и птицы сельскохозяйственными организациями.

Инвестиции в основной капитал, в фактически действовавших ценах, миллионов рублей, в живом весе, тонн.

Обеспеченность городского населения домашними телефонными аппаратами телефонной сети общего пользования, на конец года, штук на 1000 человек.

Обеспеченность сельского населения домашними телефонными аппаратами телефонной сети общего пользования, на конец года, штук на 1000 человек.

Розничный товарооборот торговых предприятий, включая общественное питание, в расчете на душу населения, в фактически действовавших ценах, тысяч рублей.

Объем реализации платных услуг в расчете на душу населения по юридическим лицам, в фактически действовавших ценах, тысяч рублей.

Объем реализации бытовых услуг в расчете на душу населения по юридическим лицам, в фактически действовавших ценах, тысяч рублей.

Объем внешнеторгового оборота, миллионов долларов США.

Рентабельность реализованной продукции работ, услуг предприятий и организаций, в процентах к обороту.

Критерием отбора являлась необходимость использования по возможности наименее зависимых друг от друга факторов, чтобы избежать явления мультиколлинеарности в исходной матрице показателей.

Технически данный метод реализован в самых разнообразных статистических программах. Для обработки статистических данных для районов Гомельской области был применен пакет STATISTICA 6.0.

Общий алгоритм реализации этого метода, применительно к анализу районов области можно свести к следующим шагам [4, с.597-604]:

1. Пусть имеется n объектов Регион (1), Регион (2), …, Регион (n). Для каждой пары объектов Регион (i), Регион (j) задана мера их сходстваs (i,j). Необходимо, чтобы s (i,j) = s (j, i). В нашем случае пусть это будет мера различия (расстояния), вычисленная по евклидовой метрике.

2. В нашем примере для исследуемых регионов мы отбираем большое число факторов для анализа (28 факторов и 21 регион). Поэтому чтобы придти к необходимому для расчетов виду проведем дополнительно некоторые манипуляции с исходными данными.

Стандартизируем значения в матрице показателей при помощи формулы

, (1)

где

- стандартизированное значение показателя
для региона (j), где i, j=1, 2, …,n;
- значение параметра, характеризующего регион (j);
- среднее значение конкретного параметра для рассматриваемой группы регионов. Например, среднее значение показателя "Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников (тонн)" для районов Гомельской области.

Такая манипуляция позволит избежать погрешностей и ошибок, связанных с разницей в измерениях показателей.

Условие s (i,j) = s (j, i) будет выполняться в матрице симметрического вида. Поэтому для каждого из элементов полученной матрицы нормированных показателей рассчитываем меры различия (расстояний) по формуле обычного евклидового расстояния и формируем матрицу симметрического вида, тогда:

, (2)

где

,
- величина l-го компонента у i-го (j-го) объекта (l=1,2,…,k; i,j=1,2,…,n).

2. В конечном итоге рассматриваемые n объектовдолжны быть представлены конфигурациейтакого же количества точек, причем в качестве меры близости точек-представителей выступает евклидово расстояние d (i,j) между соответствующими точками. Степень соответствия между совокупностью объектов и совокупностью представляющих их точек определяется путем сопоставления матриц сходства объектов ||s (i,j) || и расстояний между точками ||d (i,j) ||. Метрический функционал сходства имеет вид:

. (3)

При расчетах, производится подбор такого значения S, которое было бы минимальным среди возможных вариантов в искомом количестве измерений (например, 2 или 3). При проведении расчета мы руководствовались вышеуказанным алгоритмом, реализуемым в настройках программы "по умолчанию" [5].

При изначальном условии, что количество итоговых факторов (измерений для отображения положения районов на плоскости или в пространстве) равно 2, нами получены следующие результаты (табл.2):

Таблица 2

Результаты многомерного шкалирования районов Гомельской области по 2 измерениям

Район Условное обозначение в программе Измерение 1 Измерение 2
Брагинский 101 -0,158158 -0,165499
Буда-Кошелевский 102 -0,158129 -0,165518
Ветковский 103 -0,158165 -0,165490
Гомельский 104 -0,158021 -0,165597
Добрушский 105 -0,158099 -0,165434
Ельский 106 -0,158161 -0,165527
Житковичский 107 -0,158143 -0,165536
Жлобинский 108 3,235763 0,066417
Калинковичский 109 -0,158121 -0,165501
Кормянский 110 -0,158166 -0,165524
Лельчицкий 111 -0,158154 -0,165582
Лоевский 112 -0,158170 -0,165518
Мозырский 113 -0,231352 3,078363
Наровлянский 114 -0,158173 -0,165471
Октябрьский 115 -0,158158 -0,165524
Петриковский 116 -0,158153 -0,165542
Речицкий 117 -0,158013 -0,165448
Рогачевский 118 -0,158106 -0,165539
Светлогорский 119 -0,158004 -0,165485
Хойникский 120 -0,158148 -0,165547
Чечерский 121 -0,158169 -0,165499
Значение S 0,0000097

Далее на базе полученных данных построена диаграмма рассеяния точек, соответствующих отдельным районам.

При этом ось X соответствует измерению № 1, ось Y соответствует измерению № 2 (рис.1). Каждая точка находится на пересечении соответствующих значений измерения № и измерения № 2.