Содержание.
Введение………………………………………………………………………..…3
Глава 1. Теоретические аспекты кластерного анализа. Метод k-средних.4
Глава 2. Кластерный анализ регионов России.....................…………….…..7
2.1. Евклидова Метрика…...………………………………………………….......9
2.2. Метод k-средних.............................................................................................11
Глава 3. Регрессионный анализ в кластерах……....……………………….16
Глава 4. Дискриминантный анализ………....……………………………….29
Заключение……………………………………………………………………...35
Список литературы.......………………………………………………………..37
Приложения……………………………………………………………………..38
Введение.
Необходимость развития сферы услуг требует существенной перестройки структуры потребления населения, значительного возрастания доли услуг и сокращения удельного веса материального потребления.
На современном этапе социально-экономического развития сфера сервиса становится одним из наиболее обширных секторов развития рыночных отношений, вовлечения населения в экономическую деятельность. Она теснейшим образом связана со всеми другими областями общественной жизни. Соответственно сфера сервиса является одним из важнейших источников мобилизации потенциала национального роста, повышения качества и уровня жизни.
Социальная значимость эффективности сферы услуг очевидна: она непосредственно служит увеличению доли свободного времени населения и, следовательно, создает возможности для всестороннего гармоничного развития личности.
Прогресс в отрасли определяется развитием всех видов электрической связи, среди которых наиболее распространенной является телефонная связь.
Телефонная связь приносит более половины всех доходов, получаемых от услуг связи. Одним из важнейших направлений обслуживания населения в области связи является телевидение и радиовещание, которые несет не только важную информационную и политическую нагрузку, но и являются в некоторых отдаленных районах области почти единственным средством культурного досуга.
Цель данной курсовой работы - статистическое изучение предоставления услуг связи населению в регионах России в 2008 году и влияние их на доход от услуг связи населению в расчете на одного жителя.
Глава 1. Теоретические аспекты кластерного анализа. Метод k-средних.
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое "сгущение точек". Второй подход заключается в минимизации меры различия объектов.
Наряду с иерархическими методами классификации, существует многочисленная группа так называемых итеративных методов кластерного анализа (метод k - средних.).
Сущность их заключается в том, что процесс классификации начинается с задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т.д.). Название метода было предложено Дж. Мак-Куином в 1967 г. В отличие от иерархических процедур метод k - средних не требует вычисления и хранения матрицы расстояний или сходств между объектами. Алгоритм этого метода предполагает использование только исходных значений переменных. Для начала процедуры классификации должны быть заданы k выбранных объектов, которые будут служить эталонами, т.е. центрами кластеров. [1]
Считается, что алгоритмы эталонного типа удобные и быстродействующие. В этом случае важную роль играет выбор начальных условий, которые влияют на длительность процесса классификации и на его результаты. Метод k - средних удобен для обработки больших статистических совокупностей.
Математическое описание алгоритма метода k - средних.
Пусть имеется n наблюдений, каждое из которых характеризуется m признаками X1 , X2 , , Xn. Эти наблюдения необходимо разбить на k кластеров.
Для начала из n точек исследуемой совокупности отбираются случайным образом или задаются исследователем исходя из каких-либо априорных соображений k точек (объектов). Эти точки принимаются за эталоны.
Каждому эталону присваивается порядковый номер, который одновременно является и номером кластера.
На первом шаге из оставшихся (n -k) объектов извлекается точка Xi с координатами ( xi1 , xi2 , ... , xim ) и проверяется, к какому из эталонов (центров) она находится ближе всего. Для этого используется одна из метрик, например, евклидово расстояние. Проверяемый объект присоединяется к тому центру (эталону), которому соответствует минимальное из расстояний. Эталон заменяется новым, пересчитанным с учетом присоединенной точки, и вес его (количество объектов, входящих в данный кластер) увеличивается на единицу. Если встречаются два или более минимальных расстояния, то i -ый объект присоединяют к центру с наименьшим порядковым номером.
На следующем шаге выбираем точку Xi+1 и для нее повторяются все процедуры. Таким образом, через (n-k) шагов все точки (объекты) совокупности окажутся отнесенными к одному из k кластеров, но на этом процесс разбиения не заканчивается. Для того чтобы добиться устойчивости разбиения по тому же правилу, все точки X1, X2,…, Xn опять подсоединяются к полученным кластером, при этом веса продолжают накапливаться. Новое разбиение сравнивается с предыдущим. Если они совпадают, то работа алгоритма завершается. В противном случае цикл повторяется.
Окончательное разбиение имеет центры тяжести, которые не совпадают с эталонами, их можно обозначить C1 ,C2 , ,Ck. При этом каждая точка Xi будет относиться к такому кластеру (классу) l , для которого расстояние минимально. Возможны две модификации метода k - средних. Первая предполагает пересчет центра тяжести кластера после каждого изменения его состава, а вторая – лишь после того, как будет завершен просмотр всех данных. В обоих случаях итеративный алгоритм этого метода минимизирует дисперсию внутри каждого кластера, хотя в явном виде такой критерий оптимизации не используется.
Достоинства алгоритма k-средних:
• простота использования;
• быстрота использования;
• понятность и прозрачность алгоритма.
Недостатки алгоритма k-средних:
• алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;
• алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.
Глава 2. Кластерный анализ регионов России.
Нами исследуется совокупность 62 регионов, каждый из которых характеризуется по 5 замеренным на нем признакам Х. Четыре признака из них характеризуют степень оснащенности населения средствами связи и среднедушевой доход населения, а пятый – показатель дохода от услуг связи, предоставляемых населению. Данные по эти признакам приведены в Приложении 1. Вот эти признаки:
X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);
Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);
Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);
Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);
Х5 – среднедушевые доходы населения (рублей).
Перед началом работы и анализа данных необходимо выявить наличие выбросов, и если они могут повлиять на результаты анализа, удалить их из таблицы исходных данных. Графики исследования на выбросы по признакам X1 и X2, по признакам X1 и X3, и, наконец, по признакам X4 и X5 приведены на рисунках в Приложении 2. Проведя анализ по этим диаграммам можно сделать следующие выводы.
Камчатская область является выбросом по трем признакам: X1, X2, X5, следовательно, наличие данных по этому региону может повлиять на результаты дальнейшего анализа. Поэтому, Камчатская область будет удалена из массива исходных данных.
Остальные выбросы определяются по одному или по двум признакам, поэтому можно сделать вывод о том, что эти выбросы обусловлены влиянием посторонних факторов и они не окажут воздействия на результаты дальнейшего анализа. Поэтому из таблицы исходных данных они удалены не будут.
В результате для дальнейшей работы будут использованы данные, указанные в таблице Приложения 3. . Перед началом исследования и разбиения объектов на кластеры необходимо провести проверку данных на мультиколлинеарность. Парные коэффициенты корреляции приведены в Табл. 1.1.
Табл. 1.1
X1 | X2 | X3 | X4 | X5 | |
X1 | 1 | 0,26315 | 0,25601 | 0,26674 | 0,68608 |
X2 | 0,26315 | 1 | 0,19883 | 0,18494 | 0,31769 |
X3 | 0,25601 | 0,19883 | 1 | 0,05359 | 0,21421 |
X4 | 0,26674 | 0,18494 | 0,05359 | 1 | 0,3323 |
X5 | 0,68608 | 0,31769 | 0,21421 | 0,3323 | 1 |
Табл 1.1 Парные коэффициенты корреляции.