Проведём теперь кластерный анализ с целью выявить возможные типологии домохозяйств по структуре потребления. Нас особенно интересует участие в данной типологии расходов на приобретение алкогольной продукции. Однако, из табл. 4 видно, что долевые показатели вкладов статей расходов в общую сумму потребительских издержек имеют не только существенно различные средние значения (что естественно объясняется разной важностью указанных статей для ежедневного функционирования домохозяйства), но и значительно различные между собой стандартные отклонения. Попытка кластеризации в исходных показателях, таким образом, не позволит должным образом учесть дифференциацию потребления алкогольных напитков в домохозяйствах. Поэтому перед кластерным анализом была выполнена стандартизация переменных и кластерный анализ далее выполнялся в пространстве стандартизированных показателей.
Таблица 4. Описательная статистика потребительских расходов домохозяйств в долях от общей суммы потребительских расходов
N | Минимум | Максимум | Среднее | Станд. отклонение | |
Расходы на покупку продуктов питания | 53159 | .00 | 1.00 | .4965 | .18269 |
Расходы на питание вне дома | 53159 | .00 | .92 | .0140 | .04080 |
Расходы на покупку алкогольных напитков | 53159 | .00 | .75 | .0198 | .03787 |
Расходы на покупку непродовольственных товаров | 53159 | .00 | 1.00 | .2718 | .17375 |
Расходы на оплату услуг | 53159 | .00 | 1.00 | .1978 | .12458 |
Итого | 53159 |
Отметим, что для нахождения конечного решения по алгоритму k-средних потребовалось провести 71 итерацию: такое большое их количество естественно обусловлено большим количеством наблюдений в файле данных. Центры кластеров в стандартизированных показателя представлены в табл. 5, а в исходных – в табл. 6.
Таблица 5. Центры кластеров (в стандартизированных переменных)
Номер кластера | ||||
1 | 2 | 3 | 4 | |
Расходы на покупку алкогольных напитков | 2.34 | -.20 | -.30 | -.05 |
Расходы на покупку продуктов питания | .14 | -.92 | .66 | -.59 |
Расходы на питание вне дома | -.19 | -.13 | -.25 | 3.17 |
Расходы на покупку непродовольственных товаров | -.34 | 1.06 | -.62 | -.23 |
Расходы на оплату услуг | -.39 | -.02 | .07 | .16 |
Таблица 6. Центры кластеров (в исходных показателях – долях от общей суммы потребительских расходов)
Номер кластера | |||||
1 | 2 | 3 | 4 | Итого по выборке | |
Расходы на покупку алкогольных напитков | .11 | .01 | .01 | .02 | .02 |
Расходы на покупку продуктов питания | .52 | .33 | .62 | .39 | .50 |
Расходы на питание вне дома | .01 | .01 | .00 | .14 | .01 |
Расходы на покупку непродовольственных товаров | .21 | .46 | .16 | .23 | .27 |
Расходы на оплату услуг | .15 | .20 | .21 | .22 | .20 |
Таблица 7. Матрица расстояний между кластерными центрами (в стандартизированных показателях)
Номер кластера | 1 | 2 | 3 | 4 |
1 | 3.11 | 2.75 | 4.23 | |
2 | 3.11 | 2.32 | 3.56 | |
3 | 2.75 | 2.32 | 3.68 | |
4 | 4.23 | 3.56 | 3.68 |
Таблица 8. Средние расстояния до центра в каждом из кластеров (в стандартизированных показателях)
Номер кластера | Среднее | N | Станд. отклон. |
1 | 1.69 | 5106 | 1.05 |
2 | 1.43 | 18021 | .70 |
3 | 1.27 | 26856 | .63 |
4 | 2.02 | 3176 | 1.35 |
Итого | 1.41 | 53159 | .79 |
На основе изучения соотношений расстояний в табл. 7 и 8 можно назвать решение с 4 кластерами приемлемым, так как средние расстояния до центра своего кластера в полученных кластерах не превосходят расстояния между кластерными центрами. Вместе с тем, на основе стандартного отклонения из табл. 8 можно судить, что самый большой (третий) кластер является, в то же время, самым компактным (наименьшее среднее расстояние до центра при наименьшем стандартном отклонении), а наименьший кластер (4-й) является одновременно и самым разнородным. Таким образом, потенциально можно было бы попробовать кластерное решение с большим числом кластеров, однако в данном эссе мы остановимся на четырёхкластерном решении.
Размеры кластеров 1–4 получены, соответственно, следующие: 5106, 18021, 26856, 3176, или, в процентах от общей выборки: 9,6%, 33,9%, 50,5%, 5,9%. Содержательную интерпретацию построим, прежде всего, на основе табл. 6.
Итак, кластерный анализ выделяет большую (половина выборки) группу домохозяйств с типичным для России характером потребительских расходов (кластер №3): около 60% составляют потребительские расходы, расходы на питание вне дома практически отсутствуют, уровень трат на непродовольственные товары достаточно низок, значительна доля платных услуг; на спиртные напитки отводится примерно 1% потребительских расходов (чуть ниже среднероссийского показателя). Сюда устойчиво попадают более половины домохозяйств из первых четырёх децилей по располагаемым ресурсам (табл. 9).
Близок к кластеру №3 как по размерам, так и по расстоянию между кластерными центрами, кластер №2. Эту группу домохозяйств тоже можно назвать типичной, однако модель потребления здесь иная: только треть потребительских расходов идёт на покупку продуктов питания, тогда как немногим меньше половины расходов приходится на непродовольственные товары. Различий в доле затрат на алкогольную продукцию с третьим кластером не наблюдается. Можно предполагать, что подобная модель потребления в большей степени характерна для более состоятельных домохозяйств, что и подтверждается данными табл. 9.
Первый и четвёртый кластеры невелики по объёму (9,6 и 5,9% выборки, соответственно) и отличаются от «основных» групп домохозяйств выраженным преобладанием незначительных в среднем расходных статей бюджетов: алкогольных напитков и питания вне дома. Эти статьи не получили бы сколько-нибудь значимого проявления, если бы исходные данные не были бы стандартизированы. Кластер №4 характеризуется весьма высокими расходами на питание вне дома, тогда как доли расходов на продукты питания и непродовольственные товары опускаются чуть ниже средневыборочного уровня. Кластер №1, вероятно, объединяет активных потребителей алкоголя, доля расходов на который здесь составляет более 10%, что делает её сопоставимой с расходами на непродовольственные товары и услуги в этом же кластере. Доля же расходов на продукты питания также значительна: более половины потребительского бюджета, что приближает эту группу домохозяйств к третьему кластеру.
Если судить по расстояниям между кластерными центрами, наиболее обособленным является четвёртый кластер (удалён от всех прочих, а в особенности от кластера №1).
Рассмотрим распределение по кластерам домохозяйств различной численности, разного числа детей, разной ресурсной обеспеченности (по децильным группам), а также – разной местности проживания (город/село) и проживающих на разных территориях (в разных регионах). Согласно критерию хи-квадрат независимости признаков в таблицах сопряжённости, на уровне значимости p<0,001 можно говорить о наличии зависимости всех исследованных переменных и номера кластера. Таким образом, построенная на основе долей расходов потребительского бюджета 4-кластерная группировка отчасти объясняется учётом перечисленных признаков домохозяйств, определяющих характер потребления.
В распределении децильных групп по кластерам, очевидная связь отмечается для второго и третьего кластеров. Во второй кластер входит значительная часть обеспеченных домохозяйств (начиная с 8 дециля – более половины всех домохозяйств), третий же кластер, преимущественно, объединяет низкодоходные домохозяйства: туда попадают ¾ представителей первого дециля, 2/3 – второго и т.д. Вместе с тем, из-за значительного размера третьего кластера, сюда же относится примерно четверть домохозяйств-представителей верхнего дециля (с наибольшими располагаемыми ресурсами). Вероятность попадания в первый кластер также несколько выше для высокоресурсных домохозяйств. Сюда попадают примерно 10% домохозяйств из 5-го дециля и выше, и примерно 7-8% домохозяйств ниже 5-го дециля. Взаимосвязь доходов и вероятности попадания домохозяйства в кластер №4 практически не прослеживается, за исключением относительно низких процентов попадания в данный кластер для первых 2-3 децилей. Таким образом, второй кластер можно коротко охарактеризовать как «зажиточные домохозяйства», третий – «малоресурсные», первый кластер тяготеет к зажиточным, но все децили представлены в нём более или менее ровно, а четвёртый кластер практически иррелевантен к переменной дохода (дециля располагаемых ресурсов).
Таблица 9. Распределение децильных групп по кластерам, % по строке
Номер кластера | |||||
1 | 2 | 3 | 4 | ||
1 дециль (с наименьшими ресурсами) | 7.4 | 17.6 | 71.5 | 3.5 | |
2 дециль | 8.8 | 21.8 | 65.0 | 4.4 | |
3 дециль | 8.6 | 26.9 | 59.5 | 5.1 | |
4 дециль | 9.8 | 29.4 | 55.2 | 5.6 | |
5 дециль | 10.0 | 34.2 | 49.4 | 6.4 | |
6 дециль | 9.6 | 38.9 | 43.8 | 7.7 | |
7 дециль | 11.0 | 44.6 | 36.7 | 7.8 | |
8 дециль | 10.6 | 50.0 | 32.3 | 7.1 | |
9 дециль | 11.1 | 53.5 | 28.4 | 7.0 | |
10 дециль (с наибольшими ресурсами) | 12.4 | 57.4 | 23.0 | 7.1 | |
Total | 9.6 | 33.9 | 50.5 | 6.0 |
Таблица 10. Распределение домохозяйств городской и сельской местности по кластерам, % по строке