Не все переменные будут представлены в анализе так, как они представлены в исходной базе данных. Дело в том, что некоторые переменные нуждаются в преобразовании, а некоторые – в вычислении заново. Так, например, данные о месте проживания домохозяйства я преобразовала в двоичную переменную город=1/село=0, тогда как исходная переменная содержала 4 градации (в части анализа это показано). Это выгодно, т.к. мне требовалось включить эту переменную в регрессионную модель, а это допускается лишь для количественных, или для двоичных переменных. А число источников доходов я вообще считала по нескольким переменным, где респонденту предлагался целый спектр источников доходов и предлагалось согласиться или не согласиться что очередной источник доходов используется семьей респондента.
Всего в вычислениях задействовано более 30 переменных. Это отражено в синтаксисе (см. приложение).
Пример самой базы данных представлен в следующей таблице:
Пример базы данных
Имя перем. Номер семьи | iid_h | Ic9.1a | Ic9.1b | … | indexTDP1 | … |
1 | 10101 | 1 | 8 | … | 0,51 | … |
2 | 10102 | 1 | 20 | … | 0,72 | … |
3 | 10103 | 1 | 24 | … | 0,54 | … |
4 | 10105 | 2 | … | 0 | … | |
5 | 10107 | 1 | 6 | … | 1,11 | … |
6 | 10112 | 99 | … | 0 | … | |
… | … | … | … | … | … | … |
Это фрагмент данный в том формате, который отображается в SPSS. По горизонтали – семьи, по вертикали – переменные (показатели). Например, переменная iid_h – код семьи в 13-й волне (2004 год), ic9.1a – показатель того, есть ли в домохозяйстве холодильник (код 1) , или нет (код 2), ic9.1b – содержит возраст холодильника, indexTDP1 – это уже рассчитанный мной индекс обеспеченности ТДП. Например, из тех семей, что есть в данном фрагменте, наиболее обеспеченной, вероятно, является семья №5.
Значения «99» для переменной ic9.1a не являются истинными ее значениями, а обозначают, что респондент отказался ответить на данный вопрос. Этот (и другие коды, означающие пропущенные значения), следует перед началом работы объявить пропущенными, чтобы программа исключала их из анализа.
4. Анализ данных и интерпретация
Для начала я проанализирую распределения тех переменных, которые я планирую использовать в регрессионных моделях. Это доход, число членов семьи, число источников дохода, городская/сельская местность, а также – показатели владения товарами длительного пользования.
Распределение домохозяйств по доходу
Число домохозяйств | Минимальный доход, руб. | Максимальный доход, руб. | Средний доход, руб. | Медиана дохода, руб. | Ст. откл. дохода, руб. |
4711 | 0 | 706964 | 10005 | 6400 | 22237 |
Графа «число домохозяйств» показывает, сколько домохозяйств согласились раскрыть свои доходы. Медиана меньше среднего, это означает, что на среднее значение дохода сильно повлияли семьи с большими доходами, резко отличающимися от доходов основной массы опрошенных.
Минимальный и максимальный (и даже средний) доходы еще далеко не все говорят о распределении переменной, поэтому лучшее представление о распределение дохода дает понять гистограмма распределения дохода.
Поскольку имеется незначительное число больших доходов, гистограмма не очень удачная получилась. Рассмотрим лучше квартили распределения дохода, которые скажут, с какой величины начинаются 25% минимальных доходов, медиану и с какой величины начинаются 25% самых крупных. Вот они:
Квартили распределения дохода | I | II | III |
3100 | 6400 | 12000 |
Как видно, 50% срединных из всех наблюдаемых доходов находится в пределах от 3100 до 12000 руб.
Далее надо посмотреть, какие ТДП вообще есть в домохозяйствах. Вот их встречаемость:
Встречаемость наличия ТДП
Вид ТДП | Количество семей | % от общего числа семей |
Холодильник | 4433 | 94,1 |
Отдельная морозильная камера | 325 | 6,9 |
Стиральная машина | 3800 | 80,7 |
ч/б телевизор | 584 | 12,4 |
цв. телевизор | 4180 | 88,7 |
Видеомагнитофон/видеоплеер | 2225 | 47,2 |
Компьютер | 823 | 17,5 |
Легковой автомобиль | 1322 | 28,3 |
Грузовой автомобиль | 89 | 1,9 |
Мотоцикл, мотороллер, моторная лодка | 180 | 3,8 |
Трактор/ минитрактор | 61 | 1,3 |
Дача, другой дом, часть дома, садовый домик | 995 | 21,1 |
Другая квартира / часть квартиры | 271 | 5,8 |
Как видно, наиболее распространенным ТДП из данного перечня является холодильник (он есть почтив каждом домохозяйстве), а наименее распространенными следует признать тракторы, грузовые автомобили, мотоциклы и мотороллеры. Суммарный процент, естественно, превосходит 100%, поскольку одно и то же домохозяйство может владеть несколькими ТДП одновременно. Эти цифры, в принципе, соответствуют тем, что предоставляет Госкомстат России, говоря об обеспеченности домашних хозяйств товарами длительного пользования. Но они рассчитывают обеспеченность в количестве единиц на 100 домохозяйств, поэтому представление данных немного другое. Например, в 2004 году на 100 домохозяйств в РФ приходилось: телевизоров – 135 шт., видеомагнитофонов/камер: 62 шт., персональных компьютеров: 28 шт., холодильников/морозильников: 114 шт., стиральных машин: 94 шт.
В модель также будет включена переменная, которая показывает, в каком типе населенного пункта проживает домохозяйство, т.к. как правило, в больших развитых городах, уровень благосостояния домохозяйств, проживающих там, значительно выше, что в свою очередь влияет на наличие ТПД в этих домохозяйствах.
Распределение по типу населенного пункта, в котором проживает домохозяйство
Частота | Процент | |
Областной центр | 2017 | 42,8 |
Город | 1249 | 26,5 |
ПГТ | 292 | 6,2 |
Село | 1153 | 24,5 |
Всего | 4711 | 100 |
Переменная типа населенного пункта где проживает домохозяйство, будет представлена в модели дихотомизированной, с двумя значениями - город (код 1, 69,3% опрошенных домохозяйств) и соответственно населенный пункт сельского типа (код 0, 30,7% опрошенных). Это нужно для того, чтобы включить данную качественную переменную в количественный анализ, т.е в регрессионную модель. Коэффициент перед данной переменной в модели будет показывать, как влияет проживание в городе на наличие ТДП.
Распределение по числу членов домохозяйства таково. Примерно 19% домохозяйств состоят из 1 человека, еще почти 28% - из 2-х человек, еще столько же – из 3-х, еще 16,5% - из 4-х. Все прочие (более крупные) домохозяйства дают, в целом, 10%.
Наконец, в модели будет присутствовать переменная, характеризующая число источников дохода. Минимальное значение данной переменной: 0, максимальное – 8. В среднем российское домохозяйство имеет 2,4 источника дохода из тех, что были представлены в анкете RLMS. Стандартное отклонение: 1,2. Если говорить в процентах, то не имеют источников дохода, примерно, 1,5% домохозяйств, 1 источник имеют 24,6%, 2 – 32%, 3 – 24,7%. Это наиболее распространенные показатели. Большее число источников имеют, в целом, не более 17% домохозяйств.
Чтобы посмотреть как влияют рассмотренные переменные на владение товарами длительного пользования, необходим показатель, который бы вобрал в себя эту информацию. В данном эссе я предлагаю 3 варианта вычисления такого показателя на основе сведений, которые имеются в анкете.
Первый вариант расчета показателя самый сложный. Допустим, у нас есть сведения о 13 ТДП (см. выше). Известно, есть тот или иной товар в семье, или нет, а также – известно, сколько лет этому товару. Мне кажется, имеет смысл не только подсчитывать суммарный индекс как число товаров, которое есть в домохозяйстве, но и попытаться учесть разную стоимость этих товаров и разный срок их службы. В самом деле, автомобиль, выпущенный в середине 1990-х гг и автомобиль, выпущенный в прошлом году – не одно и то же. Чтобы получить итоговый показатель, я суммирую следующие произведения отдельно по каждому виду ТДП:
«есть (1) или нет (0) товар в домохозяйстве» * «вес товара» *
максимум из «0 и разности (10 – возраст товара)».
С первой частью ясно. Если товар есть, мы ставим вместо этой части 1, если нет – 0. Вес товара определяем так, что дополнительная квартира имеет вес, равный 1, автомобиль – вес, равный 0,1, компьютер – вес, равный 0,04 и т.д. Веса я сама предложила, исходя из примерного соотношения стоимостей этих ТДП. Таким образом, иметь, Например, компьютер и автомобиль – не одно и то же, что иметь дополнительную квартиру, в общем случае. Последняя составляющая нужна для того, чтобы учесть возраст товара, и приписать больший вес товарам, которые много моложе 10 лет. Если же товар 10 лет и старше, то разность может быть меньше нуля. И чтобы не делать индекс отрицательным, мы выбираем максимум из 0 и возможного отрицательного значения, то есть, зануляем слагаемое для данного товара. Так мы складываем эти результаты по всем товарам.
Мне кажется, это довольно трезвый способ расчета индекса обеспеченности ТДП, полностью учитывающий всю информацию о них, которая есть в анкете. Максимум этот индекс приобретает в том случае, если семья обеспечена всеми товарами, но в первую очередь – самыми дорогостоящими, и к тому же, если эти товары относительно новые.
Еще 2 варианта расчета показателя я предложила, честно говоря, после того, как эксперименты с первым показателем обнаружили не очень хорошую объясняющую способность регрессионных моделей.