что полностью совпадает со значением, полученным в парном случае.
Если сравнивать случаи с тремя регрессорами, которая была признана нами наилучшей (таблица 12), и общим случаем (таблица 11), то очевидно, что в общем случае стандартные ошибки коэффициентов больше, а следовательно, оценки менее эффективные.
Задания для самостоятельной работы
1. Проанализировать наличие эффекта мультиколлинеарности для заданий своего варианта и рассмотреть возможности по учету и исключению;
2. Определить влияние отсутствующих и лишних переменных в регрессии.
Фиктивные переменные и категории
Цель: научиться использовать в модели фиктивные переменные сдвига и наклона, а также различные категории.
Основные формулы и понятия:
Фиктивная переменная необходима для описания качественного изменения и может принимать два значения 0 и 1.
— модель с фиктивной переменной сдвига; — модель с фиктивной переменной наклона; — модель с фиктивной переменной наклона и сдвига.Категория — событие, про которое для каждого наблюдения можно определенно сказать, произошло оно в этом наблюдении или нет.
Набор категорий — конечный набор взаимоисключающих событий, полностью исчерпывающий все возможности.
Для описания категорий необходимо ввести совокупность фиктивных переменных.
Электронная таблица Excel
До сих пор нами рассматривался только случай количественных регрессоров, поскольку значение цен и спроса являются числами. Однако может возникнуть ситуация, когда необходимо учесть некоторую специфическую информацию. Рассматривая модель спроса, можно предположить, что продаются два одинаковых продукта по одной цене, но имеющие некоторые различия. Например, наряду с уже давно продающимся чистящим порошком, поступает в продажу такой же порошок, но с новым ароматом. И имеется задача исследовать, насколько большим или меньшим спросом пользуется новая продукция. Конечно, можно построить две различные модели, и посмотреть разницу между ними, однако нас будет интересовать общая модель. В этом случае в модель необходимо вносить качественный регрессор, для чего нужно использовать фиктивную переменную. Данная переменная может принимать только два значение 0 или 1, в зависимости от отсутствия или наличия нового качества. В этом случае можно строить модель с фиктивной переменной наклона и сдвига. Работа с фиктивными переменными ни чем не отличается от построения регрессионной модели.
Поэтому рассмотрим задачу. Значение цены x и спроса y на два различных товара, которые мы условно назовем «обычный» и «новый», представлены в таблице 17.
Таблица 17
Номер наблюдения | Вид | Цена x1(р.) | Спрос y (тыс. шт.) |
1 | новый | 15,09р. | 125,1779 |
2 | новый | 15,21р. | 123,8094 |
3 | старый | 15,28р. | 121,175 |
4 | старый | 15,49р. | 116,9143 |
5 | старый | 15,54р. | 119,8643 |
6 | старый | 15,62р. | 118,0681 |
7 | новый | 15,70р. | 123,5887 |
8 | новый | 15,91р. | 117,0877 |
9 | старый | 15,92р. | 116,1699 |
10 | новый | 15,95р. | 118,3436 |
11 | новый | 16,31р. | 116,2008 |
12 | старый | 16,33р. | 111,4565 |
13 | новый | 16,60р. | 115,1026 |
14 | старый | 16,69р. | 110,1056 |
15 | старый | 16,76р. | 110,0231 |
В электронной таблице Excel имеются возможности для быстрого задания значений фиктивной переменой. Для этого необходимо вставить столбец между колонками с названиями Вид и Цена. Озаглавим этот столбец как Фиктивная переменная, и для определения значений будем использовать логическую функцию ЕСЛИ. Данная функция имеет три аргумента. Первый — это логическое выражение, которое может принимать истинное или ложное значение. Вторым аргументом идет то значение, которое появляется в ячейке при истинности условия, а соответственно в третьем аргументе — значение, которое появляется в противном случае.
Выполнив данные действия, получим первые две строки таблицы 18.
Таблица 18
Номер наблюдения | Вид | Фиктивная переменная | Цена x1 (р.) | Спрос y (тыс. шт.) |
1 | новый | =ЕСЛИ(B2="новый";1;0) | 15,09р. | 125,1779 |
В столбце фиктивной переменной появится значение 1, если в предыдущем столбце находилось слово «новый», и 0 в противоположном случае. После этого необходимо значение функции, находящейся в столбце C, скопировать во все нижние ячейки, а поскольку адресация относительная, то адрес будет меняться. Необходимо отметить, что логическая функция может иметь и другой вид:
ЕСЛИ(B2 = "обычный";0;1).
Теперь наша задача заключается в определении степени влияния фиктивной переменной. А именно, влияет ли это значение на свободный член (в этом случае при изменении качества можно говорить о том, что спрос изменится на какое-то количество) или на наклон линии регрессии (спрос изменится во сколько-то), или на оба эти значения сразу.
Вначале оценим регрессию, при условии, что фиктивная переменная влияет только на значение свободного члена. В этом случае итоговая таблица после выполнения надстройки Регрессии, при условии, что Входной интервал Y задан в виде E1:E16, а Входной интервал X в виде С1:D16, имеет вид, изображенный в таблице 19.
Таблица 19
ВЫВОД ИТОГОВ | |
Регрессионная статистика | |
Множественный R | 0,963696 |
R-квадрат | 0,928711 |
Нормированный R-квадрат | 0,916830 |
Стандартная Ошибка | 1,363084 |
Наблюдения | 15 |
Продолжение табл. 19
Дисперсионный анализ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 2 | 290,4628387 | 145,231419 | 78,16547142 | 1,31E–07 | |
Остаток | 12 | 22,29599593 | 1,85799966 | |||
Итого | 14 | 312,7588347 | ||||
Коэффи- циенты | Стандартная ошибка | t- статистика | P- значение | Нижние 95 % | Верхние 95 % | |
Y-пересечение | 232,0028 | 10,78827 | 21,5051052 | 5,9691E-11 | 208,49 | 255,508 |
Фиктивная переменная | 3,474500 | 0,7109700 | 4,8869856 | 0,00037407 | 1,9254 | 5,02357 |
Цена x(р.) | -7,30442 | 0,675558 | –10,8124125 | 1,5303E–07 | –8,77634 | –5,83251 |
Регрессионная модель имеет вид: y = 232 + 3,47D – 7,304x
Поскольку значение фиктивной переменной D равно 1 для «нового» вида и 0 для «обычного», то данную модель можно отдельно расписать для каждого случая.
y = 232 – 7,304x — обычный вид,
y = 235,47 – 7,304x — новый вид.
Следовательно, спрос на новый вид продукции приблизительно на 3,47 тыс. ед. больше. Коэффициент детерминации равен 0,928, что намного больше, чем данное значение для парного случая.
Рассмотрим теперь возможность построения модели с фиктивной переменной наклона, для чего в качестве регрессоров значения необходимо использовать переменные x и Dx. Следовательно, необходимо добавить дополнительный столбец между фиктивной переменной и значениями x, в который надо записать их произведения.
Опустим таблицу, которая генерируется надстройкой Регрессия. Однако, самостоятельно выполнив данные операции, можно получить следующую модель: y = 233,52 + 0,21Dx – 7,403x.
Аналогичным образом интерпретируя значение фиктивной переменной, можно расписать два случая:
y = 233,52 – 7,4x — для обычного вида продукции;
y = 233,52 – 7,19x — для нового вида продукции.
Выводы из полученных моделей совершенно очевидны, поскольку видна разница во влиянии цены на спрос для каждого вида продукции. Коэффициент детерминации в этом случае равен 0,929, что не намного больше соответствующего значения для фиктивной переменной сдвига, а следовательно, они обе пригодны для прогнозирования. Однако результаты использования моделей будут во многом различными. В первом случае спрос на «новый» вид продукции на 3,47 тыс. ед. больше, чем на «старый», во втором случае цена сильнее влияет на «старый» вид продукции.