1.2.2.11. Рассчитаем коэффициенты корреляции и детерминации.
В ячейку для коэффициента корреляции вводим функцию «коррел» из категории «статистические» для массивов зависимой и наблюдаемой независимой (с учетом ошибки) переменных.
Коэффициент детерминации равен:
, (1.6)1.2.2.12. Рассчитаем средние, суммы и СКО:
В соответствующие ячейки независимой переменной вводим формулы расчета среднего значения, суммы и среднего квадратического отклонения.
Скопируем данные формулы для значений зависимой (факторной, наблюдаемой) переменных и ошибки регрессии (Рисунок 1.4).
Представим копию интерфейса с таблицей из первых 10-ти наблюдений и двух зависимостей (Рисунок 1.5).
1.2.2.13. Исследуем влияние параметров регрессионной модели на связь y(x) Исследуем влияние СКО ошибки регрессионной модели на коэффициент корреляции и детерминации. Изменяя СКО ошибки модели получаем моделируемые значения наблюдений (Рисунок 1.6, в верхней части приведены значения коэффициентов корреляции и детерминации).
Исследуем влияние коэффициента регрессии b на связь зависимой переменной от независимой. Построим графики для различных коэффициентов регрессии. Значения коэффициента регрессии b приведены в верхней части рисунка:
Рисунок 1.7
Исследуем влияние коэффициента а на связь зависимой переменной от независимой. Построим графики для различных коэффициентов а (а>0, а<0). Значения коэффициента регрессии a приведены в верхней части рисунка:
Рисунок 1.8
1.2.2.14. Сделаем выводы из полученных данных:
- знак коэффициента регрессии b имеет прямую связь со знаком коэффициента корреляции r. При изменении знака коэффициента регрессии b, меняется и знак коэффициента корреляции r.
- при уменьшении среднего квадратического отклонения σe, коэффициенты корреляции r и детерминации D увеличиваются.
- при изменении параметра a коэффициент эластичности не меняется.
- примеры регрессионных зависимостей в экономике с параметрами:
b>0 - зависимость средней заработной платы от среднедушевого прожиточного минимума в день одного трудоспособного человека.
b<0 - зависимость расходов на покупку продовольственных товаров (в общих расходах %) от среднедневной заработной платы одного работающего.
a>0 – зависимость расходов предприятия от объема производства.
a<0 -
1.3. Идентификация модели парной линейной регрессии
1.3.1. Основные положения процедуры идентификации:
Идентификация параметров модели основана на минимизации суммы квадратов отклонений наблюдаемой переменной от теоретической зависимости
(1.7)т.е. необходимо найти такие коэффициенты a и b, которые позволяют получить наименьшее значение суммы квадратов отклонений в данном выражении. Дифференцирование данного выражения по коэффициентам a и b, приравнивание производных нулю:
(1.8)позволяет получить систему нормальных уравнений:
(1.9)Поделив, левые и правые части на n получаем:
(1.10)Данный метод вычисления коэффициентов называется методом наименьших квадратов (МНК). Выражая средние значения через оператор среднего:
(1.11)Система нормальных уравнений имеет вид:
(1.12)Решение данной системы уравнений относительно a и b на основе формулы Крамера имеет вид:
(1.13)Коэффициент a может быть получен как:
(1.14)Данный коэффициент может быть получен также по формуле, вытекающей из теоретического уравнения линейной регрессии:
, т.е. (1.15) (1.16)1.3.2. Последовательность выполнения:
1.3.2.1. Создаем копию листа «Модель» помещаем его перед листом «Лист2» и переименуем его назвав «Идентификация».
1.3.2.2. Выделяем ячейки (Рисунок 1.9) для расчета:
- коэффициентов a и b,
- значений xy, x2.
- значений y, полученных по рассчитанным коэффициентам a и b.
Колонки y=bx+a и e в расчете коэффициентов a и b участия не принимают, поскольку теоретическая зависимость и погрешность нам не известна. Именно их мы оцениваем по моделируемому фактическому значению y=bx+a+e.
Рисунок 1.9
1.3.2.3. Рассчитаем значения xy, x2.
1.3.2.4. Получим средние значения, входящие в формулы расчета коэффициентов a и b.
1.3.2.5. Рассчитаем коэффициенты a и b по формулам (1.15) и (1.16).
1.3.2.6. Сопоставим заданные коэффициенты a и b с рассчитанными.
1.3.2.7. Получим столбец идентифицированной (с рассчитанными коэффициентами линии регрессии a и b) (Рисунок 1.9).
1.3.2.8. Добавим к графику факторной линии регрессии график идентифицируемой линии (с рассчитанными коэффициентами).
1.3.2.9. Увеличивая СКО случайного отклонения σе получаем два графика факторной и идентифицируемой линии регрессии (Рисунок 1.10).
Рисунок 1.10
1.3.2.10. При увеличении СКОе уменьшаются коэффициенты корреляции r и детерминации D, а, следовательно, уменьшается связь между изучаемыми параметрами. И это наглядно видно на графиках - несовпадение факторной и идентифицируемой линии регрессии.
1.3.2.11. Получим два наблюдения за процессом при одном и том же относительно большом СКОе и построим графики (Рисунок 1.11).
Изменение параметров линии регрессии происходит потому, что происходит изменение влияния случайных факторов на связь между изучаемыми параметрами.
1.4. Оценка существенности параметров линейной регрессии и корреляции.
Общая сумма квадратов отклонения независимой переменой y может быть представлена суммой квадратов отклонения y и остаточной суммы квадратов переменной
(1.17) Scom Общая сумма квадратов отклонений | Sfact Сумма квадратов отклонений, обусловленная регрессией | Srem Остаточная сумма квадратов отклонений |
Средние квадраты данных отклонений вычисляется как:
(1.18) (1.19) (1.20)F-отношение определяется как:
(1.21)Нулевая гипотеза (об отсутствии связи между y и x) принимается если:
, где (1.22)