5. Возможные ошибки измерения.
В парной регрессии выбор вида математической функции yх=f(x), может быть осуществлен графическим, аналитическим, экспериментальным методами.
Наиболее наглядным методом является графический. Он основан на поле корреляции.
Основные типы кривых, используемых при количественной оценке связей, представлены на рис. 1.
Значительный интерес представляет аналитический метод выбора типа уравнения регрессии, который основан на изучении материальной природы связи исследуемых признаков.
Пусть, например, изучается потребность предприятия в электроэнергии y в зависимости от объема выпускаемой продукции x.
Общее потребление электроэнергии y можно подразделить на две части:
- не связанное с производством продукции а;
- непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска (b×x).
Рис 1. Основные типы кривых, используемые при количественной оценке связей между двумя переменными
Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида: y = a+bx
Если разделим обе части уравнения на величину объема выпускаемой продукции (х), то получим выражение зависимости удельного расхода электроэнергии на единицу продукции (z = y/x) от объема выпущенной продукции (х) в виде уравнения гиперболы:
z = b+a/x
При обработке информации на компьютере выбор вида уравнения регрессии осуществляется экспериментальным методом, т.е. путем сравнения величины остаточной дисперсии Dост, рассчитанный при разных моделях.
Поэтому для уравнения регрессии вычисляется величина суммы отклонений (y-yx), где y – фактические значения результативного признака,
yx – расчетные значения, полученные по уравнению регрессии.
Чем меньше величина Dост, тем лучше уравнение регрессии описывает рассматриваемую корреляционную связь. Из разных математических функций выбирается та, для которой Dост является min.
В случае, когда Dост оказывается примерно одинаковой для нескольких функций, то предпочтение отдается более простым видам функций.
Обычно число наблюдений должно в 6-7 и более раз превышать число рассчитываемых параметров при переменной х.
1.1. Линейная регрессия сущность, оценка параметров
Линейная регрессия сводится к построению уравнения вида y=a+bx
Построение уравнения регрессии сводится в первую очередь к расчету его параметров - а и b. Они могут быть определены разными методами. Наиболее распространенным методом, является метод наименьших квадратов (МНК).
Допустим, что заданы n наблюдаемых значений результативного признака (у) и признака-фактора (х).
Следует отметить, что рассчитываются не истинные значения a и b, а только оценки, которые могут быть хорошими или плохими.
Возникает вопрос: существует ли способ достаточно точной оценки а и b алгебраическим путем?
Вначале на поле корреляции построим точки соответствующие наблюдаемым значениям х и у и прямую, выражающую линейную регрессию (рис.2).Первым шагом является определение остатка для каждого наблюдения. Разность между фактическим и расчетным значением, соответствующим xi, описывается как остаток в i-м приближении:
Очевидно, что нужно построить такую линию регрессии, чтобы остатки были минимальными. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков.
заложен в основу МНК.
Обозначим через S, тогдаПреобразуя систему (2.5), получаем следующую систему нормальных уравнений для оценки параметров a и b:
Параметр b называется коэффициентом регрессии. Его величина показывает, насколько единиц изменится результат с изменением фактора на одну единицу.
Параметр a, вообще говоря, не имеет экономической интерпретации. Например, если a<0, то попытка его экономической интерпретации приводят к абсурду.
Зато можно интерпретировать знак при параметре а. Если, а>0, то относительное изменение результата происходит медленнее, чем изменение фактора.
1.2. Определение тесноты связи и оценка существенности уравнения регрессии
Коэффициент корреляции находится в пределах: - 1 < r < 1. Если b > 0, то 0 < r < 1, и, наоборот, при b < 0, - 1 < r < 0.
Линейный коэффициент корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютного значения линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При нелинейном виде модели связь может оказаться достаточно тесной.
Квадрат линейного коэффициента корреляции называется коэффициентом детерминации. Он характеризует долю дисперсии результативного показателя y, объясняемую регрессией.
Соответственно величина 1 - r2 характеризует долю дисперсии у, вызванную влиянием остальных, неучтенных в модели, факторов.
После того как построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.
Оценка значимости уравнения регрессии в целом производится с помощью F-критерия Фишера.
С F-критерием тесно связана характеристика, называемая числом степеней свободы, которая применительно к исследуемой проблеме показывает, сколько независимых отклонений из n-возможных требуется для образования данной суммы квадратов.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммы квадратов.
Число степеней свободы для факторной суммы квадратов равно 1, для общей суммы квадратов равно (n-1), для остаточной суммы квадратов составляет (n-2).
Сопоставляя факторную и остаточную дисперсию на одну степень свободы, получим величину F- отношения (F - критерий):
F - критерий для проверки нулевой гипотезы H0: Dфакт = Dост.
Т.е. если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Это дает основание считать, что влияние объясняющей переменной х модели несущественно, а, следовательно, общее качество модели невысоко.