Y=a+b1x1+b2x2+b3x3+b12x1x3+b23x2x3+E.
Подходы к отбору факторов на основе показателей корреляции различны, что приводит к построению уравнения множественной регрессии разного вида. Наибольшее распространение получили 3 подхода:
1. метод исключения (отсев факторов из полного его набора).
2. метод включения ( дополнительное введение факторов).
3. шаговый регрессионный анализ ( исключение ранее введенного фактора).
13. выбор формы уравнения регрессии
Как и в парной регрессии возможны различные виды: линейные и нелинейные.
Линейные уравнения множественной регрессии имеют вид: y=a+b1x1+b2x2+…+bpxp, где x1,x2,…,xp –факторы, а b1,b2,…,bp- параметры регрессии, b1,…,bp – коэффициенты чистой регрессии. Эти коэффициенты, стоящие перед переменными Х характеризуют средние изменения результативного признака с изменением соответствующего фактора при неизменных значениях др фактора.
Нелинейные: y=ax1b1x2b2….xpbp степенная множественной регрессии. Параметры bi – коэффициенты эластичности. Они показывают изменении результата с изменением соответствующего фактора на 1% при неизменности др. факторов. Такой вид уравнений множественной регрессии используется в производственных функциях, а также в исследовании спроса и предложения. Для построения множественной регрессии используется также функции:y=e в степени a+b1x1+b2x2+…+bpxp – экспонента.
Y=1\( a+b1x1+b2x2+…+bpxp) – обратная (гипербола).
Стандартные компьютерные программы имеют возможность перебирать возможные функции и выбрать из всех только ту, для которой остаточная дисперсия минимальна и ошибка аппроксимации тоже минимальна. Коэффициент детерминации должен быть приближен к 1. если исследователя не устраивает предполагаемый набор функций регрессии, то можно использовать любые др. функции, приводимые к линейным с помощью преобразования. Однако, чем сложнее функция, тем менее интерпретируемы ее параметры, поэтому использование номинальных моделей очень высокого порядка или сложных функций нежелательно.
14. оценка параметров уравнения множественной регрессии
параметры уравнения множественной регрессии как и для парной регрессии находятся с помощью МНК. При его применении строится система нормальных уравнений, решение которых позволяет получить оценки параметров для уравнения множественной регрессии. Для уравнения множественной регрессии линейного вида получается система нормальных уравнений:
в системе р+1 уравнение и р+1 неизвестная. Решение этой системы возможно методом Крамера. При нелинейной зависимости уравнение множественной регрессии необходимо привести к линейному виду, чтобы затем использовать МНК для нахождения. Например использовать метод линеаризации:
y=ax1b1x2b2….xpbp ; lny= ln(ax1b1x2b2….xpbp); lny= lna+b1lnx1+b2lnx2+…+bplnxp; Y=C+b1X1+b2X2+…+bpXp
15. частные уравнении множественной регрессии
частные линейные уравнения множественной регрессии имеют вид:
Если ввести новое обозначение, то получим
На основе частных уравнений регрессии определяются частные коэффициенты эластичности:
16. множественная корреляция
показатели множественной корреляции характеризуют тесноту связи, рассматриваемого набора фактора с исследуемым признаком, т.е. оценивает тесноту связи совместного влияния фактора на результат. Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:
Индекс множественной корреляции как корень лежит в пределах [0;1]. Чем ближе к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. При правильном включении фактора в уравнение множественной регрессии величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной регрессии. Если же дополнительное включение фактора второстепенно, то индекс множественной корреляции будет практически совпадать с индексом корреляции парной зависимости. Расчет индекса множественной корреляции предполагает уравнение регрессии и на его основе остаточной дисперсии.
можно пользоваться следующей формулой для индекса множественной корреляции:17. частная корреляция
частные индексы корреляции характеризуют тесноту связи исследуемого признака и одним из факторов при устранении влияния остальных факторов, включенных в модель. Эти показатели представляют собой отношение сокращения остаточной дисперсии за счет включения доп. Факторов. Если рассматриваемая регрессия с числом факторов Р, то возможны коэффициенты корреляции первого, второго и т.д. Р-1 порядков, т.е.
пример: действие влияния Х1 можно оценить при разных условиях независимого действия др. факторов: ryx1x2 при постоянном действии фактора Х2, ryx1x2x3 при постоянном действии факторов Х2 и Х3. формула в общем виде имеет вид:
18. предпосылки МНК
После построения уравнения множественной регрессии проводится проверка наличия у оценок (y=a+b1x1+b2x2+…+bpxp+E) тех свойств, которые предполагаются при МНК. Это связано с тем, что оценки параметров для уравнения регрессии должны отвечать определенным критериям, а именно: д.б. эффективными, несмещенными, состоятельными.
Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Оценка считается эффективной если она характеризуется наименьшей дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.
Условия, необходимые для получения оценок удовлетворяет этим 3 критериям представляет собой предпосылки МНК:
1. случайный характер остатка.
2. нулевая средняя величина остатков, не зависящая от Xi.
3. гомоскедастичность – дисперсия каждого отклонения одинаково для всех факторов.
4. отсутствие автокорреляции Еi распределены независимо друг от друга.
5. остатки подчиняются нормативному закону.
Если все 5 предпосылок выполняются, то оценки, полученные МНК считаются хорошими. Если не выполняется хотя бы одна предпосылка, то следует корректировать модель.
1).прежде всего проверяется случайный характер остатков Еi. С этой целью строится график зависимости остатков Ei от теоретических значений результативного признака.
А) возможны следующие варианты, если на графике получена горизонтальная полоса, то остатки представляют собой случайные Величины и МНК оправдан, т.е. теоретические значения хорошо аппроксимируют фактические данные. Б)остатки неслучайны. В) остатки не имеют постоянной дисперсии.
Г) остатки носят систематический характер. В этом случае отрицательное значение Еi относится к низким значениям y^x, соответственно, положительное значение Ei относится к высоким значениям y^x.
В случаях 2,3,4 необходимо либо применять другую функцию, либо вводить дополнительную информации. А затем строить уравнение регрессии до тех пор, пока остатки не станут случайными величинами.
2) МНК относительно нулевой средней величины остатка означает, сумма разностей фактических и теоретических значений равна нулю
. Это выполнимо для линейных моделей и моделей нелинейных относительно включенных переменных. Для выяснения того, что остатки соответственно второй предпосылки строиться график зависимости остатков от факторов включенных в регрессию.Если на графике получается горизонтальная полоса, то остатки Еi не зависит от Xi. Если график показывает зависимость, то модель неадекватна.
3) в соответствии с 3 предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого фактора Xi остатки Ei имеют одинаковую дисперсию. Если это условие не выполняется, то имеет место гетероскедастичность.
Примеры гетероскедастичности.
А) дисперсия остатков возрастает по мере увеличения Х.
Б) дисперсия остатков достигает максимальной величины при средних значениях величины Х и уменьшения при минимальном значении Х. В)
максимальная дисперсия остатков при таком значении Х и дисперсия однородна по мере увеличения Х.
Для множественной регрессии строится зависимость от Xi и по графику визуально определяется гомоскедастичность.