7. Действует принцип простоты модели. Если возможно построить хорошую модель с пятью факторами, то не следует гнаться за идеальной моделью с десятью факторами, обычно лишние факторы ухудшают модель.
4. Системы показателей многофакторной корреляции и регрессии
Рассмотрим данную систему показателей на примере связи урожайности зерновых культур в 51 агрофирме Орловской области. Первоначально были отобраны 8 факторных признаков, которые могут влиять на вариацию урожайности:
x1 – размер посевной площади зерновых, га;
x2 – удельный вес зерновых в общей площади, %;
x3 – затраты на 1 га посева зерновых, тыс. руб./га;
x4 – затраты труда на 1 га, чел.-ч;.
x5 – уровень оплаты труда, руб./чел.-ч.;
x6 – энергообеспеченность, л.с./100 га пашни;
x7 – число комбайнов на 1000 га зерновых, шт.;
x8 – число трактористов-машинистов на 100 га пашни, чел.
Первоначальное уравнение регрессии имеет вид:
Однако надежно отличными от нуля оказались только коэффициенты при x3 (t-критерий равен 10,5) и при x8 (t-критерий равен 2,72). Большую надежность, чем другие факторы имеет и x5.
После отсева ненадежных факторов, т.е. исключения их из уравнения, окончательное уравнение регрессии таково:
Таким образом, на различие урожайности в данных 51 агрофирмы сильнее всего и надежно повлияли различия между предприятиями в затратах на 1 га, в уровне оплаты труда и в обеспеченности квалифицированными работниками.
Каждый из коэффициентов, называемых коэффициентами чистой регрессии, интерпретируются как величина изменения урожайности при условии, что данный фактор изменяется на принятую единицу измерения, а два других фактора остаются постоянными на средних уровнях. Например, b3 означает, что при увеличении затрат на 1 га зерновых и при неизменности оплаты труда и обеспеченности трактористами-машинистами урожайность в среднем увеличивалась в среднем на 4, 6 ц/га. Термин «условно чистая регрессия» означает, что влияние отдельного фактора очищено от сопутствующей вариации только тех факторов, которые входят в уравнение, но не очищено от возможной сопутствующей вариации других факторов.
Величина коэффициентов условно чистой регрессии зависит от принятых единиц измерения. Если бы фактор x3 измерялся не в тысячах рублей на гектар, а в рублях на гектар, то коэффициент b3 был бы равен 0,00461 руб./га. Следовательно, сравнивать между собой коэффициенты условно чистой регрессии нельзя. Чтобы получить сравнимые коэффициенты влияния вариации факторов на вариацию результата, следует избавиться от единиц измерения, привести к одной условной единице. Для этого можно применить два способа.
Первый способ называется стандартизацией. Этот термин возник из английского названия среднего квадратического отклонения (Standarddeviation). Стандартизированные коэффициенты регрессии выражаются в долях или величинах, если они превышают единицу – в величинах σy. Стандартизированные коэффициенты обозначают греческой буквой β и называют бета-коэффициентами. Их формула такая:
(24)В нашем примере получаем:
β3 = 0,772;
β5 = 0,147;
β8 = 0,223.
Интерпретация бета-коэффициентов такова: при изменении фактора x3 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак (урожайность) отклонится от своего среднего уровня на 0,772 его среднего квадратического отклонения. Так как все стандартизированные коэффициенты выражены в одинаковых единицах измерения, в σy, они сравнимы между собой, и можно сделать вывод, что на вариацию урожайности сильнее всего повлияла в изучаемой совокупности предприятий вариация затрат на гектар посева.
Другой способ приведения коэффициентов регрессии к сравнимому виду – их преобразование в коэффициенты эластичности. Формула коэффициента эластичности ℓj:
(25)Интерпретируется коэффициент эластичности следующим образом: при изменении фактора xjна его среднюю величину и при постоянстве других входящих в уравнение факторов результативный признак в среднем изменится на ℓj части его средней величины (или на ℓj средних, если ℓj>1, что бывает реже). Часто говорят, «изменится на ℓj процентов на 1% изменения фактора».
В нашем примере имеем:
Коэффициенты эластичности так же выражены, как и βj, в одинаковых единицах и сравнимы между собой. Ими удобнее, чем β-коэффициентами, пользоваться в планировании и прогнозировании. Вряд ли менеджер станет планировать увеличение фактора, скажем, инвестиций на 0,6 сигмы. Обычно планируют изменение факторов, если они управляемы, на столько-то процентов от достигнутого уровня. Например, если планируем увеличить затраты на гектар зерновых на 10%, оплату труда на 30%, а обеспеченность квалифицированными трактористами-машинистами на 20%, то можно ожидать изменения урожайности на
, где kj – планируемые темпы прироста факторов.Имеем:
Теперь рассмотрим систему показателей тесноты многофакторных связей. Прежде всего строится матрица парных коэффициентов корреляции (табл. 1).
Таблица 1. Матрица парных коэффициентов корреляции
Признаки | y | x3 | x5 | x8 |
y | 1 | |||
x3 | 0,860 | 1 | ||
x5 | 0,350 | 0,223 | 1 | |
x8 | 0,443 | 0,248 | 0,141 | 1 |
Матрица парных коэффициентов корреляции дает исходные данные для других показателей тесноты связи и для первичной проверки на коллинеарность. В данном случае все связи между факторами слабые, коллинеарность не испортит модель.
Важнейшим показателем тесноты связи в многофакторной системе является коэффициент множественной детерминации R2. Он измеряет общую тесноту связи вариации результативного признака y с вариацией всей системы входящих в модель факторов. Величина коэффициента множественной детерминации может быть вычислена несколькими способами.
1.Вычисление на основе матрицы парных коэффициентов корреляции
,где Δ* - определитель матрицы;
, (26)а Δ – определитель матрицы, не включающей первой строки Δ* и ее последнего столбца, т.е.:
.При двух факторах получается упрощенная формула расчета:
(27)Из (27) следует, что при независимости факторов друг от друга, т.е.
, коэффициент множественной детерминации есть сумма парных коэффициентов детерминации.Пользуясь формулой (27), можно вычислить три возможных двухфакторных коэффициента детерминации:
2.Вычисление на основе парных коэффициентов корреляции и β-коэффициентов:
(28)В примере: R2=0,86·0,772+0,35·0,147+0,433·0,223=0,8119.
3.Вычисление как корреляционное отношение, т.е. отношение вариации результативного признака y, связанной с вариацией системы факторов, входящих в модель (в уравнение регрессии), ко всей, общей, вариации результативного признака:
. (30)Числитель формулы (30) – это сумма квадратов отклонений индивидуальных расчетных значений результативного признака от его средней, а знаменатель – сумма квадратов фактических значений результативного признака от средней, для всех единиц совокупности.
Частными коэффициентами детерминации называются показатели, измеряющие, на какую долю уменьшается необъясненная вариация уже имеющимися в модели факторами при включении в модель данного фактора xm. Формула частного коэффициента детерминации такова:
(31)В нашем примере:
Интерпретация такова: включение в модель фактора x3 после x5 и x8 уменьшает необъясненную вариацию y на 74%; включение фактора x5 после x3 и x8 уменьшает необъясненную вариацию y на 10%; включение фактора x8 после x3 и x5 уменьшает необъясненную вариацию y на 20%.