Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде (стр. 2 из 3)

5.1. Оценка статистической значимости коэффициентов уравнения а₀, а₁ и определение их доверительных интервалов

Так как коэффициенты уравнения а₀, а₁ рассчитывались, исходя из значений признаков только для 30-ти пар (x_i, y_i), то полученные значения коэффициентов являются лишь приближенными оценками фактических параметров связи а₀, а₁. Поэтому необходимо:

1. проверить значения коэффициентов на неслучайность (т.е. узнать, насколько они типичны для всей генеральной совокупности предприятий отрасли);

2. определить (с заданной доверительной вероятностью 0,95 и 0,683) пределы, в которых могут находиться значения а₀, а₁ для генеральной совокупности предприятий.

Для анализа коэффициентов а₀, а₁ линейного уравнения регрессии используется табл.2.7, в которой:

– значения коэффициентов а₀, а₁ приведены в ячейках В91 и В92 соответственно;

– рассчитанный уровень значимости коэффициентов уравнения приведен в ячейках Е91 и Е92;

– доверительные интервалы коэффициентов с уровнем надежностиР=0,95 и Р=0,683 указаны в диапазоне ячеек F91:I92.

5.1.1. Определение значимости коэффициентов уравнения

Уровень значимости– это величина α=1–Р, где Р – заданный уровень надежности (доверительная вероятность).

Режим работы инструмента Регрессия использует по умолчанию уровень надежности Р=0,95. Для этого уровня надежности уровень значимости равен α = 1 – 0,95 = 0,05. Этот уровень значимости считается заданным.

В инструменте Регрессия надстройки Пакет анализа для каждого из коэффициентов а₀ и а₁ вычисляется уровень его значимости α_р, который указан в результативной таблице (табл.2.7 термин "Р-значение"). Если рассчитанный для коэффициентов а₀, а₁ уровень значимости α_р, меньше заданного уровня значимости α= 0,05, то этот коэффициент признается неслучайным (т.е. типичным для генеральной совокупности), в противном случае – случайным.

Примечание. В случае, если признается случайным свободный член а₀, то уравнение регрессии целесообразно построить заново без свободного члена а₀. В этом случае в диалоговом окне Регрессия необходимо задать те же самые параметры за исключением лишь того, что следует активизировать флажок Константа-ноль (это означает, что модель будет строиться при условии а₀=0). В лабораторной работе такой шаг не предусмотрен.

Если незначимым (случайным) является коэффициент регрессии а₁, то взаимосвязь между признаками X и Yв принципене может аппроксимироваться линейной моделью.

Вывод:

Для свободного члена а₀ уравнения регрессии рассчитанный уровень значимости есть α_р=0,1. Так как он больше заданного уровня значимости α=0,05, то коэффициент а₀ признается случайным.

Для коэффициента регрессии а₁ рассчитанный уровень значимости есть α_р=

Так как он меньше заданного уровня значимости α=0,05, то коэффициент а₁ признается типичным.

5.1.2. Зависимость доверительных интервалов коэффициентов уравнения от заданного уровня надежности

Доверительные интервалы коэффициентов а₀, а₁ построенного уравнения регрессии при уровнях надежности Р=0,95 и Р=0,683 представлены в табл.2.7, на основе которой формируется табл.2.9.

Таблица 2.9

Границы доверительных интервалов коэффициентов уравнения

Коэффициенты	Границы доверительных интервалов
	Для уровня надежности Р=0,95		Для уровня надежности Р=0,683
	нижняя	верхняя	нижняя	верхняя
а₀	-1622,1	164,8	-1173,04	-284,3
а₁	0,90	1,28	1,00	1,2

Вывод:

В генеральной совокупности предприятий значение коэффициента а₀следует ожидать с надежностью Р=0,95 в пределах-1622,1

а₀

164,8 значение коэффициента а₁в пределах 0,90

а₁

1,28. Уменьшение уровня надежности ведет к сужению доверительных интервалов коэффициентов уравнения.

Определение практической пригодности построенной регрессионной модели.

Практическую пригодность построенной модели

можно охарактеризовать по величине линейного коэффициента корреляции r:

· близость

к единице свидетельствует о хорошей аппроксимации исходных (фактических) данных с помощью построенной линейной функции связи

;

· близость

к нулю означает, что связь между фактическими данными Х и Y нельзя аппроксимировать как построенной, так и любой другой линейной моделью, и, следовательно, для моделирования связи следует использовать какую-либо подходящую нелинейную модель.

Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R², показывающего, какая часть общей вариации признака Y объясняется в построенной модели вариацией фактора X.

В основе такой оценки лежит равенство R = r(имеющее место для линейных моделей связи), а также шкала Чэддока, устанавливающая качественную характеристику тесноты связи в зависимости от величины r.

Согласно шкале Чэддока высокая степень тесноты связи признаков достигается лишь при

>0,7, т.е. при

>0,7. Для индекса детерминации R² это означает выполнение неравенства R²>0,5.

При недостаточно тесной связи признаков X, Y (слабой, умеренной, заметной) имеет место неравенство

0,7, а следовательно, и неравенство

С учетом вышесказанного, практическая пригодность построенной модели связи

оценивается по величине R² следующим образом:

· неравенство R²>0,5 позволяет считать, что построенная модель пригодна для практического применения, т.к. в ней достигается высокая степень тесноты связи признаков X и Y, при которой более 50% вариации признака Y объясняется влиянием фактора Х;

· неравенство

означает, что построенная модель связи практического значения не имеет ввиду недостаточной тесноты связи между признаками X и Y, при которойменее 50% вариации признака Y объясняется влиянием фактора Х, и, следовательно, фактор Х влияет на вариацию Y в значительно меньшей степени, чем другие (неучтенные в модели) факторы.

Значение индекса детерминации R² приводится в табл.2.5 в ячейке В79 (термин "R - квадрат").

Вывод:

Значение линейного коэффициента корреляции r и значение индекса детерминации R² согласно табл. 2.5 равны: r=0,91, R²=0,83. Поскольку

, то построенная линейная регрессионная модель связи пригодна для практического использования.

Общая оценка адекватности регрессионной модели по F-критерию Фишера

Адекватность построенной регрессионной модели фактическим данным (x_i, y_i) устанавливается по критерию Р.Фишера, оценивающему статистическую значимость (неслучайность) индекса детерминации R².

Рассчитанная для уравнения регрессии оценка значимости R² приведена в табл.2.6 в ячейке F86 (термин "Значимость F"). Если она меньше заданного уровня значимости α=0,05, то величина R²признается неслучайной и, следовательно, построенное уравнение регрессии

может быть использовано как модель связи между признаками Х и Y для генеральной совокупности предприятий отрасли.

Вывод:

Рассчитанный уровень значимостиα_р индекса детерминации R² есть α_р=

. Так как он меньше заданного уровня значимости α=0,05, то значение R² признается типичным и модель связи между признаками Х и Y

-728,665+1,089х. применима для генеральной совокупности предприятий отрасли в целом.

Погрешность регрессионной модели можно оценить по величине стандартной ошибки

построенного линейного уравнения регрессии

. Величина ошибки

оценивается как среднее квадратическое отклонение по совокупности отклонений

исходных (фактических) значений y_i признака Y от его теоретических значений

, рассчитанных по построенной модели.