Содержание этого этапа заключается в статистической проверке значимости (надежности): уравнения регрессии, коэффициентов регрессии и корреляции.
1. Значимость уравнения регрессии определяется возможностью надежно прогнозировать среднее отклика по заданным значениям факторной переменной. Так как

– случайные величины, то полученное уравнение регрессии может существенно отличаться от того «истинного» уравнения, которое соответствует генеральной совокупности.
Для оценки надёжности выборочного уравнения регрессии применяется

- критерий Фишера, рассчитываемый по формуле:

(3.37)

(3.38)
где

– дисперсия результативного признака, обусловленная регрессией, т.е. влиянием на

факторных переменных, включенных в модель;

– дисперсия результативного признака, обусловленная влиянием второстепенных факторов и случайных помех;

– объём выборки;

– количество факторных переменных.
Для оценки надежности выборочного уравнения регрессии воспользуемся формулой (3.37)

По статистическим таблицам распределения Фишера на

-ном уровне значимости при числе степеней свободы

и

находим критическую точку

Так как

делаем вывод о значимости полученного уравнения регрессии.
Для оценки надёжности парного коэффициента корреляции

применим формулу (3.43)

По таблице распределения Стьюдента на

-ном уровне значимости при числе степеней свободы

находим критическую точку

Так как

делаем вывод о значимости

т. е., отклоняем гипотезу

об отсутствии линейной корреляционной связи в генеральной совокупности, рискуя ошибиться при этом лишь в

-х случаев.
Вычислим теперь коэффициент детерминации (квадрат смешанной корреляции)

Отсюда заключаем, что в случае простой регрессии

общей дисперсии объём производства на 52,50 % зависит от среднего процента выполнения нормы.
Дальнейшее исследование модели связано с указанием доверительных интервалов для параметров регрессии и генерального коэффициента корреляции. Для уяснения сути этих процедур необходимы предварительные пояснения.
Задача регрессионного анализа состоит в нахождении истинных значений параметров, т.е. в определении соотношения между

и

в генеральной совокупности

где

- генеральные коэффициенты регрессии.
Мы же находим оценки параметров регрессии

наиболее хорошо согласующиеся с опытными данными. Эти реализации

являются случайными величинами, которые более или менее удалены от значения параметра

.
Иначе говоря, возможные значения оценок

рассеиваются вокруг истинного значения параметра

. Разность между

и

возникающая за счет оценивания на основе имеющихся данных, называется ошибкой оценки. Для характеристики рассеяния выборочных оценок

вокруг генерального параметра

используются стандартные ошибки или дисперсии оценок параметров регрессии. Мера рассеяния оценки параметра регрессии определяется по формуле (3.44). Стандартная ошибка коэффициента регрессии зависит:
1) от рассеяния остатков

. Чем больше доля вариации значений
- переменной

, необъясненной её зависимостью от

тем больше

;
2) от рассеяния значений объясняющей переменной

. Чем сильнее это рассеяние, тем меньше

. Отсюда следует, что при вытянутом облаке точек на диаграмме рассеяния получаем более надежную оценку функции регрессии, чем при небольшое скоплении точек, близко расположенных друг к другу;
3) от объёма выборки. Чем больше объём выборки, тем меньше стандартная ошибка коэффициента регрессии.
Знание стандартных сшибок коэффициентов регрессии позволяет построить для параметров интервальные оценки. Надежность оценки определяется вероятностью, с которой утверждается, что построенный по результатам выборки доверительный интервал содержит неизвестный параметр генеральной совокупности. Эта вероятность называется доверительной. Её обычно выбирают близкой к единице:

и т. д. Тогда можно ожидать, что при серии наблюдений параметр генеральной совокупности будет правильно оценен (т.е. доверительный интервал покроет истинное значение этого параметра) приблизительно в

случаев и лишь в (

)% случаев оценка будет ошибочной. Если

близка к единице, то риск ошибки ничтожен. Риск ошибки определяется уровнем значимости

. В экономических исследованиях чаще всего

.
Тогда риск ошибки составляет

(

)
. При этом также говорят о

-ном доверительном интервале.
Доверительный интервал для параметров регрессии

записываемся в виде следующей формулы (3.45):

.(3.45):
Определим доверительные границы для параметра регрессии

, (

обычно не рассматривается, т. к. лишен экономического смысла).
Пользуясь табл. 3.6. по формуле (3.44) вычислим стандартную ошибку оценки параметра регрессии:

Зададимся уровнем значимости

Число степеней свободы для нашего примера

. По приложению 5 находим, что

. В соответствии с формулой (3.45) получаем следующие доверительные границы для