Смекни!
smekni.com

Социально-экономические явления и методы исследования связей между ними (стр. 3 из 5)

Для двух переменных

теоретический коэффициент корреляции определяется следующим образом:

.

где

- дисперсии случайных переменных
, а
их ковариация.

Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменнымии обладает следующими основными свойствами:

Коэффициент корреляции принимает значение в интервале (-1,+1), или

|rxy| < 1.

Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е.

r1X+β; α2Y+β)=rxy,

где α1, α2, b - постоянные величины, причем α1>0, α2>0.

Случайные величины Х, Y, можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям

одно и тоже число β - это не приведет к изменению коэффициента корреляции r.

При r = ±1 случайные величины

связаны линейной зависимостью, т.е.

.

При r = 0 линейная корреляционная связь отсутствует.

В практических расчетах коэффициент корреляции r генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка – выборочный коэффициент корреляции r, так как выборочная совокупность переменных

случайна, то в отличие от параметра r , r – случайная величина. Оценкой коэффициента корреляции
является выборочный парный коэффициент корреляции:

=
, (3.3)

Для оценки значимости коэффициента корреляции применяется t - критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:

(3.4)

Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.

Если tнабл > tкр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение

близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины, другая имеет тенденцию в среднем убывать.

4. Оценка качества однофакторных линейных моделей

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков -

.

После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих -

и
;
(4.1)

Остаток

представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем:

(
). Если
(
), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции
) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак
полностью обусловлен влиянием фактора
.

На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических (

). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется основное положение дисперсионного анализа , согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения

может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:

(4.2)

где

- значения y, вычисленные по модели
.

Разделив правую и левую часть (4.2) на

.

Коэффициент детерминации определяется следующим образом:

(4.3)

Коэффициент детерминациипоказывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

Чем ближе

к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции(индекс корреляции

R R =

=
(4.4)

Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных.

При построении однофакторной модели он равен коэффициенту линейной корреляции

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Также для оценки точности регрессионных моделей целесообразно использовать среднюю относительную ошибку аппроксимации:

( 4.5)

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации:

. Альтернативная ей гипотеза о значимости уравнения — гипотеза о неравенстве нулю параметров регрессии.