учитывая:
Несмотря на важность функции регрессии, возможности ее практического использования ограничены, т.к. для ее вычисления необходимо знать аналитический вид двумерной функции {x,y}. Мы же, как правило, имеем выборку ограниченного объема.
Традиционный путь приводи к большим ошибкам, т.к. одну и ту же совокупность точек на плоскости можно описать с помощью различных функций.
Другой характеристикой формы связи, используемой на практике, стала кривая регрессии – зависимость условного среднего случайной величины от значения, которое принимает случайная величина Х:
.Определение кривой регрессии инвариантно закона совместного распределения св Х и Y. Важное значение в практике имеет двумерный нормальный закон распределения. Особенностью этого распределения является то, что условные МО совпадают с условными средними. При этом функция регрессии совпадает с кривой регрессии.
Линейная регрессия (ЛР). Метод наименьших квадратов.
Линейная регрессия занимает в технике и теории корреляции особое место. Она обусловлена двумерным нормальным законом распределения СВ Х и Y:
, гдеа0 и а1 – коэффициенты регрессии,
х – независимая случайная величина
Параметры уравнения регрессии определяются методом наименьших квадратов, предложенным Лагранжем и Гауссом, который сводится к следующему.
Строятся квадратичные формы:
xi – измеренное значение переменной,
e - истинное или теоретическое значение этой величины.
Требуется, чтобы сумма квадратов отклонений измеренных значений относительно истинных была минимальна.
В случае линейной регрессии за теоретическое значение принимается значение
, т.е. ищется такая прямая линия с коэффициентами а0 и а1, чтобы сумма квадратов отклонений от этой линии была минимальна. ,уi – измеренное значение переменной Y.
Минимальные квадратичные формы получают, приравнивая к нулю ее производные по а0 и а1:
Нелинейная регрессия (НР).
Форма связи между условными средними определяется уравнениями регрессии. В зависимости от вида уравнений можно говорить о ЛР или НР.
В общем случае эта зависимость может быть представлена в виде полинома степени k:
Определение коэффициентов регресии производится по методу наименьших квадратов:
В результате получаем систему нормированных уравнений:
Решая полученную систему известным способом, находим коэффициенты регрессии.
Измерение тесноты связи.
Если бы величина Y полностью определялась аргументом Х, все точки лежали бы на линии регрессии. Чем сильнее влияние прочих факторов, тем дальше отстоят точки от линии регрессии. В случае в) связь между Х и Y является более тесной.
За основу показателя, характеризующего тесноту связи, берется общий показатель изменчивости дисперсии:
(*) - дисперсия переменной Y относительно теоретической линии дисперсии, определяющей влияние прочих факторов на величину Y. - условная дисперсия, характеризует дисперсию теоретической линии регрессии относительно условной генеральной средней my. Именно она определяет влияние данного фактора (Х) на величину Y и может быть использована для оценки тесноты связи между величинами Х и Y. - теоретическое корреляционное отношение.Изменяется от 0 до 1, что легко доказать, поделив (*) на sу2:
1) Если
=1, тоВлияние прочих факторов отсутствует. Все распределение будет сконцентрировано на линии регрессии. В этом случае между Х и Y существует простая функциональная зависимость.
2) Если
=0, когда .В этом случае линия регрессии Y по Х будет горизонтальной прямой, проходящей через центр распределения.
В случае, когда вид зависимости (форма связи) случайных величин Х и Y не установлен, часто бывает необходимо убедиться в наличии какой-либо связи вообще. Может оказаться, что связь несущественна и вычисление коэффициентов регрессии неоправданно.
Для объяснения такого вопроса вычисляется эмпирическое корреляционное отношение, определяемое на основе выборочных данных. При выводе формул для ЭКО пользуются эмпирической линией регрессии и оценкой дисперсии по выборке.
Определение эмпирического корреляционного соотношения.
y – измеряемое значение зависимой переменной
n – общее количество измерений
- условное среднее (среднее значение зависимой переменной у в i-ом интервале св Х)k – общее количество интервалов
- среднее всей совокупности измеренийВ пределах каждого интервала, для всех тех значений Х, для которых есть экспериментальные результаты (значения Y), находим средние значения.
Sy(x)2 – составляющая полной дисперсии, характеризует дисперсию результатов измерений относительно эмпирической линии регрессии, т.е. влияние прочих факторов на зависимую переменную Y.dy(x)2 – характеризует дисперсию эмпирической линии регрессии относительно среднего всей совокупности, т.е. влияние исследуемого фактора на зависимую переменную Y.
- Эмпирическое корреляционное соотношениеИз сравнения с формулой для теоретического корреляционного соотношения видно: при расчете теоретического корреляционного соотношения необходимо знать форму связи между переменными.
При вычислении эмпирического корреляционного соотношения никакие предположения о форме связи не используются, нужна только эмпирическая линия регрессии.
Свойства:
1. 0 £
£ 12. если
=1, все точки корреляционного поля лежат на линии регрессии – функциональная связь между Х и Y.3. Если
=0 (когда ), отсутствует изменчивость условных средних , эмпирическая линия регрессии проходит параллельно оси абсцисс – свзи между Х и Y нет.Эмпирическое корреляционное соотношение
завышает тесноту связи между переменными и случайными величинами, причем тем сильнее, чем меньше число измерений, поэтому рекомендуется использовать для предварительной оценки тесноты связи, а для окончательной оценки – теоретическое корреляционное соотношение.Коэфициент корреляции.
Рассмотрим случай вычисления теоретического корреляционного соотношения
, когда связь между случайными величинами Х и Y является линейной.Такая форма связи между Х и Y имеет место в случае, когда случайные величины подчиняются двуменому нормальному закону распределения.