Теория случайных чисел (стр. 10 из 11)

учитывая:

Несмотря на важность функции регрессии, возможности ее практического использования ограничены, т.к. для ее вычисления необходимо знать аналитический вид двумерной функции {x,y}. Мы же, как правило, имеем выборку ограниченного объема.

Традиционный путь приводи к большим ошибкам, т.к. одну и ту же совокупность точек на плоскости можно описать с помощью различных функций.

Другой характеристикой формы связи, используемой на практике, стала кривая регрессии – зависимость условного среднего случайной величины от значения, которое принимает случайная величина Х:

Определение кривой регрессии инвариантно закона совместного распределения св Х и Y. Важное значение в практике имеет двумерный нормальный закон распределения. Особенностью этого распределения является то, что условные МО совпадают с условными средними. При этом функция регрессии совпадает с кривой регрессии.

Линейная регрессия (ЛР). Метод наименьших квадратов.

Линейная регрессия занимает в технике и теории корреляции особое место. Она обусловлена двумерным нормальным законом распределения СВ Х и Y:

, где

а₀ и а₁ – коэффициенты регрессии,

х – независимая случайная величина

Параметры уравнения регрессии определяются методом наименьших квадратов, предложенным Лагранжем и Гауссом, который сводится к следующему.

Строятся квадратичные формы:

x_i – измеренное значение переменной,

e - истинное или теоретическое значение этой величины.

Требуется, чтобы сумма квадратов отклонений измеренных значений относительно истинных была минимальна.

В случае линейной регрессии за теоретическое значение принимается значение

, т.е. ищется такая прямая линия с коэффициентами а₀ и а₁, чтобы сумма квадратов отклонений от этой линии была минимальна.

у_i – измеренное значение переменной Y.

Минимальные квадратичные формы получают, приравнивая к нулю ее производные по а₀ и а₁:

Нелинейная регрессия (НР).

Форма связи между условными средними определяется уравнениями регрессии. В зависимости от вида уравнений можно говорить о ЛР или НР.

В общем случае эта зависимость может быть представлена в виде полинома степени k:

Определение коэффициентов регресии производится по методу наименьших квадратов:

В результате получаем систему нормированных уравнений:

Решая полученную систему известным способом, находим коэффициенты регрессии.

Измерение тесноты связи.

Если бы величина Y полностью определялась аргументом Х, все точки лежали бы на линии регрессии. Чем сильнее влияние прочих факторов, тем дальше отстоят точки от линии регрессии. В случае в) связь между Х и Y является более тесной.

За основу показателя, характеризующего тесноту связи, берется общий показатель изменчивости дисперсии:

(*)

- дисперсия переменной Y относительно теоретической линии дисперсии, определяющей влияние прочих факторов на величину Y.

- условная дисперсия, характеризует дисперсию теоретической линии регрессии относительно условной генеральной средней m_y. Именно она определяет влияние данного фактора (Х) на величину Y и может быть использована для оценки тесноты связи между величинами Х и Y.

- теоретическое корреляционное отношение.

Изменяется от 0 до 1, что легко доказать, поделив (*) на s_у²:

1) Если

=1, то

Влияние прочих факторов отсутствует. Все распределение будет сконцентрировано на линии регрессии. В этом случае между Х и Y существует простая функциональная зависимость.

2) Если

=0, когда

В этом случае линия регрессии Y по Х будет горизонтальной прямой, проходящей через центр распределения.

В случае, когда вид зависимости (форма связи) случайных величин Х и Y не установлен, часто бывает необходимо убедиться в наличии какой-либо связи вообще. Может оказаться, что связь несущественна и вычисление коэффициентов регрессии неоправданно.

Для объяснения такого вопроса вычисляется эмпирическое корреляционное отношение, определяемое на основе выборочных данных. При выводе формул для ЭКО пользуются эмпирической линией регрессии и оценкой дисперсии по выборке.

Определение эмпирического корреляционного соотношения.

y – измеряемое значение зависимой переменной

n – общее количество измерений

- условное среднее (среднее значение зависимой переменной у в i-ом интервале св Х)

k – общее количество интервалов

- среднее всей совокупности измерений

В пределах каждого интервала, для всех тех значений Х, для которых есть экспериментальные результаты (значения Y), находим средние значения.

S_y(x)² – составляющая полной дисперсии, характеризует дисперсию результатов измерений относительно эмпирической линии регрессии, т.е. влияние прочих факторов на зависимую переменную Y.

d_y₍_x₎² – характеризует дисперсию эмпирической линии регрессии относительно среднего всей совокупности, т.е. влияние исследуемого фактора на зависимую переменную Y.

- Эмпирическое корреляционное соотношение

Из сравнения с формулой для теоретического корреляционного соотношения видно: при расчете теоретического корреляционного соотношения необходимо знать форму связи между переменными.

При вычислении эмпирического корреляционного соотношения никакие предположения о форме связи не используются, нужна только эмпирическая линия регрессии.

Свойства:

1. 0 £

£ 1

2. если

=1, все точки корреляционного поля лежат на линии регрессии – функциональная связь между Х и Y.

3. Если

=0 (когда

), отсутствует изменчивость условных средних

, эмпирическая линия регрессии проходит параллельно оси абсцисс – свзи между Х и Y нет.

Эмпирическое корреляционное соотношение

завышает тесноту связи между переменными и случайными величинами, причем тем сильнее, чем меньше число измерений, поэтому

рекомендуется использовать для предварительной оценки тесноты связи, а для окончательной оценки – теоретическое корреляционное соотношение.

Коэфициент корреляции.

Рассмотрим случай вычисления теоретического корреляционного соотношения

, когда связь между случайными величинами Х и Y является линейной.

Такая форма связи между Х и Y имеет место в случае, когда случайные величины подчиняются двуменому нормальному закону распределения.