Смекни!
smekni.com

Зависимость высоты дерева от среднегодовой температуры (стр. 3 из 4)

=6,078651.

Найдем те же оценки для Y:

выборочное среднее —

, где
:

= 30,94;

выборочную дисперсию —

:

= 291,2364;

исправленную дисперсию —

:

=364,0455;

среднеквадратичное отклонение —

:

=17,06565;

оценку среднеквадратичного отклонения —

:

=19,07998.

и ковариацию и коэффициент кореляции для x, y:

,

,
.

Точечной называют статистическую оценку, которая определяется одним числом

, где
– результаты n наблюдений над количественным признаком Х (выборка).

Несмещенной называют точечную оценку

, математическое ожидание которой равно оцениваемому параметру
при любом объеме выборки
.

Оценки

,
,
,
,
,
— несмещённые оценки математического ожидания, дисперсии и среднеквадратичного отклонения.

Найдем также моду и медиану для Х и Y:

Модой дискретной случайной величины называется значение случайной величины, которое имеет максимальную вероятность:

= 15 ,
= 17,4.

Медиана — это такое значение варьирующего признака, которое приходится на середину упорядоченного ряда:

= 8,47,
= 29,2.

Имея эти данные, можно построить гистограмму, полигон частот и функцию распределения для X, так же построим гистограмму, полигон частот и функцию распределения для Y.

Метод наименьших квадратов

Обычно в любой области науки при изучении двух величин проводятся эксперименты. Из-за того, что почти всегда измерение связано с погрешностями, соответствующие точки X и Y не ложатся на какую-то функцию и задача состоит в том, чтобы на основании экспериментальных точек выявить функциональную зависимость.

Если мы рассматриваем слабоформализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что связи многопеременные, т.е. Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка к экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Линейная регрессия

Регрессия называется линейной, так как предполагается, что между X и Y существует линейная зависимость, то есть

. Нужно провести эту прямую между экспериментальными точками оптимально. Введем некоторую величину – отклонение. Каждому x соответствуют два значения y. Пусть
– экспериментальные точки, а
– точки, соответсвующие значениям
на прямой
. Тогда пусть
– расстояния между этимим точками. Отрезки
– отклонения экспериментальных точек от теоретических. Отклонения разного знака, поэтому, чтобы полнее охарактеризовать суммарное отклонение, сложим их, возведя каждое в квадрат. Получим некоторую величину
:

.

Очевидно, что линия регрессии будет оптимальной, если

– суммарное отклонение в квадрате – минимальна. Для того, чтобы
приняла минимальное значение, необходимо и достаточно, чтобы частные производные по
и
были равны нулю, т. е.

Решая систему, получим :

Решая систему, получим значения для a и b:

Пользуясь этими формулами мы сможем легко посчитать a, b и построить график линейной регрессии. В нашем случае a=2,9816, а b=3,4066. т. е. искомое уравнение линейной регрессии имеет вид y = 2,9816x + 3,4066. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.

Параболическая регрессия

Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.

Уравнение регрессии в форме параболы второго порядка имеет вид:

. Суммарное отклонение зависит от коэффициентов
,
и
этой функции. Как и в предыдущем исследовании, нам необходимо провести оптимальную кривую, т. е. найти минимум функции
.

Известно, что минимум достигается в точках, где частные производные равны нулю. В нашем случае имеем:

;

;

Решая систему, получаем a = 0,0002; b = 2,9769; c = 3,4225;

следовательно, искомое уравнение параболической регрессии имеет вид

математический систематизация квадратический отклонение

y = 0,0002x2 +2,9769x + 3,4225

Построим график параболической регрессии:

Сравним качество линейной и параболической регрессии по суммарному отклонению в квадрате.

Посчитаем искомое значение отклонений для регрессий

для линейной регрессии

110,4808;