Найдем те же оценки для Y:
выборочное среднее —
, где : = 30,94;выборочную дисперсию —
: = 291,2364;исправленную дисперсию —
: =364,0455;среднеквадратичное отклонение —
: =17,06565;оценку среднеквадратичного отклонения —
: =19,07998.и ковариацию и коэффициент кореляции для x, y:
, , .Точечной называют статистическую оценку, которая определяется одним числом
, где – результаты n наблюдений над количественным признаком Х (выборка).Несмещенной называют точечную оценку
, математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .Оценки
, , , , , — несмещённые оценки математического ожидания, дисперсии и среднеквадратичного отклонения.Найдем также моду и медиану для Х и Y:
Модой дискретной случайной величины называется значение случайной величины, которое имеет максимальную вероятность:
= 15 , = 17,4.Медиана — это такое значение варьирующего признака, которое приходится на середину упорядоченного ряда:
= 8,47, = 29,2.Имея эти данные, можно построить гистограмму, полигон частот и функцию распределения для X, так же построим гистограмму, полигон частот и функцию распределения для Y.
Обычно в любой области науки при изучении двух величин проводятся эксперименты. Из-за того, что почти всегда измерение связано с погрешностями, соответствующие точки X и Y не ложатся на какую-то функцию и задача состоит в том, чтобы на основании экспериментальных точек выявить функциональную зависимость.
Если мы рассматриваем слабоформализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что связи многопеременные, т.е. Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.
В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка к экспериментальным точкам. Такая функция называется функцией регрессии.
Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.
Регрессия называется линейной, так как предполагается, что между X и Y существует линейная зависимость, то есть
. Нужно провести эту прямую между экспериментальными точками оптимально. Введем некоторую величину – отклонение. Каждому x соответствуют два значения y. Пусть – экспериментальные точки, а – точки, соответсвующие значениям на прямой . Тогда пусть – расстояния между этимим точками. Отрезки – отклонения экспериментальных точек от теоретических. Отклонения разного знака, поэтому, чтобы полнее охарактеризовать суммарное отклонение, сложим их, возведя каждое в квадрат. Получим некоторую величину : .Очевидно, что линия регрессии будет оптимальной, если
– суммарное отклонение в квадрате – минимальна. Для того, чтобы приняла минимальное значение, необходимо и достаточно, чтобы частные производные по и были равны нулю, т. е.Решая систему, получим :
Решая систему, получим значения для a и b:
Пользуясь этими формулами мы сможем легко посчитать a, b и построить график линейной регрессии. В нашем случае a=2,9816, а b=3,4066. т. е. искомое уравнение линейной регрессии имеет вид y = 2,9816x + 3,4066. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.
Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.
Уравнение регрессии в форме параболы второго порядка имеет вид:
. Суммарное отклонение зависит от коэффициентов , и этой функции. Как и в предыдущем исследовании, нам необходимо провести оптимальную кривую, т. е. найти минимум функции .Известно, что минимум достигается в точках, где частные производные равны нулю. В нашем случае имеем:
; ;Решая систему, получаем a = 0,0002; b = 2,9769; c = 3,4225;
следовательно, искомое уравнение параболической регрессии имеет вид
математический систематизация квадратический отклонение
y = 0,0002x2 +2,9769x + 3,4225
Построим график параболической регрессии:
Сравним качество линейной и параболической регрессии по суммарному отклонению в квадрате.
Посчитаем искомое значение отклонений для регрессий
для линейной регрессии
110,4808;