Найдем те же оценки для Y:
выборочное среднее —
выборочную дисперсию —
исправленную дисперсию —
среднеквадратичное отклонение —
оценку среднеквадратичного отклонения —
и ковариацию и коэффициент кореляции для x, y:
Точечной называют статистическую оценку, которая определяется одним числом
Несмещенной называют точечную оценку
Оценки
Найдем также моду и медиану для Х и Y:
Модой дискретной случайной величины называется значение случайной величины, которое имеет максимальную вероятность:
Медиана — это такое значение варьирующего признака, которое приходится на середину упорядоченного ряда:
Имея эти данные, можно построить гистограмму, полигон частот и функцию распределения для X, так же построим гистограмму, полигон частот и функцию распределения для Y.
Обычно в любой области науки при изучении двух величин проводятся эксперименты. Из-за того, что почти всегда измерение связано с погрешностями, соответствующие точки X и Y не ложатся на какую-то функцию и задача состоит в том, чтобы на основании экспериментальных точек выявить функциональную зависимость.
Если мы рассматриваем слабоформализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что связи многопеременные, т.е. Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.
В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка к экспериментальным точкам. Такая функция называется функцией регрессии.
Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.
Регрессия называется линейной, так как предполагается, что между X и Y существует линейная зависимость, то есть
Очевидно, что линия регрессии будет оптимальной, если
Решая систему, получим :
Решая систему, получим значения для a и b:
Пользуясь этими формулами мы сможем легко посчитать a, b и построить график линейной регрессии. В нашем случае a=2,9816, а b=3,4066. т. е. искомое уравнение линейной регрессии имеет вид y = 2,9816x + 3,4066. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.
Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.
Уравнение регрессии в форме параболы второго порядка имеет вид:
Известно, что минимум достигается в точках, где частные производные равны нулю. В нашем случае имеем:
Решая систему, получаем a = 0,0002; b = 2,9769; c = 3,4225;
следовательно, искомое уравнение параболической регрессии имеет вид
математический систематизация квадратический отклонение
y = 0,0002x2 +2,9769x + 3,4225
Построим график параболической регрессии:
Сравним качество линейной и параболической регрессии по суммарному отклонению в квадрате.
Посчитаем искомое значение отклонений для регрессий
для линейной регрессии