Определим частичные средние арифметические
для каждого значения : , (4.2)где
– число точек, оказавшихся в интервале , причем , где – общее число наблюдений.Соединим последовательно точки с координатами
и отрезками прямых. Полученная ломаная линия называется эмпирической линией регрессии по ; она показывает, как в среднем меняется с изменением . Предельное положение эмпирической линии регрессии, к которому она стремится при неограниченном увеличении числа наблюдений и одновременном уменьшении , называется предельной теоретической линией регрессии. Ее нахождение и составляет основную задачу регрессионного анализа. Отметим, что по линии регрессии невозможно точно определить значение по в одном опыте. Однако зависимость позволяет определить в среднем значение при многократном повторении опыта при фиксированном значении . В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой, и несколькими другими, называемыми независимыми. Эта связь представляется в виде математической модели, т.е. в виде функции регрессии. Если функция линейна относительно параметров, но не обязательно линейна относительно независимых переменных, то говорят о линейной модели. В противном случае нелинейная. Статистическими проблемами обработки в регрессионном анализе являются:1) получение наилучших точечных и интервальных оценок неизвестных параметров регрессионного анализа;
2) проверка гипотез относительно этих параметров;
3) проверка адекватности;
4) проверка множества предполагаемых предположений.
Исследуемый объект представлен на рисунке 4.2
Рисунок 4.2. Вид исследуемого объекта
Для корректного использования регрессионного анализа существует следующие предпосылки и следующие допущения на свойства регрессионной ошибки
, ; – значение зависимой переменной, полученное подстановкой в уравнение , , ; – количество экспериментальных данных, – количество независимых переменных:Приведем свойства и предпосылки регрессионной ошибки.
Свойства регрессионной ошибки:
1) в каждом опыте
имеет нормальный закон распределения: , ; (4.3)2) в каждом опыте математическое ожидание
равно нулю: , ; (4.4)3) во всех опытах дисперсия
постоянна и одинакова: , ; (4.5)4) во всех опытах ошибки
независимы: , . (4.6)Предпосылки регрессионной ошибки:
1) матрица наблюдений
имеет полный ранг: ; (4.7)2) структура модели адекватна истинной зависимости;
3) значения случайной ошибки
не зависят от значений регрессоров ;4) ошибки регистрации
регрессоров пренебрежимо малы по сравнению со случайной ошибкой .4.2 Метод группового учета аргументов
Метод группового учета аргументов (МГУА).использует идеи самоорганизации и механизмы живой природы – скрещивание (гибридизацию) и селекцию (отбор).
Рисунок 4.3
По результатам наблюдений надо определить F(x). Причем даже структура модели F(x) неизвестна.
Пусть имеется выборка из N наблюдений:
.Наиболее полная зависимость между входами X(i) и выходами Y(i) может быть представлена с помощью обобщенного полинома Колмогорова-Габора.
Пусть есть
, тогда такой полином имеет вид:где все коэффициенты а не известны.
При построении модели (при определении значений коэффициентов) в качестве критерия используется критерий регулярности (точности):
(4.9)Необходимо, чтобы
.Принцип множественности моделей: существует множество моделей на данной выборке, обеспечивающих нулевую ошибку (достаточно повышать степень полинома модели). Т.е. если имеется N узлов интерполяции, то можно построить целое семейство моделей, каждая из которых при прохождении через экспериментальные точки будет давать нулевую ошибку:
(4.10)Обычно степень нелинейности берут не выше n-1, если n – количество точек выборки.
Обозначим S – сложность модели (определяется числом членов полинома Колмогорова-Габора).
Значение ошибки
зависит от сложности модели. Причем по мере роста сложности сначала она будет падать, а затем расти. Нам же нужно выбрать такую оптимальную сложность, при которой ошибка будет минимальна. Кроме того, если учитывать действие помех, то можно выделить следующие моменты:При различном уровне помех зависимость
от сложности S будет изменяться, сохраняя при этом общую направленность (имеется ввиду, что с ростом сложности она сначала будет уменьшаться, а затем – возрастать).При увеличении уровня помех величина
будет расти.С ростом уровня помех,
будет уменьшаться (оптимальное значение сложности будет смещаться влево) см. рис 4.2 Причем , если уровень помех ненулевой.