Дисперсионный анализ позволяет на основании выборочных данных найти все значения дисперсии
. Далее используя соответствующие критерии можно оценить степень влияния параметров А и В на исследуемую случайную величину.Если речь идёт о влиянии одного фактора на исследуемую случайную величину, то речь идёт об однофакторном дисперсионном анализе. Если же речь идёт о многих факторах, то говорят о многофакторном дисперсионном анализе.
Однофакторный дисперсионный анализ.
Большое количество практических задач приводится к задачам однофакторного дисперсионного анализа.
Типичным примером является работа технологической линии в составе которой имеется несколько параллельных рабочих агрегатов.
На выходе имеют место какие-то детали. Эти детали по какому-то параметру можем контролировать.
Ясно, что среднее значения контролируемых параметров после каждого станка будут несколько отличаться.
Вопрос: Обусловлены ли эти отличия действием случайных факторов или имеет место влияние конкретного станка агрегата.
В данном случае фактор только один – станок.
Совокупность размеров деталей подчиняется нормальному закону распределения, и все эти совокупности имеют равные дисперсии.
Имеется m станков, т.о. имеется m совокупностей. Из этих совокупностей мы проводим выборки объёмом n. Так, что значение параметров i-той совокупности i:
.Все выборки можно записать в виде таблицы, которая называется матрицей наблюдения.
i \ j | 1 | 2 | . | j | . | n | Ср. выборочное |
1 | x11 | x12 | . | x1j | . | x1n | |
2 | x21 | x22 | . | x2j | . | x2n | |
. | . | . | . | . | . | . | . |
i | xi1 | xi2 | . | xij | . | xin | |
. | . | . | . | . | . | . | . |
m | xm1 | xm2 | . | xmj | . | xmn |
Выдвигаем гипотезу Н0 заключающуюся в равенстве средних выборочных.
Гипотеза Н0 проверяется сравнением внутригрупповых и межгрупповых дисперсий по F критерию Фишера.
Если расхождение незначительно, то принимается гипотеза Н0, в противном случае гипотеза Н0 отвергается.
Далее находят сумму квадратов отклонений от общего среднего:
Ноль потому, что стоит сумма от
- сумма отклонений переменных одной совокупности от средней арифметической той же совокупности.Слагаемое Q1 является суммой квадратов разностей между средними отдельных совокупностей и общей средней всех совокупностей. Эта сумма называется суммой квадратов отклонений между группами. Она характеризует систематическое отклонение между совокупностями наблюдений.
Величину Q1 – рассеяние по фактору.
Слагаемое Q2 – представляет собой сумма квадратов разностей между отдельными и средней соответствующей совокупности. Эта сумма называется суммой квадратов отклонений внутри группы.
Она характеризует остаточное рассеяние случайных погрешностей совокупностей.
Величина Q называется общей или полной суммой квадратов отклонений отдельных отклонений от общей средней.
Получим оценки дисперсий:
- дисперсия обусловленная влиянием фактора;
- остаточная дисперсия – влиянием случайных и других неучтённых факторов. - полная дисперсия.Далее формируем оценку различия между оценками
подчиняется распределению f2 Фишера.Выбираем уровень значимости α, или доверительной вероятности 1– α = Р и по таблице F-распределения с числом степеней свободы: к1 = m–1; к2 = m(n–1) находим критическое значение
Фишера.Сравнивая между собой Fн и Fкр,α мы делаем вывод насколько сильно влияние интересующего нас фактора на исследуемую случайную величину.
В этом и состоит идея дисперсионного анализа.
Однофакторный дисперсионный анализ обычно представляют в виде таблицы.
Компоненты дисперсии | Оценки дисперсии | Число степеней свободы | |
Основной фактор | Межгрупповая дисперсия | m - 1 | |
Случайные, неучтенные факторы | Внутригрупповая дисперсия | m(n - 1) | |
Общая дисперсия | mn - 1 |
Основы регрессионного и корреляционного анализа.
Связи между различными явлениями в природе сложны и многообразны. В технике чаще всего речь идет о функциональной зависимости. В большинстве случаев интересующие нас явления протекают в условиях воздействия на них множества неконтролируемых факторов. Воздействие каждого из этих факторов в целом невелико, при этом связь теряет строгую функциональность и система переходит не в строго определенное состояние, а в одно из множества возможных. Речь идет о стохастической связи.
Под стохастической мы понимаем такую связь, когда одна случайная переменная реагирует на изменения другой случайной переменной изменением своего закона распределения.
Наиболее широко в технике используется частный случай стохастической связи, называемый статистической связью, при которой условное МО некоторой случайной величины Y является функцией от значения, которое принимает другая случайная величина X:
Как правило исследуются такие виды статистической связи, при которых значение некоторой случайной переменной зависит в среднем от значений, принимаемых другой случайной переменной:
Такое представление зависимости между переменными X и Y называется полем корреляции. Можно также построить таблицу корреляции.Проделывая операцию усреднения для всех тех значений Х, по которым есть экспериментальный материал, приходим к тому, что облако исчезает и получается набор точек, представляющих средние значения. Соединяя эти точки, получаем ломанную, называемую эмпирической линией регрессии.
Связь между СВ характеризуется формой и теснотой связи.
Определение фориы связи и понятие регрессии.
Определить форму связи между СВ – значит выявить механизм получения зависимой случайной величины. При изучении статистических связей, форму связей характеризует функция регрессии:
- зависимость условного МОЕсли св Х и Y зависимы, то МО их произведения:
Регрессия св Y относительно Х определяется как:
,где
- условная плотность вероятности по формуле Байеса: - регрессия Х по Y.Функция регрессии имеет важное практическое значение. Она может быть использована для прогноза значений, которые может принимать известная случайная величина при ставших известными значениях другой случайной величины.
Точность прогноза определяется дисперсией условного распределения: