О теории вероятностей (стр. 9 из 9)

Однофакторный дисперсионный анализ.

Рассмотрим единичный фактор, который принимает р различных уровней, и предположим, что на каждом уровне сделано n наблюдений, что дает N = np наблюдений. (все факторы имеют фиксированные уровни)

Пусть результаты представлены в виде Хij (i=1,2...,p; j=1,2...,n).

Предполагается, что доля каждого уровня n наблюдений имеется средняя, которая равна сумме общей средней и ее вариации обусловленной выбранным уровнем:

X_ij = m + A_i + e_ij,

где m - общая средняя;

A_i – эффект, обусловленный i-м уровнем фактора;

e_ij – вариация результатов внутри отдельного уровня фактора. С помощью члена e_ij принимаются в расчет все неконтролируемые факторы.

Пусть наблюдения на фиксированном уровне фактора нормально распределены относительно среднего значения m + A_i с общей дисперсией s².

Тогда (точка вместо индекса обозначает усреднение соответствующих наблюдений по этому индексу):

X_ij – X_.. = (X_i_.– X_..) + (X_ij – X_i_.).

Иначе первую формулу можно записать: S = S₁ + S₂. Величина S₁ вычисляется по отклонениям р средних от общей средней X_.., поэтому S₁ имеет (р-1) степеней свободы. Величина S2 вычисляется по отклонениям N наблюдений от р выборочных средних и, следовательно, имеет N – р = np – p = p(n - 1) степеней свободы. S имеет (N -1) степеней свободы.

Если гипотеза о том, что влияние всех уровней одинаково, справедлива, то обе величины М₁ и М₂ будут несмещенными оценками s². Значит, гипотезу можно проверить, вычислив отношение (М₁/М₂) и сравнив его с F_кр. с n₁= (р-1) и n₂= (N – р) степенями свободы.

Если F_расч.> F_кр. , то гипотеза о незначимом влиянии фактора А на результат наблюдений не принимается.

Многофакторный дисперсионный анализ. Дисперсионный анализ в Excel.

Дисперсионный анализ позволяет ответить на вопрос о наличии существенного влияния некоторых факторов на изменчивость фактора, значение которого могут быть получены в результате опыта. При проверке статистических гипотез предполагается случайность вариации изучаемых факторов. В дисперсионном анализе один или несколько факторов изменяются заданным образом, причем, эти изменения могут влиять на результаты наблюдений. Исследование такого влияния и является целью дисперсионного анализа. Идея дисперсионного анализа заключается в том, что основная дисперсия разлагается на сумму составляющих ее дисперсий, каждое слагаемое которой соответствует действию определенного источника изменчивости. Например, в двухфакторном анализе мы получим разложение вида:

s_C²=s_A²+ s_B²+ s_AB²+ d_Z²

s_C²– общая дисперсия изучаемого признака С;

s_A²– доля дисперсии, вызванная влиянием фактора А;

s_B² – доля дисперсии, вызванная влиянием фактора В;

s_AB² – доля дисперсии, вызванная взаимодействием факторов А и В;

d_Z² – доля дисперсии, вызванная неучтенными случайными причинами (случайная дисперсия);

В дисперсионном анализе рассматривается гипотеза Н₀ – и один из рассматриваемых факторов не оказывает влияния на изменчивость признака. Значимость каждой из оценок дисперсии проверяется по величине ее отношения к оценке случайной дисперсии и сравнивается с соответствующим критическим значением, при уровне значимости a, с помощью таблиц критических значений F-распределения Фишера-Снедекора. Гипотеза Н₀ относительно того или иного источника изменчивости отвергается, если F_расч>F_кр. В дисперсионном анализе рассматриваются эксперименты 3 видов:

1. эксперименты, в которых все факторы имеют систематические (фиксированные) уровни;

2. эксперименты, в которых все факторы имею случайные уровни;

3. эксперименты, в которых есть факторы, имеющие случайные уровни, а так же факторы, имеющие случайные уровни.

Двухфакторный дисперсионный анализ с повторениями представляет собой более сложный вариант однофакторного анализа, включающего более чем одну выборку для каждой группы данных. Двухфакторный дисперсионный анализ позволяет статистически обосновать существенность влияния факторных признаков А и В взаимодействия факторов (А и В) на результативный фактор F.

Двухфакторный дисперсионный анализ без повторений позволяет оценить существенность воздействия факторов А и В на результирующий фактор без учета воздействия взаимодействии факторов А и В.

46. Оценка методом наименьших квадратов коэффициентов регрессии

Регрессионный анализ – один из основных методов современной мат статистики. Корреляционный анализ позволяет установить существует или не существует зависимость м/у парами наблюдений, то регрессионный анализ дает целый арсенал методов построения соответствующих зависимостей. Классическим методом оценивания коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).

На основании известных n пар наблюдений (x_i, y_i) делается предположение о виде зависимости, например:

y=a+bx,

где y – зависимая (результативная) переменная, х – независимая (факторная) переменная.

Пусть переменная x задается точно (без ошибок), тогда отклонение наблюдений y_i от зависимости y=a+bx является случайным и параметры a и b можно найти из условия минимизации суммы квадратов ошибок

ε_i=y_i–a–bx_i

S= Sε_i²→ min,

S= S( y_i–a–bx_i)²→ min,

Эта система носит название системы нормальных уравнений Гаусса, т.к. получена из условия минимизации суммы квадратов отклонении, в предположении, что x_i – фиксированы, т.е. отклонения перпендикулярны оси ОХ.