характеризует средний квадрат отклонения х от х---,
Среднее квадратическое отклонение дискретного ряда распределения:
выражается в тех же единицах, что и хi.
Коэффициент вариации:
характеризует относительное значение среднего квадратического отклонения и обычно служит для сравнения колеблемости несоизмеримых показателей.
Если объединяются несколько распределений в одно, то общая дисперсия σ0*2 нового распределения равна средней арифметической из дисперсий объединяемых распределений, сложенной с дисперсией частных средних относительно общей средней нового распределения:
где x0-- - средняя ариф-кая нового распределения, xi-- - средняя ариф-кая i–го частного распределения (I=1,…,k).
n - объем i-гo частного распределения, хij - j-й член i-го частного распределения (j=l,..., ni; i=l,2,..., к), δ*2 -
межгрупповая дисперсия, --σ*2 - внутригрупповая дисперсия, N=∑ni - объем нового распределения.
Значения --σ*2 и δ*2 определяются по формулам
Дисперсия имеет важное свойство, заключающееся в том, что
D*=(∑(xi-d)2ni)/k принимает наименьшее значение при d=--x.
38. Моменты для вариационных рядов в математической статистике находятся по формулам, аналогичным формулам (2.7.6), (2.7.7)>(2.7.11), (2.10.3):
- начальный момент s–го порядка, - центральный момент s–го порядка. - основной момент s-гo порядка - основной момент порядка s, h.Соотношения между начальными и центральными моментами в математической статистике соответствуют формулам (2.7.8).
Коэффициент асимметрии
Sk*=
39. Проверка адекватности модели регрессии
После построения уровня регрессии возникает вопрос о качестве решения.
Пусть при исследовании n пар наблюдений (хi, уi) получено уравнение регрессии У на Х.
`yi = a + bxi
Рассмотрим тождество:
yi - `yi = yi - `yi – (`yi -`yi)
Если переписать это уравнение в виде
(yi-`y) = (`yi-`y) + (yi-`y)
возвести обе части в квадрат и просуммировать по i, то получим
S(yi-`y)2 =S (`yi-`y)2 + S(yi-`y)2 (*)
Уравнение (*) является основополагающим в дисперсионном анализе.
Для сумм обычно вводятся названия:
Syi2 – нескорректированная сумма квадратов У-ков;
- коррекция на среднее суммы квадратов У-ков.
-сумма квадратов отношений относительно среднего наблюдений.
S (`yi-`y)2- сумма квадратов относительно регрессии.
S(yi-`yi)2 – сумма квадратов обусловленная регрессией.
40. Интервальные оценки. Доверительная вероятность, доверительный интервал
Интервальной называют оценку, которая определяется 2 числами – границами интервала. Она позволяет ответить на вопрос: внутри какого интервала и с какой вероятностью находится неизвестное значение оцениваемого параметра генеральной совокупности. Пусть θ точечная оценка параметра θ. Чем меньше разность θ - θ , тем точнее и лучше оценка. Обычно говорят о доверительной вероятности p = 1-α, с которой θ будет находиться в интервале θ-Δ < θ < θ+Δ, где: Δ (Δ > 0) – предельная ошибка выборки, которая может быть либо задана наперед, либо вычислена; a - риск или уровень значимости (вероятность того, что неравенство будет неверным). В качестве 1-a принимают значения 0,90;0,95;0,99;0,999. Доверительная вероятность показывает, что в (1-a) 100% случаев оценка будет накрываться указанным интервалом. Для построения доверительного интервала параметра а – математического ожидания нормального распределения, составляют выборочную характеристику (статистику), функционально зависимую от наблюдений и связанную с а, например, для повторного отбора:
Статистика u распределена по нормальному закону распределения с математическим ожиданием а = 0 и средним квадратическим отклонением s = 1. Отсюда
P(|u|<u a/2)= 1-s или 2Ф(ua/2)=1-s,
где Ф-функция Лапласа, ua/2 – квантиль нормального закона распределения, соответствующая уровню значимости a.
Определение доверительного интервала для средней и доли при случайном обороте. Определение доверительного интервала для средней и доли при типическом обороте;. Определение необходимой численности выборки. Распространение данных выборки на генеральную совокупность).
Где:
1) t— квантиль распределения соответствующая уровню значимости
:а) при n
30 t= - квантиль нормального закона распре деления,б) при n<30t - квантиль распределения Стьюдента с v=n-1 степенями свободы для двусторонней области;
2)
- выборочная дисперсия:а) при n
30 можно считать, чтоб) при n<30 вместо
берут исправленную выборочную дисперсиюS2 (
)далее везде рассматривается исправленная выборочная дисперсия S2;
З) рq — дисперсия относительной частоты в схеме повторных независимых испытаний;
4) N — объем генеральной совокупности;
5) n — объем выборки;
6)
— средняя арифметическая групповых дисперсий (внутригрупповая дисперсия);7)
— средняя арифметическая дисперсий групповых долей,8)
— межсерийная дисперсия,9) pqм.с. — межсерийная дисперсия доли;
10) Nc — число серий в генеральной совокупности;
11) nc — число отобранных серий (объем выборки);
12)
— предельная ошибка выборки.41. Статистические критерии проверки гипотез, уровень значимости и мощность критерия. Выбор м/у гипотезами Н0 и Н1 может сопровождаться ошибками 2 родов. Ошибка первого рода a означает вероятность принятия Н1, если верна гипотеза
Н0: a=Р(Н1/Н0)
Ошибка второго рода b означает вероятность принятия Н0 если верна гипотеза
Н1: b=Р(Н0/Н1)
Существует правильное решение двух видов
Р(Н0/Н0) = 1-a и Р(Н1/Н1)=1-b.
Правило, по которому принимается решение о том, что верна или неверна гипотеза Н0 называется критерием, где:
a=Р(Н1/Н0)
уровень значимости критерия;
М= Р(Н1/Н1)=1-b
мощность критерия. Статистический критерий К – случайная величина, с помощью которой принимают решение о принятии или отклонении Н0.
42. Концепция Data Mining
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.
43. Понятие корреляционной зависимости
При изучении случайных величин в общем случае необходимо рассматривать стохастическую зависимость, когда каждому значению СВ Х может соответствовать одно и более значений СВ Y, причем до опыта нельзя предсказать возможное соответствие. В случае стохастической связи изменение CВY, вследствие изменения СВ Х, можно разбить на 2 компоненты: 1. функциональную, связанную с зависимостью Y от Х, 2. случайную, связанную со случайным характером самих СВ Х и Y. Соотношение м/у функциональной и случайной компонентой определяет силу связи. Отсутствие первой компоненты указывает на независимость СВ Х и Y, отсутствие второй компоненты показывает, что м/у CВ X и Y существует функциональная связь.