Смекни!
smekni.com

О теории вероятностей (стр. 7 из 9)

характеризует средний квадрат отклонения х от х---,

Среднее квадратическое отклонение дискретного ряда распределения:


выражается в тех же единицах, что и хi.

Коэффициент вариации:

характеризует относительное значение среднего квадратического отклонения и обычно служит для сравнения колеблемости несоизмеримых показателей.

Если объединяются несколько распределений в одно, то общая дисперсия σ0*2 нового распределения равна средней арифметической из дисперсий объединяемых распределений, сложенной с дисперсией частных средних относительно общей средней нового распределения:

где x0-- - средняя ариф-кая нового распределения, xi-- - средняя ариф-кая i–го частного распределения (I=1,…,k).

n - объем i-гo частного распределения, хij - j-й член i-го частного распределения (j=l,..., ni; i=l,2,..., к), δ*2 -

межгрупповая дисперсия, --σ*2 - внутригрупповая дисперсия, N=∑ni - объем нового распределения.

Значения --σ*2 и δ*2 определяются по формулам


Дисперсия имеет важное свойство, заключающееся в том, что

D*=(∑(xi-d)2ni)/k принимает наименьшее значение при d=--x.

38. Моменты для вариационных рядов в математической статистике находятся по формулам, аналогичным формулам (2.7.6), (2.7.7)>(2.7.11), (2.10.3):

- начальный момент s–го порядка,

- центральный момент s–го порядка.

- основной момент s-гo порядка

- основной момент порядка s, h.

Соотношения между начальными и центральными моментами в математической статистике соответствуют формулам (2.7.8).

Коэффициент асимметрии

Sk*=

39. Проверка адекватности модели регрессии

После построения уровня регрессии возникает вопрос о качестве решения.

Пусть при исследовании n пар наблюдений (хi, уi) получено уравнение регрессии У на Х.


`yi = a + bxi

Рассмотрим тождество:

yi - `yi = yi - `yi – (`yi -`yi)

Если переписать это уравнение в виде

(yi-`y) = (`yi-`y) + (yi-`y)

возвести обе части в квадрат и просуммировать по i, то получим

S(yi-`y)2 =S (`yi-`y)2 + S(yi-`y)2 (*)

Уравнение (*) является основополагающим в дисперсионном анализе.

Для сумм обычно вводятся названия:

Syi2 – нескорректированная сумма квадратов У-ков;

- коррекция на среднее суммы квадратов У-ков.

-сумма квадратов отношений относительно среднего наблюдений.

S (`yi-`y)2- сумма квадратов относительно регрессии.

S(yi-`yi)2 – сумма квадратов обусловленная регрессией.

40. Интервальные оценки. Доверительная вероятность, доверительный интервал

Интервальной называют оценку, которая определяется 2 числами – границами интервала. Она позволяет ответить на вопрос: внутри какого интервала и с какой вероятностью находится неизвестное значение оцениваемого параметра генеральной совокупности. Пусть θ точечная оценка параметра θ. Чем меньше разность θ - θ , тем точнее и лучше оценка. Обычно говорят о доверительной вероятности p = 1-α, с которой θ будет находиться в интервале θ-Δ < θ < θ+Δ, где: Δ (Δ > 0) – предельная ошибка выборки, которая может быть либо задана наперед, либо вычислена; a - риск или уровень значимости (вероятность того, что неравенство будет неверным). В качестве 1-a принимают значения 0,90;0,95;0,99;0,999. Доверительная вероятность показывает, что в (1-a) 100% случаев оценка будет накрываться указанным интервалом. Для построения доверительного интервала параметра а – математического ожидания нормального распределения, составляют выборочную характеристику (статистику), функционально зависимую от наблюдений и связанную с а, например, для повторного отбора:

Статистика u распределена по нормальному закону распределения с математическим ожиданием а = 0 и средним квадратическим отклонением s = 1. Отсюда

P(|u|<u a/2)= 1-s или 2Ф(ua/2)=1-s,

где Ф-функция Лапласа, ua/2 – квантиль нормального закона распределения, соответствующая уровню значимости a.

Определение доверительного интервала для средней и доли при случайном обороте. Определение доверительного интервала для средней и доли при типическом обороте;. Определение необходимой численности выборки. Распространение данных выборки на генеральную совокупность).


Где:

1) t— квантиль распределения соответствующая уровню значимости

:

а) при n

30 t=
- квантиль нормального закона распре деления,

б) при n<30t - квантиль распределения Стьюдента с v=n-1 степенями свободы для двусторонней области;

2)

- выборочная дисперсия:

а) при n

30 можно считать, что

б) при n<30 вместо

берут исправленную выборочную дисперсию

S2 (

)

далее везде рассматривается исправленная выборочная дисперсия S2;

З) рq — дисперсия относительной частоты в схеме повторных независимых испытаний;

4) N — объем генеральной совокупности;

5) n — объем выборки;

6)

— средняя арифметическая групповых дисперсий (внутригрупповая дисперсия);

7)

— средняя арифметическая дисперсий групповых долей,

8)

— межсерийная дисперсия,

9) pqм.с. — межсерийная дисперсия доли;

10) Nc — число серий в генеральной совокупности;

11) nc — число отобранных серий (объем выборки);

12)

— предельная ошибка выборки.

41. Статистические критерии проверки гипотез, уровень значимости и мощность критерия. Выбор м/у гипотезами Н0 и Н1 может сопровождаться ошибками 2 родов. Ошибка первого рода a означает вероятность принятия Н1, если верна гипотеза

Н0: a=Р(Н10)

Ошибка второго рода b означает вероятность принятия Н0 если верна гипотеза

Н1: b=Р(Н01)

Существует правильное решение двух видов

Р(Н00) = 1-a и Р(Н11)=1-b.

Правило, по которому принимается решение о том, что верна или неверна гипотеза Н0 называется критерием, где:

a=Р(Н10)

уровень значимости критерия;

М= Р(Н11)=1-b

мощность критерия. Статистический критерий К – случайная величина, с помощью которой принимают решение о принятии или отклонении Н0.


42. Концепция Data Mining

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

43. Понятие корреляционной зависимости

При изучении случайных величин в общем случае необходимо рассматривать стохастическую зависимость, когда каждому значению СВ Х может соответствовать одно и более значений СВ Y, причем до опыта нельзя предсказать возможное соответствие. В случае стохастической связи изменение CВY, вследствие изменения СВ Х, можно разбить на 2 компоненты: 1. функциональную, связанную с зависимостью Y от Х, 2. случайную, связанную со случайным характером самих СВ Х и Y. Соотношение м/у функциональной и случайной компонентой определяет силу связи. Отсутствие первой компоненты указывает на независимость СВ Х и Y, отсутствие второй компоненты показывает, что м/у CВ X и Y существует функциональная связь.