Смекни!
smekni.com

Математическая статистика (стр. 5 из 14)

Конечно, можно усреднять и кубы значений, и их четвертые степени и т.д., но что мы при этом получим? Поищем в теории ответ и на эти вопросы.

Начальными моментами k-го порядка случайной величины X обычно называют суммы:

nk = S(X i)k· P(X i); n0 = 0; {2–7}

а центральными моментами – суммы:

mk= S (X i –n1)k· P(X i), {2–8} при вычислении которых усредняются отклонения от центра распределения – математического ожидания.

Таким образом,

·m1 = 0;

·n1 = M(X) является параметром центра распределения;

·m2 = D(X) является параметром рассеяния; {2-9}

·n3 и m3 – описывают асимметрию распределения;.

·n4 и m4 – описывают т.н. эксцесс (выброс) распределения и т.д.

Иногда используют еще один показатель степени разброса СВ – коэффициент вариации V= s/ M(X), имеющий смысл при ненулевом значении математического ожидания.

2.5Распределения непрерывных случайных величин

До этого момента мы ограничивались только одной “разновидностью” СВ – дискретными, т.е. принимающими конечные, заранее оговоренные значения на любой из шкал Nom, Ord, Int или Rel .

Но теория и практика статистики требуют использовать понятие непрерывной СВ ­– допускающей любые числовые значения на шкале типа Int или Rel . И дело здесь вовсе не в том, что физические величины теоретически могут принимать любые значения – в конце концов, мы всегда ограничены точностью приборов их измерения. Причина в другом…

Математическое ожидание, дисперсия и другие параметры любых СВ практически всегда вычисляются по формулам, вытекающим из закона распределения. Это всего лишь числа и далеко не всегда целые.

Так обстоит дело в теории. На практике же, мы имеем только одно – ряд наблюдений над случайной (будем далее полагать – всегда дискретной) величиной. По этим наблюдениям можно строить таблицы или гистограммы, используя значения соответствующих частот (вместо вероятностей). Такие распределения принято называть выборочными, а сам набор данных наблюдений – выборкой.

Пусть мы имеем такое выборочное распределение некоторой случайной величины X – т.е. для ряда ее значений (вполне возможно неполного, с “пропусками" некоторых допустимых) у нас есть рассчитанные нами же частоты f i .

В большинстве случаев нам неизвестен закон распределения СВ или о его природе у нас имеются догадки, предположения, гипотезы, но значения параметров и моментов (а это неслучайные величины!) нам неизвестны.

Разумеется, частоты fi суть непрерывные СВ и, кроме первой проблемы ­– оценки распределения X, мы имеем ещё одну ­– проблему оценки распределения частот.

Существование закона больших чисел, доказанность центральной предельной теоремы поможет нам мало:

· во-первых, надо иметь достаточно много наблюдений (чтобы частоты “совпали” с вероятностями), а это всегда дорого;

· во-вторых, чаще всего у нас нет никаких гарантий в том, что условия наблюдения остаются неизменными, т.е. мы наблюдаем за независимой случайной величиной.

Теория статистики дает ключ к решению подобных проблем, предлагает методы “работы” со случайными величинами. Большинство этих методов появилось на свет как раз благодаря теоретическим исследованиям распределений непрерывных величин.

2.5.1Нормальное распределение

Первым, фундаментальным по значимости, является т.н. нормальный закон распределения непрерывной случайной величины X, для которой допустимым является любое действительное числовое значение. Доказано, что такой закон распределения имеет величина, значение которой обусловлено достаточно большим количеством факторов (причин).

Для вычисления вероятности того, что X лежит в заранее заданном диапазоне, получено выражение, которое называют интегралом вероятности:

P(a £ X £ b) =

Обратим внимание на то, что в это выражение входят две константы (параметра) m и s. Как и для любой (не обязательно дискретной) СВ, здесь также имеют смысл понятия моментов распределения и оказывается, что

M(X) = m , а D(x) = s2 . {2–10}

Для непрерывно распределенных величин не существует понятия вероятности конкретного значения. Вопрос ­– “какова вероятность достижения температурой воздуха значения 14 градусов?” – некорректен. Все зависит от прибора измерения, его чувствительности, ошибок измерения. Но вместе с тем функция под интегралом вероятности существует, она однозначно определена:

j(X) =

,

ее график (аналог гистограммы) имеет вид:



а площадь под кривой на заданном интервале X определяет вероятность попадания в этот интервал.

Чаще всего закон нормального распределения используется для нормированной случайной величины

Z = (X – m) /s, {2–11} у которой M(Z)=0; D(Z)=1. {2–12}

Отметим ряд других особенностей этого распределения, полагая его нормированным.

· Доказано, что целый ряд “классических” распределений (как дискретных, так и непрерывных) стремятся к нормальному при непрерывном изменении их внутренних параметров.

· Симметрия нормального распределения позволяет достаточно просто оценивать вероятность “попадания” случайной нормированной величины в заданный диапазон. Очень часто в прикладной статистике приходится использовать понятие “маловероятного” значения. Для нормированной величины с нормальным распределением вероятность попадания в диапазон ± 3s составляет 0.9973 (правило “трех сигм”).

· Особую роль играет нормальное распределение при решении вопросов о “представительности” наблюдений. Оказывается, что работа с выборочными распределениями в большинстве случаев позволяет решить проблему оценки наших предварительных выводов, предположений, гипотез – с использованием разработанных и теоретически обоснованных приемов на базе нормального закона.

2.5.2Распределения выборочных значений параметров нормального распределения

Пусть у нас имеется некоторая непрерывная случайная величина X , распределенная нормально с математическим ожиданием m и среднеквадратичным отклонением s. Если мы имеем n наблюдений над такой величиной (имеем выборку объемом n из генеральной совокупности) , то выборочные значения Mx иSx являются также случайными величинами и нам крайне важно знать их законы распределения. Это необходимо как для оценки доверия к этим показателям, так и для проверки принадлежности исходного распределения к нормальному. Существует ряд теоретически обоснованных выводов по этой проблеме:

· величина

имеет нормированное нормальное распределение, что позволяет оценивать Mx при заранее известной дисперсии;

· величина

имеет так называемое распределение Стьюдента, для которого также имеется выражение плотности вероятности и построены таблицы;

· величина

имеет распределение "хи–квадрат", также с аналитической функцией плотности и рассчитанными по ней таблицами.

Отметим, что распределения Стьюдента и "хи–квадрат" имеют свой внутренний параметр, который принято называть числом степеней свободы. Этот параметр полностью определяется объемом выборки (численностью наблюдений) и выбирается обычно равным m =(n – 1).

3.Взаимосвязи случайных величин

3.1Парная корреляция

Прямое толкование термина "корреляция" — стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.