Вопрос заключается в другом – как проверить свое допущение или, на языке статистики, оценить достоверность гипотезы?
По сути дела, кроме обычного наблюдения за этой СВ у нас нет иного способа выполнить такую проверку. И потом – в силу самой природы СВ мы не можем надеяться, что через достаточно небольшое число наблюдений их частоты превратятся в “теоретические” значения, в вероятности. Короче – результат наблюдения над случайной величиной тоже … случайная величина или, точнее, – множество случайных величин.
Так или примерно так рассуждали первые статистики–профессионалы. И у кого–то из них возникла простая идея: сжать информацию о результатах наблюдений до одного, единственного показателя!
Как правило, простые идеи оказываются предельно эффективными, поэтому способ оценки итогов наблюдений по одному, желательно “главному”, “центральному” показателю пережил все века становления прикладной статистики и по ходу дела обрастал как теоретическими обоснованиями, так и практическими приемами использования.
Вернемся к гистограмме рис. 2–1 и обратим внимание на два, бросающихся в глаза факта:
· “наиболее вероятными” являются значения суммы S=1 и S=2 и эти же значения лежат “посредине” картинки;
· вероятность того, что сумма окажется равной 0 или 1, точно такая же, как и вероятность 2 или 3, причем это значение вероятности составляет точно 50 %.
Напрашивается простой вопрос – если СВ может принимать значения 0, 1, 2 или 3, то сколько в среднем составляет ее значение или, иначе – что мы ожидаем, наблюдая за этой величиной?
Ответ на такой вопрос на языке математической статистики состоит в следующем. Если нам известен закон распределения, то, просуммировав произведения значений суммы S на соответствующие каждому значению вероятности, мы найдем математическое ожидание этой суммы как дискретной случайной величины –
M(S) = S S i ·P(S i). {2–3}
В рассматриваемом нами ранее примере биномиального распределения, при значении p=0.5, математическое ожидание составит
M(S) = 0·0.125+1·0.375+2·0.375+3·0.125= 1.5 .
Обратим внимание на то, что математическое ожидание дискретной величины типа Int или Rel совсем не обязательно принадлежит к множеству допустимых ее значений. Что касается СВ типа Nom или Ord, то для них понятие математического ожидания (по закону распределения), конечно же, не имеет смысла. Но так как с номинальной, так и с порядковой шкалой дискретных СВ приходится иметь дело довольно часто, то в этих случаях прикладная статистика предлагает особые, непараметрические методы.
Продолжим исследование свойств математического ожидания и попробуем в условиях нашего примера вместо S рассматривать U= S – M(S). Такая замена СВ (ее часто называют центрированием) вполне корректна: по величине U всегда можно однозначно определить S и наоборот.
Если теперь попробовать найти математическое ожидание новой (не обязательно дискретной) величины M(U) , то оно окажется равным нулю, независимо от того считаем ли мы конкретный пример или рассматриваем такую замену в общем виде.
Мы обнаружили самое важное свойство математического ожидания – оно является “центром” распределения. Правда, речь идет вовсе не о делении оси допустимых значений самой СВ на две равные части. Поистине – первый показатель закона распределения “самый главный” или, на языке статистики, – центральный.
Итак, для СВ с числовым описанием математическое ожидание имеет достаточно простой смысл и легко вычисляется по законам распределения. Заметим также, что математическое ожидание – просто числовая величина (в общем случае не дискретная, а непрерывная) и никак нельзя считать ее случайной.
Другое дело, что эта величина зависит от внутренних параметров распределения (например, – значения вероятности р числа испытаний n биномиальном законе).
Так для приведенных выше примеров дискретных распределений математическое ожидание составляет:
Тип распределения | Математическое ожидание |
Биномиальное | n·p |
Распределение Паскаля | k ·q / p |
Геометрическое распределение | q / p |
Распределение Пуассона | l |
Возникает вопрос – так что же еще надо? Ответ на этот вопрос можно получить как из теории, так и из практики.
Один из разделов кибернетики – теория информации (курс “Основы теории информационных систем” у нас впереди) в качестве основного положения утверждает, что всякая свертка информации приводит к ее потере. Уже это обстоятельство не позволяет допустить использование только одного показателя распределения СВ – ее математического ожидания.
Практика подтверждает это. Пусть мы построили (или использовали готовые) законы распределения двух случайных величин X и Y и получили следующие результаты:
Таблица 2–2
Значения | 1 | 2 | 3 | 4 |
P(X) % | 12 | 38 | 38 | 12 |
P(Y) % | 30 | 20 | 20 | 30 |
Тип распределения | Математическое ожидание | Дисперсия | Коэффициент вариации |
Биномиальное | n p | n p q | Sqrt(q/n·p) |
Паскаля | k q/p | k q/p2 | Sqrt(1/ kq) |
Геометрическое | q/p | q/p2 | Sqrt(1/q) |
Пуассона | l | l | Sqrt(1/l) |
Можно ли предложить ещё один или несколько показателей – сжатых описаний распределения дискретной СВ? Разумеется, можно.
Первый показатель (математическое ожидание) и второй (дисперсия) чаще всего называют моментами распределения. Это связано со способами вычисления этих параметров по известному закону распределения – через усреднение значений самой СВ или усреднение квадратов ее значений.