3. Статистический ряд. Статистическая функция распределения
Пусть имеются результаты измерения случайной величины Х с неизвестным законом распределения, которые представлены в виде таблицы:
i | 1 | 2 | . . . | n |
xi | x1 | x2 | . . . | xn |
Такую таблицу называют статистическим рядом. Статистический ряд представляет собой первичную форму записи статистического материала и он может быть обработан различными способами. Одним из таких способов обработки является построение статистической функции распределения случайной величины Х.
Статистической (эмпирической) функцией распределения F*(x) называется закон изменения частоты события X < x в данном статистическом материале, то есть
Для того, чтобы найти значение статистической функции распределения при данном х, надо подсчитать число опытов, в которых случайная величина Х приняла значения меньше, чем х, и разделить на общее число произведенных опытов. Полученная таким образом статистическая функция распределения является очень грубым приближением функции распределения F(x) случайной величины Х и в таком виде не используется на практике. Она носит в каком-то смысле качественный характер, из которого можно выдвинуть гипотезу о законе распределения случайной величины Х. При увеличении числа опытов (n ®¥) F*(x) по вероятности сходится к F(x). Однако, с увеличением n построение F*(x) становится очень трудоемкой операцией. Поэтому на практике часто бывает удобно пользоваться статистической характеристикой, которая приближается к плотности распределения.
4. Статистическая совокупность. Гистограмма
При большом числе наблюдений представление данных в виде статистического ряда бывает затруднительным, а при решении ряда задач и нецелесообразным. В таких случаях производится подсчет результатов наблюдения по группам и составляют таблицу, в которой указываются группы и частоты полученные в результате наблюдения в каждой группе. Совокупность групп, на которые разбиваются результаты наблюдений и частоты, полученные в каждой группе, составляют статистическую совокупность, которая представлена ниже.
Группа DХ | DХ1 | DХ2 | . . . | DХn | |
Частота относительная | w1 | w2 | . . . | wn |
Графическое представление статистической совокупности носит название гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются интервалы, соответствующие группам совокупности, и на каждой из них строится прямоугольник, площадь которого равна частоте данной группы. Из построения следует, что площадь суммы всех прямоугольников равна единице. Очевидно, что если плавно соединить точки гистограммы, то эта кривая будет первым приближением к плотности распределения случайной величине Х.
Если число опытов увеличивать и выбирать более мелкие группы (на рисунке маленькие интервалы) в статистической совокупности, то полученная гистограмма все более будет приближаться к плотности распределения случайной величины Х. Статистическую совокупность можно использовать и для построения приближенной функции распределения F*(x), выбрав в качестве значений случайной величины граничные значения групп.
Pi*
X
DX1 DX2 . . . DXn
5. Метод наибольшего правдоподобия для нахождения оценок параметров плотности распределения
Метод наибольшего правдоподобия основывается на представлении выборки объема n как n-мерной случайной величине (Х1, Х2, ..., Хn), где
рассматриваются как независимые случайные величины с одинаковой плотностью распределения f(x). Плотность распределения такой n-мерной случайной величины называется функцией правдоподобия L(x1, x2, ..., xn), которая в силу независимости случайных величин равна произведению плотностей распределения случайных величин Х1, Х2, ..., Хn:L(x1, x2, ..., xn) = f(x1) f(x2)... f(xn).
Отсюда следует, что всякую функцию у=у(x1, x2, ..., xn) выборочных значений x1, x2, ..., xn, называемую статистикой, можно представить как случайную величину, распределение которой однозначно определяется функцией правдоподобия.
Рассмотрим метод отыскания оценок параметров по опытным данным, который использует функцию правдоподобия.
Пусть f(x;а) – плотность распределения случайной величины Х (генеральной совокупности), зависящей от параметра а. Функция правдоподобия также будет зависеть от параметра а и иметь вид
Сущность метода наибольшего правдоподобия заключается в том, чтобы найти такое значение параметра а, при котором функция правдоподобия L(x1, x2, ..., xn, а) была бы максимальной. Для этого необходимо решить уравнение
и найти то значение а, при котором функция L(x1, x2, ..., xn, а) достигает максимума. С целью упрощения вычисления обычно максимизируют натуральный логарифм функции правдоподобия, пользуясь тем, что
Если неизвестными являются несколько параметров а1, а2, ... , аm, то функция правдоподобия зависит от m переменных L = L(x1, x2, ..., xn; а1, а2, ... , аm) и решаются m уравнений
Пример. Пусть на вход приемного устройства поступает сумма двух сигналов: Y(t) = X + Z(t), где Х – неизвестный не зависящий от времени сигнал, а Z(t) – случайная помеха. В моменты времени t1, t2, ... , tn производятся измерения величины Y(t). На основании опытных данных (выборки) y1 = y(t1), y2 = y(t2), ... , yn=y(tn) нужно найти приближенное значение сигнала Х.
Решение. Пусть Z(t1), Z(t2), ... , Z(tn) – независимые случайные величины распределены по нормальному закону с математическим ожиданием mZ = 0 и дисперсией D(Z) = s2. Тогда случайные величины
также независимы, нормально распределены с неизвестным математическим ожиданием а и с той же дисперсией s2. Плотность распределения случайных величин Y(t1), Y(t2), ... , Y(tn) имеет, таким образом, видЗапишем функцию правдоподобия для n-мерной случайной величины (Y1, Y2, ... , Yn):
Tак как
то из уравнения
Имеем
Значит
Нетрудно показать, что функция правдоподобия L = L(y1, y2, ..., yn; а) при этом а достигает своего максимума. Таким образом мы показали, что оценка математического ожидания неизвестного сигнала Х по методу наибольшего правдоподобия в предположении нормального распределения аддитивной помехи является средним арифметическим измерений y1, y2, ..., yn: