P(-ε1 <ξ - ξ* <ε2) = l – α (1.9.5*)
где α - величина, близкая к нулю.
Это означает, что в большинстве выборок (доля которых составляет
1— α) ошибка выборки попадет в интервал (-ε1, ε2), и лишь в относительно малом числе выборок (доля которых равна α) ошибка δ выйдет за пределы интервала (-ε1, ε2 ). Поскольку производится одна выборка, то с практической достоверностью (т.е. с вероятностью 1 − α)можно полагать, что ее ошибка попадет в данный интервал, и, наоборот, практически невозможно (т. е. с вероятностью α),что она выйдет за границы интервала.
Но если ε1<ξ - ξ* <ε2, то ξ* - ε1< ξ< ξ*+ ε 2, и равенство (1.9.5*) запишется в виде:
P(ξ* - ε1 <ξ <ξ* +ε2) = l − α (1.9.5)
В силу изложенного
• интервал (ξ* - ε1, ξ*+ε2) называется доверительным интервалом,
• числа ξ*- ε1, ξ*+ε2 - доверительными границами,
• вероятность Р=1—α - доверительной вероятностью и
• α- уровнем значимости (существенности)
Доверительный интервал дополняет точечную оценку ξ* оценкой ошибки выборки, или интервальной оценкой параметра α.
Если для точечной оценки необходимо знать лишь выражение для ξ* как функцию данных выборки, то для построения доверительного интервала необходимо знать также закон распределения ξ*, с помощью которого рассчитывается вероятность (1.9.5).
Часто при симметричном характере распределения случайной величины ξ* относительно ξ можно и доверительный интервал рассматривать как симметричный относительно ξ. В таком случае уравнение (1.9.5) может быть заменено на более простое:
P(ξ* - ε <ξ <ξ* +ε) = P (│ξ - ξ*│<ε) = l – α (1.9.6)
Величина ε называется предельной ошибкой выборки.
С интервальной оценкой связано решение трех типов задач:
1) определение доверительного интервала по заданной доверительной вероятности Р= 1 – α и объему выборки п;
2) определение доверительной вероятности по заданному доверительному интервалу и объему выборки;
3) определение необходимого объема выборки п по заданным доверительной вероятности и доверительному интервалу.
3.3 Оценка доли признака
Для точечной оценки доли признака в генеральной совокупности (р) естественно взять выборочную долю
р*=
где n — объем выборки,
т — количество единиц в выборке, обладающих данным признаком.
Можно доказать, что эта оценка является состоятельной, несмещенной, эффективной.
Вопрос об интервальной оценке рассмотрим сначала для случая возвратной выборки.
При такой организации выборки случайная величина p*, как известно из теории вероятностей, имеет биномиальный закон распределения. Расчет доверительного интервала с применением формулы биномиального закона связан с определенными вычислительными трудностями. Однако при достаточно большом объеме выборки (примерно n≥ 20, пр ≥ 10) биномиальное распределение хорошо аппроксимируется нормальным распределением с параметрами
М (p*) = p;
σ(p*) =
Следовательно, случайная величина
имеет стандартное нормальное распределение (с параметрами M(z)=0; σ(z)=1).Задавшись определенной вероятностью Р=1— α, имеем:
2Ф(zα)=1- α (1.9.7)где Ф(zα)=
— интегральная функция Лапласа, значения которой для различных значений zрассчитаны и приводятся в специальных таблицах.Равенство (1.9.7) эквивалентно равенству:
P {│p*- p │<z1 · σ( p*)} = 2Ф(zα) (1.9.7')
Таким образом, предельная ошибка выборки εα определяется из равенства:
(1.9.8)Применение этой формулы затрудняется тем, что в нее входит неизвестный параметр р — генеральная доля. Однако при большом п можно заменить неизвестный параметр р его точечной оценкой р*. Тогда получим:
(1.9.9)Приведенные выше формулы связывают между собой, в конечном счете, три величины: доверительную вероятность Р=1−α, предельную ошибку выборки ε и объем выборки п.
Вкаждой конкретной задаче две из этих величин задаются и определяется третья величина. Таким образом, мы имеем следующие три типа задач:
I. Даны п и Р, определить ε.
II. Даны п и ε, определить Р.
III. Даны Р и ε, определить п
Первые два типа задач связаны с анализом результатов уже произведенной выборки объема п, следовательно, и с найденной точечной оценкой р*.
Задачи третьего типа должны решаться до проведения выборки. По заданной доверительной вероятности Pмы можем определить величину z(по таблице интегральной функции Лапласа). Из (1.9.9) получаем:
(1.9.10)Но в (1.9.10) входит величина р*, получаемая в результате выборки, а речь идет об определении п до осуществления выборки.
Поскольку р* неизвестно, то определяем из этого равенства, при каком значении р* величина п будет максимальной. Используя обычный метод следования функции на максимум, получаем:
откуда р*=½
Следовательно,
(1.9.11)Выборка такого объема наверняка обеспечит заданные надежность и точность.
Рассмотрим примеры на каждый из трех типов задач. Исследуется вопрос о доле поврежденных клубней картофеля после механической уборки.
Пример 1.9.1 Произведена случайная выборка объемом.n=200 деталей. Из них поврежденных оказалось 40. Определить с вероятностью 0,95 доверительный интервал для доли поврежденных деталей генеральной совокупности.
Рассчитываем выборочную долю:
р* = m / n= 40 / 200 = 0.20
По заданной доверительной вероятности
Р = 1 – α = 2Ф(zα) = 0.95
находим по таблице интегральной функции Лапласа соответствующее значение zα=1,96. Применяем формулу (1.9.9):
Таким образом, доверительный интервал для генеральном доли р:
0,20-0,06<p<0,20+0,06, или 0,14<p<0,26
Пример 1.9.2. По результатам той же выборки определить вероятность того, что ошибка выборки не превысит 0,03.
Имеем:
Отсюда:
По таблице интегральной функции Лапласа находим соответствующую доверительную вероятность Р = 2Ф(zа)=0,71.
Пример 1.9.3. До проведения выборки необходимо ответить на вопрос: какой объем выборки обеспечит с вероятностью0,95 ошибку выборзки не более, чем 0,02?
Применяем формулу (1.9.11):
Следует заметить, что требуемые надежность и точность может обеспечить в нашей задаче и выборка меньшего объема.Если до проведения выборкиу нас есть приближенная оценка хотя бы максимальной величины р*,то мыможем применить формулу (1.9.10) и получить меньшее значение необходимого объема выборки п.
В случае безвозвратной выборки случайная величина р*, как доказываетсяв теории вероятностей, имеет так называемое гипергеометрическое распределение. Ее математическое ожидание,как и в случае возвратнойвыборки, равно генеральной доле: М(р*)=р, а среднее квадратическоеотклонение вычисляется но формуле:
(1.9.12)где N — объем генеральной совокупности
Придостаточно большом объеме выборки гипергеометрическоераспределение также хорошо аппроксимируетсянормальным распределением с указанными параметрами M(p*) и σ(p*), поэтому дальнейший ход решения задач аналогичен рассмотренному выше случаю возвратной выборки.
Формула для предельной выборки принимает вид
(1.9.13)При решении задач III типа из (1.9.13) получаем:
(1.9.14)Соответственно изменится и формула для nmax :
(1.9.15)Если объем выборочной совокупности n составляет незначительную долю по отношению к объему генеральной совокупности N, то величина
в формуле (1.9.12) ближе к 1, можно пренебречь различием формул (1.9.9) и (1.9.13) и пользоваться более простыми соотношениями для возвратной выборки, даже если фактически выборка производится как безвозвратная.В заключение раздела необходимо отметить что в статистике используется понятие средней ошибки выборки, которая определяется как среднее квадратическое отклонение соответствующей выборочной характеристики. Нетрудно видеть, что формула для средней ошибки выборки является частным случаем формулы предельной ошибки выборки при z=1.