1. Генеральная совокупность и выборка
В предыдущем разделе нас интересовала распределение признака в некоторой совокупности элементов. Совокупность, которая объединяет все элементы, имеющая этот признак, называется генеральный. Если признак человеческий (национальность, образование, коэффициент IQ т.п.), то генеральная совокупность — все население земли. Это очень большая совокупность, то есть число элементов в совокупности n велико. Число элементов называется объемом совокупности. Совокупности могут быть конечными и бесконечными. Генеральная совокупность – все люди хотя и очень большая, но, естественно, конечная. Генеральная совокупность – все звезды, наверное, бесконечно.
Если исследователь проводит измерение некоторой непрерывной случайной величины X, то каждый результат измерения можно считать элементом некоторой гипотетической неограниченной генеральной совокупности. В этой генеральной совокупности бесчисленная количество результатов распределены по вероятности под влиянием погрешностей в приборах, невнимательности экспериментатора, случайных помех в самом явлении и др.
Если мы проведем n повторных измерений случайной величины Х, то есть получим n конкретных различных численных значений
, то этот результат эксперимента можно считать выборкой объема n из гипотетической генеральной совокупности результатов единичных измерений.Естественно считать, что действительным значением измеряемой величины является среднее арифметическое от результатов
. Эта функция от n результатов измерений называется статистикой, и она сама является случайной величиной, имеющей некоторое распределение называемая выборочным распределением. Определение выборочного распределения той или иной статистики — важнейшая задача статистического анализа. Ясно, что это распределение зависит от объема выборки n и от распределения случайной величины Х гипотетической генеральной совокупности. Выборочное распределение статистики представляет собой распределение Хqв бесконечной совокупности всех возможных выборок объема n из исходной генеральной совокупности.Можно проводить измерения и дискретной случайной величины.
Пусть измерение случайной величины Х представляет собой бросание правильной однородной треугольной пирамиды, на гранях которой написаны числа 1, 2, 3, 4. Дискретная, случайная величина Х имеет простое равномерное распределение:
Эксперимент можно производить неограниченное число раз. Гипотетической теоретической генеральной совокупностью является бесконечная совокупность, в которой имеются одинаковые доли (по 0.25) четырех разных элементов, обозначенных цифрами 1, 2, 3, 4. Серия из n повторных бросаний пирамиды или одновременное бросание n одинаковых пирамид можно рассматривать как выборку объема n из этой генеральной совокупности. В результате эксперимента имеем n чисел
. Можно ввести некоторые функции этих величин , которые называются статистиками, они могут быть связаны с определенными параметрами генерального распределения.Важнейшими числовыми характеристиками распределений являются вероятности Рi, математическое ожидание М, дисперсия D. Статистиками для вероятностей Рi являются относительные частоты
, где ni — частота результата i (i=1,2,3,4) в выборке. Математическому ожиданию М соответствует статистика ,которая называется выборочным средним. Выборочная дисперсия
,соответствует генеральной дисперсии D.
Относительная частота любого события
(i=1,2,3,4) в сериях из n повторных испытаний (или в выборках объема n из генеральной совокупности) будет иметь биномиальное распределение.У этого распределения математическое ожидание равно 0.25 (не зависит от n), а среднее квадратическое отклонение равно
(быстро убывает с ростом n). Распределение является выборочным распределением статистики, относительная частота любого из четырех возможных результатов единичного бросания пирамиды в n повторных испытаниях. Если бы мы выбрали из бесконечной, генеральной совокупности, в которой четыре разных элемента (i=1,2,3,4) имеют равные доли по 0.25, все возможные выборки объемом n (их число также бесконечно), то получили бы так называемую математическую выборку объема n. В этой выборке каждый из элементов (i=1,2,3,4) распределен по биномиальному закону.Допустим, мы выполнили
бросания этой пирамиды, и число двойка выпало 3 раза ( ). Мы можем найти вероятность этого результата, используя выборочное распределение. Она равна .Наш результат оказался весьма маловероятным; в серии из двадцати четырех кратных бросаний он встречается примерно один раз. В биологии такой результат обычно считается практически невозможным. В этом случае у нас появится сомнение: является пирамида правильной и однородной, справедливо ли при одном бросании равенство
, верно ли распределение и, следовательно, выборочное распределение.Чтобы разрешить сомнение, надо выполнить еще один раз четырехкратное бросание. Если снова появится результат
, то вероятность двух результатов с очень мала . Ясно, что мы получили практически совершенно невозможный результат. Поэтому исходное распределение неверное. Очевидно, что, если второй результат окажется еще маловероятней , то имеется еще большее оснований разобраться с этой "правильной" пирамидой. Если же результат повторного эксперимента будет и , тогда можно считать, что пирамида правильная, а первый результат ( ), тоже верный, но просто маловероятный.Нам можно было и не заниматься проверкой правильности и однородности пирамиды, а считать априори пирамиду правильной и однородной, и, следовательно, правильным выборочное распределение. Далее следует выяснить, что дает знание выборочного распределения для исследования генеральной совокупности. Но поскольку установление выборочного распределения является основной задачей статистического исследования, подробное описание экспериментов с пирамидой можно считать оправданным.
Будем считать, что выборочное распределение верное. Тогда экспериментальные значения относительной частоты
в различных сериях по n бросаний пирамиды будут группироваться около значения 0.25, являющегося центром выборочного распределения и точным значением оцениваемой вероятности. В этом случае говорят, что относительная частота является несмещенной оценкой . Поскольку, выборочная дисперсия стремиться к нулю с ростом n, то экспериментальные значения относительной частоты будут все теснее группироваться около математического ожидания выборочного распределения с ростом объема выборки. Поэтому является состоятельной оценкой вероятности .Если бы пирамида оказалась направильной и неоднородной, то выборочные распределения для различных (i=1,2,3,4) имели бы отличные математические ожидания (разные
) и дисперсии.Отметим, что полученные здесь биномиальные выборочные распределения при больших n (
) хорошо апроксимируются нормальным распределением с параметрами и , что значительно упрощает расчеты.Продолжим случайный эксперимент — бросание правильной, однородной, треугольной пирамиды. Случайная величина Х, связанная с этим опытом, имеет распределение. Математическое ожидание здесь равно