Выборочной совокупностью или выборкой называют совокупность случайно отобранных объектов.
Генеральной совокупностью называют совокупность объектов, из которых производится выборка.
Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N=1000, а объем выборки n=100.
Для того, чтобы по выборке можно было достаточно уверенно судить о случайной величине, выборка должна быть представительной (репрезентативной). Репрезентативность выборки означает, что объекты выборки достаточно хорошо представляют генеральную совокупность. Заметим, что при отборе объектов могут сыграть роль личные мотивы или психологические факторы, о которых исследователь, проводящий выборку, и не подозревает. При этом, как правило, выборка не будет репрезентативной.
После того как сделана выборка, то есть получена выборочная совокупность объектов, все объекты этой совокупности обследуют по отношению к определенной случайной величине или в результате этого получают наблюдаемые данные.
Задача математической статистики заключается в обработке результатов наблюдений.
Статистическая информация и способы ее представления.
Статистическая информация – это числовые данные о массовых явлениях, это значения наблюдаемых признаков объектов, составляющих статистическую совокупность, которая получена в результате статистического наблюдения. Таким образом, источником статистической информации является реальный опыт, эксперимент, наблюдение, измерение, производимые над реальными объектами и явлениями окружающего мира. Статистика начинается с реальных данных реального опыта; этим она отличается от теории вероятностей, которая изучает математические модели реальных явлений и имеет дело лишь с мысленными (воображаемыми) экспериментами.
Статистика использует методы исследования, основанные на математическом аппарате теории вероятностей, и важнейшим среди этих методов является выборочный метод. Поэтому математическая статистика и теория вероятностей неразрывно связаны между собой, постоянно взаимодействуют, и между ними не существует четкой и общепризнанной границы.
Статистическая информация о результатах наблюдений или экспериментов может быть зарегистрирована и представлена в различных формах.
1) Простой статистический ряд, или ряд данных, или выборка: х1, х2, х3, …, хn-1, хn – запись результатов в порядке их появления (или получения), запись в ряд. Отдельные значения хi, составляющие этот ряд, называют вариантами или просто данными, или результатами наблюдений. Количество вариант в ряду n называют объемом ряда, или объемом выборки.
Например, игральный кубик бросили 12 раз и записали выпавшие числа в порядке их появления: 3, 4, 5, 6, 6, 6, 5, 1, 4, 6, 1, 4 (п=12).
Недостатки: громоздкость и труднообозримость.
2) Вариационный ряд, или упорядоченный.
1, 1, 3, 4, 4, 4, 5, 5, 6, 6, 6, 6.
Недостаток: громоздкость.
3) Статистическое распределение ряда:
xj | 1 | 3 | 4 | 5 | 6 |
nj | 2 | 1 | 3 | 2 | 4 |
Величины nj называются частотами значений варианты хj. Значение варианты хj и варианты хi – это не одно и то же: каждое значение фиксируется только один раз, а варианты с таким значением могут встречаться в ряду многократно. (j=1, 2, 3, 4, 5 ; i=1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12). j=1, 2, …, m, а i=1, 2, …, n, причем всегда m£n (если m=n, то все варианты в ряду разные).
Наряду с частотами используются относительные частоты
.4) Интервальный ряд: весь диапазон наблюдаемых значений признака хmax-xmin разбивают на небольшое число (k=6 … 10) частичных интервалов, и подсчитывают количество вариант исходного ряда, попадающих в каждый частичный интервал.
5) Графическая форма: столбчатая диаграмма, полигон частот, гистограмма, круговая диаграмма.
Задачи:
1. Рост каждого из 50 одиннадцатиклассников занесли в таблицу:
165 | 170 | 165 | 165 | 175 | 160 | 170 | 170 | 172 | 170 |
178 | 170 | 178 | 174 | 165 | 165 | 175 | 175 | 172 | 160 |
175 | 172 | 160 | 170 | 170 | 178 | 176 | 176 | 175 | 172 |
170 | 170 | 172 | 170 | 178 | 176 | 180 | 174 | 176 | 181 |
180 | 170 | 170 | 174 | 180 | 175 | 175 | 174 | 174 | 172 |
По имеющимся данным составить таблицу распределения значений случайной величины Х – роста одиннадцатиклассников: а) по частотам (М); б) по относительным частотам (W).
2. После группировки данных эксперимента получилась такая таблица их распределения:
Варианта | -3 | 0 | 4 | 5 | 9 | 11 | 12 | 15 | 20 |
Кратность варианты | 12 | 9 | 1 | 64 | 34 | 56 | 7 | 8 | 9 |
а) Определите объем выборки.
б) Найдите наиболее часто встретившуюся варианту.
в) Допишите к таблице третью и четвертую строки из частот и процентных частот вариант.
г) Найдите сумму чисел в третьей и четвертой строках.
Сделайте выводы.
Могут быть использованы следующие задачи: С10, С14, С23, С25, С34, С36, С42, С49
Занятие №2. Числовые характеристики статистических рядов.
Сбор и анализ статистических данных не является самоцелью; результаты статистических исследований позволяют принимать более правильные управленческие решения, выявлять закономерности и взаимозависимости, скрытые за случайными колебаниями, ошибками и искажениями.
Нередко возникает необходимость сравнить между собой две или несколько совокупностей статистических данных. Поскольку сравнение производится по какому-то определенному свойству, то для проведения сравнения нужны показатели, характеризующие то или иное свойство в совокупности данных одним числом. Такие показатели в статистике получили наименование числовых характеристик (статистических характеристик).
Простейшими числовыми характеристиками являются характеристики положения (среднее значение, мода, медиана) и характеристики рассеивания (размах, выборочная дисперсия, выборочное среднее квадратичное отклонение).
Среднее значение ряда наблюдений
- это центр рассеивания наблюдаемых значений, это расчетное значение, сумма отклонений всех вариант от которого равна нулю.Если варианты в ряду хi являются значениями непосредственно наблюдаемого признака, то среднее значение ряда
находят по формуле среднего арифметического: (формула простой средней), (формула средней взвешенной).В статистике при вычислении средних ставится задача заменить все индивидуальные наблюдаемые значения признака некоторой обобщающей уравненной величиной
так, чтобы при этом не изменялась некоторая итоговая величина для всей совокупности. Этой величиной может быть сумма всех вариант (среднее арифметическое) или их произведение (среднее геометрическое), или сумма обратных величин (среднее гармоническое), или сумма квадратов вариант (среднее квадратичное) и так далее. Общая формула степенной средней: ,при k=-1 получаем среднюю гармоническую, при k=1 – среднюю арифметическую, при k=2 – среднюю квадратичную, и так далее. Отдельно вводится понятие среднего геометрического
.Правило мажорантности средних:
гарм£ геом£ арифм£ квадр.Выбор формулы для вычисления среднего определяется решаемой задачей.
Следующей числовой характеристикой статистических рядов является мода. Мода Мо – это значение вариант, встречающееся в ряду чаще других. В таблице распределения ряда мода – это значение хj, которому соответствует наибольшее значение частоты nj. Статистический ряд может иметь одну, две или несколько мод, может не иметь моды.
Медиана Ме – это срединная в вариационном ряду значение варианты. Если число членов ряда n нечетное, то
, где - целая часть числа .Если n четное, то
.Простейшей характеристикой рассеивания является размах: А=хmax-xmin; размах есть разность между наибольшим и наименьшим значениями вариант в ряду.
Выборочная дисперсия Dвыб(Х) есть среднее значение квадратов отклонений всех вариант от среднего значения ряда
: