Смекни!
smekni.com

Лекции по математической статистике (стр. 1 из 5)

Введение

Истоками математической статистики (М.С.) является большой объем статистических данных и потребность после их специальной обработки сделать прогноз развития исходной ситуации.

Первый раздел М.С. – описательная статистика – предназначена для сбора, представления в удобном виде и описания исходных данных. Описательная статистика обрабатывает два вида данных: количественные и качественные.

К количественным относятся рост, вес и т.д. к качественным – тип темперамента, пол.

Описательная статистика позволяет описать, обобщить, свести к желаемому виду свойства массивов данных.

Второй разделМ.С. – теория статистического вывода – это формализованная система методов решения задач, сводящихся к попытке вывести свойства большого массива данных путем обследования его малой части.

Статистический вывод строится на описательной статистике и от частных свойств выборки данных мы переходим к частным свойствам совокупности.

Третий разделМ.С. - планирование и анализ эксперта. Разработана для обнаружения и анализа причинных связей между переменными.

Измерение, шкалы и статистика

Измерение – это приписывание чисел объектам в соответствии с определенными правилами. Числа – это удобные в обработке объекты, в которые мы преобразуем определенные свойства нашего восприятия.

Шкаланаименованийили номинальнаяшкала. Номинальное измерение сводится к разбиению совокупности объектов на классы в каждом из которых сосредоточены объекты, идентичные по какому-нибудь признаку или свойству, например, по национальности, по полу, по типу темперамента.

При данных измерениях каждому из классов присваивается число, но оно используется исключительно как название этого класса и никаких операций над этими числами производить не предполагается.

Порядковое измерение возможно только тогда, когда в квалифицируемых объектах можно различить разную степень признака и свойства, на основе которого производится квалификация (например, конкурс красоты «Умники и умницы»). В данном случае числа используют только одно свое свойство – способность упорядочиваться.

Интервальная шкала принимается тогда, когда можно определить не только количество, свойства или признака в объекте, но также зафиксировать равные различия между объектами, то есть можно ввести единицу измерения для свойства или признака (например, температура, возраст).

Числа при интервальных измерениях имеют свойство упорядоченности и однозначности. Равные разности чисел соответствуют равным разностям значений измеряемого свойства или признака объекта.

Шкалаотношенийотличается от интервальной только тем, что точка отсчета не произвольна, а указывает на полное отсутствие измеряемого свойства или признака объекта.

Переменные и их измерение

Переменные бывают дискретные и непрерывные. При измерениях, особенно непрерывных свойств или признаков, можно достигнуть только косвенного значения переменной, то есть приближенного к точному и степень этого приближения будет определяться чувствительностью измерения.

Чувствительность определяется минимальной единицей цифровой шкалы, имеющейся в нашем распоряжении.

Пределы для точного значения устанавливаются путем прибавления и вычитания половины чувствительности измерительного процесса.

Множество чисел записывается с использованием произвольной величины с индексом, который указывает порядковый номер величины в цепи данных (xi).

Обозначение S и его свойства

1.

2.

3.

4.

5.

Табулирование и представление данных

Перед анализом и интерпретацией данных их обобщают.

Обобщение– запись данных в виде таблицы. Самый элементарный этап.

Ранжирование – упорядочение переменных от максимального до минимального или наоборот. Такое упорядочивание называется несгруппированным рангом.

Распределение частот. Проранжированный список сворачивают, указывая все полученные измерения подряд, однократно, а в соседней графе указывают частоту, с которой встречается данная оценка

Распределение сгруппированных частот применяется при большом количестве оценок (100 и более). Оценки группируются по признакам и каждая такая группа называется разрядом оценок. В случае полного поглощения этими группами всех данных, мы говорим о распределении сгруппированных частот.

Построение распределения сгруппированных частот

Оценки Интервал Подсчет Частота
90 95 51 112 110-114 1 1
66 78 109 62 105-109 111 3
106 70 89 91 100-104 11 2
84 47 58 93 95-99 1111 4
105 95 59 84 90-94 111 3
83 100 72 85-89 1 1
104 69 74 80-89 111111 6
82 44 75 75-79 1111 4
97 80 81 70-74 1111 4
97 75 71 65-69 111 3
59 75 68 60-64 1 1
55-59 111 3
50-54 1 1
45-49 1 1
44-45 1 1

Предварительно образовывать не менее 12 и более 15. Меньше 12 искажает результат, более 15 затрудняет работу с таблицей.

1) Определяем размах – разницу между максимальной и минимальной оценкой (112-44=69)

2) Выбор интервала разряда: 69:12=5,75

Определяем с уменьшением до 5: 69:15=4,6

3) Определение границ раздела. Необходимо образовать достаточное количество разрядов, чтобы не потерять самую маленькую и самую большую оценки, поэтому табулирование начнем с величины кратной интервалу. Ближайшее кратное 5 ниже нижней оценки – это 40. И делим на разряды до тех пор, пока не будет охвачена самая высокая оценка. Если необходимо сравнить 2 и более выборки, их помещают в такую же таблицу.

Квантили

Квантили – это способ описать группу измерений. Квантиль – это общее понятие.

Квантиль – точка на числовой шкале, которая делит совокупность наблюдений на группы с соответствующими пропорциями в каждой из них.

Квартиль – делит наблюдения на 4 группы (Q)

Дециль – делит наблюдения на 10 групп (D)

Квинтель – делит наблюдения на 5 групп (К)

Процентиль – делит наблюдения на 100 групп (Р)

Определение процентелей

Процентель представляет собой точку, ниже которой лежит Р % - в оценок.

Вычисление процентеля

Оценка 38 37 36 35 34 33 32 31 30 28 29 27 26 25 24
Частота 1 1 3 5 9 8 17 23 24 18 10 3 1 0 2
Накопленная частота 125 124 123 120 115 106 98 81 58 16 34 6 3 2

Для определения 25 процентиля P25 (границы под которой расположены 25% всех выставленных оценок)

Общая формула:

где:

n – общее число оценок

L – фактическая нижняя граница того раздела оценок, который включает себя нужную нам оценку

cumf – накопленная в данной нижней границе частота

f – количество оценок в данном разделе

p – определяемый процентиль (в данном случае 0,25)

p*n = 0,25*125=31,25

Находим фактическую нижнюю границу раздела L, содержащую 31,5 (это между 34 и 16).

Нижняя граница оценки 28,5

L=28,5 f=34-16=18

Вычитаем накопленную частоту Lиз произведения nf: ((31,25-16)/18) + 28,5=29,35

Для определения процентиля в случае наличия интервалов оценок, формула принимает вид:

где W – ширина любого интервала оценок (в примере =1).

Наглядное представление данных

В табличных процессорах представляется возможность оформить численные данные в виде графика или диаграммы различного вида, но разновидностей графического представления данных существует больше, чем это предусмотрено программным обеспечением и прежде чем использовать какой-либо из видов необходимо:

· выделить в данных существенную информацию;

· знать все типы представления данных и сделать правильный выбор;

· знать и грамотно использовать потенциал аудитории, для представления которой готовятся данные;

· если оформление осуществляется не вами, разработать подробные и четкие инструкции для технического персонала с учетом имеющихся средств.

Примеры диаграмм и графиков: линейная, столбиковая, полосчатая, кумулятивная кривая, данные накапливаются с течением времени, пиктограмма – данные представляются в виде стилизованных изображений (улов рыбы в виде рыбы), логарифмическая диаграмма, круговая диаграмма.

Графическое представление распределения частот

1) Столбиковая диаграмма (гистограмма)

2) Полигон распределения

3) Сглаженная кривая

Гистограмма - это последовательность столбцов, каждый из которых опирается на один раздельный интервал, а высота столбца – это частота или количество случаев.

Принято распределять горизонтальную шкалу на один раздельный интервал вправо и влево от полученного диапазона. Чтобы гистограмма не получилась сплющенной или вытянутой, выбирают такой масштаб шкалы, чтобы ее ширина составляла 1 2/3 высоты. Середина столбца совмещается с срединой интервала, на практике ее изображают в форме контура, опуская вертикальные линии.