5) Гистограмма, не имеющая высокой центральной части (плато) (рисунок 7). Частоты в середине гистограммы примерно одинаковые (для плато все частоты примерно равны).
Рисунок 7 – Распределение «Плато»
Такая форма встречается, если объединяется несколько распределений со средними значениями близко расположенными друг к другу. Для дальнейшего анализа рекомендуется применить метод стратификации.
6) Двухпиковый тип (бимодальный тип) (рисунок 8). В окрестностях середины гистограммы частота низкая, но с каждой стороны есть по пику частот.
Рисунок 8 – Бимодальное распределение
Данная форма встречается, если объединяется два распределения со средними значениями, далеко отстоящими друг от друга. Для дальнейшего анализа рекомендуется применить метод стратификации.
7) Гистограмма с провалом (с «вырванным зубом») (рисунок 9). Форма гистограммы близка к распределению обычного типа, но есть интервал с частотой ниже, чем в обоих соседних интервалах.
Рисунок 9 – Распределение с провалом
Данная форма встречается, если ширина интервала не кратна единице измерения, если неправильно считаны показания шкалы и др.
8) Распределение с изолированным пиком(рисунок 10). Совместно с обычной формой гистограммы появляется небольшой изолированный пик.
Рисунок 10 – Распределение с изолированным пиком
Такая форма образуется при включении небольшого количества данных из другого распределения, например, если нарушена управляемость процесса, произошли ошибки при измерении или произошло включение данных из другого процесса.[9]
Можно выделить следующие достоинства данного инструмента:
· Наглядность, простота освоения и применения.
· Управление с помощью фактов, а не мнений.
· Позволяет лучше понять вариабельность, присущую процессу, глубже взглянуть на проблему и облегчить нахождение путей ее решения.
3.2 Метод «Диаграмма разброса»
Диаграмма разброса (рассеяния, поле корреляции) – инструмент позволяющий определить вид и тесноту связи между парами соответствующих переменных. Эти две переменные могут относиться к:
· характеристике качества и влияющему на нее фактору;
· двум различным характеристикам качества;
· двум факторам, влияющим на одну характеристику качества.
При наличии корреляционной зависимости между двумя факторами значительно облегчается контроль процесса с технологической, временной и экономической точек зрения.
Сама диаграмма представляет собой множество (совокупность) точек, координаты которых равны значениям параметров x и y. Данный метод применяется в производстве и на различных стадиях жизненного цикла продукции для выяснения зависимости между показателями качества и основными факторами производства.
При наличии корреляционной зависимости между двумя факторами значительно облегчается контроль процесса с технологической, временной и экономической точек зрения.
Диаграмма разброса в процессе контроля качества используется также для выявления причинно-следственных связей показателей качества и влияющих факторов.
Графически диаграмма разброса - это точечная диаграмма в виде графика, получаемого путем нанесения в определенном масштабе экспериментальных, полученных в результате наблюдений точек. Координаты точек на графике соответствуют значениям рассматриваемой величины и влияющего на него фактора. Расположение точек показывает наличие и характер связи между двумя переменными (например, скорость и расход бензина, или выработанные часы и выход продукции).
По полученным экспериментальным точкам могут быть определены и числовые характеристики связи между рассматриваемыми случайными величинами: коэффициент корреляции и коэффициенты регрессии.
Рисунок 11 – основные виды диаграмм рассеяния
Следует отметить, что если две переменные кажутся связанными, это не означает, что они таковыми являются. И если данные не кажутся связанными, это не означает, что они не связаны: просто приведено недостаточно данных или данные следует разбить по классам и построить по каждому классу свою диаграмму, а возможно допущена большая ошибка при измерении и т. д.
Среди достоинств метода можно отметить наглядность и простоту оценки связей между двумя переменными. В итоге применение диаграммы разброса позволяет принять решение о проведении необходимых мероприятий.[10]
4 Применение статистических методов
В данном разделе будет приведены примеры применения статистических методов.
С официального сайта федерального государственного научного учреждения «Федеральный институт педагогических измерений» мной были взяты данные о результатах ЕГЭ по математике в 2010 году. В таблице 1 приведены первичные баллы и процент выпускников от общего количества сдававших экзамен, набравших соответствующее количество баллов.
Таблица 1 – Распределение первичных баллов, набранных выпускниками
Первичный балл | Процент учеников |
0 | 0,8 |
1 | 2,2 |
2 | 3,2 |
3 | 4,3 |
4 | 5,5 |
5 | 6,9 |
6 | 8,1 |
7 | 8,9 |
8 | 9,2 |
9 | 9,2 |
10 | 8,7 |
11 | 8 |
12 | 6,9 |
13 | 5,4 |
14 | 4,4 |
15 | 2,8 |
16 | 1,8 |
17 | 1,1 |
18 | 0,7 |
19 | 0,5 |
20 | 0,4 |
21 | 0,3 |
22 | 0,2 |
23 | 0,2 |
24 | 0,1 |
25 | 0,1 |
26 | 0,1 |
27 | 0,1 |
28 | 0 |
Продолжение таблицы 1
29 | 0 |
30 | 0 |
Далее на основании таблицы 1 были построены гистограммы, изображенные на рисунках 12 и 13.
Рисунок 12
Рисунок 13
На рисунке 13 изображена гистограмма с интервалом в 5 единиц. Как видно из приведенных рисунков гистограммы имеют одинаковую форму – положительно скошенное распределение. Это объясняется тем, что вероятность достижения правого значения,т.е. максимального количетва баллов, мала.
Далее из российского статистического ежегодника и информационно-аналитического портала FundsHub.ru мной были взяты некоторые показатели,а именно: уровень безработицы, число зарегистрированных преступлений и уровень инфляции. В таблицах 2, 3, 4 приведены соответствующие данные.
Таблица 2 – Число безработных
2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | |
Число безработных, тыс. | 7059 | 6288 | 6155 | 5683 | 5775 | 5208 | 4999 | 4246 | 5289 | 6162 |
Таблица 3 – Число зарегистрированных преступлений
2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | |
Число зарегистрированных преступлений, тыс. | 2952,4 | 2968,3 | 2526,3 | 2756,4 | 2893,8 | 3554,7 | 3855,4 | 3582,5 | 3209,9 | 2994,8 |
Таблица 4 – Уровень инфляции
2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | |
Уровень инфляции, % | 20,2 | 18,6 | 15,1 | 12 | 11,7 | 10,9 | 9 | 11,9 | 13,3 | 8,1 |
Далее по формуле Пирсона был рассчитан коэффициент корреляции между уровнем инфляции и числом безработных. Пусть X– показатель инфляции, Y – показатель числа безработных.
Хср=27,2, Yср=2164,2.
Rn=((20,2-13,08)*(7059-5686,4)+(18,6-13,08)*(6288-5686,4)+(15,1-13,08)*(6155-5686,4)+(12-13,08)*(5683-5686,4)+(11,7-13,08)*(5775-5686,4)+(10,9-13,08)*(5208-5686,4)+(9-13,08)*(4999-5686,4)+(11,9-13,08)*(4246-5686,4)+(13,3-13,08)*(5289-5686,4)+(8,1-13,08)*(6162-5686,4))/((((20,2-13,08)^2)+((18,6-13,08)^2)+((15,1-13,08)^2)+(( 12-13,08)^2)+((11,7-13,08)^2)+((10,9-13,08)^2)+((9-13,08)^2)+((11,9-13,08)^2)+((13,3-13,08)^2)+((8,1-13,08)^2))^(1/2)*(((7059-5686,4)^2)+((6288-5686,4)^2)+((6155-5686,4)^2)+((5683-5686,4)^2)+((5775-5686,4)^2)+((5208-5686,4)^2)+((4999-5686,4)^2)+((4246-5686,4)^2)+((5289-5686,4)^2)+((6162-5686)^2))^(1/2))
В результате вычислений значение коэффициента корреляции между уровнем инфляции и числом безработных получилось равным 0,618. Значение коэффициента при подсчете с помощью программы MicrosoftOffice 2007 равно 0,614711. Полагаясь на полученный результат можно сделать вывод, что между уровнем инфляции и числом безработных существует слабая положительная статистическая взаимосвязь.