Смекни!
smekni.com

Математическая статистика (стр. 11 из 14)

Продемонстрируем ряд задач, возникающих при оперировании такими величинами и рассмотрим специальные методы непараметрической статистики в применении к этим задачам.

Следует различать ситуации, связанные с величинами на порядковой шкале:

· случайная величина имеет всего два допустимых значения (одно из них больше, предпочтительнее второго);

· случайная величина имеет более двух допустимых значений.

В первом случае мы имеем по сути дела двух позиционную номинальную шкалу и все сказанное выше о распределениях на шкале Nom вполне приемлемо для решения задач на такой шкале Rel. К примеру ­– задачи о проверке симметрии монеты или о допустимом количестве бракованных изделий вполне могут рассматриваться с использование порядковой шкалы, если считать герб “старше” решки, бракованное изделие “хуже” исправного.

Второй тип СВ предполагает наличие нескольких фиксированных значений, упорядоченных по некоторому признаку, свойству или нашему предпочтению. В этих случаях говорят, что случайная величина (например – оценка знаний, сорт товара) может быть величиной “первого ранга”, “второго ранга” и т.д.

В принципе корректная постановка задач о распределении СВ на порядковых (ранговых) шкалах ничем не отличается от рассмотренных ранее методов статистики для интервальных, относительных и номинальных шкал.

Пусть мы наблюдали, зафиксировали оценки знаний 100 обучаемых по четырех ранговой шкале (“отлично”, “хорошо”, “удовлетворительно” и “плохо”)

Таблица 7–1

Оценка знаний Отл. Хор. Удовл. Плохо Всего
Ранг оценки по смыслу 1 2 3 4
Количество наблюдений 25 45 20 10 100
Ранг по итогам наблюдений 2 1 3 4

Как обычно, далее приходится строить гипотезы и подбирать критерии для их проверки. При выдвижении нулевой гипотезы надо, прежде всего, помнить о необходимости с её помощью рассчитать распределение СВ – в нашем случае это означает расчет количества оценок в условиях истинности Њ0.

Конечно, без “технологических” представлений о природе СВ выдвижение и проверка гипотез (а затем использование статистических выводов) ­– пустая трата времени.

Пусть мы осознаем зависимость оценки знаний от предварительной подготовки обучаемых (она может быть одинакова у всех или значимо отличаться), от эффективности системы обучения и, наконец, от способа проверки знаний. Тогда результаты наблюдений могут оказаться полезными при решении задач управления обучением и, по крайней мере, контроля процесса обучения.

Если у нас есть основания считать предварительную подготовку обучаемых одинакового уровня для всех и способ проверки знаний достаточно объективным, то тогда можно выдвинуть нулевую гипотезу Њ0: система обучения эффективна. Конечно, мы не можем теоретически предсказать количество оценок каждого из рангов. Но этого и не нужно ­– оценки не числа, и частота наблюдения оценки “отлично” не может быть умножена на значение этой оценки. Другое дело, если мы договоримся считать систему обучения эффективной только в том случае, если она по отношению к одинаково подготовленным обучаемым дает большие числа более высоких оценок.

Тогда, в соответствии с Њ0 ранги 2–й строки табл.7–1 могут рассматриваться как гипотетические, а ранги 4-й строки ­– как выборочные, наблюдаемые. Осталось установить ­– какой же критерий принять для проверки нашей гипотезы. Один из часто используемых в подобных задачах критериев носит название коэффициента ранговой корреляции Спирмэна

, {7–1}

в котором di – разности гипотетических и наблюдаемых рангов; n – число рангов.

Величина коэффициента ранговой корреляции имеет непрерывное распределение на интервале [–1…+1] с математическим ожиданием 0 – если, конечно, гипотеза Њ0 верна. Поэтому значение вычисленного Rs можно использовать в качестве критерия проверки гипотез. В нашем примере сумма квадратов разностей рангов равна S=2 и для n=4 коэффициент Спирмэна по итогам наблюдений составит Rs = 0.8. Обратимся теперь к статистическим таблицам и рассмотрим ту, которая рассчитана для числа рангов n=4.

Таблица 7–2

Наблюдаемое значение суммы S 2 4 6 8 10
Вероятность S при ошибочности Њ0 0.042 0.167 0.208 0.375 0.458

Для нашего примера предположение о полной эффективности системы обучения вполне обосновано.

Мы ознакомились только с одним из существующих методов статистического анализа СВ со шкалой Ord. Существуют и другие, обоснованные и апробированные методы (коэффициент ранговой корреляции Кэндалла). Отличие между ними только в способе расчета критерия принятия или отбрасывания нулевой гипотезы.Вместе с тем мы не затронули вопроса о проблемах, возникающих при наличии нескольких величин с ранговой шкалой измерения. Эти проблемы связаны с множественной ранговой корреляцией или конкордацией (согласованностью рангов).

Пусть у нас имеются ранжировки m=4 экспертов по отношению к n=6 факторам, которые определяют эффективность некоторой экономической системы:

Эксперты / Факторы F1 F2 F3 F4 F5 F6 å
A 5 4 1 6 3 2 21
B 2 3 1 5 6 4 21
C 4 1 6 3 2 5 21
D 4 3 2 5 1 6 21
Сумма рангов 15 11 10 19 12 17 84
Суммарный ранг 4 2 1 6 3 5
Отклонение суммы рангов от 84/6 =14 +1 -3 -4 +5 -2 +3
Квадраты этих отклонений 1 9 16 25 4 9 64

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением

D

0.5·m·(n+1) {7–2}

Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы.

Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений. В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:

Smax

m2· (n3– n) / 12 {7 –3} что в нашем примере дает 280.

М. Кэндаллом предложен показатель согласованности или коэффициент конкордации, определяемый как

W = S / Smax {7–4} принимающий, в отличие от обычных (парных) коэффициентов ранговой корреляции, значения от 1 (при наибольшей согласованности) до 0.

В нашем примере значение коэффициента конкордации составляет около 0.23 и явно недостаточно для принятия гипотезы о согласованности мнений экспертов.

Существуют специальные таблицы, позволяющие отыскивать значения сумм S, настолько близких к Smax , что вероятность ошибки при принятии гипотезы о полной согласованности мнений экспертов не превосходит 5%. Вот одна из таких таблиц с критическими (достаточными) значениями сумм квадратов отклонений рангов S для n=3…7 факторов при m= 3…15 экспертов.

m \ n 3 4 5 6 7
3 64 104 157
4 50 88 143 217
5 63 112 182 276
6 76 136 221 335
8 48 102 184 299 453
10 60 128 231 377 571
15 90 193 350 571 865

Для нашего примера указанная вероятность соответствует сумме квадратов отклонений S= 143, что намного больше наблюдаемой суммы 64. Поэтому гипотезу о согласованности мнений экспертов придется отбросить.


8.Материал семинарских занятий

8.1Введение в комбинаторику

При изучении курса математической статистики приходится использовать методы одного из разделов математики, который хотя формально и не относится к высшей, вузовской математике, но, к сожалению, не изучается в средней школе.

Этот раздел – комбинаторика, “наука о способах подсчета вариантов”. Эта наука имеет тот же, примерно 300 летний возраст, что и сама статистика. Комбинаторика – сверстница теории вероятностей, теоретического фундамента прикладной статистики. Как и в древней, в современной статистике невозможно обойтись без навыков просчитывать в уме или, по крайней мере, быстро, по простым формулам, варианты событий, размещений предметов, значений величин и т.п.

Замечание о расчетах в уме сделано не случайно. Знание основ комбинаторики позволит хотя бы оценивать числа вариантов и соотношения между ними также “профессионально” как и делаете это вы, оценивая возраст встреченного человека.