где Хi - измеренный параметр i-го члена совокупности, n - количество членов совокупности.
2) Величина рассеяния. Статические совокупности могут иметь близкие или даже одинаковые значения центра группирования, но отдельные значения величин в них могут существенно отличаться, вследствие того, что разброс значений относительно центра бывает разный. Самой элементарной характеристикой рассеяния является вариационный размах R, определяемый по формуле
R = Xmax - Xmin,
где Xmax, Xmin - максимальное и минимальное значения статистической совокупности.
Вариационный размах не всегда характерен, так как учитывает только крайние значения, которые могут сильно отличаться от всех других значений. Более точно рассеяние определяется с помощью показателей, учитывающих отклонение всех значений от среднего арифметического. Основным из этих показателей является среднее квадратичное отклонение результата наблюдений, которое определяется по формуле
Это отклонение является наиболее распространенным и общепринятым показателем вариации. Величина под корнем, то есть σ2, называется дисперсией. Дисперсия имеет самостоятельное значение во многих задачах математической статистики и относится к числу важнейших показателей вариации.
Показателем отклонения значения самого среднего арифметического является среднее квадратическое отклонение среднего значения S, которое еще называют среднее квадратическое отклонение результата измерения.
3) Форма распределения вероятности. Для характеристики формы распределения обычно используют ту математическую модель, которая наилучшим образом приближает к виду кривой распределения вероятностей, полученной при анализе экспериментально полученных данных.
4) Закон нормального распределения. Большинство случайных явлений, происходящих в жизни, в частности, в производстве и научных исследованиях, характеризуются наличием большого числа случайных факторов, описывается законом нормального распределения, который является основным во многих практических исследованиях. Однако нормальное распределение не является единственно возможным. В зависимости от физической природы случайных величин, некоторые из них на практике могут иметь распределение другого вида, например, логарифмическое, экспоненциальное, Вейбулла, Симпсона, Релея, равной вероятности и др.
Уравнение, описывающие плотность вероятности нормального распределения имеет вид:
Нормальное распределение характеризуется двумя параметрами μ и σ2 и на графике представляет собой симметричную кривую Гаусса (рисунок 1), имеющую максимум в точке соответствующей значению Х = μ (соответствует среднему арифметическому Хср и называется центром группирования), а при Х → -∞ и Х → ∞ асимптотически приближающуюся к оси абсцисс. Точка перегиба кривой находится на расстоянии σ от центра расположения μ. С уменьшением σ кривая растягивается вдоль оси ординат и сжимается вдоль оси абсцисс. Между абсциссами μ - σ и μ + σ расположено 68,3 % всей площади кривой нормального распределения. Это означает, что при нормальном распределении 68,3% всех измеренных единиц отклоняются от среднего значения не более чем на σ, то есть все они находятся в пределах + σ. Площадь, заключенная между ординатами, проведенными на расстоянии 2σ с обеих сторон от центра составляет 95,4 % и соответственно столько же единиц совокупности находится в пределах μ+2σ. И наконец, 99,73 % всех единиц находится в пределах μ+3σ. Это так называемое правило «трех сигм», характерное для нормального распределения. Согласно этому правилу за пределами отклонения на 3σ находится не более 0,27 % всех значений величин, то есть 27 реализаций на 10 тысяч. В технических приложениях принято при оценке результатов измерений работать с коэффициентами z при σ, соответствующим 90%, 95%, 99%, 99,9% вероятности попадания результата в область допуска.
Рисунок 1 – Кривая Гаусса
Следует отметить, что это же правило распространяется на отклонения среднего значения Хср. Оно также колеблется в некоторой области на три значения среднего квадратического отклонения среднего значения S в обе стороны, и в этой области заключено 99,73 % всех значений среднего значения. Нормальное распределение хорошо проявляется при большом количестве членов статистической совокупности, не менее 30.
5) Распределение Стьюдента. Для практики большой интерес представляет возможность судить о распределении случайных величин и определять производственные погрешности во всех изготовленных изделиях и погрешности научных экспериментов по результатам измерения параметров статистической совокупности полученным из партии малого объема. Эта методика была разработана Карлом Госсетом в 1908 году и опубликована под псевдонимом Стьюдент.
Распределение Стьюдента симметрично, но более сплющено, чем кривая нормального распределения, и поэтому вытянуто на концах (рисунок 2). Для каждого значения n имеется своя t-функция и свое распределение. Коэффициент z заменен в распределении Стьюдента коэффициентом t, значение которого зависит от заданного уровня значимости, который определяет какая часть реализации может находиться за пределами выбранной области кривой распределения Стьюдента и количества изделий в выборке.
Рисунок 2 – Кривая Стьюдента
При больших n распределение Стьюдента асимптотически сближается со стандартным нормальным распределением. С приемлемой для практики точностью можно считать, что при n=30, распределение Стьюдента, которое иногда называют t-распределением, апроксимируется нормальным.[4]
2 Корреляция
2.1 Коэффициент корреляции
Одним из важнейших элементов статистики является коэффициент корреляции. Коэффициент корреляции служит математической мерой корреляции двух случайных величин.
Корреляция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.
Коэффициент корреляции или парный коэффициент корреляции в теории вероятностей и статистике — это показатель характера взаимного стохастического влияния изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R в математической статистике (r в статистике) и может принимать значения от −1 до +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь отсутствует или является существенно нелинейной. При коэффициенте корреляции равном по модулю единице говорят о функциональной связи (а именно линейной зависимости), то есть изменения двух величин можно описать линейной функцией.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б.
Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Однако существуют некоторые ограничения корреляционного анализа:
1) Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
2) Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
3) Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора. [5]
Существует несколько видов коэффициентов корреляции: коэффициент корреляции Пирсона, коэффициент ранговой корреляции Кендалла, коэффициент ранговой корреляции Спирмена,коэффициент корреляции знаков Фехнера, коэффициент множественной ранговой корреляции (конкордации) и др. Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона. Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или Кендалла. В данной работе кратко рассмотрен коэффициент корреляции Пирсона как наиболее часто используемый.