Коэффициент корреляции - это величина, показывающая взаимосвязь между двумя коррелируемыми рядами.
Формула коэффициента корреляции имеет следующий вид:
R = ∑ ( (Xi-X) * (Yi-Y)) /ϬxϬy
где X и Y- средние величины, Ϭx и Ϭy- среднеквадратические отклонения.
Свойства коэффициента корреляции:
Коэффициент корреляции независимых величин равен нулю.
Коэффициент корреляции не изменяется от прибавления к x и y
каких-либо постоянных (неслучайных) слагаемых, а также не
изменяется от умножения величин x и y на положительные числа
(постоянные).
Коэффициент корреляции не изменяется при переходе от x и y к нормированным величинам.
Диапазон изменения от - 1 до 1.
Необходимо делать проверку надежности наличия связи, надо оценить значимость отличия коэффициента корреляции от нуля.
Если для эмпирического R произведение │R│√N-1 окажется больше некоторого критического значения, то с надежностью S можно утверждать, что коэффициент корреляции будет достоверен (достоверно отличатся от нуля).
Корреляционный анализ позволяет установить значимость (неслучайность) изменения наблюдаемой, измеряемой случайной величины в процессе испытаний, позволяет определить форму и направление существующих связей между признаками. Но ни коэффициент корреляции, ни корреляционное отношение не дают сведений о том, насколько может изменяться варьирующий, результативный признак при изменении связанного с ним факториального признака.
Функция, позволяющая по величине одного признака при наличии корреляционной связи находить ожидаемые значения другого признака, называется регрессией. Статистический анализ регрессии называется регрессионным анализом. Это более высокая ступень статистического анализа массовых явлений. Регрессионный анализ позволяет предвидеть Y по признаку X:
Yx-Y= (Rxy* Ϭy* (X-X)) / Ϭx (2.1)
Xy-X= (Rxy* Ϭx* (Y-Y)) / Ϭy (2.2)
где X и Y- соответствуют среднему, Xy и Yx- частные средние, Rxy- коэффициент корреляции.
Уравнения (2.1) и (2.2) можно записать в виде:
Yx=a+by*X (2.3)
Xy=a+bx*Y (2.4)
Важной характеристикой уравнений линейной регрессии является средняя квадратическая погрешность. Она имеет следующий вид:
для уравнения (2.3) Sy= Ϭy*√1-R²xy (2.5)
для уравнения (2.4) Sx= Ϭx*√1-R²xy (2.6)
Ошибки регрессии Sx и Sy позволяют определить вероятную (доверительную) зону линейной регрессии, в пределах которой находится истинная линия регрессии Yx (или Xy), т.е. линия регрессии генеральной совокупности.
Рассмотрим некоторые статистические характеристики числа дней с грозой в Закамье на семи станциях (Таблицы 1-7). В связи с очень малым числом дней с грозой в зимнее время, в данной работе будет рассматриваться период с апреля по сентябрь.
Станция Азнакаево:
По графику (рис.1) видно, что максимум грозовой активности на данной станции наблюдается в июле месяце Ḡ=5,9. Также в этом месяце своих максимальных значений достигают мода М=6, дисперсия Ϭ2=14,4 и среднеквадратическое отклонение Ϭ=3,8. Минимум этих характеристик отмечается в апреле (Ḡ=0,1 Ϭ2=0,1 Ϭ=0,3) и сентябре (Ḡ=0,7 Ϭ2=1,3 Ϭ=1,1).
Асимметрия и эксцесс достигают максимума в апреле А=3 Е=7,3 соответственно, минимум в июле и августе А=0,4 Е=-1,2.
Рисунок 1.
Станция Актаныш:
Как видно по графику (рис.2) своих максимальных значений среднее Ḡ=6,7, дисперсия Ϭ2=16,7, среднеквадратическое отклонение Ϭ=4,1 и мода М=8 принимают в июле месяце. Минимум апрель (Ḡ=0,2 Ϭ2=0,4 Ϭ=0,7) и сентябрь (Ḡ=0,8 Ϭ2=0,7 Ϭ=0,9).
Асимметрия и эксцесс в июле наоборот характеризуются малыми значениями А=-0,1 Е=-0,6, максимальные же значения эти характеристики принимают в апреле месяце А=3,2 Е=10,1.
Рисунок 2.
Станция Чистополь:
Максимум среднего значения Ḡ=5,2 и моды М=7 приходиться на июль месяц, в то время как у дисперсии отмечается два значимых максимума: первый в июне Ϭ2=6,9, а второй в августе Ϭ2=8,7. Минимумы этих характеристик отмечается в апреле (Ḡ=0,5 Ϭ2=1,2 Ϭ=1,1) и сентябре (Ḡ=0,6 Ϭ2=0,5 Ϭ=0,7).
Распределение асимметрии и эксцесса скачкообразно. Максимум
отмечается в апреле А=2,1 Е=2,6, а минимум: у асимметрии в июле А=-0,9, у эксцесса в августе Е=-1,1 (рис.3).
Рисунок 3.
Станция Чулпаново:
Как видно по графику (рис.4) максимумы среднего значения Ḡ=8,0 и дисперсии Ϭ2=14,5 отмечается в июле, мода принимает максимальное значение в июне М=5. Минимум характеристик наблюдается в апреле (Ḡ=0,5 Ϭ2=0,8 Ϭ=0,9) и сентябре (Ḡ=1,0 Ϭ2=1,1 Ϭ=1,1).
В распределении асимметрии и эксцесса нет каких либо скачков. Максимум наблюдается в апреле А=1,7 Е=1,6, затем идет небольшое понижение и далее характеристики описываются малыми значениями и практически не изменяются до сентября.
Рисунок 4.
Станция Муслюмово:
Как видно по графику (рис.5) максимумы среднего значения Ḡ=6,1 и дисперсии Ϭ2=16,2 отмечается в июле, мода принимает максимальное значение в июне М=6. Минимум характеристик наблюдается в апреле (Ḡ=0,3 Ϭ2=0,5 Ϭ=0,7) и сентябре (Ḡ=0,7 Ϭ2=0,9 Ϭ=1,0).
В распределении асимметрии и эксцесса нет каких либо скачков. Максимум наблюдается в апреле А=2,3 Е=5,1 и сентябре А=1,7 Е=3,3. Минимумы отмечаются в июле А=-0,2 Е=-1,1.
Рисунок 5.
Станция Аксубаево:
Как видно по графику (Рис.6) максимум среднего значения на этой станции, в отличие от всех остальных, приходится на июнь месяц Ḡ=5,6. Максимумы дисперсии Ϭ2=14,8 и мода М=6 наблюдаются в июле. Минимумы этих характеристик в апреле (Ḡ=0,0 Ϭ2=0,0 Ϭ=0,2) и сентябре (Ḡ=0,8 Ϭ2=0,9 Ϭ=0,9).
Асимметрия и эксцесс в апреле принимают исключительно большие значения А=4,6 Е=21,0, особенно эксцесс. Минимум эти характеристики принимают в июне А=0,0 Е=-0,8.
Рисунок 6.
Станция Казань-университет:
Максимум среднего значения Ḡ=4,3 и дисперсии Ϭ2=6,3 наблюдается, как и на всех остальных станциях, в июле месяце. Мода достигает максимума в июне и составляет М=3. Минимум характеристик отмечается в апреле (Ḡ=0,3 Ϭ2=0,3 Ϭ=0,5) и сентябре (Ḡ=0,6 Ϭ2=0,8 Ϭ=0,9).
Асимметрия и эксцесс принимают исключительно большие значения в сентябре месяце А=2,5 Е=10,6. Минимум наблюдается в июле А=0,5 Е=-0,5 (рис.7).
Рисунок 7.
Неслучайная, медленно меняющаяся составляющая временного ряда, называется трендом.
В результате обработки данных были получены уравнения тренда на семи станциях месячным данным (Таблицы 8-14).
На станции Азнакаево отмечается за многолетний период увеличение грозовой активности в летние месяцы. Коэффициент тренда к1 из уравнения y=k1*x+k2, значения которого определяют угол наклона линии тренда с осью ОХ, в июле равен 0,13. Уменьшение интенсивности индексов грозовой активности происходит в весенние и осенние месяцы (к1 отрицателен).
На станции Актаныш за многолетний период отмечается незначительное увеличение грозовой активности во всех рассматриваемых месяцах, кроме мая и августа.
На станции Чистополь и Аксубаево ввиду малого объема выборки (N=21), говорить о характере изменения интенсивности грозовой деятельности затруднительно, но можно отметить, что на станции Аксубаево происходит значительный, по сравнению с другими станциями, рост грозовой активности в летние месяцы с июня по август включительно (в июле коэффициент к1=0,23).
На станции Чулпаново во все рассматриваемых месяцах, кроме августа (к1=-0,04), наблюдается незначительный рост грозовой активности с максимумом в июне (к1=0,12).
На станции Муслюмово в июне и июле коэффициент к1 положителен, во всех остальных месяцах он имеет знак минус, что свидетельствует о снижении грозовой активности.
На станции Казань-университет коэффициент к1 мало отличается от нуля. Максимальный рост наблюдается в августе и составляет к1=0,012. Падение грозовой активности отмечается только в июле, но оно незначительно к1=-0,0001.
Максимальный рост грозовой активности наблюдается в июле на станции Азнакаево (к1=0,13). Максимальное падение наблюдается в августе на станции Чистополь (к1=-0,16).
Так же была подсчитана сумма числа дней с грозой за каждый отдельный год на всех станциях. На основе этих данных были построены тренды.
Станция | y=k1*x+k2 | |
k1 | k2 | |
Азнакаево | 0, 2072 | -388,46 |
Актаныш | -0,0234 | 66,404 |
Чистополь | -0,1675 | 343,55 |
Чулпаново | 0,1261 | -222,63 |
Муслюмово | -0,0263 | 70658 |
Аксубаево | 0,5909 | -113,39 |
КГУ | 0,0216 | -28,344 |
Из данной таблицы видно, что наибольший рост грозовой активности наблюдается на станции Аксубаево к1=0,59, наибольшее падение отмечается на станции Чистополь к1=-0,17.
Расчеты проводились по центральному месяцу лета - июлю (Таблица15) семи станциях: Азнакаево (1948-1980), Актаныш (1943-1980), Чистополь (1940-1960), Чулпаново (1940-1980), Муслюмово (1946-1980), Аксубаево (1940-1960) и метеорологической станции Казанского Государственного Университета (1900-2006). Данные по числам Вольфа так же были взяты за июль месяц в период с 1940 по 1980 г. г. и изменены в зависимости от объема выборки на каждой отдельной станции.
Проделав соответствующие расчеты получили следующие результаты: