Рис. 2.2 Анкета
Велике поширення в статистиці мають середні величини, бо вони характеризують якісні показники будь-якої діяльності.
Середня – це один з найбільш розповсюджених прийомів узагальнень. Правильне розуміння сутності середньої визначає її особливу значимість в умовах ринкової економіки, коли середня через одиночне і випадкове дозволяє виявити загальне і необхідне, виявити тенденцію закономірностей економічного розвитку. Середня величина – це узагальнюючий показник, у якому знаходить вираження дія загальних умов, закономірностей досліджуваного явища.
Статистичні середні розраховуються на основі масових даних правильно статистично організованого масового спостереження.. Однак статистична середня буде об’єктивна і типова, якщо вона розраховується по масовим даним для якісно однорідної сукупності. Середня величина є відображенням значень досліджуваної ознаки, отже, вимірюється в тій же розмірності, що і ця ознака. Кожна середня величина характеризує досліджувану сукупність по який-небудь одній ознаці. Щоб одержати повне і всебічне представлення про досліджувану сукупність по ряду істотних ознак, у цілому необхідно мати систему середніх величин, що можуть описати явище з різних сторін.
Середня арифметична проста (незважена) дорівнює сумі окремих значень ознаки діленої на кількість цих значень.
, (2.1)де
- сума окремих значень ознаки;n – число одиниць сукупності.
Але середня величина – це абстрактна, узагальнююча характеристика ознаки досліджуваної сукупності, вона не показує будівлі сукупності, що дуже істотно для її пізнання. Середня величина не дає представлення про те, як окремі значення досліджуваної ознаки групуються навколо середньої, чи зосереджені вони поблизу чи значно відхиляються від неї. У деяких випадках окремі значення ознаки близько примикають до середньої арифметичної і мало від неї відрізняються. У таких випадках середня добре представляє всю сукупність. В інші, навпаки, окремі значення сукупності далеко знаходяться від середньої, і середня погано представляє всю сукупність.
Коливання окремих значень характеризують показники варіації. Більшість статистичних закономірностей виявляється через варіацію. Вивчаючи варіацію значень ознаки в сполученні з його частотними характеристиками, ми виявляємо закономірності розподілу. Розглядаючи варіацію однієї ознаки паралельно зі зміною іншого, ми виявляємо взаємозв’язок між цими ознаками чи його відсутність. Варіації в статистиці виявляються подвійно, або через зміни значень ознаки в окремих одиницях сукупності, або через наявність чи відсутність досліджуваної ознаки в окремих одиницях сукупності.
Вивчення варіації в статистиці має як самостійну мету, так є і проміжним етапом більш складних статистичних досліджень.
Під варіацією в статистиці розуміють такі кількісні зміни величини досліджуваної ознаки в межах однорідної сукупності, що обумовлені перехресним впливом дії різних факторів.
Аналіз систематичної варіації дозволяє оцінити ступінь залежності змін у досліджуваній ознаці від визначаючих її факторів. Наприклад, вивчаючи силу і характер варіації у сукупності, можна оцінити, наскільки однорідною є дана сукупність у кількісному, а іноді і якісному відношенні, а отже, наскільки характерною є обчислена середня величина. Ступінь близькості даних окремих одиниць до середнього виміряється низкою абсолютних, середніх і відносних показників. Серед них:
Дисперсія – показник, що характеризує розсіювання значень ознаки щодо його середньої величини. Дисперсія – це середнє квадратичне відхилення всіх варіантів ряду віл середньої арифметичної.
, (2.2)де
- і-те значення ознаки; - середня арифметична ознаки;n – число значень ознаки.
Середнє квадратичне відхилення – це узагальнююча характеристика абсолютних розмірів варіації ознаки в сукупності. Середнє квадратичне відхилення є мірилом надійності середньої. Чим менше середнє квадратичне відхилення, тим краще середня арифметична відбиває собою всю сукупність, що представляється. Середнє квадратичне відхилення – це квадратний корінь з дисперсії.
, (2.3)де
- і-те значення ознаки; - середня арифметична ознаки;n – число значень ознаки.
Незважаючи на логічну подібність, дисперсія є більш чуттєвим до варіації, а, отже, й частіше застосовуваним показником.
Оскільки числові характеристики випадкової величини ми не можемо визначити точно, а знаходимо тільки їх оцінку, виникає питання, а на скільки ж воно відрізняється від справжнього?
Нехай нас цікавить величина інтервалу ε на який відхилиться від справжньої оцінки числової характеристики, розраховане за результатами експериментальної вибірки. При цьому ми повинні наперед визначити ймовірність β, значення якої викликало б у нас довіру до цього інтервалу (тобто високу ймовірність – 0.8, 0.9, 0.95..). Цей інтервал так і називається – “довірчим”.
Отже нам треба зробити дію, зворотну визначенню ймовірності
P(|
-Чх[X]|< ε)= β, (2.4)де Чх[X] – справжнє значення числової характеристики випадкової величини;
- оцінка цього значення.Коли буде знайдено ε, то справжнє значення числової характеристики буде знаходитися в межах
- ε < Чх[X] < + ε.Розмір довірчого інтервалу для кожної числової характеристики можна знайти із застосуванням функції Лапласа (тут наведено варіант формули для квантиля таблиці t=
):– для математичного сподівання або середнього
; (2.5)– для дисперсії
; (2.6)де,
;Ф-1(β)– зворотне значення функції Лапласа, тобто таке значення аргументу (квантиля), при якому функція Лапласа дорівнює β.
Для визначення взаємозв'язку між ознаками, які можна зранжувати, передусім на основі бальних оцінок, застосовуються методи рангової кореляції. Рангами називають числа натурального ряду, які згідно зі значеннями ознаки надаються елементам сукупності i певним чином упорядковують її. Ранжування проводиться за кожною ознакою окремо: перший ранг надасться найменшому значенню ознаки, останній — найбільшому або навпаки. Кількість рангів дорівнює обсягу сукупності. Очевидно, зі збільшенням обсягу сукупності ступінь «розпізнаваності» елементів зменшується. 3 огляду на те, що рангова кореляція не потребує додержання будь-яких математичних передумов щодо розподілу ознак, зокрема вимоги нормальності розподілу, рангові оцінки щільності зв'язку доцільно використовувати для сукупностей невеликого обсягу.
Для визначення міри зв'язку використовують коефіцієнт рангової кореляції, запропонований К. Спірменом.
, (2.7)де n – число одиниць сукупності
- різниця рангів за ознакою х та за ознакою у для і-ої одиниці сукупності.Цей коефіцієнт має такі саме властивості, як i лінійний коефіцієнт кореляції: змінюється в межах від - 1 до + 1, водночас оцінює щільність зв'язку та вказує на його напрям.
Але при наявності співпадаючих значень вищенаведена формула не працює. Тому замість неї використовують коефіцієнт кореляції рангів Кенделла, який порівнює ранги для всіх пар одиниць сукупності, що заздалегідь підпорядковані по значенню признака х.
, (2.8)де d – кількість експертів,
m – кількість критеріїв.
Його використання доцільне, оскільки при розрахунку цього коефіцієнта не використовуються самі значення рангів, а тільки встановлюється більше або менше ранг даної одиниці, тобто немає необхідності при тотожності значень ознаки розраховувати середній ранг.
Але незважаючи на всі переваги традиційних методів, основаних на формулах Пірсона, Спірмена и рангової конкордації Кенделла, вони часто не дають змоги отримати потрібний результат при недостатній погодженості об’єктів по одному з вимірювань та малому обсязі сукупності вимірювань. Крім того, подані формули потребують обробки при тотожності рангів об’єктів.
Для рішення даної проблеми пропонується використовувати модифікований коефіцієнт конкордації:
, (2.9)де n - об’єм вибірки,
ki - кількість ознак по i-му елементу вибірки.
В разі, коли
вид (2.9) спрощується: , (2.10)