Наведемо U-критерий Уїлкоксона (Манна–Уітні)для перевірки гіпотези про приналежність порівнюваних незалежних вибірок до однієї і тієї самої генеральної сукупності. Гіпотезу перевіряють, розташувавши в узагальнений ряд значення порівнювальних вибірок у зростаючому порядку. Всім значенням отриманого узагальненого ряду привласнюються ранги від 1 до N=n1+n2. Для кожної вибірки знаходяться суми рангів R і розраховуються статистики:
для та - номер вибірки.Якщо нульова гіпотеза вірна і вибірки були взяті з однієї і тієї самої генеральної сукупності, ми не повинні очікувати переважання спостережень з однієї вибірки на одному з кінців з'єднаного варіаційного ряду, їх значення мають бути достатньо рівномірно розсіяні по всьому узагальненому ряду. Таким чином, дуже великі або дуже малі значення статистики R мають примусити нас засумніватися у справедливості нульової гіпотези. Як тестову статистику вибирають мінімальну величину U і порівнюють її з табличним значенням для прийнятого рівня значимості. Гіпотеза приймається, і відмінності вважаються недостовірними, якщо розраховане значення більше відповідного табличного.
Зазвичай у таблицях наводяться критичні значення даного критерію для об'єму вибірок 20 або 40. У разі вибірок більшого об'єму для перевірки даного критерію застосовується нормальна апроксимація. Тоді критичні значення для критерію U можна розрахувати за формулою:
де
– критичні значення стандартного нормального розподілу, визначені за таблицями. Треба звернути увагу, що якщо є однакові варіанти, їм привласнюється середній ранг, проте значення останнього рангу має дорівнювати n1+n2. Це правило використовують для перевірки правильності ранжирування.У разі попарно зв'язаних вибірок застосовується Т-критерій Уїлкоксона.При цьому попарні різниці – позитивні і негативні (окрім нульових) в один ряд так, щоб найменша абсолютна різниця (без урахування знака) отримала перший ранг, однаковим величинам привласнюють один ранг. Окремо обчислюють суму рангів позитивних (T+) і негативних різниць (Т-), меншу з двох таких сум без урахування знака вважають тестовою статистикою даного критерію. Нульову гіпотезу приймають на даному рівні значимості, якщо обчислена статистика перевершить табличне значення (число парних спостережень зменшують на число виключених нульових різниць). Таким чином, можна сказати, що якщо нульова гіпотеза вірна, статистики T+ і T – приблизно рівні, порівняно малі або великі значення T-статистик примусять нас відхилити нульову гіпотезу про відсутність відмінностей.
Приклад. Припустимо, в результаті проведення дослідження був обчислений ряд попарних різниць між показником ефекту в двох попарно пов'язаних групах (n1 = n2 = 10) (наприклад, так звана задача «до і після»): 0,2 -0,4 0,7 -0,9 1,3 1,5 -0,1 0,8 -1,0 1,1. Ранжируємо попарні різниці в один ряд, незалежно від знака різниці, одержуємо такий ранжирований ряд: -0,1 0,2 -0,4 0,7 0,8 -0,9 -1,0 1,1 1,3 1,5.
Розрахуємо окремо суму рангів позитивних (Т+)і негативних (T-) різниць, у нашому випадку T+ = 2 + 4 + + 5 + 8 + 9+10 = 38, T- = 1 + 3 + 6 + 7= 17. Для перевірки двостороннього T-критерію використовуємо меншу статистику T – =17 і порівнюємо її з табличним значенням для числа попарних різниць n = 10 і рівня значимості 5%. Таке табличне критичне значення дорівнює 9. Розраховане мінімальне значення T статистики перевершує відповідне табличне значення, а, отже, нульова гіпотеза залишається в силі.
У разі аналізу результатів клінічних досліджень непараметричні критерії корисні не тільки для аналізу кількісних даних, а також при якісній або альтернативній формі представлення ознак.
4. Порівняння середніх значень декількох вибірок (множинні порівняння)
Наведений вище критерій Стьюдента може бути використаний для перевірки гіпотези про відмінність середніх тільки для двох груп. Якщо план дослідження припускає порівняння більшої кількості груп, абсолютно неприпустимо просто порівнювати їх попарно. Проте дисперсійний аналіз дозволяє перевірити лише гіпотезу про рівність всіх порівнюваних середніх. Але, якщо гіпотеза не підтверджується, не можна дізнатися, яка саме група відрізнялася від інших. Це дозволяють зробити методи множинного порівняння, які в свою чергу також параметричні і непараметричні. Ці методи дають можливість провести множинні порівняння так, щоб імовірність хоча б одного невірного висновку залишалася на початково вибраному рівні значимості а, наприклад, а = 5%.
Серед параметричних критеріїв найбільш відомі критерій Стьюдента для множинних порівнянь, критерій Ньюмена-Кейлса, критерій Тьюккі, критерій Шеффе, критерій Даннета, а серед непараметричних – критерій Краськела-Уолліса, медіанний критерій та ін.
Розглянемо деякі критерії. Ще раз звертаємо увагу, що до використання цих критеріїв треба вдаватися у випадку, якщо дисперсійний аналіз показав наявність значущих відмінностей між середніми значеннями вибірок.
Літерою m позначимо число порівнювальних груп.
Критерій Стьюдента для множинних порівнянь був заснований на використовуванні нерівності Бонферроні: якщо k-разів застосувати критерій з рівнем значимості а, то імовірність хоча б в одному випадку знайти відмінність там, де його немає, не перевищує результату від перемноження двох множників k на а. З нерівності Бонферроні виходить, що якщо ми хочемо забезпечити імовірність помилки а', то в кожному з порівнянь ми маємо прийняти рівень значимості а'/k – це і є поправка Бонферроні (k – число порівнянь). Зрозуміло, що таке зменшення у декілька разів рівня значимості робить тест достатньо «жорстким» із зростанням числа порівнянь, встановити відмінності стає достатньо важко. Щоб дещо пом'якшити даний тест, користуються узагальненою оцінкою внутрішньогрупової дисперсії, число ступенів свободи при цьому зростає, що в свою чергу призводить до зменшення критичного значення для перевірки тесту. Цей метод добре працює, якщо число порівнянь невелике, зазвичай не більше 8.
При великому числі порівнянь критерій Ньюмена–Кейлса і критерій Тьюккі дають більш точну оцінку імовірності а'.
Іноді задача полягає в тому, щоб порівняти декілька груп з єдиною – контрольною. Зазвичай можна використовувати будь-який із вказаних вище методів: попарно порівняти всі групи, а потім вибрати тільки ті порівняння, в яких брала участь контрольна група. Проте через велику кількість зайвих порівнянь критичне значення виявиться невиправдано високим. Для вирішення цієї задачі статистики існують спеціальні методи, наприклад, ще одна модифікація критерію Стьюдента з поправкою Бонферроні і критерій Даннета. У разі використання поправки Бонферроні необхідно враховувати реальне число порівнянь для цієї задачі, воно дорівнює числу груп m-1 і відповідно розрахувати рівень значимості а = а'/(m – 1).
Критерій Даннета більш чутливий, ніж попередній, особливо при великій кількості груп. Критерій Даннета є модифікацією критерія Ньюмена–Кейлса. Для перевірки критерію Даннета середні значення для всіх груп упорядковуються за абсолютною величиною їх відмінності від контрольної групи, порівняння починають з групи, найвідміннішої від контролю. Для звернення до таблиці для перевірки критерію використовується ще один параметр, який є числом порівнювальних груп разом з контрольною. Обчислене значення q порівнюється з табличним значенням, якщо воно перевищує або дорівнює табличному, робиться висновок про наявність статистично значущої відмінності. Число ступенів свободи для цього критерію також дорівнює N – m, де N –сумарна чисельність всіх груп, m – число порівнювальних груп. Якщо відмінності з черговою групою не знайдені, порівняння припиняються.
Непараметричний критерій Краснела–Уолліса для порівняння середніх значень декількох незалежних вибірок був заснований на побудові з'єднаного варіаційного ряду з варіант даних вибірок і привласненні рангів усім варіантам в поєднаному ряді об'ємом N. Далі обчислюються статистики Ri для кожної даної вибірки окремо, що дорівнюють сумам рангів в узагальненому ряді варіант, які входять у дану i-у вибірку. При цьому для кожного спостереження в конкретній вибірці ми можемо вказати середній ранг, рівний Ri/ni, для всіх i від 1 до m. Якщо виконується нульова гіпотеза і всі сукупності мають один і той самий розподіл, то можна очікувати, що всі середні ранги приблизно рівні. А саме вони приблизно рівні загальному середньому рангу R.
Для попарного порівняння груп або попарного порівняння груп з однією контрольною відомі непараметричні аналоги параметричних критеріїв Ньюмена-Кейлса і Даннета.
Непараметричний критерій Фрідмана застосовується для аналізу повторних вимірювань, пов'язаних з одним і тим самим індивідуумом. Для використання цього критерію стовпчики таблиці відображають різні значення змінної ефекту, а рядки відповідають повторним вимірюванням одного і того самого суб'єкта. За допомогою критерію Фрідмана ми перевіряємо нульову гіпотезу про те, що різні методи лікування дають практично однакові результати. Процедура полягає у впорядкуванні (ранжируванні) значень у кожному рядку (при цьому ранги в кожному рядку приймають значення від 1 до m), підсумовуванні отриманих рангів за кожним стовпчиком і обчисленні тестової статистики.
Якщо розраховане значення перевершить відповідне табличне для вибраного рівня значимості і відповідного числа ступенів свободи, то нульова гіпотеза відхиляється.