Смекни!
smekni.com

Парадокси в математичній статистиці (стр. 12 из 22)

Журнал "Технометрика" (“Technometrics”) виходить з 1959 р. і в основному присвячений технічним додаткам. Регресійний аналіз величини

, визначається за іншою величиною
, коли
важко вимірити, а
достатньо легко, досить важливий.

2.6.2 Парадокси

Припустимо, що залежність двох величин виражається функцією наступного вигляду

, (наприклад,
), де невідомі тільки параметри
(а функція відома, наприклад, лінійна квадратична і т.д.). Якщо ми можемо виміряти значення
тільки з випадковими похибками спостережень, тобто замість
ми спостерігаємо значення
, які схильні до помилок, то згідно з методом найменших квадратів оцінки невідомих параметрів
мінімізують суму квадратів

2.6.2.1 Якщо

, то оцінка параметра
мінімізує суму квадратів

(2.6.2.1 1)

У цьому випадку задача обчислення рівняння регресії звичайно спрощується, якщо обчислити логарифм від обох членів різниці, які знаходяться у дужках, і мінімізувати таку суму квадратів

(2.6.2.1 2)

Але ці два підходи до мінімізації дають різні оцінки. Який вихід з цієї парадоксальної ситуації?

2.6.2.2 Припустимо, що тип функції

можна обрати різними способами, наприклад,
- це багаточлен, а
- експоненціальна функція. Оберемо той тип, для якого вказана вище сума квадратів менша (при оптимальному виборі параметрів). Хоча цьому принципі часто віддають перевагу на практиці, звичайно він не виправданий (іноді необхідно встановлювати хоча б теоретичну можливість такого вибору).

2.6.2.3 Нехай

- теоретична лінія регресії та
, де
(
) - незалежні нормально розподілені похибки з математичним сподіванням
і дисперсією
(
- невідома константа). Тепер припустимо, що спостереження ідеально погоджуються з лінією регресії, тобто
для деякого
та

Тоді оцінка параметра

за методом найменших квадратів дорівнює
, але, як не парадоксально, вона не є "найкращою" оцінкою (у сенсі максимальної правдоподібності).

2.6.3 Пояснення парадоксів

2.6.3.1 Методу найменших квадратів відповідає перша сума квадратів. Розглянемо мінімізацію суми квадратів

де

- монотонно зростаюча функція (наприклад,
). Добрий вибір
"лінеаризує" задачу, тобто вираз для
є лінійною функцією від невідомих параметрів
(у цьому випадку легко знаходяться оптимальні значення для
). Якщо ми хочемо визначити невідомі параметри
, користуючись методом найменших квадратів, то ймовірно, краще обрати другий спосіб. Але іноді треба мінімізувати все ж вихідну суму, наприклад, коли відомо, що наслідком помилки є фінансові втрати, пропорційні цій сумі, хоча така ймовірність зовсім не типова.

2.6.3.2 Перша частина питання дуже проста: сума квадратів може виявитися менша для

, ніж для
, але якщо взяти більше вибіркових значень, то сума квадратів стає менша при виборі
.

Математична статистика намагається уникати подібних нестійких ситуацій. Існує декілька методів прийняття рішень, які застосовні у ряді випадків і вказують вибір із заданою надійністю, наприклад, 99% (тобто функція

відкинута, то ймовірність того, що вірним є вибір
, дорівнює 1%).

2.6.3.3 Оцінка

не підходить, оскільки тоді оцінка для
дорівнювала б нулю, що суперечить умові

.

Більш виправданою буде оцінка (максимальної правдоподібності)

.

2.7 Парадокси достатності

2.7.1 Історія парадоксу

Достатність є одним з найважливіших понять в математичній статистиці. Поняття достатності введено Р. Фішером в 20-х роках XX століття. Він виходив з того, що для статистичного оцінювання невідомих параметрів не завжди треба знати всі елементи вибірки. Достатньо знати деякі функції від вибірки, які й називаються достатніми статистиками. Наприклад, в разі одновимірного нормального розподілу вся інформація про його математичне сподівання зосереджується в середньому арифметичному

елементів вибірки
. Це випливає з того факту, що розподіл випадкового вектора
не залежить від невідомого математичного сподівання, і тому із знання випадкових величин
ми не отримаємо про математичне сподівання жодній додатковій інформації.

Означення. Функції

називаються достатньою статистикою для параметра

розподілу, загального для всіх випадкових величин
, якщо спільний розподіл величин
при фіксованих
не залежить від
.

Спільна умовна щільність незалежних випадкових величин

при
дорівнює

,

(де через

позначають стандартне відхилення величини
), і ця щільність не залежить від
.

2.7.2 Парадокс

У 1934 р. Фішер вказав на такий парадокс. Він вивчав двовимірний нормальний розподіл, координати якого були (для простоти) незалежними випадковими величинами з одиничною дисперсією. Невідомими були лише їх математичні сподівання. Середнє арифметичне

двовимірної вибірки є достатньою статистикою для невідомої пари математичних сподівань. Припустимо, що відома відстань між математичним сподіванням (що розглядається як вектор) і початком координат, тобто нехай, наприклад,
дорівнює 3. Тоді