Парадокси в математичній статистиці (стр. 11 из 22)

Проте А. Стюарт обчислив, що

тоді як

таким чином, остання дисперсія більша.

2.5.3 Пояснення парадоксів

2.5.3.1 Якщо

незалежні, то

, але обернене твердження, взагалі кажучи, не вірне. Не корельовані випадкові величини можуть бути залежні, наприклад, як у вказаному вище прикладі, коли

. Тому "некорельованість" не слід розуміти як незалежність.

2.5.3.2 Не можна забувати про вплив температури поза кімнатою! Кореляції часто виходять абсолютно неймовірними тому, що обчислюваний коефіцієнт кореляції для двох випадкових величин викривляється третьою що "ззовні впливає". Якраз для того, щоб уникнути цих перешкод, було введено поняття частої кореляції. Якщо кореляція для

і У обчислюється лише після того, як вплив величини

виключено, то результат перестає бути парадоксальним. Нехай

позначають кореляції

лінійними випадковими величинами

та У,

та

, У та

відповідно. Тоді частинна кореляція для

і У без впливу

дорівнює

У частковому випадку, коли

часткова кореляція для

збігається з кореляцією

. Коли

невідомі, їх можна оцінити за вибіркою аналогічно тому, як це відбувалося для

. За допомогою цих оцінок отримаємо оцінку коефіцієнта частинної кореляції.

2.5.3.3 Парадокс Стюарта можна розглядати з різних точок зору. Головне полягає в тому, що оцінки

не є незміщеними оцінками для

, тобто рівність

невірні, тому недоцільно вважати кращою ту оцінку, в якої дисперсія менша.

Мал.2.5.3.3.1 Розглянемо випадкові величини

як вектори. Тоді кореляція для випадкових величин

дорівнює косінусу кута між векторами

, а їх частинна кореляція - косінусу кута між проекціями цих векторів на площину, перпендикулярну вектору

У той же час обидві оцінки

зміщені несильно (вони є асимптотично незміщеними), отже, для пояснення парадоксу потрібний додатковий аналіз.

2.5.4 Зауваження

Зсув оцінки

(у випадку двовимірного нормального розподілу) дорівнює

де

позначає вираз, який множенням на

, збігається до 0. Таким чином, зсув достатньо швидко прямує до 0 (при збільшенні обсягу вибірки

). З іншого боку, цікаво відзначити, що

є незміщеною оцінкою для

і, якщо

для деякої функції

, незалежної від

, то

, де

- довільні сталі. У 1958 р. І. Олкін і Дж. Пратт довели що, якщо оцінка коефіцієнта кореляції

явно залежить від

, то можна вказати незміщену оцінку для

, а саме

де

- гіпергеометрична функція, яка визначається формулою

де

є параметрами. А серед незміщених оцінок вже слід віддати перевагу тим, в яких дисперсія мінімальна. Можна показати, що оцінка

не лише є незміщеною, але і має найменшу дисперсію. Проте для практичних застосувань оцінка

достатньо складна, тому рекомендується використовувати її апроксимацію

2.6 Парадокси регресії

2.6.1 Історія парадокса

Коефіцієнт кореляції описує залежність між двома випадковими величинами одним числом, а регресія виражає цю залежність у вигляді функціонального співвідношення і тому дає більш повну інформацію. Наприклад, регресією є середня вага тіла людини як функція від його зросту. Поняття "регресія" запровадив Гальтон, який у кінці минулого століття порівнював зріст батьків зі зростом їх дітей. Він виявив, що зріст дітей у високих (або низьких) батьків звичайно вище (або нижче) середнього, але не співпадає зі зростом батьків. Лінія, яка показує, у якій мірі зріст (та інші характеристики) регресують (відновлюються) у середньому у наступних поколіннях, була названа Гальтоном лінією регресії.

Мал.2.6.1. Лінія регресії Гальтона.

Пізніше регресією стали називати будь-яку функціональну залежність між випадковими величинами. Спочатку регресійний аналіз застосовувався у біології і найважливішим науковим журналом, у якому висвітлювалась ця тема, був журнал "Біометрика" (“Biometrika”), який виходив з жовтня 1901 р. Між 1920 та 1930 р. великого значення набуло використання регресійного аналізу у економіці та виникла нова галузь науки: економетрика (термін належить Р. Фрищу (1926), який пізніше отримав Нобелевську премію). Від вивчення часткових регресійних задач дослідники поступово перейшли до регресійного аналізу структури, яка властива глобальним економічним системам. (Дж. Кейнс, Я. Тінберг та інші, наприклад, Р. Клейн, якому у 1980 р. присуджена Нобелевська премія з економіки).