Смекни!
smekni.com

Парадокси в математичній статистиці (стр. 10 из 22)

Зауваження. Вибіркова дисперсія

при відомому математичному сподіванні

є ефективною оцінкою для
. Оцінка ж
не є ефективною оцінкою для
. Ефективної оцінки для
(при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра
нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.

2.5 Парадокс кореляції

2.5.1 Історія парадоксу

До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин

і
кореляція визначається таким чином. Нехай
і
,
і
позначають математичне сподівання і стандартне відхилення
і
відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для
і
визначається формулою

(2.5.1.1)

Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між

і
існує лінійна залежність, тобто
. Якщо
і
незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції
, як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою
так:

(2.5.1.2)

У ряді випадків

добре описує зв'язок між
і
, але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для
і
може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.

2.5.2 Парадокси

2.5.2.1 Нехай випадкова величина

рівномірно розподілена на інтервалі
і
. Очевидно, що між
і
існує тісний зв'язок, проте їх кореляція
. (Кореляція для
і
завжди дорівнює нулеві, коли
- випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)

2.5.2.2 Нехай

- величини температуру в кімнаті в
різних моментів часу і
- кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для
і У строго додатна.

Проте кореляція може виявитися від’ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.

2.5.2.3 Нехай випадковий вектор

розподілений нормально, тобто щільність має вигляд

де

- математичне сподівання і дисперсія величин
і
, а
- їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції
ми можемо оцінити її за допомогою

,

використовуючи

вибіркових значень. Якщо
і
відомі, то доцільно у формулі для
замінити
і
відповідно на
і
. Таким шляхом отримаємо нову оцінку

.

Оскільки

використовує більше інформації (а саме, значення величин
і
) можна було б чекати, що дисперсія в
менше, ніж в
.