Зауваження. Вибіркова дисперсія
при відомому математичному сподіванні
є ефективною оцінкою для . Оцінка ж не є ефективною оцінкою для . Ефективної оцінки для (при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин
і кореляція визначається таким чином. Нехай і , і позначають математичне сподівання і стандартне відхилення і відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для і визначається формулою (2.5.1.1)Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між
і існує лінійна залежність, тобто . Якщо і незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції , як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою так: (2.5.1.2)У ряді випадків
добре описує зв'язок між і , але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для і може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.2.5.2.1 Нехай випадкова величина
рівномірно розподілена на інтервалі і . Очевидно, що між і існує тісний зв'язок, проте їх кореляція . (Кореляція для і завжди дорівнює нулеві, коли - випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)2.5.2.2 Нехай
- величини температуру в кімнаті в різних моментів часу і - кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для і У строго додатна.Проте кореляція може виявитися від’ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.
2.5.2.3 Нехай випадковий вектор
розподілений нормально, тобто щільність має виглядде
- математичне сподівання і дисперсія величин і , а - їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції ми можемо оцінити її за допомогою ,використовуючи
вибіркових значень. Якщо і відомі, то доцільно у формулі для замінити і відповідно на і . Таким шляхом отримаємо нову оцінку .Оскільки
використовує більше інформації (а саме, значення величин і ) можна було б чекати, що дисперсія в менше, ніж в .