Зауваження. Вибіркова дисперсія

при відомому математичному сподіванні

є ефективною оцінкою для

. Оцінка ж

не є ефективною оцінкою для

. Ефективної оцінки для

(при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра

нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.
До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин

і

кореляція визначається таким чином. Нехай

і

,

і

позначають математичне сподівання і стандартне відхилення

і

відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для

і

визначається формулою

(2.5.1.1)
Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між

і

існує лінійна залежність, тобто

. Якщо

і

незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції

, як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою

так:

(2.5.1.2)
У ряді випадків

добре описує зв'язок між

і

, але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для

і

може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.
2.5.2.1 Нехай випадкова величина

рівномірно розподілена на інтервалі

і

. Очевидно, що між

і

існує тісний зв'язок, проте їх кореляція

. (Кореляція для

і

завжди дорівнює нулеві, коли

- випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)
2.5.2.2 Нехай

- величини температуру в кімнаті в

різних моментів часу і

- кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для

і У строго додатна.
Проте кореляція може виявитися від’ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.
2.5.2.3 Нехай випадковий вектор

розподілений нормально, тобто щільність має вигляд

де

- математичне сподівання і дисперсія величин

і

, а

- їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції

ми можемо оцінити її за допомогою

,
використовуючи

вибіркових значень. Якщо

і

відомі, то доцільно у формулі для

замінити

і

відповідно на

і

. Таким шляхом отримаємо нову оцінку

.
Оскільки

використовує більше інформації (а саме, значення величин

і

) можна було б чекати, що дисперсія в

менше, ніж в

.