У класичній теорії математичної статистики припускається, що вибіркові значення (спостереження) заздалегідь відомі. В основі одного з важливіших напрямків сучасної статистики лежить розуміння того, що не треба фіксувати заздалегідь обсяг вибірки, його слідує визначати в залежності від результатів більш ранніх спостережень. Таким чином, обсяг вибірки випадковий. Ця ідея послідовного вибору поступово розвивалася у роботах Г. Доджа та Г. Роміга (1929 р), П. Махалонобіса (1940 р), Г. Хотеллінга (1941 р) та У. Бєрткі (1943 р), але дійснім засновником теорії послідовного аналізу в математичній статистиці є А. Вальд (1902-1950). Його послідовний критерій відношення правдоподібності (1943 р) став важливим відкриттям, яке дозволило (у типових ситуаціях) на 50% зменшити середню кількість спостережень (за тих же умов помилок). Не дивно, що в роки другої світової війни відкриття Вальда було оголошено "секретним". Його основна книга "Послідовний аналіз" опублікована лише у 1947 р. Рік потому Вальд та Дж. Волфовіц довели, що методи, які відрізняються від послідовного критерію правдоподібності, не дають такого зменшення числа елементів вибірки. Але і в цій області виявились парадокси. Розглянемо парадокс, який належить К. Стейну, хоча цей парадокс відноситься до двохшагових критеріїв, а не до послідовних.
Нехай

- вибірка незалежних нормально розподілених випадкових величин з спільним невідомим математичним сподіванням

та спільним невідомим стандартним відхиленням

. На основі цієї вибірки будемо розрізнювати наступні нульову та альтернативну гіпотези. Нульова гіпотеза полягає у тому, що

(де

- деяке задане число), а альтернативна - у тому, що

. Нехай

і

Такі гіпотези

та

розрізняють за допомогою

- критерію Стьюдента. Згідно

- критерію нульова гіпотеза не відхиляється або відхиляється в залежності від того, близько значення

до 0 чи ні. У 1940 р.Г. Данциг показав, що при заданій ймовірності помилки 1-го роду ймовірність помилки 2-го роду для будь - якого вирішального правила залежить від невідомого стандартного відхилення

. Парадоксально, але через 5 років К. Стейн довів, що якщо обсяг вибірки

не фіксувати заздалегідь, а визначати по вже отриманим елементам вибірки (як у послідовному аналізі Вальда), то існує

- критерій, для якого (при заданій імовірності помилки 1-го роду) імовірність помилки 2-го роду не залежить від невідомого стандартного відхилення

(а залежить лише від різниці

).
На першому кроці візьмемо вибірку

, де

- деяке фіксоване число. Вибіркова дисперсія визначається формулою

Припустимо, що обсяг вибірки

залежить від величини

та заздалегідь фіксованого числа

наступним чином:

де дужки

означають цілу частину дійсного числа. Оберемо додатні числа

так, що

,

та

,
та спробуємо розрізнити гіпотези

та

за допомогою статистики

де

Очевидно, що при заданому

випадкова величина

нормально розподілена з математичним сподіванням

та дисперсією

З іншого боку розподіл величини

(для довільного

) збігається з розподілом суми квадратів

незалежних стандартних нормальних випадкових величин (тобто з хі-квадрат розподілом

), який не залежить від

. Отже, розподіл величини

також не залежить від

, тому

залежить лише від

, але не від

.
2.10.4.1 Розподіл випадкової величини

не є нормальним, оскільки

не число, а випадкова величина. (Якщо б значення стандартного відхилення було б відомим, та ми б поставили це значення замість

, то розподіл випадкової величини

було б стандартним нормальним) Це чудове спостереження та аналіз випадкової величини

у 1908 р. опублікував Стьюдент, він же Уїльям Д. Госсет. (З 1899 р. він працював у Дубліні на пивоварному заводі Гіннесса, і його начальник наполіг на тому, щоб Госсет писав під псевдонімом) Досить довго ніхто не усвідомлював важливості статті Стьюдента. (Навіть у 1922 р.Р. Фішер був єдиним, як стверджував Стьюдент, хто використовував

- розподіл. У дійсності, саме Фішер вперше позначив розподіл Стьюдента через

у своїй книзі, яка вийшла у 1925 р. сам Стьюдент використовував символ

, проте не для позначення величини

, а для

)