Смекни!
smekni.com

Анализ выживаемости в системе Statistica (стр. 4 из 5)

Еще раз подчеркнем, что в общем случае таблица времен жизни дает хорошее представление о распре­делении смертей (отказов – в технике) во времени, если наблюдений достаточно много (как минимум 30).

1.3. Аппроксимация эмпирических данных теоретическим распределением.

Для целей прогноза часто необходимо знать аналитическую форму построенной функции выживания. Для описания продолжительности жизни в анализе выживаемости наиболее важны и часто используемы следующие семейства распределений: экспоненциальное распределение (в том числе модель с линейной интенсивностью), распределение Вейбулла (экстремальных значений) и распределение Гомперца.

Существует два основных метода подгонки теоретического распределения к сгруппированным данным.

Первый подход состоит в интерполяции, т.е. в переводе таблицы времен жизни в непрерывный массив данных, при этом предполагается, что:

(1) каждый отказ происходит в середине интервала группировки,

(2) цензурирование происходит после отказов (т.е. цензурированные наблюдения располагаются за отказами в каждом интервале группировки). Данный метод применим в ситуациях, когда интервалы группировки относительно малы.

Во втором подходе имеющиеся данные рассматриваются как таблица времен жизни. Для проведения оценивания параметров применима модель линейной регрес­сии, т.к. все перечисленные семейства распределений могут быть сведены к линейным относительно оцениваемых параметров с помощью соответствующих преобразований. Поэтому процедура оценивания основана на методе наименьших квадратов.

Однако, такие преобразования приводят иногда к тому, что дисперсия остатков зависит от интервалов (то есть дисперсия различна на разных интервалах). Чтобы учесть это, в алгоритмах подгонки дополнительно используются оценки метода взвешенных наименьших квадратов двух типов. Программа по умолчанию сама выбирает те из них, которые производят лучшую аппроксимацию (на основе критерия c²). На практике оба подхода приводят к очень близким значениям оценок параметров. Возможно также для оценки параметров сгруппированных данных применение метода максимального правдоподобия.

В модуле Анализ выживаемости (Survival Analysis) предусмотрена возможность аппроксимировать данные основными семействами распределений, используя либо обычный метод наименьших квадратов, либо две его модификации с весами.

Чтобы выбрать наиболее подходящее семейство распределений из имеющегося в арсенале исследователя списка, сначала рассмотрим модель экспоненциального распределения (выбрав позицию Экспоненциальный (Exponential) в выпадающем списке поля Результаты для модели (Results for Model)). Кроме того, в этом поле имеется возможность выбрать следующие модели распределений: модель с линейной интенсивностью (Linear Hazard), модель Гомпертца (Gompertz) и модель Вейбулла (Weibull).

Оценка согласия теоретического и эмпирического распределений проводится с помощью критерия c².

Чтобы определить оценки для выбранного семейства распределений, а также значение c², нажимаем кнопку Оценки параметров (Parameter estimates).

Таблица 4

Процедура оценки параметров экспоненциального распределения

Если критерий значим, делается вывод о том, что подогнанное (теоретическое) распределение значимо отличается от эмпирического (как в данном примере), поэтому это семейство распределений отвергается для описания формы функции выживания.

Из приведенной таблицы видно, что ни один из представленных методов оценивания (подгонки) не даёт для экспоненциального распределения удовлетворительного согласия. Такую же картину можно наблюдать на приведенном ниже графике эмпирической функции выживания и кривых экспоненциального распределения: ни одна из трех экспонент (соответствующих трем различным алгоритмам оценивания) не аппроксимирует наблюдаемую функцию выживания удовлетворительно. Эмпирическая функция выживания сильно отклоняется от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации.

Рис.3. Графическое представление эмпирической функции выживания и теоретических кривых экспоненциального распределения.

Теперь рассмотрим модель с линейной интенсивностью (Linear Hazard).

Таблица 5

Процедура оценки параметров линейного распределения

Рис.4. Графическое представление эмпирической функции выживания и теоретических кривых линейного распределения.

Эмпирическая функция выживания сильно отклоняется от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации.

Теперь рассмотрим модель Гомпертца (Gompertz).

Таблица 6

Процедура оценки параметров распределения Гомпертца

Рис.5. Графическое представление эмпирической функции выживания и теоретических кривых распределения Гомпертца.

Эмпирическая функция выживания сильно отклоняется от первой аппроксимирующей функции (Weight 1); согласованность с двумя другими теоретическими кривыми (Weight 2, Weight 3) лучше, но всё же необходимо продолжить поиск лучшей аппроксимации.

Наконец, рассмотрим модель Вейбулла (Weibull).

Таблица 7

Процедура оценки параметров распределения Вейбулла

Сравнив оценки параметров для остальных семейств распределений, предлагаемых системой «Statistica», можно сделать вывод, что только для распределения Вейбулла (при оценивании по минимуму суммы взвешенных квадратов, т.е. по третьему алгоритму Weight 3) отсутствует значимое отличие от наблюдаемых значений: c²-критерий не даёт значимого отклонения (p=0,58). Следовательно, распределение Вейбулла с таким набором параметров описывает наблюдаемые времена жизни наилучшим образом. Однако стоит заметить, что исследователь ограничен в выборе лишь из трех представленных наборов параметров.

Ниже представлены графики функции выживания для семейства распределений Вейбулла, подогнанные на основе трех алгоритмов (Weight1, Weight2, Weight3).

Рис.5. Графическое представление эмпирической функции выживания и теоретических кривых распределения Гомпертца.

В заключение отметим, что имеется возможность анализировать в качестве исходных табулированные данные. Для этого нужно выбрать закладку Таблица времен жизни (Table of Survival Times) в диалоговом окне Таблицы и распределения времен жизни. В этом случае файл с табулированными данными должен содержать три переменные со следующей информацией:

а) нижняя граница временных интервалов;

б) количество цензурированных наблюдений;

в) число отказов (умерших) в каждом временном интервале.

Если не удается получить хорошую подгонку к наблюдаемым данным, то для определения формы функции надежности можно использовать независимые от распределения методы оценки параметров, т.н. непараметрические оценки (доступные в окне результатов). В этом случае предусмотрен метод Каплана-Майера, позволяющий получить оценку предела функции надежности (выживания). Эта оценка не зависит от предположения о природе распределения исходных данных.

II. Оценки Каплана–Майера

Как указывалось выше, одна из задач анализа выживаемости состоит в оценке функции выживания S(t).

Если все наблюдения являются полными (completed), то оценка S(t) строится просто: подсчитывается количество пациентов, проживших t дней после проведения операции, и делится на общее число пациентов. При наличии неполных (censored) наблюдений ситуация усложняется: требуется строить таблицу времен жизни (механизм ее построения был подробно изложен в предыдущем параграфе).

В случае цензурированных (но не группированных) наблюдений имеется также возможность оценить функцию выживания непосредственно, не используя таблицу времен жизни. Такой метод впервые был предложен Капланом и Майером (Kaplan & Meier (1958)). .

Его основная идея состоит в следующем. Пусть массив исходных данных содержит зафиксированные последовательно в хронологическом поряд­ке отдельные наблюдения (события). Если исходить из того, что каждое наблюдение содержит точно один временной интервал, то перемножая вероятности выживания в каждом интервале получим следующую формулу для функции выживания: