Следующая за ней переменная в столбце 8 (AGE) характеризует возраст пациентов.
Переменные в 9-м и 10-м столбцах содержат специальную медицинскую информацию об особенностях операции (ANTIGEN, MISMATCH).
Значение переменной в столбце 11 указывает на название клиники, где была сделана операция.
Файл исходных данных содержит 64 наблюдения, т.е. данные о 64 пациентах трех клиник.
1.2. Построение таблиц времени жизни
На основе данных таблиц времен жизни (таблиц смертности - в терминологии страхования) определяется ряд элементарных статистик, необходимых для описания времени жизни пациентов (клиентов - в страховании).
В некоторых случаях времена отказов (failure time) представляются в виде сгруппированных данных. Это объясняется тем, что во многих реальных исследованиях сложно оценить время отказов с достаточной точностью, однако можно определить, сколько отказов произошло или сколько наблюдений было цензурировано в течение определенного интервала времени. Такого рода данные называются таблицами времен жизни.
Таблицу времен жизни подобного вида можно рассматривать как «расширенную» таблицу частот. Область возможных времен наступления критических событий (смертей или отказов, в зависимости от предмета исследования) разбивается на определенное число интервалов. Для каждого интервала определяются количество и доля индивидов, которые были живы в начале рассматриваемого временного периода и тех, которые выбыли из наблюдения на данном интервале, а также тех, связь с которыми была утеряна по той или иной причине, т.е. цензурированные. Таким образом, отличие от обычной таблицы частот заключается в том, что она строится по полным наблюдениям, а в таблице жизни учитываются как полные, так и неполные (цензурированные) наблюдения.
Количество интервалов на временной оси пользователь может задать самостоятельно. В приведенной ниже таблице это число равно 12 (с учетом того, что стандартный период наблюдения за пациентом составляет обычно 1 год).
Применительно к страхованию, область возможных времен наступления страховых случаев разбивается на некоторое число интервалов, а затем для каждого из них вычисляются доли объектов, у которых на данном интервале наступил страховой случай.
В модуле «Анализ выживаемости» предусмотрена возможность, обрабатывать как непосредственно файл первичных данных, так и сгруппированные данные. Ниже приведена таблица времен жизни, полученная в результате обработки исходной информации:
Таблица 2
Таблица времен жизни
Обратимся к интерпретации переменных, составляющих содержание полученной электронной таблицы времен жизни (по столбцам):
· Номер интервала (Interval/Intno=Interval Number) для сгруппированных данных.
· Нижняя граница интервала (Interval Start)
· Середина интервала (Mid Point)
· Ширина интервала (Interval Width)
· Число в начале (Number Entering)
Число пациентов, которые были живы в начале рассматриваемого временного интервала.
· Число изъятых (Number Withdrwn) объектов
Число пациентов, связь с которыми была утеряна (т.е. изъятых из дальнейшего рассмотрения после того, как они выписались/перевелись из данной клиники). Эти объекты имеют метку цензурированные (censored) в файле исходных данных.
· Число изучаемых (Number Exposed) объектов
Число пациентов, которые были живы в начале рассматриваемого временного интервала, за вычетом половины от числа изъятых (цензурированных).
· Число умерших (Number Dying)
Число пациентов, умерших на данном отрезке времени (интервалe). Умершие объекты имеют метку complete.
· Доля умерших (Proportn Dead)
Отношение числа объектов, умерших в соответствующем интервале, к общему числу объектов, попавших в этот интервал.
Таблица 3
Таблица времен жизни (окончание)
· Кумулятивная доля выживших объектов или функция выживания (Cum. Prop Survivng)
Это кумулятивная доля выживших к началу соответствующего временного интервала. Полученная доля, как функция от времени, представляет собой оценку функции выживания, то есть вероятность того, что пациент переживет данный период времени. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам.
· Плотность вероятности (Problty Density)
Это оценка вероятности смерти (отказа) на соответствующем интервале. Получается в результате вычитания из значения функции выживания на данном интервале значения функции выживания на следующем интервале с последующим делением на ширину соответствующего интервала:
где
- оценка вероятности смерти (отказа) в i-м интервале, - кумулятивная доля выживших объектов (функция выживания) к началу i-го интервала, - ширина i-го интервала.Например, значение второй строки столбца Problty Density рассчитывается следующим образом:
.На графике оценки плотности вероятности видно, что вероятность смерти в первые 160 дней после операции максимальна. Далее она резко падает.
Большие вероятности смерти расположены также в интервалах от 161 до 332, от 968 до 1129 и т.д.
Рис. 1. Функция плотности вероятности смерти.
· Функция мгновенного риска или функция интенсивности (Hazard Rate)
Это одна из важных характеристик, описывающих течение болезни, обладающая хорошими прогностическими свойствами. В общем случае формально она соответствует вероятности наступления отказа в течение малого интервала времени [t, t+dt), при условии, что до момента t отказ не произошел. В терминах анализа выживаемости значение функции интенсивности соответствует вероятности того, что пациент умрет на данном временном интервале, при условии, что в начале интервала он был жив.
Оценка функции интенсивности вычисляется как число смертей (отказов), приходящихся на единицу времени соответствующего интервала, деленное на среднее число пациентов (объектов), доживших до момента времени, приходящегося на середину этого интервала.
Рис. 2. Функция мгновенного риска.
График функции мгновенного риска наглядно свидетельствует о том, что в первые дни после операции на сердце риск смерти очень велик, затем он значительно падает до 322 дня, а спустя некоторое время вновь начинает возрастать до 806 дня, затем резко возрастает до 968 дня, после этого идет столь же резкое падение вероятности смерти до 1129 дня, после чего функция вновь начинает резкий рост. Заметим, что именно функция риска используется исследователем в дальнейшем для прогностических целей.
Итак, исследователя интересует функция риска, однако реально возможно получить лишь оценку функции риска. Поэтому важна точность получаемых оценок. Понятно, что нельзя доверять оценкам, имеющим большую погрешность (например, если погрешность имеет тот же порядок, что и сами оценки). Поэтому следует внимательно просмотреть построенную таблицу и, если позволяет объем выборки, удалить из неё все «плохие» оценки, т.е. оценки с большой погрешностью. Это чрезвычайно важный принцип анализа данных!
С этой целью в таблице наряду с оценками приведены их стандартные ошибки для каждой из трех описанных выше функций (Std. Err. Cum. Proportion Surviving, Probability Density, Hazard Rate).
Замечание. Для получения надежных оценок параметров трех вышеназванных основных функций (функции выживания, плотности вероятности и интенсивности) и их стандартных ошибок на каждом временном интервале в таблицах времен жизни требуется, чтобы исходный файл содержал не менее 30 наблюдений.
· Медиана ожидаемого времени жизни (Median Life Exp)
По определению, медиана соответствует точке на временной оси, в которой кумулятивная функция выживания принимает значение 0,5. Например, из первой строчки таблицы столбца Median Life Exp видно, что пациент с вероятностью 0,5 будет жить 842 дня после операции. Если пациент пережил первый временной интервал (161 день после операции на сердце), то с вероятностью 0,5 он проживет еще 1037 дней, что соответствует второй строке таблицы и т.д. Другие процентили (например, 25-й и 75-й процентили или квартили) кумулятивной функции выживания вычисляются по такому же принципу. Следует иметь ввиду, что 50-й процентиль (медиана) кумулятивной функции выживания обычно не совпадает с точкой выживания 50% наблюдений данной выборки! Такое совпадение возможно только тогда, когда в течение прошедшего отрезка времени не было цензурированных наблюдений