МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РФ
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ
Курсовая работа:
«Анализ выживаемости в системе «Statistica»
Исполнитель:
Егоров Т.П.
гр. ДЭС-401
Преподаватель:
Иванова Л.В.
Москва, 2008
Содержание
Основные проблемы анализа выживаемости……………………………..……3
I. Таблицы времён жизни …………… …………… …………… …………… ..4
1.1 Исходные данные………………………………………………………….….4
1.2 Построение таблиц времён жизни……………………………………...……6
1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11
II. Оценки Каплана-Майера…………………………………………………..…17
III. Сравнение выживаемости в группах…………………………………….…21
Список литературы………………………………………………………………23
Основные проблемы анализа выживаемости
Методы анализа выживаемости (Survival Analisis) первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали шароко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и время отказов)
Одной из важных характеристик, описывающих течение болезни, является продолжительность жизни пациентов с момента поступления в клинику или после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными.
Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, т. е. анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные или цензурированные данные. Наблюдения, которые содержат неполную информацию, называются неполными или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называется полными.
Итак, в анализе выживаемости различают полные (по-английски complete) и неполные, или цензурированные, наблюдения (по-английски censored). Конечно, можно было использовать только полные времена жизни, но тогда мы имели бы в своем распоряжении очень мало наблюдений и соответственно неточные оценки. Использование, наряду с полными наблюдениями, неполных или цензурированных наблюдений является главной особенностью методов анализа выживаемости.
I.Таблицы времён жизни
1.1. Исходные данные
Таблица 1
Данные о пациентах, перенесших операцию на сердце
MONTH_1 | DAY_1 | YEAR_1 | MONTH_2 | DAY_2 | YEAR_2 | CENSORED | AGE | ANTIGEN | MISMATCH | HOSPITAL | |
1 | JANUARY | 6 | 68 | JANUARY | 21 | 68 | CENSORED | 54 | 0 | 1,11 | HILLVIEW |
2 | MAY | 2 | 68 | MAY | 5 | 68 | CENSORED | 40 | 0 | 1,66 | HILLVIEW |
3 | AUGUST | 31 | 68 | MAY | 17 | 70 | COMPLETE | 51 | 0 | 1,32 | HILLVIEW |
4 | SEPTEMBR | 9 | 68 | JANUARY | 14 | 69 | CENSORED | 48 | 0 | 0,36 | ST_AND |
5 | OCTOBER | 5 | 68 | DECEMBER | 8 | 68 | COMPLETE | 54 | 0 | 1,89 | ST_AND |
6 | OCTOBER | 26 | 68 | JULY | 7 | 72 | COMPLETE | 54 | 0 | 0,87 | BINER |
7 | NOVEMBER | 22 | 68 | AUGUST | 29 | 69 | COMPLETE | 49 | 0 | 1,12 | BINER |
8 | NOVEMBER | 20 | 68 | DECEMBER | 13 | 68 | CENSORED | 56 | 0 | 2,05 | HILLVIEW |
9 | FEBRUARY | 15 | 69 | FEBRUARY | 25 | 69 | COMPLETE | 55 | 1 | 2,76 | HILLVIEW |
10 | FEBRUARY | 8 | 69 | NOVEMBER | 29 | 71 | COMPLETE | 43 | 0 | 1,13 | BINER |
11 | MARCH | 29 | 69 | MAY | 7 | 69 | COMPLETE | 42 | 0 | 1,38 | HILLVIEW |
12 | APRIL | 13 | 69 | APRIL | 13 | 71 | COMPLETE | 58 | 0 | 0,96 | ST_AND |
13 | JULY | 16 | 69 | NOVEMBER | 29 | 69 | COMPLETE | 52 | 1 | 1,62 | ST_AND |
14 | MAY | 22 | 69 | APRIL | 1 | 74 | CENSORED | 33 | 0 | 1,06 | ST_AND |
15 | AUGUST | 16 | 69 | AUGUST | 17 | 69 | CENSORED | 54 | 0 | 0,47 | BINER |
16 | SEPTEMBR | 3 | 69 | DECEMBER | 18 | 71 | COMPLETE | 44 | 0 | 1,58 | BINER |
17 | SEPTEMBR | 14 | 69 | NOVEMBER | 13 | 69 | COMPLETE | 64 | 0 | 0,69 | HILLVIEW |
18 | JANUARY | 16 | 70 | APRIL | 1 | 74 | CENSORED | 49 | 0 | 0,91 | BINER |
19 | JANUARY | 3 | 70 | APRIL | 1 | 74 | CENSORED | 40 | 0 | 0,38 | HILLVIEW |
20 | MAY | 19 | 70 | JULY | 12 | 70 | COMPLETE | 49 | 0 | 2,09 | HILLVIEW |
21 | MAY | 13 | 70 | JUNE | 29 | 70 | COMPLETE | 61 | 1 | 0,87 | ST_AND |
22 | MAY | 9 | 70 | MAY | 9 | 70 | CENSORED | 41 | 0 | 0,87 | ST_AND |
23 | JULY | 4 | 70 | APRIL | 1 | 74 | CENSORED | 48 | 0 | 0,75 | BINER |
24 | OCTOBER | 15 | 70 | APRIL | 1 | 74 | CENSORED | 45 | 0 | 0,98 | BINER |
25 | JANUARY | 5 | 71 | FEBRUARY | 18 | 71 | CENSORED | 36 | 0 | 0,00 | ST_AND |
26 | JANUARY | 11 | 71 | OCTOBER | 1 | 73 | COMPLETE | 48 | 0 | 0,81 | BINER |
27 | FEBRUARY | 22 | 71 | APRIL | 14 | 71 | COMPLETE | 47 | 0 | 1,38 | HILLVIEW |
28 | MARCH | 22 | 71 | APRIL | 1 | 74 | CENSORED | 36 | 0 | 1,35 | HILLVIEW |
29 | APRIL | 24 | 71 | JANUARY | 2 | 72 | COMPLETE | 48 | 1 | 1,08 | HILLVIEW |
30 | AUGUST | 18 | 71 | OCTOBER | 8 | 71 | COMPLETE | 52 | 0 | 1,51 | ST_AND |
31 | NOVEMBER | 8 | 71 | APRIL | 1 | 74 | CENSORED | 38 | 0 | 0,98 | ST_AND |
32 | OCTOBER | 13 | 71 | AUGUST | 30 | 72 | COMPLETE | 48 | 1 | 1,82 | ST_AND |
33 | DECEMBER | 15 | 71 | APRIL | 1 | 74 | CENSORED | 41 | 0 | 0,19 | BINER |
34 | NOVEMBER | 20 | 71 | JANUARY | 9 | 72 | COMPLETE | 49 | 0 | 0,66 | BINER |
35 | JANUARY | 7 | 72 | APRIL | 1 | 74 | CENSORED | 32 | 1 | 1,93 | BINER |
36 | MARCH | 4 | 72 | SEPTEMBR | 6 | 73 | CENSORED | 48 | 0 | 0,12 | HILLVIEW |
37 | MARCH | 17 | 72 | MAY | 22 | 72 | COMPLETE | 51 | 0 | 1,12 | HILLVIEW |
38 | MAY | 18 | 72 | JANUARY | 1 | 73 | CENSORED | 19 | 0 | 1,02 | HILLVIEW |
39 | APRIL | 9 | 72 | JUNE | 13 | 72 | COMPLETE | 45 | 1 | 1,68 | ST_AND |
40 | JUNE | 10 | 72 | APRIL | 1 | 74 | CENSORED | 48 | 0 | 1,20 | ST_AND |
41 | JUNE | 21 | 72 | JULY | 16 | 72 | COMPLETE | 53 | 1 | 1,68 | ST_AND |
42 | AUGUST | 20 | 72 | APRIL | 1 | 74 | CENSORED | 47 | 0 | 0,97 | BINER |
43 | AUGUST | 17 | 72 | APRIL | 1 | 74 | CENSORED | 26 | 1 | 1,46 | BINER |
44 | OCTOBER | 7 | 72 | DECEMBER | 9 | 72 | COMPLETE | 56 | 1 | 2,16 | BINER |
45 | SEPTEMBR | 22 | 72 | OCTOBER | 4 | 72 | CENSORED | 29 | 0 | 0,61 | HILLVIEW |
46 | NOVEMBER | 18 | 72 | APRIL | 1 | 74 | CENSORED | 52 | 1 | 1,70 | HILLVIEW |
47 | MAY | 31 | 73 | APRIL | 1 | 74 | CENSORED | 49 | 0 | 0,81 | HILLVIEW |
48 | FEBRUARY | 4 | 73 | MARCH | 5 | 73 | COMPLETE | 54 | 0 | 1,08 | ST_AND |
49 | DECEMBER | 31 | 72 | APRIL | 1 | 74 | CENSORED | 46 | 0 | 1,41 | ST_AND |
50 | JANUARY | 17 | 73 | APRIL | 1 | 74 | CENSORED | 52 | 1 | 1,94 | ST_AND |
51 | FEBRUARY | 24 | 73 | APRIL | 13 | 73 | CENSORED | 53 | 0 | 3,05 | BINER |
52 | MARCH | 7 | 73 | DECEMBER | 29 | 73 | COMPLETE | 42 | 0 | 0,60 | BINER |
53 | MARCH | 8 | 73 | APRIL | 1 | 74 | CENSORED | 48 | 1 | 1,44 | BINER |
54 | MAY | 19 | 73 | JULY | 8 | 73 | COMPLETE | 46 | 0 | 2,25 | HILLVIEW |
55 | APRIL | 27 | 73 | APRIL | 1 | 74 | CENSORED | 54 | 0 | 0,68 | HILLVIEW |
56 | AUGUST | 21 | 73 | OCTOBER | 28 | 73 | COMPLETE | 51 | 1 | 1,33 | HILLVIEW |
57 | SEPTEMBR | 12 | 73 | OCTOBER | 8 | 73 | CENSORED | 52 | 1 | 0,82 | ST_AND |
58 | MARCH | 2 | 74 | APRIL | 1 | 74 | CENSORED | 45 | 0 | 0,16 | ST_AND |
59 | AUGUST | 7 | 73 | APRIL | 1 | 74 | CENSORED | 47 | 0 | 0,33 | ST_AND |
60 | SEPTEMBR | 17 | 73 | FEBRUARY | 25 | 74 | COMPLETE | 43 | 0 | 1,20 | BINER |
61 | OCTOBER | 16 | 73 | APRIL | 1 | 74 | CENSORED | 26 | 0 | 0,46 | BINER |
62 | DECEMBER | 12 | 73 | APRIL | 1 | 74 | CENSORED | 23 | 1 | 1,78 | BINER |
63 | MARCH | 19 | 74 | APRIL | 1 | 74 | CENSORED | 28 | 1 | 0,77 | HILLVIEW |
64 | MARCH | 31 | 74 | APRIL | 1 | 74 | CENSORED | 35 | 0 | 0,67 | ST_AND |
В строках располагаются данные о каждом из прооперированных пациентов. В столбцах указаны даты начала наблюдения за пациентом (дата поступления в клинику/дата операции) – первые три переменные, даты окончания наблюдения (пациент выписался, и связь с ним была потеряна или умер) – последние три переменные. Программа интерпретирует первую и четвёртую переменные как месяцы, вторую и пятую – как дни, а третью и шестую – как год. Имеется также возможность сразу ввести времена жизни (что соответствует одной переменной в файле данных, вместо шести указанных) или даты в другом формате (соответственно, две переменные: дата начала и дата окончания наблюдения).