Главная      Учебники - Экономика     Лекции по маркетингу - часть 8

 

поиск по сайту            

 

 

 

 

 

 

 

 

 

содержание   ..  379  380  381   ..

 

 

Анализ выживаемости в системе Statistica

Анализ выживаемости в системе Statistica

МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РФ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ

Кафедра математической статистики и эконометрики

:

«Анализ выживаемости в системе « Statistica »

Исполнитель:

Егоров Т.П.

гр. ДЭС-401

Преподаватель:

Иванова Л.В.

Москва, 2008

Содержание

Основные проблемы анализа выживаемости……………………………..……3

I. Таблицы времён жизни …………… …………… …………… …………… ..4

1.1 Исходные данные………………………………………………………….….4

1.2 Построение таблиц времён жизни……………………………………...……6

1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11

II. Оценки Каплана-Майера…………………………………………………..…17

III. Сравнение выживаемости в группах…………………………………….…21

Список литературы………………………………………………………………23

Основные проблемы анализа выживаемости

Методы анализа выживаемости (Survival Analisis) первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали шароко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и время отказов)

Одной из важных характеристик, описывающих течение болезни, является продолжительность жизни пациентов с момента поступления в клинику или после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными.

Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, т. е. анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные или цензурированные данные. Наблюдения, которые содержат неполную информацию, называются неполными или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называется полными.

Итак, в анализе выживаемости различают полные (по-английски complete) и неполные, или цензурированные, наблюдения (по-английски censored). Конечно, можно было использовать только полные времена жизни, но тогда мы имели бы в своем распоряжении очень мало наблюдений и соответственно неточные оценки. Использование, наряду с полными наблюдениями, неполных или цензурированных наблюдений является главной особенностью методов анализа выживаемости.

I .Таблицы времён жизни

1.1. Исходные данные

Таблица 1

Данные о пациентах, перенесших операцию на сердце

MONTH_1

DAY_1

YEAR_1

MONTH_2

DAY_2

YEAR_2

CENSORED

AGE

ANTIGEN

MISMATCH

HOSPITAL

1

JANUARY

6

68

JANUARY

21

68

CENSORED

54

0

1,11

HILLVIEW

2

MAY

2

68

MAY

5

68

CENSORED

40

0

1,66

HILLVIEW

3

AUGUST

31

68

MAY

17

70

COMPLETE

51

0

1,32

HILLVIEW

4

SEPTEMBR

9

68

JANUARY

14

69

CENSORED

48

0

0,36

ST_AND

5

OCTOBER

5

68

DECEMBER

8

68

COMPLETE

54

0

1,89

ST_AND

6

OCTOBER

26

68

JULY

7

72

COMPLETE

54

0

0,87

BINER

7

NOVEMBER

22

68

AUGUST

29

69

COMPLETE

49

0

1,12

BINER

8

NOVEMBER

20

68

DECEMBER

13

68

CENSORED

56

0

2,05

HILLVIEW

9

FEBRUARY

15

69

FEBRUARY

25

69

COMPLETE

55

1

2,76

HILLVIEW

10

FEBRUARY

8

69

NOVEMBER

29

71

COMPLETE

43

0

1,13

BINER

11

MARCH

29

69

MAY

7

69

COMPLETE

42

0

1,38

HILLVIEW

12

APRIL

13

69

APRIL

13

71

COMPLETE

58

0

0,96

ST_AND

13

JULY

16

69

NOVEMBER

29

69

COMPLETE

52

1

1,62

ST_AND

14

MAY

22

69

APRIL

1

74

CENSORED

33

0

1,06

ST_AND

15

AUGUST

16

69

AUGUST

17

69

CENSORED

54

0

0,47

BINER

16

SEPTEMBR

3

69

DECEMBER

18

71

COMPLETE

44

0

1,58

BINER

17

SEPTEMBR

14

69

NOVEMBER

13

69

COMPLETE

64

0

0,69

HILLVIEW

18

JANUARY

16

70

APRIL

1

74

CENSORED

49

0

0,91

BINER

19

JANUARY

3

70

APRIL

1

74

CENSORED

40

0

0,38

HILLVIEW

20

MAY

19

70

JULY

12

70

COMPLETE

49

0

2,09

HILLVIEW

21

MAY

13

70

JUNE

29

70

COMPLETE

61

1

0,87

ST_AND

22

MAY

9

70

MAY

9

70

CENSORED

41

0

0,87

ST_AND

23

JULY

4

70

APRIL

1

74

CENSORED

48

0

0,75

BINER

24

OCTOBER

15

70

APRIL

1

74

CENSORED

45

0

0,98

BINER

25

JANUARY

5

71

FEBRUARY

18

71

CENSORED

36

0

0,00

ST_AND

26

JANUARY

11

71

OCTOBER

1

73

COMPLETE

48

0

0,81

BINER

27

FEBRUARY

22

71

APRIL

14

71

COMPLETE

47

0

1,38

HILLVIEW

28

MARCH

22

71

APRIL

1

74

CENSORED

36

0

1,35

HILLVIEW

29

APRIL

24

71

JANUARY

2

72

COMPLETE

48

1

1,08

HILLVIEW

30

AUGUST

18

71

OCTOBER

8

71

COMPLETE

52

0

1,51

ST_AND

31

NOVEMBER

8

71

APRIL

1

74

CENSORED

38

0

0,98

ST_AND

32

OCTOBER

13

71

AUGUST

30

72

COMPLETE

48

1

1,82

ST_AND

33

DECEMBER

15

71

APRIL

1

74

CENSORED

41

0

0,19

BINER

34

NOVEMBER

20

71

JANUARY

9

72

COMPLETE

49

0

0,66

BINER

35

JANUARY

7

72

APRIL

1

74

CENSORED

32

1

1,93

BINER

36

MARCH

4

72

SEPTEMBR

6

73

CENSORED

48

0

0,12

HILLVIEW

37

MARCH

17

72

MAY

22

72

COMPLETE

51

0

1,12

HILLVIEW

38

MAY

18

72

JANUARY

1

73

CENSORED

19

0

1,02

HILLVIEW

39

APRIL

9

72

JUNE

13

72

COMPLETE

45

1

1,68

ST_AND

40

JUNE

10

72

APRIL

1

74

CENSORED

48

0

1,20

ST_AND

41

JUNE

21

72

JULY

16

72

COMPLETE

53

1

1,68

ST_AND

42

AUGUST

20

72

APRIL

1

74

CENSORED

47

0

0,97

BINER

43

AUGUST

17

72

APRIL

1

74

CENSORED

26

1

1,46

BINER

44

OCTOBER

7

72

DECEMBER

9

72

COMPLETE

56

1

2,16

BINER

45

SEPTEMBR

22

72

OCTOBER

4

72

CENSORED

29

0

0,61

HILLVIEW

46

NOVEMBER

18

72

APRIL

1

74

CENSORED

52

1

1,70

HILLVIEW

47

MAY

31

73

APRIL

1

74

CENSORED

49

0

0,81

HILLVIEW

48

FEBRUARY

4

73

MARCH

5

73

COMPLETE

54

0

1,08

ST_AND

49

DECEMBER

31

72

APRIL

1

74

CENSORED

46

0

1,41

ST_AND

50

JANUARY

17

73

APRIL

1

74

CENSORED

52

1

1,94

ST_AND

51

FEBRUARY

24

73

APRIL

13

73

CENSORED

53

0

3,05

BINER

52

MARCH

7

73

DECEMBER

29

73

COMPLETE

42

0

0,60

BINER

53

MARCH

8

73

APRIL

1

74

CENSORED

48

1

1,44

BINER

54

MAY

19

73

JULY

8

73

COMPLETE

46

0

2,25

HILLVIEW

55

APRIL

27

73

APRIL

1

74

CENSORED

54

0

0,68

HILLVIEW

56

AUGUST

21

73

OCTOBER

28

73

COMPLETE

51

1

1,33

HILLVIEW

57

SEPTEMBR

12

73

OCTOBER

8

73

CENSORED

52

1

0,82

ST_AND

58

MARCH

2

74

APRIL

1

74

CENSORED

45

0

0,16

ST_AND

59

AUGUST

7

73

APRIL

1

74

CENSORED

47

0

0,33

ST_AND

60

SEPTEMBR

17

73

FEBRUARY

25

74

COMPLETE

43

0

1,20

BINER

61

OCTOBER

16

73

APRIL

1

74

CENSORED

26

0

0,46

BINER

62

DECEMBER

12

73

APRIL

1

74

CENSORED

23

1

1,78

BINER

63

MARCH

19

74

APRIL

1

74

CENSORED

28

1

0,77

HILLVIEW

64

MARCH

31

74

APRIL

1

74

CENSORED

35

0

0,67

ST_AND

В строках располагаются данные о каждом из прооперированных пациентов. В столбцах указаны даты начала наблюдения за пациентом (дата поступления в клинику/дата операции) – первые три переменные, даты окончания наблюдения (пациент выписался, и связь с ним была потеряна или умер) – последние три переменные. Программа интерпретирует первую и четвёртую переменные как месяцы, вторую и пятую – как дни, а третью и шестую – как год. Имеется также возможность сразу ввести времена жизни (что соответствует одной переменной в файле данных, вместо шести указанных) или даты в другом формате (соответственно, две переменные: дата начала и дата окончания наблюдения).

Так, например, из пятой строки видно, что пациенту под номером 4 была сделана операция 9 сентября 1968, а выпи­сался он 14 января 1969 года. Так как далее связь с этим пациентом была утеряна, то имеем неполное (цензурированное) наблюдение. Ему соответствует значение стоящей в седьмом столбце переменной – censored ( цензурирован).

Следующая за ней переменная в столбце 8 (AGE) характеризует возраст пациентов.

Переменные в 9-м и 10-м столбцах содержат специальную медицинскую информацию об особенностях операции (ANTIGEN, MISMATCH).

Значение переменной в столбце 11 указывает на название клиники, где была сделана операция.

Файл исходных данных содержит 64 наблюдения, т.е. данные о 64 пациентах трех клиник.

1.2. Построение таблиц времени жизни

На основе данных таблиц времен жизни (таблиц смертности - в терминологии страхования) определяется ряд элементарных статистик, необходимых для описания времени жизни паци­ентов (клиентов - в страховании).

В некоторых случаях времена отказов (failure time) представляются в виде сгруппированных данных. Это объясняется тем, что во многих реальных исследованиях сложно оценить время отказов с достаточной точностью, однако можно определить, сколько отказов произошло или сколько наблюдений было цензурировано в течение определенного интервала времени. Такого рода данные называются таблицами времен жизни.

Таблицу времен жизни подобного вида можно рассматривать как «расширенную» таблицу частот. Область возможных времен наступления критических событий (смертей или отказов, в зависимости от предмета исследования) разбивается на определенное число интервалов. Для каждого интервала определяются количество и доля индивидов, которые были живы в начале рассматриваемого временного периода и тех, которые выбыли из наблюдения на данном интервале, а также тех, связь с которыми была утеряна по той или иной причине, т.е. цензурированные. Таким образом, отличие от обычной таблицы частот заключается в том, что она строится по полным наблюдениям, а в таблице жизни учитываются как полные, так и неполные (цензурированные) наблюдения.

Количество интервалов на временной оси пользователь может задать самостоятельно. В при­веденной ниже таблице это число равно 12 (с учетом того, что стандартный период наблюдения за пациентом составляет обычно 1 год).

Применительно к страхованию, область возможных времен наступления страховых случаев разбивается на некоторое число интервалов, а затем для каждого из них вычисляются доли объектов, у которых на данном интервале наступил страховой случай.

В модуле «Анализ выживаемости» предусмотрена возможность, обрабатывать как непосредственно файл первичных данных, так и сгруппированные данные. Ниже приведена таблица времен жизни, полученная в результате обработки исходной информации:

Таблица 2

Таблица времен жизни

Обратимся к интерпретации переменных, составляющих содержание полученной электронной таблицы времен жизни (по столбцам):

· Номер интервала ( Interval / Intno = Interval Number ) для сгруппированных данных.

· Нижняя граница интервала ( Interval Start )

· Середина интервала ( Mid Point )

· Ширина интервала ( Interval Width )

· Число в начале ( Number Entering )

Число пациентов, которые были живы в начале рассматриваемого временного интервала.

· Число изъятых ( Number Withdrwn ) объектов

Число пациентов, связь с которыми была утеряна (т.е. изъятых из дальнейшего рассмотрения после того, как они выписались/перевелись из данной клиники). Эти объекты имеют метку цензурированные (censored ) в файле исходных данных.

· Число изучаемых ( Number Exposed ) объектов

Число пациентов, которые были живы в начале рассматриваемого временного интервала, за вычетом половины от числа изъятых (цензурированных).

· Число умерших ( Number Dying )

Число пациентов, умерших на данном отрезке времени (интервалe). Умершие объекты имеют метку complete .

· Доля умерших (Proportn Dead)

Отношение числа объектов, умерших в соответствующем интервале, к общему числу объектов, попавших в этот интервал.

Таблица 3

Таблица времен жизни (окончание)

· Кумулятивная доля выживших объектов или функция выживания ( Cum . Prop Survivng )

Это кумулятивная доля выживших к началу соответствующего временного интервала. Полученная доля, как функция от времени, представляет собой оценку функции выживания, то есть вероятность того, что пациент переживет данный период времени. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам.

· Плотность вероятности ( Problty Density )

Это оценка вероятности смерти (отказа) на соответствующем интервале. Получается в результате вычитания из значения функции выживания на данном интервале значения функции выживания на следующем ин­тервале с последующим делением на ширину соответствующего интервала:

где - оценка вероятности смерти (отказа) в i -м интервале, - кумулятивная доля выживших объектов (функция выживания) к началу i -го интервала, - ширина i -го интервала.

Например, значение второй строки столбца Problty Density рассчитывается следующим образом:

.

На графике оценки плотности вероятности видно, что вероятность смерти в первые 160 дней после операции максимальна. Далее она резко падает.

Большие вероятности смерти расположены также в интервалах от 161 до 332, от 968 до 1129 и т.д.

Рис. 1. Функция плотности вероятности смерти.

· Функция мгновенного риска или функция интенсивности ( Hazard Rate )

Это одна из важных характеристик, описывающих течение болезни, обладающая хорошими прогностическими свойствами. В общем случае формально она соответствует вероятности наступления отказа в течение малого интервала времени [t , t + dt ), при условии, что до момента t отказ не произошел. В терминах анализа выживаемости значение функции интенсивности соответствует вероятности того, что пациент умрет на дан­ном временном интервале, при условии , что в начале интервала он был жив .

Оценка функции интенсивности вычисляется как число смертей (отказов), приходящихся на единицу времени соответствующего интервала, деленное на среднее число пациентов (объектов), доживших до момента времени, приходящегося на середину этого интервала.

Рис. 2. Функция мгновенного риска.

График функции мгновенного риска наглядно свидетельствует о том, что в первые дни после операции на сердце риск смерти очень велик, затем он значительно падает до 322 дня, а спустя некоторое время вновь начинает возра­стать до 806 дня, затем резко возрастает до 968 дня, после этого идет столь же резкое падение вероятности смерти до 1129 дня, после чего функция вновь начинает резкий рост. Заметим, что именно функция риска используется исследователем в дальнейшем для прогностических целей.

Итак, исследователя интересует функция риска, однако реально возможно получить лишь оценку функции риска. Поэтому важна точность получаемых оценок. Понятно, что нельзя доверять оценкам, имеющим большую погрешность (например, если погрешность имеет тот же порядок, что и сами оценки). Поэтому следует внимательно просмотреть построенную таблицу и, если позволяет объем выборки, удалить из неё все «плохие» оценки, т.е. оценки с большой погрешностью. Это чрезвычайно важный принцип анализа данных!

С этой целью в таблице наряду с оценками приведены их стандарт­ные ошибки для каждой из трех описанных выше функций (Std . Err . Cum . Proportion Surviving , Probability Density , Hazard Rate ) .

Замечание. Для получения надежных оценок параметров трех вышеназванных основных функций (функции выживания, плотности вероятности и интенсивности) и их стандартных ошибок на каждом временном интервале в табли­цах времен жизни требуется, чтобы исходный файл содержал не менее 30 наблюдений.

· Медиана ожидаемого времени жизни ( Median Life Exp )

По определению, медиана соответствует точке на временной оси, в которой кумулятивная функция выжива­ния принимает значение 0,5. Например, из первой строчки таблицы столбца Median Life Exp видно, что пациент с вероятностью 0,5 будет жить 842 дня после операции. Если пациент пережил первый временной интервал (161 день после операции на сердце), то с вероятностью 0,5 он проживет еще 1037 дней, что соответствует второй строке таблицы и т.д. Другие процентили (например, 25-й и 75-й процентили или квартили) кумулятивной функции выживания вычисляются по такому же принципу. Следует иметь ввиду, что 50-й процентиль (медиана) кумулятивной функции выживания обычно не совпадает с точкой выживания 50% наблюдений данной выборки! Такое совпадение возможно только тогда, когда в течение прошедшего отрезка времени не было цензурированных наблюдений

Еще раз подчеркнем, что в общем случае таблица времен жизни дает хорошее представление о распре­делении смертей (отказов – в технике) во времени, если наблюдений достаточно много (как минимум 30).

1.3. Аппроксимация эмпирических данных теоретическим распределением.

Для целей прогноза часто необходимо знать аналитическую форму построенной функции выживания. Для описания продолжительности жизни в анализе выживаемости наиболее важны и часто используемы следующие семейства распределений: экспоненциальное распределение (в том числе модель с линейной интенсивностью ), распределение Вейбулла (экстремальных значений) и распределение Гомперца .

Существует два основных метода подгонки теоретического распределения к сгруппированным данным.

Первый подход состоит в интерполяции, т.е. в переводе таблицы времен жизни в непрерывный массив данных, при этом предполагается, что:

(1) каждый отказ происходит в середине интервала группировки,

(2) цензурирование происходит после отказов (т.е. цензурированные наблюдения располагаются за отказами в каждом интервале группировки). Данный метод применим в ситуациях, когда интервалы группировки относительно малы.

Во втором подходе имеющиеся данные рассматриваются как таблица времен жизни. Для проведения оценивания параметров применима модель линейной регрес­сии, т.к. все перечисленные семейства распределений могут быть сведены к линейным относительно оцениваемых параметров с помощью соответствующих преобразований. Поэтому процедура оценивания основана на методе наименьших квадратов.

Однако, такие преобразования приводят иногда к тому, что дисперсия остатков зависит от интервалов (то есть дисперсия различна на разных интервалах). Чтобы учесть это, в алгоритмах подгонки дополнительно используются оценки метода взвешенных наименьших квадратов двух типов. Программа по умолчанию сама выбирает те из них, которые производят лучшую аппроксимацию (на основе критерия c²). На практике оба подхода приводят к очень близким значениям оценок параметров. Возможно также для оценки параметров сгруппированных данных применение метода максимального правдоподобия.

В модуле Анализ выживаемости ( Survival Analysis ) предусмотрена возможность аппроксимировать данные основными семействами распределений, используя либо обычный метод наименьших квадратов, либо две его модификации с весами.

Чтобы выбрать наиболее подходящее семейство распределений из имеющегося в арсенале исследователя списка, сначала рассмотрим модель экспоненциального распределения (выбрав позицию Экспоненциальный ( Exponential ) в выпадающем списке поля Результаты для м одели ( Results for Model )) . Кроме того, в этом поле имеется возможность выбрать следующие модели распределений: модель с линейной интенсивностью ( Linear Hazard ) , модель Гомпертца ( Gompertz ) и модель Вейбулла ( Weibull ) .

Оценка согласия теоретического и эмпирического распределений проводится с помощью критерия c².

Чтобы определить оценки для выбранного семейства распределений, а также значение c², нажимаем кнопку Оценки параметров ( Parameter estimates ) .

Таблица 4

Процедура оценки параметров экспоненциального распределения

Если критерий значим, делается вывод о том, что подогнанное (теоретическое) распределение значимо отличается от эмпирического (как в данном примере), поэтому это семейство распределений отвергается для описания формы функции выживания.

Из приведенной таблицы видно, что ни один из представленных методов оценивания (подгонки) не даёт для экспоненциального распределения удовлетворительного согласия. Такую же картину можно наблюдать на приведенном ниже графике эмпирической функции выживания и кривых экспоненциального распределения: ни одна из трех экспонент (соответствующих трем различным алгоритмам оценивания) не аппроксимирует наблюдаемую функцию выживания удовлетворительно. Эмпирическая функция выживания сильно отклоняется от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации.

Рис.3. Графическое представление эмпирической функции выживания и теоретических кривых экспоненциального распределения.

Теперь рассмотрим модель с линейной интенсивностью ( Linear Hazard ) .

Таблица 5

Процедура оценки параметров линейного распределения

Рис.4. Графическое представление эмпирической функции выживания и теоретических кривых линейного распределения.

Эмпирическая функция выживания сильно отклоняется от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации.

Теперь рассмотрим модель Гомпертца (

 

 

 

 

 

 

 

содержание   ..  379  380  381   ..