Wetenschappelijke scholing: statistiek 3
THK Ma1
Inhoud Versatest: introduction to Survival analysis, the Kaplan-Meier curve and some descriptive statistics ............................ 2 Versatest: wannner welke test? ........................................................................................................................................ 5 Seminar: steekproefgroottebepaling en analyse van overlevingsdata ............................................................................. 7 Deel 1: welke methode wanneer? ................................................................................................................................ 7 Deel 2: steekproefgroottebepaling ............................................................................................................................... 9 Deel 3: overlevingsdata ............................................................................................................................................... 13 Seminar: bouwen van regressiemodellen en two-way ANOVA ...................................................................................... 15 Versatest: building regression models ............................................................................................................................ 24
- / 3
2
Versatest: introduction to Survival analysis, the Kaplan-Meier
curve and some descriptive statistics
Kaplan-Meier curve en beschrijvende statistiek Om de overleving in een groep individuen te beschrijven, kunnen grafieken zoals die in Figuur 2.1 worden gebruikt. De grafiek in afbeelding 2.1 toont de algehele overleving (OS) van twee groepen patiënten met slokdarmkanker over een periode van vijf jaar; de ene groep kreeg chemoradiotherapie vóór de operatie (CRT), de andere alleen chirurgie.Een overlevingscurve zoals de twee curven in afbeelding 2.1 wordt een Kaplan-Meier overlevingscurve genoemd.
Voorbeeld: dataset breastcancer.sav
De in SPSS ingebouwde dataset bevat gegevens van een groot observationeel onderzoek (n = 1207 vrouwen) in de VS. Figuur 2.2 toont de gegevens van de eerste 10 gevallen voor enkele
geselecteerde variabelen:
• Id: is een identificatiecode
• Age: is de leeftijd bij diagnose in jaren
• Pr: is een afkorting voor progesteronreceptorstatus en
wordt gecodeerd als 0 voor negatief, 1 voor positief en 2 voor onbekend
• Status: geeft informatie over de status van de respondent
aan het einde van haar observatieperiode: in leven
(gecodeerd als 0) of dood (gecodeerd als 1)
• Tijd: is het aantal maanden dat de respondent aan het
onderzoek heeft deelgenomen
Wat is er anders in de analyse van de variabele “overlevingstijd” in vergelijking met bijvoorbeeld de bloeddruk?We moeten ons realiseren dat de variabele “tijd” gecombineerd moet worden met de variabele “status”, die aangeeft of de vrouw nog in leven is of niet.
Voorbeeld: in figuur 2.3 is de geschiedenis van drie - hypothetische -
vrouwen te zien.
- Mevrouw A werd aan het begin van het onderzoek
- De borstkanker van mevrouw B werd tijdens het onderzoek
- Bij mevrouw C werd vijftien maanden voor het einde van
opgenomen en overleed vijftien maanden later.
vastgesteld en zij werd vijftien maanden gevolgd. Na die vijftien maanden werd ze om onbekende redenen niet meer gevolgd, maar we weten dat ze op dat moment nog leefde.
het onderzoek borstkanker vastgesteld en zij leefde nog aan het einde van het onderzoek.
Alle drie de vrouwen hebben dezelfde waarde 15 op de variabele tijd, maar hun status is niet hetzelfde. De exacte overlevingstijd van de dames B en C is onbekend; we weten wel dat ze minstens vijftien maanden na hun diagnose leefden. Waarnemingen zoals deze staan bekend als rechts gecensureerde gegevens. Bij de analyse van overlevingsgegevens moeten we er rekening mee houden of de gegevens gecensureerd zijn of niet; het berekenen van een eenvoudig gemiddelde van de overlevingstijden zou een onderschatting zijn van de werkelijke overlevingstijd en is van beperkte waarde. 2 / 3
3
We zullen met iets beters moeten komen dan gemiddelden en t- tests om overlevingsgegevens te analyseren.
Voorbeeld: In figuur 2.4 worden Kaplan-Meier overlevingscurves
getoond voor twee groepen, gebaseerd op de gegevens in het bestand breastcancer.sav.• Op de horizontale as staat de observatietijd; sommige vrouwen werden meer dan tien jaar gevolgd.• Op de verticale as staat de “cumulatieve overleving”.De curven kunnen worden geïnterpreteerd als kansfuncties om
tot een bepaald tijdstip t te overleven: P(T > t), waarbij T de
(willekeurige) overlevingstijd is en t een bepaald tijdstip.
• Bv.: P(T > 36) is de kans om drie jaar te overleven (na
diagnose) als de tijd is gegeven in maanden.
Hoe is de Kaplan-Meier overlevingscurve opgebouwd en hoe kunnen de 95% betrouwbaarheidsintervallen worden berekend voor overlevingskansen op een bepaald tijdstip? (bijvoorbeeld vijf jaar overleving).Om de berekeningen in detail te laten zien, maken we gebruik van een kleine gesimuleerde dataset. De gegevens zijn afkomstig van een hypothetisch evenwichtsexperiment. Twintig personen werd gevraagd om zo lang mogelijk op een balk te staan (zie figuur 2.5) met een maximum van vijf minuten (300 seconden). Er is een gebeurtenis als een deelnemer van de balk valt (status = 1). Als er geen gebeurtenis plaatsvindt, “overleeft” de respondent en is de status gelijk aan 0.
- / 3