College 1 “Correlatie is geen causatie” Het zoeken naar causale verklaringen voor de samenhang der dingen houdt de mensheid al eeuwen bezig. Het maakt niet alleen dat we de wereld beter begrijpen, maar het zorgt er ook voor dat we wereld steeds beter naar onze hand kunnen zetten.Denk aan causale verklaringen voor ziekteverspreiding en de aanleg van riolering ter preventie. Maar helaas zijn de ingrepen door mens niet altijd gunstig voor onze planeet… Maar – en het is al vaak gezegd – het feit dat twee kenmerken samenhangen wil niet zeggen dat er ook sprake is van een oorzaak-gevolg relatie! Het is niet zo dat het kraaien van de haan ervoor zorgt dat de zon opkomt… ➢ Hoe onderzoeken we of er (mogelijk) sprake is van een causale relatie tussen twee fenomenen?
Het experiment
Causaliteit en correlationeel (niet-experimenteel) onderzoek
- Random toewijzen / actief manipuleren in de praktijk meestal niet mogelijk, niet
- We moeten het doen met data verkregen in ‘natuurlijke settings’ (e.g., surveys,
wenselijk, of zelfs onethisch.
observaties) => correlationeel onderzoek.
- Correlationeel onderzoek kan puur observationeel zijn: verzamel data voor de
variabelen die interessant zijn en kijk naar de patronen van correlaties:
✓ Erg nuttig om nieuwe hypothesen te genereren ✓ Samenhang kan worden benut om (betere) voorspellingen te doen, betere beslissingen te nemen, etc. (data science).
- Of theorie-gedreven. Je onderzoekt dan of de gevonden correlaties aansluiten
bij theoretische verwachtingen (hypothesen) => causale analyse
- / 4
Correlatie is niet persé causatie Wanneer twee variabelen correleren, dan mag je niet zonder meer concluderen dat er een directe causale relatie is tussen de twee variabelen, maar je hoeft een causaal effect ook niet direct uit te sluiten!
- Wanneer twee variabelen (zeg X en Y) correleren, dan zijn er verschillende
- Op basis van de correlatie alleen kunnen we geen conclusies trekken welke van
- Om meer inzicht te krijgen in de vraag of de samenhang mogelijk causaal is,
verklaringsmechanismen mogelijk die de correlatie geheel of gedeeltelijk verklaren. Sommige verklaringsmechanismen veronderstellen een causaal effect tussen X en Y, andere doen dat niet.
deze mechanismen het meest plausibel is, maar het betekent dus dat het mogelijk is dat de correlatie een causaal effect weerspiegelt.
moeten we meer variabelen in de analyses opnemen. Dit is wat we zullen doen in padanalyses!
Causale analyse
- Algemene opzet causale analyse op basis van correlaties (padanalyse):
1) Begin met het opstellen van een causale theorie waarin de causale mechanismen worden beschreven (waarbij we zoveel mogelijk varen op wat we al weten!).2) Vertaal de theorie in een statistisch (causaal) model.3) Verzamel data en schat hieruit de causale effecten volgens het model (met de geëigende statistische technieken).4) Bekijk in hoeverre de verwachte correlaties tussen de variabelen op basis van het model overeenkomen met de waargenomen correlaties. Als de observaties niet bij de verwachtingen passen dient het model aangepast (of eventueel) verworpen te worden.
De empirische cyclus
VOORBEELD: SLIDE 15-18
- / 4
Wat de werkelijkheid is, weten we nooit 100% zeker, maar naarmate we meer te weten komen over de relaties met andere variabelen, kunnen we (hopelijk) steeds betere modellen opstellen waarmee we de samenhang adequaat causaal kunnen verklaren => wetenschappelijke theorievorming. Waar we vooral naar streven als we causale relaties in correlationele data onderzoeken is het identificeren of uitsluiten van mogelijke confounders die schijnrelaties tussen onze onderzoeksvariabelen veroorzaken!
Schijnrelaties
De schijnrelatie tussen X en Y:
- Er is sprake van een schijnrelatie tussen X en Y als zij een gemeenschappelijke
- Omdat zowel X als Y dezelfde gemeenschappelijke oorzaak hebben
- Variabele Z wordt ook wel een confounder genoemd; best vertaald als
- Schijnsamenhang wordt in het Engels spurious relationship genoemd.
oorzaak hebben (zoals variabele Z in het figuur hiernaast).
ontstaat er samenhang tussen X en Y. Maar een verandering in X heeft geen effect op Y, en ook niet omgekeerd. Door de correlatie lijkt er een causaal verband te zijn tussen de variabelen, maar dat is schijn!
verstorende variabele.
VOORBEELD: SLIDE 21
Waarom een goed begrip van het principe van schijnrelaties essentieel is?Een goed begrip van, en oog voor, schijnrelaties is essentieel! Net alleen binnen deze cursus, maar ook in het kader van de academische vorming! Waarom zo belangrijk?
- Onze hersenen zijn er op gemaakt om verbanden (patronen) te zien; we moeten
- Het veronachtzamen van schijnverbanden kan een grote maatschappelijke
kunnen filteren wat mogelijk schijnverbanden zijn en wat echte verbanden zijn.Dit vereist inhoudelijke kennis (!) en methodologische kennis.
impact hebben: Wat te denken van correlaties die er mogelijk zijn tussen
etnische achtergrond en criminaliteit, verband tussen opleiding ouders en schooluitval, opleiding en radicalisering, etc. Onterechte causale interpretaties van deze verbanden kunnen grote gevolgen hebben voor individu en maatschappij…
- Met de komst van kunstmatige intelligentie (AI), waarmee complexe patronen
worden herleid uit grote data bestanden, is kennis van causaliteit en schijnrelaties extra belangrijk!
VOORBEELD: SLIDE 24 3 / 4
Het belang van statistiek en (kritisch) statistisch denken We gebruiken statistiek om signalen van ruis te onderscheiden. Dat is niet zo gemakkelijk!
- Chaotische lijkende data hebben wellicht meer structuur dan je op het oog zou
- Ogenschijnlijke signalen kunnen simpelweg toeval zijn. Als je heel veel variabelen
verwachten.
correleert, dan zijn er vast een paar significant, ook als de variabelen helemaal geen verband houden met elkaar (resultaten zijn niet repliceerbaar).We hebben de statistiek nodig om in een grote brei aan data patronen te vinden, en een kritische statistische blik om de resultaten in hun juiste perspectief te (blijven) zien.
Wat is een padmodel?Een padmodel is een (statistische) weergave van veronderstelde causale relaties tussen twee of meer variabelen (zie voorbeelden volgende slides). Het padmodel kun je zien als één omvattende hypothese over de onderliggende causale processen die de geobserveerde correlaties tussen twee of meerdere variabelen (grotendeels) verklaren.
Intermezzo 1: Variabelen
- Variabelen hebben betrekking op eigenschappen (attributen) van
- Als er geen variatie is in de variabele dan spreek je van een constante.
onderzoekseenheden waarin je geïnteresseerd zijn en waarin de onderzoekseenheden variëren.
Let op: of een eigenschap een variabele is hangt van je specifieke
onderzoeksgroep af. Als je onderzoeksgroep bijvoorbeeld alleen uit meisjes bestaat, dan is geslacht is in dit onderzoek geen variabele maar een constante!
- Veel voorkomende fout: Verwarring van de waarden van de variabele met de
variabele zelf:
o Voorbeeld: ‘rijk’ en ‘arm’ zijn twee waarden van dezelfde variabele
inkomen.
- Verwarring van de variabelen met de waarden van variabelen zie je soms
terug in de opgestelde hypothese: Het is onjuist om te zeggen: “Een hoge
opleiding hangt samen met een hoog inkomen”→ Beter: “opleiding hangt
positief samen met inkomen” Of; “hoog opgeleiden verdienen gemiddeld genomen meer dan laag opgeleiden”
- / 4