Samenvatting TB234B Multivariate data analyse – Deel 2 Vereiste meetniveau bij regressie
Afhankelijke variabele:
oAltijd interval of ratio meetniveau oAls nominaal → logistische regressie Predictor / onafhankelijke variabele oIn principe interval of ratio meetniveau Je moet gemiddelden en correlaties kunnen interpreteren oMaar dichotoom kan ook (met dummy variabele) Dummy variabelen = speciaal gecodeerde dichotoom met twee categorieën die met 0 en 1 gecodeerd zijn Referentiecategorie = categorie die met 0 is gecodeerd Een nominale variabele gecodeerd als dummy variabele kan predictor zijn in regressieanalyse, omdat je gemiddelden en correlaties kunt interpreteren (dat kan normaal niet bij nominale variabelen) Interpretatie gemiddelde en correlatie Gemiddelde = proportie (bijv. 62,5% van de auto’s komt uit de VS) oGeeft heel precies de verdeling aan!Correlatie kun je interpreteren (Bijv. correlatie is positief: categorie 1 gaat vaker gepaard met hoger brandstofverbruik dan categorie 0, dus brandstofverbruik is hoger in VS) Regressie met dummy variabelen
Regressievergelijking: Y = C + b*D
D = dummy variabele (zie het als een schakelaar die aan of uit staat) C = constante van de referentiegroep b = regressiecoëfficiënt = het verschil in de constante tussen groep 1 en 0 oAls coëfficiënt statistisch significant is, is het verschil dus statistisch significant Interpretatie
Normaal: Per eenheid stijging X1, stijgt Y2 met *coëfficiënt* eenheden
oMaar X1 kan niet in eenheden stijgen, hij staat aan of uit Bij dummy variabele: Coëfficiënt duidt een verschil in de constante aan tussen de met 1 gecodeerde groep en de referentiegroep oEr zijn geen tussenliggende waarden, dus het betreft een discreet verschil Regressie met enkel dummy als predictor: Coëfficiënt duidt verschil in gemiddelden in Y aan oGelijkwaardig aan t-toets op verschil in gemiddelden Voordeel multipele regressieanalyse t.o.v. t-toets Je controleert voor de effecten van de andere predictoren Daarmee schakel je de verschillen tussen de groepen uit!Als het ware maak je de groepen vergelijkbaar Hoofd- & interactie-effecten Hoofdeffecten Hoofdeffect: Y = C + b1X + b2Z = de bijdrage van variabele X aan de schatting van Y gecontroleerd voor Z, maar onafhankelijk van de waarde van Z De bijdrage van een variabele aan de voorspelling hangt alleen af van de waarde van die variabele (en zijn coëfficiënt), maar niet van de waarde van de andere variabele De afhankelijke variabele wordt voorspeld door een gewogen optelling van variabelen lineair additieve functie Interactie-effecten
Interacties: Y = C + b1X + B2Z + b3XZ = C + b1X + (B2 + b3X)Z
oAls b3 statistisch significant is, dan hangt de bijdrage van Z aan de waarde van Y af van de waarde van X
oEen interactie is multiplicatief: b3XZ
oAls significant: “Geheel is meer (synergie) of juist minder (antagonisme) dan som der delen” 1 / 2
oInteractieterm XZ construeren SPSS: Transform / Compute Variable toevoegen als predictor in model Interactie-effect (b3XZ) = de bijdrage van variabele X aan het schattingsresultaat van Y dat afhankelijk is van de waarde van Z Interactie = moderatie: Met b3 toets je of de bijdrage van een variabele altijd hetzelfde is, ongeacht de waarde op de andere variabele = gemodereerd door andere variabele Negatief interactie-effect = het totaal effect is lager dan de som van de hoofdeffecten! (bijv. slechte smaakcombinaties) Positief interactie-effect = het totaal effect is hoger dan de som van de hoofdeffecten! (bijv. goede smaakcombinaties) Twee manieren van interpretatie interactie-effecten De onderzoeksvraag bepaalt voor welke interpretatie je kiest 1.b3 geeft aan hoe het effect van X op Y verandert met Z → X wordt dan gemodereerd door Z → Y = C + (b1 + b3Z)X + b2Z 2.b3 geeft aan hoe het effect van Z op Y verandert met X → Z wordt dan gemodereerd door X → Y = C + b1X + (b2 + b3X)Z Regressie met interactie-effecten Voordeel t.o.v. aparte regressie: Testen of constante en coëfficiënt significant zijn
Uitvoering:
1.Codeer de groep als dummy variabele (0,1) 2.Breidt het regressiemodel uit met de dummy variabele en de interacties van de dummy met de andere variabelen
Interpretatie coëfficiënten: C + b1X + (B2 + b3X)Z
Constante: vaste correctiefactor en de constante van de referentiegroep
b1: verschil in constante voor X=1 met referentiegroep
oAls positief: constante groep 1 hoger dan groep 0
oAls negatief: constante groep 1 lager dan groep 0
b2: coëfficiënt Z van referentiegroep
b3: verschil in de coëfficiënt Z van groep 1 t.o.v. groep 0
oAls negatief: afname Y sneller in groep 1
Toetsen op verschillen per groep: Y = C + b1*GROEP + b2*X + b3*GROEP*X
Y = C + b1*GROEP + (b2+b3*GROEP)*X oC = constante referentiegroep ob1 = verschil in de constante van groep=1 met referentiegroep ob2 = coëfficiënt voor variabele X van referentiegroep ob3 = verschil in coëfficiënt X van groep=1 met referentiegroep
oconstante van groep=1: C+b1
ocoëfficiënt van groep=1: b2+b3
Als coëfficiënt interactie XZ significant (b3) in de populatie is er een verschil in de regressiecoëfficiënt van de variabele tussen de groepen constante verschilt tussen beide groepen Dummy codering 3 groepen De dummy wordt genoemd naar de groep die met 1 is gecodeerd Elke dummy schat verschil van een groep met referentiegroep
Bij N groepen: N-1 dummy’s
oCoëfficiënten voor dummy’s duiden verschillen aan Effect codering Kan handigere interpretatie zijn
Verschil t.o.v. dummy: referentiecategorie wordt met -1 gecodeerd i.p.v. 0
Constante = ongewogen gemiddelde
- / 2