Onderzoekspracticum 1 - Introduction to the practice of statistics (MMC) Week 1 1.1Data Een statistische analyse begint met een dataset. We stellen een dataset samen door eerst te bepalen welke zaken er onderzocht moeten worden. Voor elk geval moet er informatie gewonnen worden. Dit worden variabelen genoemd.Cases (onderzoeksobjecten) De onderzoeksobjecten/individuen die in een dataset beschreven worden.LabelSpeciale variabele die in sommige datasets gebruikt wordt om verschillende onderzoeksobjecten te onderscheiden.Variabele Een karakter van een onderzoeksobject.Bijvoorbeeld leeftijd, kleur, woonplaats.Een categoriale variabele plaatst een onderzoeksobject in één of meerdere groepen of categorieën. Een kwantitatieve variabele neemt numerieke waarden aan (uitgedrukt in getallen, zoals leeftijd, lengte, prijs) waardoor rekenkundige bewerkingen zoals optellen en gemiddeldes berekenen zinvol zijn.Een label voor de onderzoeksobjecten moet zorgvuldig gekozen worden. Een spreadsheet (bijvoorbeeld Excel) is een handig hulpmiddel om data in te verwerken. Een ander belangrijk deel van het beschrijven van kwantitatieve variabelen is de meeteenheid.Belangrijkste kenmerken van een dataset Wanneer je onderzoek uitvoert is het belangrijk om jezelf de volgende vragen te
stellen:
1.Wie? Welke onderzoeksobjecten beschrijven de data. Hoeveel onderzoeksobjecten bevat de dataset?
2.Wat? Hoeveel variabelen bevat de data? Wat zijn de exacte definities van deze data? Wat zijn de meeteenheden (euro’s, dollars, meters, centimeter) van elke kwantitatieve variabele?
3.Waarom? Wat is het doel van het onderzoek?Vaak zijn variabelen simpel te begrijpen. Bijvoorbeeld lengte in centimeters, studietijd in minuten, gewicht in kilo’s, etc. Soms zijn er speciale instrumenten nodig om variabelen in kaart te brengen. Zorg ervoor dat elke variabele meet waar je het voor nodig hebt.Samenvatting 1.1 Een dataset bestaat uit onderzoeksobjecten. Bijvoorbeeld deelnemers, bedrijven, onderwerpen.De data geeft waarden van variabelen. Een variabele is een kenmerk van een onderzoeksobject.Een label gebruik je om de onderzoeksobjecten te identificeren.Bijvoorbeeld nummer 1 voor deelnemer 1.
1 1 / 4
Sommige variabelen zijn categoriaal, andere zijn kwantitatief. Een voorbeeld van categoriaal is man/vrouw. Gewicht, lengte, salaris etc zijn kwantitatief (getallen).De belangrijkste kenmerken van een dataset zijn de antwoorden op de
vragen: wie? wat? en waarom?
1.2 Displaying Distributions with Graphs (Verdelingen weergeven met grafieken) Statistische hulpmiddelen en ideeën helpen ons om data te onderzoeken en de belangrijkste kenmerken te beschrijven. Deze manier van onderzoek wordt verkennende gegevensanalyse genoemd. We beschrijven wat we zien.Begin met het onderzoeken van elke losse variabele. Kijk daarna naar de relaties tussen variabelen. Begin met een grafiek of grafieken. Voeg daarna numerieke samenvattingen of specifieke aspecten toe bij de data.
Categorische variabelen: staafdiagrammen en cirkeldiagrammen
De waarden van een categorische variabele zijn labels voor de categorieën, als ‘ja’ en ‘nee’. De verdeling van een categoriale variabele somt de categorieën en het aantal/procent van de onderzoeksobjecten dat in elke categorie valt. Een alternatief voor percentage is verhouding.De categorieën in een staafdiagram kun je in elke volgorde zetten. Wanneer je een cirkeldiagram gebruikt, wordt er in procenten uitgedrukt. Zorg ervoor dat het totaal altijd 100% is.
Kwantitatieve variabelen: Stam-bladdiagram en histogrammen
Een stemplot (afbeelding links) geeft een snel beeld van de vorm van een verdeling, omdat de numerieke waarden in de grafiek te zien zijn.
Stemplot maken:
1.Splits de getallen op in een stam en een blad.
2.De stam zijn de tientallen.
3.Het blad is het laatste cijfer.
4.Alle bladeren die bij dezelfde stam horen, schrijf je naast elkaar.
13: Stam 1, blad 3
Een stemplot laat de werkelijke waarden van de observaties zien. Een histogram (afbeelding rechts) doet dat niet. Een histogram laat alleen een bepaald percentage of aantal zien van de observaties in elke klas. Voor kleine datasets is
2 2 / 4
het aan te raden een stemplot te gebruiken en geen histogram. Een histogram is wel te gebruiken wanneer het niet handig is om individuele observaties te publiceren.Verdelingen onderzoeken Wanneer je een grafiek hebt gemaakt, is het raadzaam om altijd te vragen ‘wat
zie ik?’. Bepaal de volgende zaken:
Algemeen patroon en afwijkingen van het patroon.Beschrijf het algemene patroon aan de hand van de vorm, centrum (midden) en de spreiding.Een belangrijke afwijking is een uitschieter, die buiten het patroon valt.Het middenpunt is het punt waar de helft van de waarden onder ligt en de helft van de waarden boven ligt. De spreiding van een verdeling kan beschreven worden door te kijken naar de laagste waarde en de hoogste waarde.De waarde die het vaakst voorkomt is de modus. Wanneer er maar één hoge piek is, wordt dit unimodaal genoemd. Er is dan dus één waarde die het vaakst voorkomt.Omgaan met uitschieters Uitschieters zijn vaak makkelijk te zien omdat ze apart staan van het algemene patroon van een histogram of een stemplot. Een uitschieter kan veroorzaakt worden door een fout in het verwerven van data of door andere ongewone omstandigheden.Tijdgrafieken Wanneer data is verzameld op verschillende momenten, is het handig om de observaties in chronologische volgorde te weergeven. De tijd staat altijd horizontaal en de variabele staat verticaal.Tijdgrafiek Samenvatting 1.2 Verkennende data-analyse maakt gebruik van grafieken en numerieke samenvattingen om de variabelen uit een dataset te beschrijven en de relaties tussen variabelen te beschrijven.De verdeling van een variabele vertelt welke waarde het aanneemt en hoe vaak deze waarden voorkomen.Staafgrafieken en cirkeldiagrammen laten de verdeling van categorische variabelen zien. Deze grafieken gebruiken aantallen en procenten bij de categorieën.
3 3 / 4
Stemplots en histogrammen laten de verdeling zien van kwantitatieve variabelen. Een stemplot bestaat uit een stam en een blad. Een histogram toont aantallen of percentages.Kijk naar vorm, middenpunt, spreiding en afwijkingen van de waarden.Een uitschieter volgt niet het algemene patroon van een verdeling.Wanneer je onderzoek over langere tijd doet, kun je een tijdgrafiek maken.
1.3 Verdelingen beschrijven met getallen Je kunt data-analyse beginnen met grafieken, maar het inzetten van numerieke samenvattingen zorgt ervoor dat de analyse meer specifiek wordt.De mediaan De mediaan is het middelpunt. De helft van de waarden ligt boven de mediaan en de helft van de waarden ligt onder de mediaan. Er is een speciale manier om
de mediaan te vinden:
1.Zet alle waarden van klein naar groot.
2.Als het aantal waarden oneven is, dan is het middelste getal de mediaan.Mediaan= aantal waarden +1 gedeeld door 2. (n+1)/2 3.Als het aantal waarden even is, dan is de mediaan het gemiddelde van de twee middelste waarden. De locatie van de mediaan is opnieuw (n+1)/2.De formule geeft niet direct de waarde van de mediaan, maar de plaats waar de mediaan te vinden is.Het vijfcijferige overzicht en boxplots Het vijfcijferige overzicht van een reeks waarnemingen bestaat uit het minimum (laagste waarde), Q1 (eerste kwartiel), mediaan, Q3 (derde kwartiel) en het maximum (hoogste waarde).Q1= (n+1)/4 Q3 = 3*(n+1)/4
Een boxplot is een grafiek van het vijfcijferige overzicht:
Een centrale box tussen Q1 en Q3; Een lijn in de box die de mediaan M markeert; Lijnen vanaf de box naar de kleinste en de hoogste waarde.Boxplot Wanneer je naar een boxplot kijkt, bepaal je eerst waar je de mediaan ziet. Kijk daarna naar de spreiding.De 1,5 x IQR (interkwartielafstand) voor verdachte uitschieters
- / 4