cursus Psychometrie en besliskunde
Leerdoelen:
Na het afronden van deze cursus ben je in staat om COTAN-beoordelingen te gebruiken om de geschiktheid van een test te evalueren factoranalyses te interpreteren in de context van schaalconstructie betrouwbaarheidsanalyses en moderne testtheorie te interpreteren en toe te passen te beoordelen of een onderzoek positief of negatief bijdraagt aan de begripsvaliditeit of criteriumvaliditeit van een test normgerichte normscores te berekenen en interpreteren besliskundige kansen te berekenen en interpreteren aan te geven wat de relatieve voor- en nadelen zijn van klinische versus statistische predictie.
Uit welkom video:
Uit welkoms praatje:
1 1 / 4
In deze studietaak ga je na of je voldoende parate voorkennis hebt voor dit vak.Open het bestand Statistiek 1 part.sav met SPSS of jamovi.Bereken een nieuwe variabele, die per persoon het gemiddelde is van de variabelen opg1, opg2, opg3, opg4, opg5, en opg6. Bereken van deze nieuwe variabele het gemiddelde en de standaarddeviatie. Schrijf je antwoorden in een document.De data hebben betrekking op een statistiektentamen. Presentie_B is het aantal keren dat de student tijdens deel B van die cursus aan een werkgroep heeft meegedaan. Cijfer_B is het cijfer dat de student na afloop van de cursus voor deel B behaalde. Verricht een variantieanalyse waarin je Presentie_B en Cijfer_B gebruikt als variabelen. Neem de belangrijkste tabel op in je document.Interpreteer de uitkomsten van deze analyse in enkele zinnen, en schrijf deze in jouw document.Gemiddelde en standaarddeviatie Het gemiddelde is 11.767 en de standaarddeviatie is 2.244. De APA geeft als richtlijn om af te ronden op een relevant aantal decimalen; dat zijn meestal twee of drie decimalen.Je mag Sum of Squares, Mean Square en F ook afronden naar één of twee decimalen, en p en R-square mag je ook afronden op twee decimalen.Minder dan twee decimalen weergeven is niet goed voor p en R-squared.Meer dan drie decimalen weergeven is niet goed.Variantieanalyse Source Sum of Squares df Mean Square F p Presentie_B 6738.650 5 1347.730 8.196 .000 Error 64129.189 390 164.434 Total 70867.838 395 a. R Squared = .095 (Adjusted R Squared = .083) Presentie_B Mean Std. Deviation N
061.94 14.1252
167.00 20.9026
270.72 10.8243
374.74 13.3047
471.31 12.07123
574.63 10.85105
Total71.02 13.39396 Cijfer_B moet de afhankelijke variabele zijn, en Presentie_B moet de onafhankelijke variabele zijn. Heb je dit omgedraaid, dan is dat een ernstige fout.Cijfer_B is een continue variabele en daarom niet geschikt als onafhankelijke variabele in een variantieanalyse.De celgemiddelden werden niet gevraagd maar zijn wel handig voor de interpretatie. Interpretatie Er is een significant effect van het aantal presenties op het cijfer (F(5, 390) = 8.196, p < .001), maar dit effect is zwak (R-squared = .095). Dit wil zeggen dat tenminste
2 2 / 4
twee niveaus van presentie een verschillend gemiddeld cijfer hadden. De celgemiddelden laten een stijgend patroon zien. Dit hoeft geen causaal effect te reflecteren. [Een mogelijke verklaring is weliswaar dat studenten die vaker naar de werkgroep gaan daardoor een hoger cijfer krijgen, maar een alternatieve verklaring is dat gemotiveerde studenten vaker naar de werkgroep gaan en een hoger cijfer krijgen doordat zij harder studeren – maar niet doordat zij naar de werkgroep gaan.] De statistieken hoef je niet in de tekst weer te geven.Je antwoord moet aangeven dat het effect significant is.Je antwoord moet aangeven dat het effect niet groot is (maar een ander woord dan 'zwak' mag worden gebruikt; je zou het ook 'matig' kunnen noemen).Het stuk tussen haakjes [ en ] mag je weglaten.Je mag niet concluderen dat vaker naar de werkgroepen gaan, leidt tot een hoger cijfer. Je mag dit wel noemen als één van de mogelijke verklaringen als je nog een andere mogelijke verklaring noemt.Thema 1 Testconstructie en testbeoordelingen Psychologische tests spelen een grote rol in de psychologie. In onderzoek worden zij vaak gebruikt als meetinstrument om de variabelen te meten waarover men een theorie heeft.In de praktijk worden zulke tests vaak gebruikt voor signalering, screening, diagnostiek, selectie, enzovoort. En elk proefwerk of tentamen dat je ooit hebt gemaakt is eigenlijk ook een psychologische test.Hoe weet je nou of een test goed is? Hoe weet je of kwantitatieve metingen in de psychologie überhaupt mogelijk zijn? Kun je ‘liefde’ meten? Dat is allerminst vanzelfsprekend. In het eerste deel van dit thema zullen we bespreken hoe psychologische tests gemaakt worden. Hierbij zijn twee dingen essentieel: 1) er moet een theorie zijn die beschrijft wat je wil meten, en 2) er moet empirisch onderzoek zijn waarmee de test en de theorie steeds verder verbeterd worden.
Leerdoelen:
de rol van empirisch onderzoek in testconstructie beschrijven de COTAN-criteria te benoemen en globaal te beschrijven de samenvattende COTAN-beoordeling van een test te gebruiken om te beoordelen welke soort conclusies kunnen worden getrokken uit de testscores en te evalueren voor welk soort gebruiksdoelen de test geschikt is.
- De rol van empirisch onderzoek in testconstructie
Empirisch onderzoek speelt een centrale rol in het ontwikkelen van psychodiagnostische instrumenten. Uit de AST-NIP blijkt dat wetenschappelijk onderbouwde tests betrouwbaardere, valide en reproduceerbare uitspraken mogelijk maken dan subjectieve oordelen (zoals intuïtie of ervaring).
Het empirisch proces omvat onder meer:
Definitie van het te meten construct Ontwikkeling van geschikte items Normeringsonderzoek Betrouwbaarheids- en validiteitsonderzoek (zoals test-hertest, interne consistentie, factoranalyse) Bij inadequate empirische onderbouwing ontstaat het risico van pseudowetenschap en misleiding van de cliënt
- De COTAN-criteria benoemen en globaal beschrijven
- Uitgangspunten
- Kwaliteit van het Vormgeving en bruikbaarheidZijn de items,
Het COTAN-beoordelingssysteem beoordeelt tests op zeven inhoudelijke criteria Criterium KernDoel
van de testconstructie Meetpretentie en theoretische basis Is duidelijk wat en waarom iets wordt gemeten?
3 3 / 4
testmateriaalinstructies en layout adequaat?
- Kwaliteit van de
- Normen AfkapwaardenKun je scores
- Betrouwbaarheid ReproduceerbaarheidBlijft de uitslag stabiel
- BegripsvaliditeitTheoretische validiteitMeet de test wat hij
- Samenvattende COTAN-beoordeling interpreteren voor toepassingsdoelen
handleiding GebruikersinformatieIs er heldere uitleg over afname, scoring, interpretatie?
vergelijken met relevante normgroepen?
bij herhaalde meting?
zou moeten meten?
7.Criteriumvaliditeit Voorspellende waardeKun je op basis van scores iets voorspellen?De beoordeling per criterium is “goed”, “voldoende” of “onvoldoende”. Een negatieve score ontstaat door onvoldoende informatie of tegenvallende resultaten.
Elke test wordt beoordeeld met het oog op een specifiek testdoel (zoals selectie of diagnose). Bij het gebruik moet je afwegen of het gebruikersdoel even zwaar of lichter is dan het testdoel. Is het gebruikersdoel zwaarder, dan is de test daar niet automatisch geschikt voor
Voorbeeld:
DoelNodige COTAN-criteria (moeten “voldoende” zijn) Groepsonderzoek Betrouwbaarheid, Begripsvaliditeit Signalering Normen, Betrouwbaarheid, Criteriumvaliditeit Inzicht krijgen Normen, Betrouwbaarheid, Begripsvaliditeit Adviseren Normen, Betrouwbaarheid, Begrips- of Criteriumvaliditeit Screening Alle vier (Normen, Betrouwbaarheid, Begrips- en Criteriumvaliditeit) Diagnosticeren Alle vier Besluiten/ selecteren Alle vier
Kortom, de COTAN-beoordeling helpt bepalen:
Welke conclusies gerechtvaardigd zijn (bijv. wel/geen DSM-classificatie), Voor welke toepassingen een test bruikbaar is (bijv. advies vs. selectie), Welke beperkingen er zijn bij zwaardere gebruiksdoelen.Studietaak 1.1 – Hoe is het om een test af te leggen?
Studietaak 1.2 – Achtergrond: Wat is meten? De cyclus van testconstructie
Waarom is testconstructie in principe een iteratief proces?Bij het onderzoek naar validiteit en betrouwbaarheid kan naar voren komen dat de test nog niet goed genoeg is, en dan moet hij worden verbeterd. Dit betekent dat er andere items moeten worden gemaakt, waarna de test weer opnieuw onderzocht moet worden.Waarom wordt, binnen een cyclus, betrouwbaarheid onderzocht na unidimensionaliteit?Bij validiteitsonderzoek wordt ook de geschiktheid van elk item onderzocht, en dit kan ertoe leiden dat sommige items worden verwijderd. Betrouwbaarheid gaat alleen over de totaalscore, maar dan moet je eerst weten welke items behouden blijven.
- / 4