• Like
Verantwoord Meten In Het Gezondheidszorgonderwijs
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Verantwoord Meten In Het Gezondheidszorgonderwijs

  • 9,220 views
Published

 

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
9,220
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
80
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN Keuze van de juiste toetsvorm Praktische voorbeelden Nieuwe ontwikkelingen Kwaliteitsbewaking J.G.M. Schotten W.C.L. Robroek
  • 2. Dit handboek vormt de afsluiting van een samenwerkingsproject van de VOVB (Vereniging van Opleidingsinstituten voor Verplegende en verzorgende Beroepen) en het Cito Instituut voor Toetsontwikkeling voor de ontwikkeling van toetsen voor opleidingen voor de verpleging en (zieken)verzorging. Dit project werd mede gefinancierd door ministerie van Volksgezondheid, Welzijn en Sport.
  • 3. VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN J.G.M. Schotten W.C.L. Robroek Met medewerking van: G.J.J.M. Straetmans A.M.A. Stolk D. Tarenskeen J. van Weeren C.G.M. Liebrand
  • 4. © 1997 Bohn Stafleu Van Loghum, Houten Alle rechten voorbehouden. Niets van deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen, of enige andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16B Auteurswet 1912j° het Besluit van 20 juni 1974, St.b. 351, zoals gewijzigd bij Besluit van 23 augustus 1985, St.b. 471 en artikel 17 Auteurswet 1912, dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus 882, 1180 AW Amstelveen). Voor het overnemen van (een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel 16 Auteurswet 1912) dient men zich tot de uitgever te wenden. ISBN 90 313 24272 D/1997/3407/025 Bohn Stafleu Van Loghum De Molen 77 3995 AW Houten Kouterveld 2 1831 Diegem
  • 5. 1 Uitgangspunten Het voor u liggende handboek over evaluatie in het onderwijs is gebaseerd op twee uitgangspunten. Het eerste uitgangspunt is ’de aansluiting bij de praktijk’: in toenemende mate is er in het onderwijs belangstelling voor praktische vaardigheden, zowel beroepsspecifieke als algemene vaardigheden. De gedachte daarachter is dat leerlingen daardoor beter zijn voorbereid op de eisen die er vanuit het beroep en de maatschappij aan hen gesteld worden. Wanneer opleidingen daar serieus werk van willen maken, heeft dat consequenties voor het hele didactische proces: de doelstellingen, de onderwijsleersituaties en derhalve ook de toetssituaties moeten beter aansluiten bij de praktijk(vaardigheden). In dit handboek wordt aangesloten bij Romiszowski, die in zijn de visie sterk de nadruk legt op vaardigheden. Dit leidt vanzelf tot het tweede uitgangspunt, ’de gezamenlijkheid’: wanneer deze wijzigingen doorgevoerd moeten worden, moeten alle verantwoordelijkheidsniveaus binnen de opleiding dit dragen. De aansluiting bij de praktijk zal in eerste instantie geïmplementeerd/gerealiseerd moeten worden op curriculumniveau, maar vanuit dat niveau zal dat gevolgen hebben voor het managementniveau (facilitering en organisatie van het hele proces) en voor wat in dit handboek genoemd wordt het uitvoeringsniveau (onderwijs en toetsing, didactiek en evaluatie). De problematiek van het verantwoord meten van leerresultaten wordt in dit handboek vanuit deze twee uitgangspunten benaderd. Dat betekent dat er naast een bespreking van de noodzakelijke voorwaarden voor verantwoord meten veel aandacht zal worden besteed aan het meten van vaardigheden. De functie van het handboek is het bevorderen van de toetsdeskundigheid. Het maakt docenten bewust van de noodzaak om verschillende doelen te toetsen met verschillende toetsvormen. Op curriculumniveau moet dit tot uiting komen in de onderwijs- en examenregeling. Voor het uitvoeringsniveau worden vervolgens de nodige handreikingen gegeven. Voor de kennistoetsen en de meeste vormen van vaardigheidstoetsen zijn de richtlijnen voldoende uitgewerkt om zelf tot constructie over te gaan. Voor die vormen van vaardigheidstoetsen waarvan de constructie te complex is (zoals computersimulaties), kunnen de richtlijnen gebruikt worden om de op de markt aangeboden toetsen te screenen of om in onderhandeling met een toetsconstructeur een eisenpakket op tafel te leggen. Voor alle vaardigheidstoetsen geldt echter dat het vaststellen van de kwaliteit ervan arbeidsintensief is en veel expertise vereist op het gebied van de psychometrie. Het zich bewust zijn van de zin en noodzaak van verantwoord meten en beoordelen is een essentiële schakel in het gehele systeem van kwaliteitszorg, een noodzakelijke voorwaarde op de weg naar kwaliteitsbewaking en -verbetering. 1
  • 6. Hoofdstuk 1 1.1 Aansluiting bij de praktijk 1.1.1 Het model ’didactische analyse’: geen gesloten model Om de plaats van meten in het onderwijsleerproces aan te geven, wordt vaak gebruik gemaakt van het model ’didactische analyse’ (Van Gelder, 1971). Dit model is in afbeelding 1 terug te vinden in het gestippelde kader: afb. 1 - Externe invloeden op het onderwijsleerproces In afbeelding 1 staan respectievelijk leerdoelen, beginsituatie, onderwijsleersituatie en meten/beoordelen genoemd. In paragraaf 2.2 zal dit model uitgebreider besproken worden. Eerst wordt nu besproken welke externe factoren invloed uitoefenen op de verschillende onderdelen van het model. Deze worden aangegeven door de grote pijlen in de afbeelding. 1.1.2 De input vanuit de beroepspraktijk in het model Uiteraard is dit model geen gesloten systeem. Vanuit de beroepswereld en vanuit de maatschappij worden eisen gesteld, die invloed hebben op de verschillende onderdelen van dit model. Allereerst drukt de beroepspraktijk een belangrijk stempel op de eindtermen en leerdoelen van het onderwijs. Het gaat immers om beroepsonderwijs; er worden mensen opgeleid om in de beroepspraktijk te functioneren. Telkens wanneer het beroep zich ontwikkelt, zullen de toeleverende opleidingen daarop moeten inspelen. Scholen zullen steeds optimaal moeten aansluiten bij de beroepspraktijk, niet alleen door bij het formuleren van eindtermen uit te gaan van taak- en functieanalyses, maar ook door het onderwijsleerproces zo in te richten dat er een naadloze overgang is van theorie naar praktijk. Dit betekent onder meer dat de beroepspraktijkvorming niet alleen in de beroepsbegeleidende leerweg (’werken/leren’) maar ook in de beroepsopleidende leerweg (’leren/stage’) een belangrijke plaats zal krijgen. 2
  • 7. Uitgangspunten Voor toetsen geldt diezelfde eis van aansluiting bij de praktijk. Traditioneel is men bij het meten en beoordelen van leerresultaten vaak in eerste instantie gericht op het meten van cognitieve vaardigheden (het kunnen herkennen en benoemen van zaken), hetgeen dan veelal plaatsvindt in de vorm van schriftelijke toetsen. Dat is ook wel te verklaren: het maken van toetsen voor cognitieve vaardigheden is relatief eenvoudiger dan het ontwikkelen van kwalitatief goede instrumenten of procedures voor het meten van praktische vaardigheden. Het op een eenduidige en objectieve manier vaststellen van prestaties van leerlingen op het gebied van praktische vaardigheden (bijv. communicatieve vaardigheden) is zeker geen eenvoudige zaak. In het gezondheidszorgonderwijs worden de praktijkvaardigheden van leerlingen gewoonlijk beoordeeld door een functionaris van de arbeidsorganisatie (praktijkbegeleider). Ondanks de vaardigheid die de meesten van hen hebben in het beoordelen van praktijkvaardigheden, is het oordeel nog steeds gebaseerd op de individuele (en vaak subjectieve) opvatting van de beoordelaar. Vaak weet de leerling nauwelijks op welke criteria hij beoordeeld wordt en in een aantal gevallen hanteert de ene beoordelaar andere maatstaven dan de andere. In dit handboek wordt daarom uitvoerig ingegaan op de verschillende vaardigheden die een leerling zich gedurende de opleiding eigen moet maken, de wijze waarop deze getoetst kunnen worden en de toetsvormen die daarvoor het meest geschikt zijn. 1.1.3 De input vanuit de maatschappij in het model Ook de maatschappij stelt zijn eisen aan het individu. Wil men als volwaardig burger in de zich steeds sneller veranderende maatschappij functioneren, dan is het noodzakelijk dat men daarvoor voldoende is toegerust. Steeds meer ontstaat het besef dat de maatschappij vraagt om, wat wel genoemd wordt, algemene vaardigheden: geen kant-en-klare kennis, maar instrumentele en strategische vaardigheden, die een persoon in staat stellen zich aan te passen aan veranderingen in beroep en maatschappij. Deze vaardigheden krijgen in steeds meer examenprogramma’s en eindtermendocumenten een plaats en het onderwijs bezint zich op methoden om deze vaardigheden systematisch te onderwijzen en vervolgens ook te toetsen. Dat brengt ons op een andere duidelijke invloed vanuit de maatschappij: om de waarde van diploma’s te kunnen garanderen, moeten bepaalde minimumeisen gesteld worden aan de toetsen en examens die recht geven op een diploma. Dit ’civiel effect’ kan op verschillende manieren verkregen worden, namelijk door middel van: – centrale examens, waarbij alle opleidingen op hetzelfde moment hetzelfde examen afnemen; – landelijke examens, waarbij opleidingen de keuze hebben om op een bepaald moment aan een centraal geconstrueerd examen mee te doen; – visitaties, waarbij opleidingen eens in de zoveel tijd doorgelicht worden op alle aspecten uit het didactisch model; – externe legitimering, waarbij alle opleidingen een vastgesteld deel van hun toetsing ter controle aan een onafhankelijke instelling moeten voorleggen. Op welke wijze dit civiel effect gewaarborgd wordt, is over het algemeen onderworpen aan wettelijke regelingen. Voor het beroepsonderwijs in het algemeen vormen de WEB (Wet Educatie en Beroepsonder- wijs) en de WHW (Wet Hoger onderwijs en Wetenschappelijk onderzoek) hiervoor het belangrijkste kader. Daarnaast heeft de sector Gezondheidszorg per december 1997 specifiek te maken met de Wet BIG (Beroepen in de Individuele Gezondheidszorg), waarin onder andere voor de verschillende beroepsgroepen de vereiste bekwaamheid wordt aangegeven. 1.1.4 Aansluiting van de kwalitatieve en kwantitatieve uitstroom bij de behoefte van het werkveld Een ander aspect waaraan zowel het beroepsveld als de maatschappij groot belang hecht, is de aansluiting van de uitstroom bij de behoefte van het werkveld, niet alleen in kwalitatieve maar ook in 3
  • 8. Hoofdstuk 1 kwantitatieve zin. Uiteraard hebben ook de leerlingen er baat bij wanneer ze enerzijds adequaat worden toegerust voor het beroep dat ze willen gaan uitoefenen en anderzijds gewild zijn op de arbeidsmarkt vanwege hun specifieke deskundigheid. Opleidingstrajecten moeten leiden tot die kwalificaties waaraan behoefte is. Deze afstemming zal veelal regionaal moet plaatsvinden, in overleg tussen werkgevers en opleiders. In dit verband is het relevant te melden dat men steeds meer uitgaat van brede kwalificaties, waardoor afgestudeerden op meer plaatsen inzetbaar zijn. 1.1.5 Aansluiting van verschillende opleidingen op elkaar: modulen en certificaateenheden In opleidingen wordt tegenwoordig hoe langer hoe meer gewerkt met modulen en certificaateenheden. Dit zijn zelfstandige leereenheden waarvoor de leerling wordt toegelaten als hij aan een beginvoorwaarde voldoet en die wordt afgesloten met een toets. Een voldoende resultaat is vaak voorwaarde voor toelating tot een volgende module. Een certificaateenheid heeft een dusdanige omvang, dat de leerling die een voldoende resultaat bereikt heeft op de toets een certificaat ontvangt. Soms is dit werken met modulen alleen een manier om lesinhouden te ordenen en volgen alle leerlingen van een bepaald leerjaar gezamenlijk de modulen. Vaak is het echter ook een manier om individuele leerlingen in de gelegenheid te stellen een eigen leerroute te kiezen. Niet in de laatste plaats biedt het voordelen bij het instromen van leerlingen uit andere opleidingen of bij het (her)plaatsen van leerlingen die enige tijd uit het onderwijsproces zijn geweest. Door de vereiste beginsituatie voor de betreffende module eenduidig vast te leggen, kan getoetst worden of leerlingen die aan deze module willen deelnemen aan de gestelde beginvoorwaarde voldoen. Ook in het gezondheidszorgonderwijs zal deze modulering in de nabije toekomst een steeds belangrijker rol gaan spelen. Op de gevolgen van modulering voor de organisatie van toetsing en afsluiting wordt nader ingegaan in paragraaf 6.2, waar het optimale gebruik van een opgavenbank wordt besproken. Een andere belangrijke reden voor het moduleren van opleidingen is het beperken van de ongekwalifi- ceerde uitstroom: ook leerlingen die niet de hele opleiding afmaken, zullen een aantal eenheden hebben afgesloten en daarvoor een certificaat hebben ontvangen. Zo staan zij niet langer met lege handen op de arbeidsmarkt. 1.2 Een gezamenlijke verantwoordelijkheid Een project ’verantwoord meten’ kan niet enkel en alleen gerealiseerd worden op het niveau van de individuele docent. Een bepaalde docent kan natuurlijk best zorgen voor een kwalitatief goede toetsing van zijn leerlingen, maar als de toetsresultaten door anderen op de verkeerde manier worden geïnterpreteerd of belangrijke beslissingen worden genomen op basis van andere gegevens, is het nut van zijn inspanningen erg beperkt. Bovendien is het zaak om door intercollegiale screening of het aanstellen van een toetsdeskundige of toetscommissie de kwaliteit van de beoordelingen te bewaken: legt elke docent dezelfde normen aan, berijdt iemand niet steeds dezelfde stokpaardjes etc. Van verantwoord meten kan alleen sprake zijn als bij de invoering ervan rekening wordt gehouden met het opleidingssysteem als geheel. Als docenten geen faciliteiten geboden worden voor de ontwikkeling of aanschaf van nieuwe toetsvormen, mag men geen hooggespannen verwachtingen koesteren over het effect van bijvoorbeeld een cursus ’het kiezen van de juiste toetsvorm’ of ’toetsontwikkeling’. Als de inspanningen op het gebied van verantwoord meten kans van slagen willen hebben, is een samenhangend beleid daarom noodzakelijk. In dat beleid zijn drie niveaus aanwijsbaar waarop beslissingen worden genomen: – managementniveau; – curriculumniveau; – uitvoeringsniveau. 4
  • 9. Uitgangspunten Afhankelijk van het niveau waarop men functioneert, kan de aard van de beslissingen of uitspraken echter verschillen. Men heeft behoefte aan specifieke informatie om op grond daarvan specifieke conclusies te kunnen trekken. De vragen die men beantwoord wil zien op grond van dezelfde meetgegevens, zijn vaak verschillend. In de volgende paragrafen wordt hierop nader ingegaan. 1.2.1 Managementniveau: facilitering (procesbeheersing/procesinrichting) Op dit niveau wordt in globale zin de functie van verantwoord meten vastgelegd en worden de voorzieningen getroffen die nodig zijn voor het uitvoeren van de geplande activiteiten. Voor het management spelen bijvoorbeeld vragen als: – Wegen de investeringen (van geld en menskracht) op tegen de opbrengsten (kosten/baten-analyse)? – Hoe is de kwaliteit van onze instelling in vergelijking met andere opleidingen? – Met welke gegevens kan ons beleid naar buiten toe (bijv. ministerie) verantwoord onderbouwd worden? – Komt het rendement van het binnenschools leren overeen met de afspraken die met de zorginstellin- gen daarover gemaakt zijn? Hoe goed is de inzetbaarheid van de leerlingen in de zorginstellingen? Op managementniveau richt men zich op de randvoorwaarden en de beleidskeuzen. Ook zal een aantal voorzieningen getroffen moeten worden om een verantwoorde toetsing mogelijk te maken. Voorbeelden van aandachtspunten op dit niveau zijn: – De opleiding moet een duidelijke visie op meten en beoordelen ontwikkelen en deze visie moet zich vertalen in toetsingsbeleid door directie en bestuur. – Meten en beoordelen zijn belangrijke instrumenten bij kwaliteitsbepaling en -bewaking door het management. Er moeten daarom maatregelen, beslissingen en faciliteiten vanuit het management worden gecreëerd waardoor de interne kwaliteitszorg gestalte krijgen. – Toetsing hoort bij het takenpakket van de docent, maar voor het opzetten en in uitvoering nemen van een systeem van verantwoord meten is een dermate grote tijdsinvestering nodig dat bepaalde docenten daarvoor gedeeltelijk vrijgeroosterd zullen moeten worden. – Door te toetsen komt informatie beschikbaar. Tenzij die wordt opgeslagen in een toegankelijk administratiesysteem, zal die informatie vluchtig van aard zijn. Er zal daarom nagedacht moeten worden over het ontwerp van een dergelijk systeem en over het beheer daarvan. – Vernieuwingen of veranderingen op het gebied van verantwoord meten moeten, om kans van slagen te hebben, gedragen worden door het merendeel van de medewerkers. De acceptatie zal gemakkelij- ker verlopen als de medewerkers goed op de hoogte zijn van de motieven, de uitvoeringsprocedures en de implicaties voor het eigen functioneren. – Bij welke instantie, hoe en waartegen (bijv. tegen de beoordeling zelf of tegen de wijze waarop getoetst is, e.d) kan de leerling in beroep gaan? Welke procedure volgt de beroepsinstantie bij het afwikkelen van een beroep en wie stelt die werkwijze vast? 1.2.2 Curriculumniveau: aansturing Ten aanzien van het curriculum spelen vragen als: – Hoe effectief is het gegeven onderwijs (onderwijsmethode, hulpmiddelen etc.)? – Voldoet het binnenschools leren aan de eisen van de zorginstellingen? – Sluit het onderwijs voldoende aan bij de leerdoelen en bij de beginsituatie van de leerlingen? – Met welke gegevens kan de kwaliteit van het gegeven onderwijs aangetoond worden aan bijvoorbeeld directie en bestuur? 5
  • 10. Hoofdstuk 1 Op curriculumniveau houdt men zich onder meer bezig met de voorwaarden voor en de onderlinge afstemming van de toetsen. Op dit niveau moeten (tenzij dit in de onderwijs- en examenregeling al is vastgelegd) afspraken gemaakt worden over bijvoorbeeld: – Curriculumopbouw: . Hoe wordt de doorstroming van leerlingen in de opleiding geregeld (bijv. jaarklassensysteem, studiepuntensysteem)? Wie bepaalt deze regeling? . Welke vakken of studieonderdelen zijn voorwaardelijk voor andere vakken of studieonderdelen? . Kunnen vrijstellingen gegeven worden voor bepaalde studieonderdelen? Wat zijn daarvoor de criteria en wie stelt die vast? – Onderwijs- en examenregeling: . Welke vakken of studieonderdelen moeten worden getoetst? En op welke momenten? . Op welke wijze worden de verschillende onderdelen getoetst (schriftelijk of mondeling; kennistoets of vaardigheidstoets; werkstuk; etc.)? . Wat is de geldigheidsduur van toetsresultaten, certificaten e.d.? . Is er een officieel afsluitend examen? Hoe wordt dat vormgegeven en wat zijn de consequenties van een onvoldoende resultaat? . Wie bepaalt wanneer de toetsmomenten zijn, hoeveel herkansingen er zijn en wat de gevolgen zijn van ’niet halen’ van de laatste herkansing? – De functie van toetsen: . Wat is de functie van toetsen op de verschillende momenten: diagnostisch, evaluerend of certificerend? . Hoe kunnen de toetsresultaten benut worden bij de curriculumevaluatie? – Normering en cijfergeving: . Hoe moeten toetsscores gewaardeerd worden (hoe wordt de cesuur vastgesteld)? Wie bepaalt dat? . Hoe worden de toetsresultaten weergegeven (cijferschaal van 1 tot 10 of voldoende-onvoldoende- goed)? – Kwaliteitsbewaking: . Hoe en wanneer (bij elke toets of alleen bij afsluitende toetsen) moet de kwaliteit van toetsen onderzocht worden? – Administratie: . Hoe worden toetsresultaten geadministreerd, voor hoe lang en wie hebben toegang tot die administratie? – Constructieprocedures: . Wie dragen zorg voor de ontwikkeling van toetsen op grond waarvan belangrijke beslissingen genomen worden over leerlingen? . Wie bewaakt het proces van de toetsontwikkeling? . Wie voert het onderzoek uit naar de kwaliteit van de vervaardigde toetsen en op welke wijze? Hoe wordt daarover gerapporteerd en aan wie? Welke acties worden ondernomen als achteraf (nadat ze zijn afgenomen) blijkt dat toetsen onvoldoende kwaliteit hadden? 1.2.3 Uitvoeringsniveau: constructie/aanschaf, afname/verwerking, beoordeling De deskundigheid van docenten beperkt zich niet tot het geven van lessen en het begeleiden van leerlingen, maar richt zich ook op het formuleren van doelstellingen, het kiezen van toetsvormen, het meten van leerresultaten en het uiteindelijk op een zo verantwoord mogelijke wijze beslissingen nemen op grond van deze leerresultaten. Zoals in paragraaf 1.2.2 duidelijk is te lezen, worden op curriculumni- veau, in overleg tussen docenten en management, de benodigde kaders vastgesteld. Docenten die zich met de uitvoering bezighouden, zullen vooral geïnteresseerd zijn in zaken als: – Hebben de leerlingen de gestelde leerdoelen bereikt? – Zijn er bepaalde leerlingen die remediërend onderwijs nodig hebben? 6
  • 11. Uitgangspunten – Voldoen de leerlingen aan de minimum-eisen om aan een bepaalde cursus of module deel te nemen? Op uitvoeringsniveau zullen zij zich daarom moeten bezighouden met de volgende aspecten van verantwoord meten en beoordelen: – Wanneer aan een toets grote consequenties voor de leerlingen zijn verbonden (al dan niet een certificaat), moet die toets aan bepaalde minimale kwaliteitseisen voldoen. Welke eisen zijn dat en hoe kan daaraan voldaan worden? – Wanneer een toets vooral een diagnostische functie heeft, spelen weer andere eisen een rol. Wanneer levert zo’n toets waardevolle en bruikbare informatie op? – Hoe kunnen bepaalde toetsvormen het beste geconstrueerd worden? Welke stappen zijn er te onderscheiden en welke fouten moeten er vermeden worden? 1.3 Leeswijzer In het inleidende hoofdstuk 1 is met name de opzet van het handboek uitgelegd: voor de indeling van het handboek is aansluiting gezocht bij de toenemende aandacht voor vaardigheden vanuit beroep en maatschappij. Verder wordt betoogd dat verantwoord meten een zaak is van alle verantwoordelijkheidsni- veaus binnen een opleiding. In de verdere hoofdstukken worden deze uitgangspunten nader uitgewerkt. In hoofdstuk 2 wordt besproken wat onder meten en beoordelen wordt verstaan en wat de plaats van meten en beoordelen in het didactisch proces is. Ook de verschillende functies van toetsen worden beschreven. Omdat een kwalitatieve uitspraak (een beoordeling) over de meetgegevens pas verantwoord is als er zekerheid bestaat over de juistheid van deze gegevens, zal in hoofdstuk 3 worden ingegaan op de kwaliteitseisen met betrekking tot meten en beoordelen. In hoofdstuk 4 passeren de verschillende toetsvormen heel kort de revue. De volgorde waarin dit gebeurt, is bepaald door de mate waarin de respectieve toetsvormen aansluiten bij de praktijk. Bovendien worden van elke toetsvorm de sterke en zwakke punten genoemd, zodat op basis van dit hoofdstuk een keuze gemaakt kan worden voor de meest geschikte toetsvorm. In de daaropvolgende hoofdstukken worden de beslissingen en activiteiten op de drie verantwoordelijk- heidsniveaus beschreven. In hoofdstuk 5 is dat allereerst het curriculumniveau. Met de gegevens uit hoofdstuk 4 moet men op dat niveau komen tot het opstellen van een onderwijs- en examenregeling. Wanneer het toetsplan is uitgewerkt, moet op het uitvoeringsniveau allereerst gewerkt worden aan de constructie of aanschaf van de benodigde toetsen. Hoofdstuk 6 geeft in de vorm van stroomdiagrammen algemene richtlijnen voor de constructie. Hierbij wordt om een aantal redenen onderscheid gemaakt tussen enerzijds kennistoetsen en anderzijds vaardigheidstoetsen. Deze algemene richtlijnen worden in hoofdstuk 7 voor de meeste toetsvormen uitgewerkt tot specifieke richtlijnen, vuistregels en concrete voorbeelden. Voor een aantal andere toetsvormen wordt volstaan met aanwijzingen voor het beoordelen van de kwaliteit. Hoofdstuk 8 bevat richtlijnen voor de afname van de toetsen en de verwerking van de resultaten. In het afsluitende hoofdstuk 9 worden de beslissingen en voorzieningen op managementniveau beschreven: welke maatregelen moeten er getroffen worden om te zorgen dat verantwoord meten een vast onderdeel wordt en blijft van het totale opleidingsproces. 7
  • 12. 2 De plaats van meten en beoordelen in het didactisch proces Meten speelt een belangrijke rol in veel activiteiten die kenmerkend zijn voor ’het onderwijs’. Curriculumevaluatie, school- en beroepskeuze, examinering, voortgangsbewaking: op al deze gebieden wordt gemeten om verantwoord beslissingen te kunnen nemen over leerlingen, het onderwijzend personeel, curricula en opleidingen. In het onderwijsleerproces vervult toetsing een centrale rol. Toetsing voorziet in de informatiebehoefte van docenten die ontstaat als er beslissingen moeten worden genomen om het onderwijsleerproces optimaal te laten verlopen. In het onderwijsleerproces worden op verschillende momenten vragen gesteld waarop met behulp van toetsen een bevredigend antwoord gegeven kan worden. Zodra de doelstellingen van een stuk onderwijs bepaald zijn, komt de vraag op waar het onderwijs een aanvang moet nemen (de vraag naar de beginsituatie). Tijdens het onderwijsleerproces moet op gezette momenten gecontroleerd worden of de leerlingen voldoende vorderingen maken. Als bijsturing noodzakelijk mocht zijn, kan dit plaatsvinden in het leerproces (de leerling verandert zijn leeractiviteiten) en/of in het onderwijsproces (de docent past de instructietactiek en/of -strategie aan). Na afloop van de instructieperiode dient vastgesteld te worden of leerlingen de beoogde kennis en vaardigheden hebben verworven. In paragraaf 1.1 kwam het model van Van Gelder al ter sprake om te laten zien op welke wijze het onderwijsleerproces beïnvloed wordt of moet worden door invloeden van buitenaf. In dit hoofdstuk worden de verschillende onderdelen van het didactisch model aan de orde gesteld: aan welke eisen moeten de eindtermen/doelstellingen voldoen, hoe kun je daar je onderwijsleersituatie op afstemmen, welke gevolgen moet dat hebben voor je toetsing, wat zijn de tegenstrijdigheden tussen de verschillende eisen? Vervolgens wordt ingegaan op de terugkoppeling van de meetgegevens naar informatie voor de verschillende verantwoordelijkheidsniveaus, zoals deze in paragraaf 1.2 aan de orde kwamen: in eerste instantie geeft het feedback aan de leerling en de docent, in tweede instantie (bij vergelijking tussen klassen of bij herhaalde meting) feedback over het curriculum en in laatste instantie (vergelijking met andere scholen, rendementsgegevens) feedback op managementniveau. Alvorens daartoe wordt overgegaan, zal eerst kort worden aangegeven wat onder meten en beoordelen wordt verstaan. Het hoofdstuk wordt afgesloten met een bespreking van de verschillende functies die toetsen kunnen hebben. 2.1 Meten en beoordelen: een begripsbepaling Vaak worden de termen ’meten’, ’toetsen’, ’evalueren’ en ’beoordelen’ naar willekeur door elkaar gebruikt. Daarom is het goed om deze begrippen kort nader toe te lichten. De begrippen ’meten’ en ’toetsen’ zijn in feite gangbare synoniemen en kunnen worden omschreven als: het systematisch en op objectieve wijze vaststellen van (studie- of leer)resultaten; een toets is het meetinstrument; het eindresultaat van meten is een score (het aantal goede antwoorden of verrichtingen, al dan niet gewogen). 8
  • 13. De plaats van meten en beoordelen in het didactisch proces De begrippen ’beoordelen’ en ’evalueren’ mogen (althans in het kader van onderwijs-/leerresultaten) ook als synoniemen worden opgevat en kunnen worden omschreven als: het systematische proces van verzamelen, analyseren en interpreteren van de bij meting verkregen gegevens teneinde vast te stellen in welke mate de gestelde (leer)doelen zijn bereikt. Dit proces impliceert het toekennen van een (waarde)oordeel aan een meetresultaat op grond waarvan (onderwijskundige) beslissingen genomen worden. Schematisch kan deze samenhang aldus worden weergeven: BEOORDELEN = METEN + WAARDEREN + BESLISSEN Meten en beoordelen zijn processen die in elkaars verlengde liggen: een kwalitatieve uitspraak kan pas gedaan worden nadat er een kwantitatieve uitspraak is gedaan. Dus eerst meten en pas dan beoordelen. Daarbij moet men zich ook realiseren dat meten en beoordelen gewoonlijk geen eenmalige activiteiten zijn die klaar zijn zodra er een kwalitatieve uitspraak gedaan is. Meten en beoordelen vormen een min of meer continu proces waarbij vaak op meerdere momenten gemeten en beoordeeld wordt. Zoals de titel van het handboek Verantwoord meten in het gezondheidszorgonderwijs wordt aangegeven dat van de hierboven genoemde begrippen, het meten centraal staat: welke plaats heeft meten in het onderwijsproces, aan welke eisen moeten goede meetinstrumenten voldoen en hoe kunnen goede meetinstrumenten geconstrueerd worden. Dit wil overigens niet zeggen dat aan de andere zaken (waarderen en beslissen) geen aandacht zal worden besteed. 2.2 Het didactisch proces: de relatie tussen leerdoelen, beginsituatie, onderwijsleersituatie en toetsing In paragraaf 1.1 werden de externe invloeden op het model ’didactische analyse’ besproken. Hieronder wordt nader ingegaan op het model zelf. afb. 2 - Het model ’Didactische Analyse’ De leerdoelen zijn concretiseringen (operationalisaties) van de eind- of tussentermen van de opleiding en geven aan wat de leerling gedurende de onderwijsleerperiode moet leren: kennis en vaardigheden en leerinhouden. 9
  • 14. Hoofdstuk 2 De beginsituatie heeft betrekking op de vraag naar het niveau van de leerling aan het begin van de opleiding of aan het begin van een module: ’Op welk niveau moet de docent aansluiten met zijn onderwijsproces? Wat weet de leerling al? Welke vaardigheden beheerst hij al?’ Om de leerdoelen te bereiken, moet er – rekening houdend met de beginsituatie – een reeks van activiteiten worden gepland. Dit speelt zich af in de onderwijsleersituatie waarin vragen aan de orde komen als: ’Welke leerstof past bij de leerdoelen? Welke didactische werkvormen kunnen er het beste gebruikt worden? Welke hulpmiddelen zijn zinvol in het onderwijsleerproces? Welke leeractiviteiten moeten ontplooid worden?’ Het meten/beoordelen ten slotte heeft betrekking op het vaststellen in hoeverre de leerdoelen bereikt zijn. Er is dus een duidelijke relatie tussen de leerdoelen en de meting van studieresultaten: aan de hand van de leerdoelen wordt gemeten wat de ’opbrengst’ is van het onderwijsleerproces. Tevens is er een voortdurende terugkoppeling van meten/beoordelen naar de onderwijsleersituatie: de meetgegevens kunnen relevante informatie opleveren over het gegeven onderwijs, de leeractiviteiten etcetera. 2.3 De functie van toetsen De functie van meten in het didactisch proces kan rechtstreeks worden afgeleid uit de plaats van meten ten opzichte van de beginsituatie, de onderwijsleersituatie en de leerdoelen, zoals beschreven in de vorige paragraaf. Toetsen vindt plaats vóór of na een stukje onderwijs. Hierbij moet dan gedacht worden aan de kleinst mogelijke onderdelen die binnen een onderwijsprogramma te onderscheiden zijn en die beginnen met of afgesloten worden met een toets. Het kan hierbij gaan om een lesuur, een module of een cursus. In tabel 1 wordt weergegeven hoe toetsmomenten en toetsfuncties onderling samenhangen. tabel 1 - Toetsmomenten en toetsfuncties moment doel(en) functie(s) vooraf • Meten of het beginniveau van de leerling(en) selectie / plaatsing voldoende is voor het onderwijsprogramma. • Meten welke leerdoelen voor welke leerlingen classificatie haalbaar zijn. • Meten welk leertraject voor welke leerlingen het interne differentiatie meest geschikt is. achteraf • Meten wat de vorderingen van de leerling zijn diagnosticering / remediëring en of remediëring gewenst is. • Meten wat de kwaliteit of het rendement van het curriculumevaluatie gegeven onderwijs is. • Meten of de leerling het vereiste kennis- en selectie / certificering vaardigheidsniveau heeft bereikt. Uit de tabel blijkt dat toetsen verschillende functies kunnen hebben. Afhankelijk van de toetsfunctie worden bepaalde eisen aan de meting gesteld (zie tabel 23 op blz. 60). De belangrijkste functies c.q. de meest voorkomende toepassingen van toetsing zijn in de tabel geaccentueerd: toetsing vindt vooral plaats 10
  • 15. De plaats van meten en beoordelen in het didactisch proces na (een deel van) het onderwijsprogramma. In enkele stroomdiagrammen wordt een en ander verder verduidelijkt. De rechthoek hieronder stelt een onderwijsprogramma in algemene zin voor. Het kan daarbij gaan om de leerstof van een hoofdstuk in een leerboek, een oefening, een module van een paar weken of zelfs om een complete cursus. De pijl links verwijst naar de leerlingen die met het programma gaan beginnen en de pijl rechts verwijst naar de leerlingen die het programma hebben doorlopen: afb. 3 - Stroomdiagram van onderwijsprogramma 2.3.1 Selectiemiddel voor plaatsing Wanneer een toets voorafgaand aan een bepaald onderwijsprogramma wordt afgenomen met het doel de beste kandidaten te selecteren (selectie bij de poort), zal het schema er aldus uitzien: afb. 4 - Selectie bij de poort Op grond van de toetsresultaten wordt beslist wie wel en wie niet met het programma mag starten. Van belang is hier dat afgewezen kandidaten bij de planning van het onderwijs geen rol meer spelen. Ze worden eenvoudig niet tot het programma toegelaten en daar blijft het bij, ook al krijgen ze allerlei adviezen. Voorbeelden: – Een farmaceutisch bedrijf in Frankrijk biedt een groot Nederlands ziekenhuis voor een aantal personeelsleden een nascholingscursus aan op een van de Franstalige eilanden in het Caraïbisch gebied. Van de directie mogen alleen diegenen intekenen die over voldoende kennis van het Frans beschikken. Dit wordt door een taleninstituut door middel van een toets vastgesteld. – In veel landen wordt op basis van een toelatingsexamen beslist wie tot een universiteit wordt toegelaten en wie niet. Plaatsingstoetsen, zoals dergelijke instrumenten wel worden genoemd, kunnen op verschillende manieren worden ingezet en verschillende doelen dienen. In de bovenstaande voorbeelden worden ze gebruikt om een antwoord te geven op de vraag of de leerlingen over de voorwaardelijke kennis en vaardigheden beschikken om aan een cursus, module of opleiding deel te nemen c.q. in hoeverre de leerlingen de doelstellingen van de te volgen cursus, module, opleiding al hebben bereikt (bijv. door een eerdere module of opleiding). Het gaat hierbij om een absolute norm. Men kan plaatsingstoetsen echter ook gebruiken als men wil nagaan welke leerlingen de meeste kans van slagen hebben in een vervolgopleiding. In dat geval is er sprake van een relatieve norm. Dit doet zich bijvoorbeeld voor als slechts een beperkt aantal plaatsen beschikbaar is in de vervolgopleiding. 11
  • 16. Hoofdstuk 2 2.3.2 Classificatie of externe differentiatie Een variant hierop waarbij met onderwijs aan alle leerlingen rekening wordt gehouden, is de volgende: afb. 5 - Classificatie van leerlingen De toetsresultaten worden gebruikt om te beslissen wie voor het ene dan wel het andere onderwijspro- gramma in aanmerking komt. Van belang is dat met beide programma’s verschillende doelstellingen worden nagestreefd (X en Y in het stroomdiagram). Kandidaten die naar programma A mogen, behalen andere leerresultaten dan kandidaten die programma B gaan volgen. Deze procedure wordt classificatie genoemd. Ook spreekt men wel van ’externe differentiatie’, omdat een bepaalde groep leerlingen van de oorspronkelijke groep wordt afgezonderd. Voorbeelden: – Na het doorwerken van een hoofdstuk in het leerboek wordt op basis van een toets beslist wie de leerstof volledig beheerst en derhalve met verrijkingsstof mag beginnen en wie herhalingsstof en extra oefeningen nodig heeft. – Na selectie van geschikte leerlingen voor de nascholingscursus biedt de directie de overige gegadigden een cursus van één dag in Nederland aan waar het verhaal van een ’ingevlogen’ medewerker van het Franse bedrijf door een tolk wordt vertaald. 2.3.3 Interne differentiatie Een derde vorm is de interne differentiatie. Door middel van een toets wordt beslist wie het ene of het andere onderwijsprogramma mag gaan volgen, echter zonder dat daarbij andere leerresultaten worden nagestreefd. Beide programma’s hebben dezelfde doelstellingen. Het is echter heel goed mogelijk dat de ene onderwijsmethode meer geschikt is voor de ene groep dan voor de andere. Beslissend is echter dat op het eind van de rit dezelfde eisen worden gesteld, men dezelfde verwachtingen heeft etcetera. In afbeelding 6 staat het bijbehorende stroomdiagram: afb. 6 - Interne differentiatie 12
  • 17. De plaats van meten en beoordelen in het didactisch proces Bij de volgende varianten wordt een toets pas na afloop van het onderwijsprogramma afgenomen. Deze vorm van toetsing komt het meeste voor. De toetsuitslag geeft aan of, en in hoeverre de kandidaten de leerstof daadwerkelijk onder de knie hebben. Zo’n afsluitende toets kan zoals gezegd verschillende functies hebben. 2.3.4 Feedbackfunctie voor de individuele leerling: diagnostisch De eerste vorm van toetsing achteraf is gericht op terugkoppeling naar de individuele leerling en heeft een diagnostische functie. Een consequente doorvoering hiervan kan worden gevonden bij beheersingsle- ren of ’mastery learning’. Leerlingen met scores van meer dan bijvoorbeeld 80% hebben het programma met succes doorlopen en kunnen verder met het volgende leerstofgedeelte. De anderen dienen de leerstof vanaf een bepaald punt te herhalen, totdat iedereen of bijna iedereen de stof beheerst. Vaak echter zal de leerstof op een iets andere wijze worden aangeboden omdat mogelijk de eerdere instructie bij sommige leerlingen onvoldoende resultaat opleverde. In dat geval is er sprake van remediëring en ontstaat een stroomdiagram dat sterk lijkt op dat van afbeelding 6. afb. 7 - Een diagnostische toets Wanneer toetsing plaatsvindt ter afsluiting van een relatief klein deel van het curriculum met als belangrijkste oogmerk informatie te krijgen over de vorderingen van de leerlingen, spreekt men van diagnostische toetsen (of formatieve toetsen). Dergelijke toetsen worden op gezette tijden tijdens het onderwijsleerproces afgenomen om de vorderingen van de leerlingen te kunnen volgen en bijtijds maatregelen te kunnen nemen ingeval van vertraging of achterstand. Het belang van dit soort toetsen is de feedbackfunctie. Leerlingen kunnen uit de toetsuitslag precies aflezen waar hun lacunes zitten. Voorwaarde is daarbij wel dat de toetsuitslag voldoende gedetailleerd is (dus alleen het toekennen van een cijfer of het aantal behaalde scorepunten is ten enenmale ontoereikend). In het ideale geval is de toets zodanig geconstrueerd dat aanknopingspunten voor remediëring (individueel of als groep) van het onderwijsleerproces direct afgeleid kunnen worden uit de ’gemiste’ vragen of opdrachten, dat wil zeggen de fouten die individueel of groepsgewijs opvallend vaak of stelselmatig gemaakt worden. Maar: formatieve toetsen zijn verre van gemakkelijk te construeren, aangezien elk fout antwoord van de leerling ’vertaald’ moet kunnen worden in een aanwijsbare lacune (in kennis, denken of dergelijke). Indien uit een formatieve toetsing blijkt dat een groot aantal leerlingen bepaalde doelen nog niet beheerst, is dit een signaal voor de docent om de gehanteerde onderwijsstrate- gie aan een kritisch onderzoek te onderwerpen en zo nodig te wijzigen. Formatieve toetsen zeggen dus niet alleen iets over de vorderingen van de leerlingen (’wat weten ze (nog) niet?’), maar kunnen ook zeer nadrukkelijk informatie geven over het onderwijsleerproces (’welke onderwerpen moeten opnieuw of anders besproken worden’; ’hoe effectief is de manier van lesgeven?’; ’zijn de doelen correct afgestemd op het niveau van de groep?’ etc.). Deze functie komt in de volgende paragraaf aan de orde. 13
  • 18. Hoofdstuk 2 2.3.5 Feedbackfunctie voor het onderwijsleerproces (opleider): evaluerend Toetsen geven echter niet alleen informatie over de leerlingen, maar ook over het gegeven onderwijs. Vanuit het resultaat van een of (vaak) meer toetsen wordt gekeken hoe het gegeven onderwijs bij de leerlingen is overgekomen. Bij dit evaluerend gebruik van toetsing staat de kwaliteit of het rendement van het onderwijs centraal. afb. 8 - Curriculumevaluatie 2.3.6 Selectiemiddel voor afsluiting: certificerend Het bekendste voorbeeld van een afsluitende toets is wel het examen. Na een compleet onderwijspro- gramma of certificaateenheid wordt een toets voorgelegd. De belangrijkste functie van zo’n toets is het certificeren van succesvolle leerlingen. afb. 9 - Certificering De afgewezen leerlingen kunnen over het algemeen een herkansing doen. Wanneer ze ook daarvoor zakken, zijn er verschillende mogelijkheden: – ze verlaten de school en proberen op de arbeidsmarkt aan de slag te komen; – ze stromen door naar een eenvoudiger onderwijstype om op dat niveau een certificaat te behalen; – ze doen (een deel van) het onderwijsprogramma over om zo alsnog te trachten voor het examen te slagen. In afbeelding 9 is alleen de stroom van succesvolle leerlingen aangeduid. Met behulp van summatieve toetsen (ook wel selectieve toetsen genoemd) wordt aan het einde van een cursus, module of opleiding nagegaan of en zo ja in welke mate de leerlingen het vereiste kennis- en vaardigheidsniveau hebben bereikt, c.q. de leerdoelen hebben bereikt. De uitslag van een summatieve toets bepaalt gewoonlijk of leerlingen een (deel)certificaat of diploma mogen ontvangen en mogen doorstromen naar het vervolgonderwijs (vervolgcursus of volgende module). 14
  • 19. De plaats van meten en beoordelen in het didactisch proces 2.4 Eisen voor de formulering c.q. de concretisering van eindtermen/leerdoelen als voorwaarde voor een verantwoorde toetsing en beoordeling 2.4.1 Het ontwikkelen van eindtermen vanuit de kwalificatiestructuur Eindtermen vormen de uitwerking van een kwalificatiestructuur en geven ook inhoud aan die kwalificatiestructuur. Door middel van de eindtermen worden de verschillende (deel)kwalificaties verduidelijkt en concreet gemaakt. In het beroepsonderwijs is de beroepskwalificatie van primair belang. Dat betekent echter niet dat er alleen eindtermen zullen bestaan die van het beroepsprofiel zijn afgeleid. De kwalificatiestructuur richt zich op een drievoudige kwalificatie: – de beroepskwalificatie; – de maatschappelijke en culturele kwalificatie; – de doorstroomkwalificatie. De ontwikkeling van eindtermen voor de beroepskwalificatie geschiedt op basis van de beroepsprofielen. Bij de ontwikkeling van eindtermen voor de doorstroomkwalificatie zal gekeken moeten worden naar de instroomeisen en instroomprofielen van het vervolgonderwijs. De eindtermen die gericht zijn op de maatschappelijke en culturele kwalificatie moeten ontleend worden aan het functioneren als burger in de samenleving en als werknemer in het bedrijfsleven. Eindtermen hebben een belangrijke functie voor het onderwijs. Het moeten hanteerbare beschrijvingen zijn van kennis, inzicht, vaardigheden en attitudes, met voldoende indicaties voor de inrichting van het onderwijs en de examinering. Eindtermen zullen over het algemeen geen uitwerking geven van voorwaardelijke kennis en vaardigheden. Voor de daadwerkelijke vormgeving van het onderwijs en de toetsing bestaat behoefte aan een concretisering van de eindtermen. Derhalve zal een analyse moeten plaatsvinden om het traject dat voert naar de eindtermen vorm te geven: welke tussenstappen zijn er te onderscheiden? Het resultaat van deze analyse zijn de leerdoelen. In paragraaf 2.4.3 worden de eisen beschreven waaraan de formulering van leerdoelen moet voldoen. Eerst wordt in paragraaf 2.4.2 ingegaan op het gebruik van een taxonomie bij het in kaart brengen van eindtermen en leerdoelen. 2.4.2 Taxonomie Een taxonomie is een hiërarchisch classificatiesysteem voor het formuleren en ordenen van eindtermen en leerdoelen. In de loop van de tijd zijn verschillende taxonomieën bedacht, die onderling veel overeenkomsten vertonen. In elke taxonomie is bijvoorbeeld een gedragscomponent en een inhoudscom- ponent te onderscheiden. In dit handboek wordt de taxonomie van Romiszowski (1981) gehanteerd. De reden hiervoor is dat in deze taxonomie een duidelijk accent ligt op vaardigheden. Bovendien wordt zijn indeling in het gezondheidszorgonderwijs inmiddels vaak gehanteerd. Romiszowski onderscheidt allereerst kennis en vaardigheden. Onder kennis verstaat hij ’informatie opgeslagen in de hersenen’; iemand heeft kennis of heeft die niet. Kennis vormt de basis voor vaardigheden. Vaardigheden zijn acties die iemand uitvoert om een bepaald doel te bereiken; vaardigheden ontwikkelen zich door ervaring en oefening, iemand kan dus in meer of mindere mate over een bepaalde vaardigheid beschikken. Het niet volmaakt beheersen van een vaardigheid kan betekenen dat iemand alle delen kan uitvoeren, maar op een lager niveau van precisie of productiviteit. In het beroepsonderwijs wordt steeds meer uitgegaan van het goed kunnen functioneren in de beroepspraktijk. De leerling moet bepaalde beroepsvaardigheden kunnen uitoefenen. Voor het juist uitvoeren heeft hij ook kennis nodig; kennis is voorwaardelijk. 15
  • 20. Hoofdstuk 2 Kennis In tabel 2 is weergegeven op welke wijze kennis door Romiszowski wordt opgesplitst. tabel 2 - Het kennisdomein volgens Romiszowski concrete feiten feiten verbale informatie feitelijke systemen feitelijk ketens procedures discriminaties algoritmen kennis concrete begrippen begrippen abstracte begrippen begrippensystemen begripsmatig natuurprincipes principes handelingsprincipes (heuristieken) regelsystemen Bij feitelijke kennis gaat het om herinneren of herkennen van feiten of procedures. Bij feiten gaat het om objecten, gebeurtenissen, namen e.d. Bij procedures richt de kennis zich op de juiste handelwijze in een specifieke situatie. Er is sprake van begripsmatige kennis wanneer er inzicht aan te pas komt. Hierbij kan een onderscheid worden gemaakt in begrippen en principes. Bij begrippen gaat het om min of meer abstracte klassen, zoals (van concreet naar abstract) ’rood’, ’kleur’ en ’fysieke eigenschappen’. Bij principes gaat het om het kennen van regels die onze handelingen kunnen sturen of veranderingen kunnen verklaren. Vaardigheid Romiszowski onderscheidt vier soorten vaardigheden: – cognitieve vaardigheden: het toepassen van kennis, het controleren en benutten van de geestelijke/in- tellectuele vermogens; – psychomotorische vaardigheden: het uitvoeren van fysieke, motorische handelingen, gebruikmakend van kennis en inzicht; – reactieve vaardigheden: het hanteren van emoties, aandacht hebben voor, (beroeps)houding tonen, handelen overeenkomstig een waardensysteem; – interactieve vaardigheden: het hanteren van sociale en communicatieve aspecten in de dagelijkse omgang met anderen, tijdens overleg en bij samenwerking. Voor elke categorie wordt door Romiszowski vervolgens een onderscheid gemaakt in reproductieve en productieve vaardigheden. Het kenmerk van reproductieve vaardigheden is dat ze min of meer geautomatiseerd verlopen; leerdoelen zijn reproductief als ze verwijzen naar vaardigheden die een leerling volgens een vaststaande procedure, een duidelijk voorschrift of protocol uitvoert. In een nieuwe situatie kan de leerling deze vaardigheid min of meer vanzelf reproduceren. Het kenmerk van productieve vaardigheden is dat er een creatieve, planmatige aanpak voor nodig is. Leerdoelen zijn productief als ze verwijzen naar vaardigheden die de leerling in een nieuwe situatie moet uitvoeren zonder dat daarbij teruggevallen kan worden op een vaste procedure of vast handelingsvoor- 16
  • 21. De plaats van meten en beoordelen in het didactisch proces schrift. De leerling moet in dit geval geleerde principes en strategieën kunnen toepassen in een nieuwe situatie. Een nadere uitwerking is te vinden in tabel 3. Een reproductieve vaardigheid kan een productieve vaardigheid worden zodra de leerling de vaardigheid moet kunnen toepassen in een nieuwe situatie waarin hij de geleerde principes niet zonder meer – min of meer automatisch – kan gebruiken. In dergelijke situaties moet hij een appèl doen op meerdere verworven vaardigheden. Voorbeelden: Het injecteren van een patiënt is in principe een reproductieve psychomotorische vaardigheid. Maar dit kan veranderen in een productieve vaardigheid als de patiënt die geïnjecteerd moet worden zeer agressief gedrag vertoont en als dit voor de leerling een nieuwe situatie is waarin hij onvoldoende houvast heeft aan vaste handelingsvoorschriften. Hetzelfde geldt voor de in principe reproductieve vaardigheid ’wassen en aankleden van een patiënt’. Bij een patiënt met hevige spasmen zou het weleens een productieve vaardigheid kunnen zijn. tabel 3 - Vaardigheden volgens Romiszowski reproductieve vaardigheden productieve vaardigheden cognitieve vaardigheden berekenen wanneer een infuusfles een verpleegplan opstellen vervangen moet worden psychomotorische vaardigheden bloeddruk meten in een routine- een injectie toedienen situatie reactieve vaardigheden aandacht geven aan de patiënt zelfverwerkelijking interactieve vaardigheden goede manieren hebben leiderschap Het grote voordeel van een indeling als die van Romiszowski is dat men daarmee een soms complexe taak goed kan analyseren. Hierdoor wordt helderder welke vaardigheden vereist zijn voor het uitvoeren van die taak. Ook bij het concretiseren van eindtermen in leerdoelen biedt een taxonomie houvast. 2.4.3 Leerdoelen Een leerdoel is pas echt een leerdoel als een verschil kan worden waargenomen tussen leerlingen die het doel hebben bereikt en leerlingen voor wie dat (nog) niet het geval is. Zo’n verschil biedt een eerste aanzet voor toetsontwikkeling. Leerdoelen kunnen alleen gerealiseerd worden als valt na te gaan of ze bereikt zijn, dus ieder leerdoel moet precies gedefinieerd worden. Wat niet precies kan worden beschreven, is lastig te verantwoorden, nog moeilijker te onderwijzen en onmogelijk te toetsen! Een toetsbaar leerdoel is constateerbaar en meetbaar. ’Constateerbaar’ wil zeggen dat kan worden waargenomen of een leerling het leerdoel heeft bereikt. ’Meetbaar’ houdt in dat de mate waarin het leerdoel is bereikt, kan worden gekwantificeerd. Dat wil zeggen in een waarde kan worden uitgedrukt, bijv.: 1 = bereikt, 0 = niet bereikt, ½ = gedeeltelijk bereikt; 10 punten = geheel bereikt, 8 punten = voor 80% bereikt, etcetera. Het formuleren van een leerdoel op een zodanige manier dat bereiken ervan constateerbaar is, heet concretiseren. Het zodanig formuleren van een leerdoel dat de mate van realisatie meetbaar is, heet operationaliseren. Concretiseren en operationaliseren worden wel in één woord samengevat met specificeren. 17
  • 22. Hoofdstuk 2 Voor de specificatie van leerdoelen gelden enkele algemene regels: 1 Omschrijf een leerdoel als resultaat van een leerproces, dus als een leereffect. Voorbeeld: ’Voorkomen en bestrijden van doorliggen bij bedlegerige patiënten’ (als resultaat van de opleiding) en niet: ’De verpleegkundige doordringen van de noodzaak om doorliggen bij bedlegerige patiënten te voorkomen en te bestrijden’ (deze formulering heeft immers betrekking op het instructieproces). 2 Geef onder elk leerdoel een representatief aantal voorbeelden van wat de leerling moet kunnen als hij het leerdoel heeft bereikt. ’representatief’ wil hier zeggen: als het profiel van de leerling beantwoordt aan de voorbeelden, heeft hij het gestelde leerdoel bereikt. Voorbeeld: ’Zorgt stelselmatig voor een gladde en droge onderlaag bij bedlegerige patiënten’. 3 Begin iedere formulering met een werkwoord dat een waarneembaar gedrag aanduidt. Dus niet: ’De leerling dient in staat te zijn om getallen van twee cijfers op te tellen’, maar: ’Telt getallen van twee cijfers op’; al het andere is overbodig. En ook niet: ’Beheerst de regels van het optellen van meercijferige getallen’. Hierbij wordt niet meteen duidelijk, hoe die beheersing moet blijken. Denkbaar is bijvoorbeeld dat de leerling die regels zelf zou moeten formuleren! Werkwoorden of werkwoordelijke omschrijvingen die een waarneembaar gedrag aanduiden, zijn bijvoorbeeld: aanwijzen, beschrijven, berekenen, citeren, definiëren, de verschillen aangeven tussen, een onderscheid maken tussen, een verklaring geven van, een voorbeeld geven van, noemen, noteren, opsommen, opstellen (bijv. van een grafiek). Bij het definiëren van beroepsvaardigheden worden in de regel werkwoorden gebruikt die naar observeerbare handelingen verwijzen. 4 Vermeld de voorwaarden/omstandigheden waaronder het gedrag vertoond moet worden. 5 Noem de normen waaraan het gedrag moet voldoen. Voorbeeld: ’Typt [waarneembaar gedrag] een geschreven concept over in WP 5.1 [voorwaarden/om- standigheden: de tekst wordt in geschreven vorm aangeboden en als tekstverwerker moet WP 5.1 gebruikt worden] met minimaal 100 aanslagen per minuut waarbij maximaal 5 fouten per getypte pagina mogen worden gemaakt [norm]’. Voorbeeld: ’Geeft aan welke zuigelingen niet gebaad mogen worden’. In deze vorm is het leerdoel wel erg open; moet de leerling een sluitende opsomming van alle mogelijke en denkbare gevallen leveren? Alternatief: ’Geeft aan welke zuigelingen wel en welke niet gebaad mogen worden, gegeven de volgende aandoeningen [volgt een lijst die de voorwaarden/omstandigheden preciseert waaronder het gewenste gedrag – aangeven wel of niet – vertoond moet worden]’. 18
  • 23. De plaats van meten en beoordelen in het didactisch proces Een leerdoel dat volgens de regels 1 t/m 5 geformuleerd is, heeft het karakter van een taakomschrij- ving. Andere voorbeelden: ’Noemt 6 van de 10 verschillen tussen ziekte A en ziekte B als vermeld in het leerboek (p. 316 - 321).’ ’Voert bij 90% van de patiënten een venapunctie zodanig uit, dat 1) de patiënt niet meer pijn heeft dan nodig is en 2 het buisje zich met bloed vult.’ 6 Splits complexe taakomschrijvingen uit, waardoor ze overzichtelijker worden. Dus niet: ’Maakt een onderscheid tussen vier toedieningswijzen van injecties naar werkingsduur, injectieplaats, opnamesnelheid en gevaar’, maar: 1 Noemt vier toedieningswijzen van injecties. 1.1 Geeft daarbij het orgaan aan, waar de injectievloeistof het eerst terechtkomt. 1.2 Rangschikt de toedieningswijzen naar werkingsduur/opnamesnelheid. 1.3 Noemt per toedieningswijze twee risico’s voor de patiënt. 2.4.4 Het toetsen van kennis en vaardigheden Ook bij de toetsconstructie is het zinvol gebruik te maken van de taxonomie van Romiszowski. Dat geldt zeker als het gaat om meetinstrumenten of beoordelingsprocedures ten behoeve van meer complexe taken. Door het vooraf analyseren van de leerdoelen en de kennis- en vaardigheidscomponenten waaruit deze leerdoelen bestaan, verkrijgt men een goed beeld van de complexiteit van de taak. Een (sterk vereenvoudigd) voorbeeld maakt dit duidelijk: Er moet een observatielijst ontwikkeld moet worden voor de taak ’begeleiden van een patiënt met AIDS’. De eerste stap om de complexiteit van de taak in beeld te krijgen, zal bestaan uit het analyseren van de vaardigheden die in deze taak aan de orde zijn. Dit kan leiden tot de volgende vaardigheden: – cognitieve vaardigheden; – reactieve vaardigheden; – interactieve vaardigheden. De volgende fase zal zijn om iedere vaardigheid nader te analyseren. Dit kan leiden tot een verdere verfijning van cognitieve vaardigheden in de vorm van: . toepassen van kennis en inzicht in de aandoening; . toepassen van kennis en inzicht in stervensbegeleiding; Deze cognitieve vaardigheden vormen in de uitvoering van de taak de voorwaarde voor de andere vaardigheden. Voor de reactieve component kan dit de volgende deelvaardigheden opleveren: . kunnen hanteren van eigen emoties en die van de patiënt; . aandacht hebben voor de patiënt en diens emoties en gevoelens; . beroepshouding tonen; . handelen volgens een waardensysteem; Voor de interactieve component kunnen de deelvaardigheden er als volgt uitzien: . kunnen communiceren met de patiënt en diens relaties; . voorlichting kunnen geven aan de patiënt en diens relaties. Indien zinvol zou men de deelvaardigheden nog verder kunnen analyseren. 19
  • 24. Hoofdstuk 2 Door op deze wijze een taak uiteen te rafelen in deelvaardigheden, daarbij desgewenst ook nog aan te geven of het gaat om reproductieve of om productieve vaardigheden, verkrijgt men een gestructureerde lijst met observatiepunten. Het is dan vervolgens aan de inhoudsdeskundigen om vast te stellen of de observatiepunten tezamen de taak ’dekken’ (validiteitsvraag) en of elk observatiepunt even zwaar weegt in de beoordeling etcetera. Hierop wordt in dit hoofdstuk verder niet ingegaan. Uit dit voorbeeld wordt duidelijk dat de meeste taken in de beroepssituatie bestaan uit verschillende vaardigheden of, zoals dat ook wel genoemd wordt, een ’mix van componenten’ (Dochy, 1995). In het begin van de opleiding of module hebben taken vaak betrekking op één soort vaardigheid (meestal cognitief of psychomotorisch). Naarmate de opleiding vordert, worden de taken complexer en staan de taken dichter bij de werkelijke praktijk; de taken omvatten dan vaak meer dan één vaardigheid. Daarbij is het vaak moeilijk aan te geven welke component het grootste stempel drukt op de taak. 2.5 Ordeningsmogelijkheden voor toetsvormen In dit handboek wordt een scala aan toetsvormen gepresenteerd, worden aanwijzingen gegeven voor de constructie of aanschaf en worden eisen geformuleerd waaraan toetsen moeten voldoen. Het belangrijkste punt is misschien echter wel de keuze voor een bepaalde toetsvorm. Welke toets uit de hele scala is op welk moment in het didactische proces nu het meest geschikt? Op deze vraag wordt in deze paragraaf vanuit twee verschillende invalshoeken een eerste antwoord gegeven. 2.5.1 Aansluiting bij de leerdoelen: de ’fit’ Als na analyse duidelijk is uit welke inhoud en vaardigheden een taak bestaat en de leerdoelen daarmee duidelijk geworden zijn, moet vervolgens de passende toetsvorm worden gekozen. De toetsvorm wordt bepaald door de eindtermen/leerdoelen. De mate waarin de toets past bij de beschreven doelstellingen wordt wel de ’fit’ genoemd (P. Cras in Kessels & Smit, dl. 10). Uit oogpunt van validiteit (zie par. 3.3) is het van belang dat de toets meet wat men beoogt te meten. Het gewenste gedrag moet door de toets worden uitgelokt. Als de leerling blijkens de leerdoelen een cognitieve vaardigheid moet beheersen, bijvoorbeeld het kunnen uitleggen van een procedure, zal de toetsvorm zodanig moeten zijn dat de leerling deze vaardigheid ook daadwerkelijk kan tonen. In zo’n geval zal dan van een schriftelijke toets of een mondelinge opdracht worden gebruikt. Als de leerling moet tonen dat hij een bepaalde handeling correct kan uitvoeren, zal hem in de toets ook de opdracht gegeven moeten worden om deze handeling uit te voeren. In het kader van het beoordelen van toetsen wordt wel een viertal ’fits’ onderscheiden. 1 Perfect fit: de uitvoering van de toetsopdracht levert de gewenste informatie op over de prestaties van de leerling. Het is goed mogelijk op basis daarvan uitspraken te doen over het beheersen van de leerdoelen. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: In een vooraf bepaalde zorgsituatie de leerling een anamnesegesprek laten voeren met een patiënt. 2 Fair fit: de uitvoering van de toetsopdracht levert met enige beperking (door de toetsopdracht zelf en/of door de situatie waarin wordt getoetst) informatie op over de prestaties van de leerling. Uitspraken over het beheersen van de leerdoelen kunnen met enig voorbehoud worden gedaan. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. 20
  • 25. De plaats van meten en beoordelen in het didactisch proces Toetsvorm: In een rollenspel, waarin een medeleerling de rol van patiënt speelt, de leerling een anamnesegesprek laten voeren met ’de patiënt’. 3 Conditional fit: de uitvoering van de toetsopdracht levert informatie op over het beheersen van voor de leerdoelen noodzakelijke voorwaarden. Dit is echter een onvoldoende basis om uitspraken te doen over het daadwerkelijk beheersen van de leerdoelen. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: De leerling schriftelijk of mondeling laten beschrijven waaruit de voorbereiding, uitvoering en afhandeling van een anamnesegesprek bestaat. 4 Misfit: de uitvoering van de toetsopdracht levert informatie op waarmee op geen enkele wijze uitspraken gedaan kunnen worden over het beheersen van de leerdoelen. De validiteit van de meting is in dit geval dus slecht. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: De leerling een schriftelijke toets voorleggen over communicatiemodellen. Het zal duidelijk zijn dat in principe steeds naar een perfect fit dient te worden nagestreefd. Opgemerkt dient ook te worden dat de grens tussen perfect fit en fair fit niet altijd even scherp te trekken is: het kan zijn dat de rol door de medeleerling dermate goed gespeeld wordt dat er een situatie ontstaat die in feite als perfect fit aan te merken is. 2.5.2 Aansluiting bij de beroepspraktijk: de representativiteit In de vorige paragraaf is betoogd dat de keuze van de toetsvorm bepaald wordt door de leerdoelen die men wil meten. Een schriftelijke toets met open vragen kan een perfect fit betekenen als men als doelstelling heeft de cognitieve vaardigheden te meten met betrekking tot bepaalde leerinhouden. Dezelfde toets zal een misfit zijn als men als doelstelling heeft de leerling zijn psychomotorische en/of reactieve of interactieve vaardigheden te laten tonen met betrekking tot die leerinhouden. Dit betekent dat er over de geschiktheid van een toetsvorm alleen maar een uitspraak kan worden gedaan in relatie tot de leerdoelen die de toets moet meten. Zolang de leerdoelen één bepaalde vaardigheid bevatten, bijvoorbeeld de cognitieve vaardigheid, kan er een duidelijke uitspraak gedaan worden over de best passende toetsvorm. Dat wordt aanzienlijk ingewikkelder naarmate leerdoelen meer vaardigheden omvatten. Dat brengt ons op de tweede invalshoek: de mate van representativiteit van de toets voor de praktijksituatie. De representativiteit van een toets wordt bepaald door de volgende twee eigenschappen: omvattendheid en natuurgetrouwheid. De omvattendheid van een toets wordt groter naarmate meer verschillende taaksituaties (die wel allemaal een beroep doen op dezelfde vaardigheden) worden aangeboden. Het wordt daardoor meer verantwoord om uitspraken te doen over taaksituaties die niet in de toets zijn opgenomen. Met natuurgetrouwheid wordt bedoeld de mate waarin de taaksituatie een afspiegeling is van de taakuitvoering in een reële werksituatie. Hoe groter de representativiteit van de toets, des te groter de rechtvaardiging om op basis van de toetsprestatie uitspraken te doen over de competentie van leerlingen. Om duidelijk te maken hoe de ’fit’ (of mate van validiteit) en de representativiteit zich tot elkaar verhouden, worden in afbeelding 10 beide begrippen geïllustreerd. De verticale pijlen geven de relatie tussen leerdoelen en toetsvorm (de ’fit’). De horizontale pijl geeft de mate van representativiteit aan. In de loop van een bepaalde leereenheid (bijv. een module) of van de gehele opleiding verschuiven de 21
  • 26. Hoofdstuk 2 leerdoelen van ’theorie’ naar ’praktijk’ of – anders gezegd – van ’overwegend cognitief’ (aan de linkerkant) naar ’een mix van vaardigheden’ (aan de rechterkant). De werkelijke beroepspraktijk wordt in de loop van de opleiding dus steeds meer benaderd. De taken worden derhalve ook complexer. De toetsen die op deze leerdoelen betrekking hebben, verschuiven op overeenkomstige wijze: de verticale pijlen moeten voor een ’perfect fit’ loodrecht naar beneden lopen. afb. 10 - Evaluatie van het onderwijs In het begin van de leereenheid of opleiding hebben de toetsen voornamelijk betrekking op de theorie/de cognitieve vaardigheden. Deze toetsen zijn meestal weinig representatief voor de praktijksituatie en meten meestal voorwaardelijke kennis en inzicht. Aan het eind van de leereenheid of opleiding heeft de toetsing betrekking op alle relevante vaardigheden die de leerling volgens de leerdoelen in de praktijksituatie moet beheersen. De toetsing vindt dan zo natuurgetrouw en volledig mogelijk plaats. Anders gezegd: de toetsing loopt gedurende de opleidingsfase van ’laag representatief’ via ’gemiddeld representatief’ naar ’hoog representatief’. Zolang het meetinstrument meet wat het moet meten (de leerinhoud en de vaardigheid die in het leerdoel beschreven staan), is de toets valide en is er sprake van een perfect fit. Representativiteit als indelingsprincipe voor de toetsvormen in dit handboek Op basis van het uitgangspunt van representativiteit (de relatie tussen de toetsvorm en de beroepsprak- tijk) is een indeling van toetsvormen tot stand gekomen zoals weergegeven in tabel 4 (zie ook Straetmans, 1994). 22
  • 27. De plaats van meten en beoordelen in het didactisch proces tabel 4 - Indeling toetsvormen naar representativiteit representativiteit omschrijving voorbeelden laag niet natuurgetrouw, meestal één • toetsen met gesloten vragen vaardigheid • toetsen met open vragen • casustoetsen • potlood-en-papier-toetsen gemiddeld matig natuurgetrouw, vaak meer • computersimulatie, beeldplaat dan één vaardigheid • simulator • skill sample test hoog hoog tot zeer hoog natuurge- • patiëntsimulatie trouw, integratie van vaardighe- • work sample test / praktijktoetsing op de werkplek den In het handboek worden de toetsvormen gepresenteerd van laag representatief naar hoog representatief. In principe moet gekozen worden voor een toetsvorm die wat representativiteit betreft perfect aansluit bij de betreffende leerdoelen c.q. het voorafgaande onderwijs. Om verschillende redenen, die in de volgende hoofdstukken aan de orde komen, moeten soms concessies worden gedaan ten aanzien van dit uitgangspunt. Dat betekent over het algemeen dat genoegen moet worden genomen met een toetsvorm die iets minder representatief is dan het leerdoel. Door nu de toetsvormen te rangschikken naar representativiteit kan een optimaal compromis gevonden worden tussen wat enerzijds wenselijk en anderzijds haalbaar is. 23
  • 28. 3 Kwaliteitseisen voor de toets als meetinstrument De beslissingen die genomen worden op grond van de meting van leerresultaten hebben vaak vérstrekkende consequenties voor de leerlingen. Zij hebben dan ook recht op kwalitatief goede meetinstrumenten en beoordelingsprocedures. Ook moeten zij zich op een adequate manier kunnen voorbereiden op de meting. Dit impliceert dat zij een duidelijk beeld moeten hebben van wat er van hen verwacht wordt. Daarbij is het ook van belang zich te realiseren dat het studiegedrag van leerlingen in het algemeen sterk gestuurd wordt door toetsing (examens, toetsen en beoordelingsprocedures): wat niet getoetst wordt, wordt nauwelijks geleerd. Dit heeft rechtstreeks consequenties voor het onderwijs. Dat daarmee een zware verantwoordelijkheid ligt bij ’de toetsing’ (het meetinstrument, de procedures en de constructeurs hiervan) moge duidelijk zijn. Het is dus een absolute noodzaak dat het meetinstru- ment en de beoordelingsprocedures zélf voortdurend onderwerp van kwaliteitszorg zijn. Vragen als: ’Hoe valide en hoe betrouwbaar zijn de gegevens van de toets of de beoordelingsprocedure?’, ’Weet de leerling van tevoren wat er van hem verwacht wordt?’ en ’Hoe aanvaardbaar zijn de beslissingen voor de leerlingen, de opleiding, de overheid, de maatschappij?’ zijn terecht gestelde vragen in het kader van een verantwoorde meting. Als externe instanties, zoals ministerie of zorginstellingen, zich een oordeel willen vormen over de kwaliteit van de opleiding, zal de wijze waarop deze opleiding gestalte geeft aan het toetsingsbeleid en de kwaliteitseisen die daaraan gesteld worden een belangrijk element in de beoordeling van de kwaliteit van de opleiding zijn. In dit hoofdstuk wordt ingegaan op de belangrijkste kwaliteitseisen die aan een examen, toets of beoordelingsprocedure gesteld worden. In paragraaf 3.1 wordt eerst ingegaan op de objectiviteit van metingen. Vervolgens komt in paragraaf 3.2 het begrip betrouwbaarheid aan de orde. Daarbij wordt tevens ingegaan op het schatten van de (standaard)meetfout. Daarna wordt in paragraaf 3.3 het begrip validiteit besproken. In paragraaf 3.4 wordt aandacht besteed aan de kwaliteitseisen: efficiëntie, transparantie, aanvaardbaar- heid en specificiteit. Vervolgens wordt in paragraaf 3.5 ingegaan op het spanningsveld tussen betrouwbaarheid, validiteit en efficiëntie. Ten slotte wordt in paragraaf 3.6 een aantal aandachtspunten gepresenteerd ter verhoging van de kwaliteit van een meetinstrument of beoordelingsprocedure. 3.1 Objectiviteit Objectiviteit betekent beoordelaarsonafhankelijkheid. Een meting is objectief als de prestaties van de leerlingen – ongeacht de beoordelaar of de beoordelingssituatie – steeds hetzelfde beoordeeld of gewaardeerd worden. Maar zolang er mensen betrokken zijn bij het beoordelen, is er altijd sprake van een zekere mate van subjectiviteit. Om die reden wordt objectiviteit ook wel opgevat als intersubjectiviteit oftewel de mate waarin twee of meer (per definitie subjectieve) beoordelingen met elkaar overeenstemmen. 24
  • 29. Kwaliteitseisen m.b.t. de toets als meetinstrument Door objectiviteit van een beoordeling te omschrijven als intersubjectiviteit ontstaat er een mogelijkheid om de mate van objectiviteit te bepalen. Door twee of meer beoordelaars onafhankelijk van elkaar een beoordeling te laten uitvoeren en te bepalen hoe de resultaten daarvan onderling correleren, is de objectiviteit vast te stellen. Men spreekt in dit geval ook wel van interbeoordelaarsbetrouwbaarheid. Men kan op dezelfde wijze ook de objectiviteit verhogen: door de toetsprestaties van leerlingen door minimaal twee beoordelaars te laten beoordelen en de beoordelaars vervolgens de uitkomsten hiervan met elkaar te laten vergelijken en bespreken, kan een zekere mate van overeenstemming tussen de beoordelaars worden bereikt. De invloed van een mogelijk subjectief oordeel van een individuele beoordelaar wordt op deze wijze ’geneutraliseerd’. Deze manier is met name geschikt voor het verantwoord beoordelen van prestaties van leerlingen op open vragen (lang antwoord) of bij het beoordelen van praktische vaardigheden, omdat hierbij in het algemeen minder gemakkelijk sluitende antwoordmodellen te maken zijn en de kans op interpretatiever- schillen tussen de beoordelaars dus groter is. In zijn algemeenheid is er over objectiviteit een aantal uitspraken te doen: – Objectiviteit is geen ’hard gegeven’, maar een intentie om subjectieve elementen in de beoordeling zoveel mogelijk uit te schakelen en daarmee de ’eerlijkheid’ in de beoordeling van de prestaties van leerlingen te bevorderen. – De objectiviteit van een beoordeling neemt toe indien de beoordelaar gebruikmaakt van vooraf opgestelde antwoordmodellen, beoordelingsprocedures of -protocollen en deze bij elke leerling op eenzelfde wijze hanteert. Men noemt dit ook wel ’standaardisatie’ van de beoordelingsprocedure. – Alleen als de verwerking van de prestaties van leerlingen op een toets via een volledig gestandaardi- seerde procedure (bijv. door de computer) wordt verricht, is er sprake van een volledige objectiviteit. Er komt immers geen beoordelaar meer aan te pas: de toetsprestaties van de leerlingen worden alle volgens dezelfde maatstaven beoordeeld op basis van vooraf vastgestelde criteria (sleutels, antwoordmodellen, procedures). – Naarmate de beoordelingssituatie complexer is, is het moeilijker eenduidige beoordelingsmodellen te ontwikkelen en is de kans op subjectiviteit dus groter. Het verdient daarom aanbeveling – zeker bij het toetsen van praktische vaardigheden – om ervoor te zorgen dat de te beoordelen praktijksitua- tie overzichtelijk en hanteerbaar is (zijn) voor de beoordelaar. Een praktijkopdracht die qua omvang beperkt is en waarin de te beoordelen vaardigheden helder zijn voor alle betrokkenen, biedt een grotere kans op objectiviteit dan een veel ruimere opdracht. – Naarmate de te beoordelen vaardigheden meer concreet en direct waarneembaar zijn, is de kans op een objectieve uitspraak van de beoordelaar groter. Beoordelaars zullen eerder tot eenzelfde oordeel over de prestatie van een leerling komen als het gaat om instrumenteel-technische vaardigheden (bijv. het kunnen verwisselen van een infuus) dan bij het beoordelen van sociale of communicatieve vaardigheden. – Wanneer in een kort tijdsbestek meerdere leerlingen moeten worden beoordeeld op eenzelfde vaardigheid of in een gelijksoortige beoordelingssituatie, kan de objectiviteit geschaad worden doordat de beoordelaar de prestaties van de leerlingen onbewust met elkaar vergelijkt (volgorde- of sequentie-effect). In dat geval voegt de beoordelaar in feite – naast de aanwezige protocollen of antwoordmodellen – nog een ’eigen’ beoordelingscriterium toe. In paragraaf 8.2 worden suggesties gegeven om dergelijke beoordelaarseffecten te minimaliseren. – De objectiviteit van een meetinstrument of van een beoordelingsprocedure speelt een niet onbelangrijke rol bij de betrouwbaarheid van het meetinstrument. Hierover gaat de volgende paragraaf. 25
  • 30. Hoofdstuk 3 3.2 Betrouwbaarheid Het doel van meten en beoordelen van leerresultaten van leerlingen is zo zuiver mogelijk vast te stellen of de leerling de beoogde leerdoelen beheerst. De toetsprestaties van de leerling (goed of slecht) moeten daarbij ook werkelijk aan deze leerling toegeschreven kunnen worden en niet aan diverse omliggende factoren. Voorbeelden van factoren die de toetsprestaties (onbewust en onbedoeld) beïnvloeden, zijn de patiëntensituatie, de te krappe tijd voor de toetsopdracht, het gokken van antwoorden of het niet- gestandaardiseerd zijn van een toetssituatie. Ook een subjectieve beoordeling van de toetsprestaties door de beoordelaar is een factor die de betrouwbaarheid van de meting schaadt. Immers: de ene beoordelaar zal dan tot een andere uitspraak komen over de leerresultaten van de leerling dan zijn collega. Bij betrouwbaarheid gaat het om vragen als: ’Zijn de uitkomsten van de meting gelijk als deze wordt verricht door verschillende personen?’ of ’Als we deze toets overmorgen weer afnemen, zijn de toetsresultaten dan hetzelfde?’ of ’Zijn de toetsprestaties van de leerling gelijk ongeacht de patiëntensituatie?’. De betrouwbaarheid van een meetinstrument geeft aan de mate waarin het meetinstrument consistent is bij het meten: de mate waarin de meetresultaten nauwkeurig en reproduceerbaar (d.w.z. vrij van meetfouten) zijn. Het zal duidelijk zijn dat de meting zuiverder en de toetsuitslag dus betrouwbaarder is naarmate de invloed van bovengenoemde factoren op de toetsing geringer is. 3.2.1 Schatting van de betrouwbaarheidscoëfficiënt De betrouwbaarheid van een toets wordt meestal uitgedrukt in een correlatiecoëfficiënt. Dat is een maat voor de relatie tussen twee reeksen getallen (bijv. tussen de scores op toets A op tijdstip X en de scores op dezelfde toets op tijdstip Y). De betrouwbaarheid van toets A, uitgedrukt in een correlatie-coëfficiënt, kan variëren van 0 tot 1. Een correlatie van 0 wil zeggen dat er geen enkel verband is tussen de scores op de tijdstippen X en Y. Dat kan alleen voorkomen als de scores op basis van toeval aan de leerlingen zijn toegekend. Zo’n toets is uiteraard niet informatief met betrekking tot de hoeveelheid kennis die leerlingen bezitten. Als de correlatie 1 bedraagt, zijn de scores op tijdstip Y perfect te voorspellen vanuit de scores op tijdstip X. (Hierbij is het niet noodzakelijk dat de scores op tijdstip X en Y identiek zijn. Wél moet de rangorde van leerlingen op basis van hun toetsscores identiek zijn.) Toets A meet dan met een maximale nauwkeurigheid. Beide extreme waarden zijn, zoals gezegd, echter alleen in theorie bereikbaar! Voor het uitdrukken van de betrouwbaarheid van een toets in de vorm van een correlatiecoëfficiënt, is het een vereiste dat men beschikt over twee reeksen toetsscores die bij dezelfde leerlingen verzameld zijn. Deze twee reeksen kunnen op verschillende manieren tot stand gekomen zijn: – door herhaalde afname van de toets; – door de afname van een paralleltoets (d.i. een gelijkwaardige versie van de originele toets); – door de toets te verdelen in twee helften (bijv. een deel van een toets bestaande uit opgaven met even volgnummers en een deel bestaande uit opgaven met oneven volgnummers), de zogenaamde. splitsingsmethode. Deze methoden zijn te herkennen in afbeelding 11 (Drenth en Sijtsma, 1990). In dit overzicht is ook een vierde methode opgenomen, die gebaseerd is op de covarianties tussen alle individuele items: de interne- consistentie-methode. 26
  • 31. Kwaliteitseisen m.b.t. de toets als meetinstrument afb. 11 - Methoden voor betrouwbaarheidsschatting Test-hertest-methode De leerlingen krijgen twee keer dezelfde toets voorgelegd met een bepaald interval tussen beide toetsafnamen. Vervolgens wordt de correlatie berekend tussen de resultaten van de eerste en de tweede afname. Aan deze methode kleven echter bezwaren. De leerlingen herinneren zich wellicht nog antwoorden die ze bij de vorige afname gegeven hebben of profiteren misschien op een andere manier van de eerdere ervaring. Daarbij is het niet duidelijk of alle leerlingen in gelijke mate van deze ’oefensituatie’ profiteren. Een praktisch bezwaar van deze methode is bovendien dat het meestal aan tijd zal ontbreken om leerlingen twee keer dezelfde toets te laten maken. Deze methode wordt om die reden niet nader uitgewerkt. Parallelvorm-methode Bij eenzelfde groep leerlingen worden op dezelfde dag of met een bepaald tijdsinterval tussen beide afnamen, twee paralleltoetsen afgenomen. Vervolgens wordt de correlatie berekend tussen de toetsresultaten op de eerste toets en die op de paralleltoets. Deze methode komt aan enkele methodologische bezwaren van de test-hertest-methode tegemoet. Toch wordt er in dit handboek geen uitwerking aan gegeven omdat ook deze methode een groot beroep doet op extra tijdsinvestering van zowel docent als leerlingen. Splitsingsmethode Deze methode is bruikbaar in de onderwijspraktijk omdat leerlingen geen extra toets hoeven te maken en docenten geen extra tijd hoeven te investeren in de constructie van een paralleltoets. De twee scorereeksen die nodig zijn om een schatting te maken van de betrouwbaarheid, worden op kunstmatige wijze ontleend aan één afname. De opgaven waaruit de toets bestaat, worden verdeeld over twee toetsgedeelten (bijv. de ene toets bevat alle even vraagnummers en de andere toets bevat alle oneven vraagnummers). Vervolgens kan de correlatie tussen beide delen van de toets berekend worden. De totale toets moet in dit geval wel voldoende beoordelingspunten bevatten om nog twee ’bruikbare’ toetsgedeelten over te houden. Het belangrijkste probleem van deze methode schuilt echter in de wijze waarop de toetsopgaven verdeeld worden over de twee delen; de bedoeling is dat de twee delen beschouwd kunnen worden als paralleltoetsen. Elke wijze van opdeling leidt echter tot een (iets) andere betrouwbaarheidsschatting. Voor dit probleem bestaat een oplossing, die tegenwoordig bekendstaat als de interne-consistentie-methode. 27
  • 32. Hoofdstuk 3 Interne-consistentie-methode Deze methode verdeelt de toets niet echt in twee delen, maar levert een schatting op van de gemiddelde betrouwbaarheid van alle mogelijke manieren om de toets te verdelen in helften. De betrouwbaarheid die op deze manier geschat wordt zegt iets over de interne consistentie van de toets. Interne consistentie verwijst naar het antwoordpatroon van de leerlingen. In tabel 5 is een volledig consistent antwoordpatroon te zien (een ideaal-situatie!). tabel 5 - Intern consistent antwoordpatroon leerlingen moeilijkheidsgraad opgaven 1 2 3 4 5 6 opgaven 1 1 1 1 1 1 0 .84 2 1 1 1 1 0 0 .66 3 1 1 1 1 0 0 .66 4 1 1 1 0 0 0 .50 5 1 1 0 0 0 0 .33 toetsscore 5 5 4 3 1 0 De moeilijkheidsgraad van de opgaven is hier aangeduid met de p-waarde, d.i. het percentage leerlingen dat deze opgave goed heeft gemaakt: hoe lager de p-waarde, hoe moeilijker de vraag voor deze groep leerlingen was. Het antwoordpatroon in dit schema geeft geen aanleiding om twijfels te uiten over de kwaliteit van de toets. Dat zou anders zijn als bijvoorbeeld leerling 2 (een goede leerling) op opgave 2 (een relatief gemakkelijke vraag) een fout antwoord had gegeven of als leerling 5 (een leerling met een lage toetsscore) een correct antwoord op opgave 4 (een relatief moeilijke vraag) had gegeven. Als dit soort onlogische antwoordpatronen veel voorkomt, zal de betrouwbaarheid van de toets laag zijn. Het bepalen van de interne consistentie vergt vele berekeningen en is bij grote aantallen leerlingen alleen haalbaar als men de beschikking heeft over een computerprogramma. Indien de scoring geautomatiseerd is, wordt vaak ook de interne consistentie standaard berekend. De output vermeldt dan ofwel de KR-20 of coëfficiënt alpha. Coëfficiënt alpha (α) is wiskundig equivalent aan de KR-20 en wordt gebruikt ingeval de antwoorden niet dichotoom gescoord kunnen worden met 0 (fout) en 1 (goed). De formule voor het berekenen van alpha luidt als volgt: Hier is n het aantal items in de toets, si2 de variantie van een item en st2 de variantie van de totale toets. Omdat bij een dichotoom gescoorde vraag de variantie van een item (si2) gelijk is aan pi(1−pi), kan gebruik worden gemaakt van een eenvoudiger formule, de KR-20: 28
  • 33. Kwaliteitseisen m.b.t. de toets als meetinstrument In deze formule is pi het percentage leerlingen dat item i juist heeft beantwoord. (1−pi is dan dus het percentage leerlingen dat datzelfde item fout heeft beantwoord). Deze formule gaat ervan uit dat alle items een gelijke standaarddeviatie bezitten. Als er sprake is van een toets waarvan alle items ongeveer een gelijke moeilijkheidsgraad hebben, kan een schatting verkregen worden van de hoogte van KR-20 met behulp van een formule die bekendstaat als KR-21: Hierbij is Mp de gemiddelde p-waarde voor alle items. KR-21 geeft een onderschatting van KR-20. Die onderschatting wordt ernstiger naarmate de opgaven in de toets meer variëren in moeilijkheidsgraad. Betrouwbaarheid van beslissingen Tot nu toe is steeds uitgegaan van de toets- of itemscores als basis voor het schatten van de toetsbetrouwbaarheid. Het is ook mogelijk de betrouwbaarheid te schatten met als uitgangspunt de beslissingen die naar aanleiding van de toetsscores genomen worden. Het gaat dan om beslissingen als zakken vs. slagen, onvoldoende vs. voldoende of niet-beheerser vs. beheerser. Voor dit type betrouwbaarheid moet een toets twee keer aan dezelfde leerlingen worden afgenomen (of er moeten twee parallelversies worden afgenomen). De proportie consistente beslissingen is een maat voor de beslissingsbetrouwbaarheid van de toets. tabel 6 - Beslissingsconsistentie bij herhaalde toetsafname tweede afname onvoldoen- voldoende de (a) (b) voldoende consistente inconsisten- a+b eerste beslissing te beslissing afname (c) (d) onvoldoen- inconsisten- consistente c+d de te beslissing beslissing a+c b+d N=a+b+c+d De beslissingsbe- trouwbaarheid wordt berekend door: 29
  • 34. Hoofdstuk 3 De interpretatie van deze proportie is eenvoudig. Een proportie van 0.80 betekent dat over 80% van de leerlingen bij de tweede afname dezelfde beslissing is genomen als bij de eerste afname. En dus dat er bij 20% van de leerlingen een inconsistente beslissing is genomen. 3.2.2 Meetfouten Als een persoon wordt opgemeten om te bepalen wat zijn lengte is, zal de nauwkeurigheid van die meting niet perfect zijn. Dit komt tot uiting als niet één keer maar meer keren wordt gemeten: de eerste keer levert bijvoorbeeld 183,5 cm op, de tweede keer 183,3 cm, etcetera. De ware score kan echter niet bepaald worden: het is een theoretische waarde. De Groot (1975) definieert de ware score als de gemiddelde score die een leerling zou halen wanneer deze de toets onder alle mogelijke omstandigheden zou maken, aangenomen dat geen leereffecten of vermoeidheidsverschijnselen zouden optreden. Elke toetsscore is opgebouwd uit een ’ware score’ en een ’meetfout’. De ware score is datgene waar het om gaat (de mate waarin de leerdoelen werkelijk beheerst worden); de meetfout is de onzuiverheid waarmee gemeten wordt. De meetfout kan de toetsscore ten onrechte hoger of lager doen zijn. Naarmate de verhouding tussen de meetfout en de ware score ongunstiger wordt, neemt de kans op het nemen van verkeerde beslissingen over leerlingen toe. De meetfout kan veroorzaakt worden door – het meetinstrument zélf en/of – de eigenschappen van de leerling en/of – de omstandigheden tijdens de toetsafname en/of – (interpretatie)verschillen bij de correctoren. Het meetinstrument zélf veroorzaakt onnauwkeurigheid in de metingen als het extreem gemakkelijke of moeilijke opgaven of opdrachten bevat: opgaven die niemand kan beantwoorden of die iedereen kan beantwoorden; opdrachten die niemand kan uitvoeren of iedereen kan uitvoeren. Het is dan niet meer duidelijk wat er gemeten wordt. Met andere woorden, er wordt onvoldoende gediscrimineerd (onderscheid gemaakt) tussen ’goede’ en ’zwakke’ leerlingen. Normaliter is immers te verwachten dat relatief moeilijke vragen of opdrachten met name door de ’goede’ leerlingen goed beantwoord of uitgevoerd worden. Als dat stelselmatig niet het geval is, is er reden te twijfelen aan het meetinstrument zélf. Een tekort aan toetsopgaven of observatiepunten is een andere bron van onnauwkeurigheid: de invloed van elke toetsvraag of elk observatiepunt op de uitslag van de totale meting is dan relatief erg hoog. Door meer meetpunten in een toets of opdracht op te nemen, neemt de kans op meetfouten af (en dus de meetnauwkeurigheid toe) of – anders gezegd – door meer meetpunten op te nemen wordt de invloed van de meetfout op de totale toetsbeoordeling kleiner. Dit pleit dus voor een langere toets en/of voor meer (relevante) beoordelingscriteria in een observatielijst. Daarbij moet uiteraard rekening gehouden worden met de hanteerbaarheid van de toets (een te lange toets of een te lange lijst van beoordelingscriteria is niet meer hanteerbaar). Ook de eigenschappen van de leerling kunnen onnauwkeurigheid in de meting veroorzaken. Het gaat hier dan om eigenschappen die in feite niets met de beheersing van de leerdoelen te maken hebben maar niettemin van invloed kunnen zijn op de toetsprestatie: een leerling die last heeft van examenvrees zal waarschijnlijk onder zijn niveau presteren. Ook minder stabiele eigenschappen zoals gemoedstoestand of gezondheid kunnen de toetsprestatie negatief beïnvloeden. 30
  • 35. Kwaliteitseisen m.b.t. de toets als meetinstrument Onnauwkeurigheid in de metingen kan ook veroorzaakt worden door de omstandigheden tijdens de toetsing. Lawaai in de naaste omgeving, slechte toetsinstructies, slechte verlichting of ventilatie zijn voorbeelden van storende beïnvloeding van de meetnauwkeurigheid. Zij dragen bij aan de meetfout en daarmee aan de onbetrouwbaarheid van de beslissingen die genomen worden op grond van de toetsprestaties. Ook als leerlingen in de gelegenheid zijn om bijvoorbeeld ’af te kijken’ of ’te spieken’ zal de toetsscore geen goede indicatie zijn voor de mate van beheersing van de leerdoelen. Zoals ook al aangegeven is in paragraaf 3.1 (objectiviteit) kan onnauwkeurigheid van de meting ten slotte ook veroorzaakt worden door (interpretatie)verschillen van correctoren of beoordelaars. Als twee correctoren of beoordelaars tot een duidelijk afwijkend oordeel komen over eenzelfde prestatie van een leerling, is de meting niet consistent: afhankelijk van degene die beoordeelt kan de uitspraak over de studieresultaten verschillen. Ook indien eenzelfde beoordelaar een toets of een praktijkopdracht diverse keren achter elkaar moet beoordelen (van verschillende leerlingen) is de beoordeling ervan vaak inconsistent (sequentie-effect). De toetsprestaties van een leerling op een toets of bij een opdracht kan dus zowel positief als negatief beïnvloed worden door de corrector of beoordelaar. Bij meerkeuzevragen speelt dit probleem niet omdat het antwoord van tevoren vastligt en er (ingeval van mechanische verwerking) geen interpretatie aan te pas komt. Bij open vragen (lang-antwoord), praktijkopdrachten of dergelijke speelt dit subjectiviteitsprobleem echter wel degelijk. In het voorgaande blijkt dat de betrouwbaarheid van een meting door velerlei factoren (meetfouten) beïnvloed kan worden en niet met zekerheid aan te geven is. De betrouwbaarheid kan echter wel geschat worden. Voor deze schatting bestaan verschillende methoden (zie par. 3.2). Het uiteindelijk resultaat is een getal als maat voor de betrouwbaarheid van de meting. Hoe hoog de betrouwbaarheid voor een specifiek meetinstrument moet zijn is moeilijk aan te geven. De betrouwbaarheid wordt immers door een aantal factoren beïnvloed, zoals bijvoorbeeld toetslengte: hoe langer de toets, des te minder kans op toevalstreffers en des te hoger de betrouwbaarheid. Maar aan de lengte van de toets moeten soms aanzienlijke concessies gedaan worden in verband met de hanteerbaar- heid. Het zou dan onredelijk zijn om een vaste hoogte voor de betrouwbaarheid te hanteren. Ook de consequenties voor de leerlingen kunnen een rol spelen bij de vraag wat een aanvaardbare betrouwbaarheid is. Als die consequenties gering zijn, mag genoegen worden genomen met een lagere betrouwbaarheid dan wanneer die consequenties ’zwaar’ zijn. Afhankelijk van het doel van het meetinstrument moet men dus een afweging maken welke hoogte van de betrouwbaarheid wel of niet meer acceptabel is. Hier ligt dus een taak voor bijvoorbeeld een toetsingscommissie van de opleiding. 3.2.3 De standaardmeetfout In principe kan bij elke meting de betrouwbaarheid geschat worden. Dit betekent dat ook de meetfout geschat kan worden. De schatting van de meetfout wordt de standaardmeetfout genoemd. Deze wordt evenals de betrouwbaarheid uitgedrukt in een getal en wordt berekend met behulp van de toetsbetrouwbaarheid. De standaardmeetfout geeft een schatting van de te verwachten grootte van de afwijkingen van de toetsscores van de ene op de andere meting. Of, anders gezegd: de standaardmeetfout geeft de meetfout aan die ’in doorsnee’ bij meting met een bepaalde toets verwacht mag worden. Met de standaardmeetfout kan een interval berekend worden rondom elke individuele toetsscore waarbinnen met een bepaalde zekerheid de ware score van de betreffende leerling zal liggen. Hoe kleiner de standaardmeetfout, des te dichter ligt de toetsscore in de buurt van de ’ware’ score. 31
  • 36. Hoofdstuk 3 Verondersteld mag worden dat de toetsscores bij herhaalde meting normaal verdeeld zullen zijn rondom de gemiddelde score. Het beeld ziet er dan uit zoals weergegeven in afbeelding 12. afb. 12 - Normaalverdeling van toetsscores bij herhaalde meting Er is sprake van een normale verdeling wanneer de grafiek symmetrisch klokvormig is. De spreiding (standaarddeviatie) van die herhaalde metingen bij dezelfde persoon is dan de standaardmeetfout. Met 70% zekerheid ligt de ware score van de leerling tussen zijn toetsscore min één standaarddeviatie (−1 SD) en zijn toetsscore plus één standaarddeviatie (+1 SD). In de praktijk is het uiteraard niet mogelijk om een toets zo vaak bij een en dezelfde leerling af te nemen dat de standaarddeviatie voor die leerling berekend kan worden. Wanneer de toets bij een groep leerlingen is afgenomen, kan de standaardmeetfout (SE) echter geschat worden met behulp van de betrouwbaarheid (rXX’) en de standaarddeviatie van de toets (St): Voor het berekenen van de betrouwbaarheid kan gebruik worden gemaakt van de hiervoor beschreven formules (α of KR-20). De formule voor de standaarddeviatie luidt: Hierbij is n het aantal items in de toets, xi de score op item i en X de gemiddelde score. In de volgende afbeeldingen wordt het verband tussen toetsscore (het cijfer), ware score (de vaardigheid) en standaardmeetfout nader uitgewerkt voor drie leerlingen (A, B en C). Bij de standaardmeetfout is altijd sprake van een bandbreedte rondom een bepaalde waarde. Uitgaande van een bepaalde toetsscore (bijv. 6,5) en een standaardmeetfout (bijv. 2,5: een vrij onnauwkeurige meting) kun je met 70% zekerheid zeggen dat de ware score zal liggen tussen 6,5 − 2,5 en 6,5 + 2,5. De vaardigheid van de leerling ligt op de bepaalde cijferschaal dus tussen 4 en 9. Dit betekent derhalve dat drie leerlingen, die allemaal een 6,5 halen, toch aanzienlijk kunnen verschillen in vaardigheid. Deze situatie is weergegeven in afbeelding 13. 32
  • 37. Kwaliteitseisen m.b.t. de toets als meetinstrument afb. 13 - Hetzelfde cijfer, verschillende vaardigheid: bandbreedte rondom de toetsscore De ’klokken’ geven aan dat de kans dat de ware score in de buurt van de toetsscore ligt het grootst is. Het kan echter niet uitgesloten worden dat de ware scores aan de rand van de klok liggen. Dezelfde situatie (dezelfde toets en dezelfde leerlingen) kan ook benaderd worden vanuit de ware scores van de leerlingen. Nu is de standaardmeetfout weergegeven als een bandbreedte rondom de werkelijke vaardigheid van elke leerling (afb. 14). afb. 14 - Hetzelfde cijfer, verschillende vaardigheid: bandbreedte rondom de ware scores Gegeven de standaardmeetfout van 2,5 op de toets, zal elke leerling met 70% zekerheid een cijfer halen dat in ieder geval ligt tussen een bepaald minimum en maximum. Leerling A heeft een vaardigheid van 5 en zal dus in 70% van de metingen uitkomen op een toetsscore tussen 2,5 en 7,5. Leerling B (die een vaardigheid heeft van 6) zal 7 van de 10 keer scoren tussen 3,5 en 8,5 en C (ware score 7) krijgt voor de toets een cijfer tussen 4,5 en 9,5. Afhankelijk van de omstandigheden, die voor de een gunstig en voor de ander ongunstig kunnen zijn, kunnen ze echter alle drie op een 6,5 uitkomen. Wanneer de toets en toetssituatie echter verbeterd worden, zal dat tot gevolg hebben dat de marges waarbinnen onze drie leerlingen zullen scoren, aanzienlijk smaller zullen worden en elkaar zelfs niet meer overlappen. De drie leerlingen zullen in deze situatie (afb. 15) dus niet meer hetzelfde cijfer kunnen halen. 33
  • 38. Hoofdstuk 3 afb. 15 - Een betrouwbare toets: kleine standaardmeetfout De toetsscore zal nooit helemaal samenvallen met de ware score, maar door de standaardmeetfout te verkleinen (oftewel door de betrouwbaarheid te verhogen) kunnen met grotere zekerheid uitspraken worden gedaan over de competentie van de leerlingen. Zeker wanneer aan de meting grote consequenties zijn verbonden, is het dus zaak om de betrouwbaarheid van de meting nauwlettend in de gaten te houden. Vanuit een besliskundige benadering kunnen immers bij het trekken van conclusies twee verschillende fouten gemaakt worden: 1 De leerling wordt op grond van de toetsscore beoordeeld als incompetent terwijl hij in feite competent is (zgn. false negative); 2 De leerling wordt op grond van de toetsscore beoordeeld als competent terwijl hij dat in feite niet is (zgn. false positive). Beide soorten fouten zijn te herkennen in tabel 7. tabel 7 - Foute conclusies op basis van een toetsafname competentie voldoende onvoldoende (a) (b) voldoende terecht geslaagd false negatives toetsafname (c) (d) onvoldoende false positives terecht gezakt In het eerste geval wordt de leerling ten onrechte de (vergunning tot) uitoefening van een bepaalde taak of vaardigheid ontzegd. Of hij mag niet doorstromen naar een volgend studieonderdeel. In het tweede geval krijgt de leerling ten onrechte toestemming bepaalde taken uit te voeren of wordt hij ten onrechte toegelaten tot een volgend studieonderdeel. Veel opleiders vinden de tweede fout ernstiger dan de eerste en proberen daarom het aantal false positives (leerlingen die ten onrechte als competent worden beoordeeld) te beperken door de score die behaald moet worden om te slagen ’flink op te schroeven’. De keerzijde van deze maatregel is dat het aantal false negatives (leerlingen die ten onrechte als incompetent worden beoordeeld) drastisch zou kunnen stijgen. 34
  • 39. Kwaliteitseisen m.b.t. de toets als meetinstrument De enige manier om zowel het aantal false positives als het aantal false negatives te beperken is door een systematische en zorgvuldige constructie de validiteit van de toets zo hoog mogelijk te doen zijn en door een goede meet- en beoordelingsprocedure de betrouwbaarheid optimaal te laten zijn. De docent moet zich realiseren dat de toetsscore van een leerling geen ’keihard gegeven’ is, maar een indicatie (een schatting) voor diens beheersingsniveau op een bepaalde meting. ’Harde consequenties’ verbinden aan een eenmalige meting zou dan ook een gevaarlijke zaak kunnen zijn en relativeren is dus geboden. In de praktijk komt het er gewoonlijk op neer dat bij een toets met een zeer lage betrouwbaarheid en hoge standaardmeetfout, de normering aangepast wordt. In dat geval legt men de cesuur (grens voor zakken of slagen) meestal wat lager. 3.3 Validiteit De validiteit van een meetinstrument is de mate waarin instrument aan zijn doel beantwoordt. Validiteit is echter geen kenmerk van een meetinstrument zelf maar van de beslissing die op grond van de meetgegevens wordt genomen. Een toets kan immers zeer valide zijn voor het ene doel en ’invalide’ voor het andere doel. Bij validiteit gaat het dus om de afstemming van het instrument op de leerdoelen. Om een valide beslissing te kunnen nemen, moet er een optimale relatie zijn tussen het meetinstrument en de vaardigheid die in het leerdoel aangegeven is. Als men bijvoorbeeld wil weten of een leerling een bepaalde handeling kan uitvoeren, moet men hem een opdracht geven waarin hij kan laten zien hoe hij de handeling uitvoert en geen schriftelijke toets geven om de handeling te beschrijven. Dus als gemeten en beoordeeld moet worden of de leerling in staat is op professionele wijze een injectie te geven, moet de opdracht gegeven worden om een injectie te geven. Als er – hetgeen niet ongebruikelijk is – aan de leerling gevraagd zou worden te beschrijven hoe hij een en ander zou doen, geeft zijn antwoord immers geen enkele garantie geeft dat hij het toedienen van een injectie als vaardigheid ook werkelijk beheerst. Het enige dat men dan kan concluderen is of de leerling het in theorie weet. Men meet een cognitieve vaardigheid in plaats van de bedoelde psychomotorische vaardigheid. Het zal duidelijk zijn dat het van belang is dat degene die het meetinstrument ontwikkelt dan wel degene die gebruikmaakt van een bepaald meetinstrument zich vooraf goed rekenschap geeft welke leerdoelen hij nu eigenlijk precies wil toetsen. Hij moet daarbij tevens vaststellen of het in het instrument gevraagde gedrag in overeenstemming is met deze leerdoelen. In de wat oudere psychometrische literatuur worden vele soorten validiteit onderscheiden, maar de laatste jaren pleiten steeds meer auteurs ervoor om de term validiteit te reserveren voor wat tot voor kort werd aangeduid met begripsvaliditeit: de mate waarin beoordelingen te verklaren zijn via eigenschappen van de beoordeelden. Het is niet langer voldoende om aan te tonen dat bijvoorbeeld de kleur van de ogen een goede voorspeller is voor rijvaardigheid (’predictieve validiteit’); er zal een betekenisvolle verklaring voor de gevonden correlatie moeten worden gegeven, al was het alleen maar omwille van de maatschappelijke aanvaardbaarheid. Niemand zal het immers accepteren dat hij geen rijbewijs krijgt omdat zijn ogen niet de juiste kleur hebben. Ook wetenschappelijk gezien is het onbevredigend om genoegen te nemen met alleen het statistisch verband: men wil kunnen uitleggen waarom het gevonden verband bestaat. Niet zelden is echter sprake van de omgekeerde situatie: een test lijkt zo overduidelijk samen te hangen met datgene waarover men een uitspraak wil doen, dat het empirisch aantonen van de validiteit overbodig wordt geacht. 35
  • 40. Hoofdstuk 3 Beide vormen van onderzoek, verklarend en empirisch, vergen nogal wat tijd en middelen waarover een opleiding zelf niet beschikt. Wanneer men besluit een professioneel beoordelingsinstrument aan te schaffen, mag daarvan wél veracht worden dat er enig valideringsonderzoek heeft plaatsgevonden. In de volgende paragraaf wordt beschreven welke maatregelen kunnen worden getroffen om de validiteit van een beoordelingsinstrument te bevorderen. Dit kan door aan bepaalde aspecten van de validiteits- vraag aandacht te schenken. 3.3.1 Validiteitsaspecten Hoewel validiteit gezien moet worden als één overkoepelend begrip, zijn daaraan toch bepaalde aspecten te onderscheiden. Door bij de constructie van meetinstrumenten rekening te houden met deze aspecten kan de validiteit weliswaar niet bewezen, maar wel aannemelijk gemaakt worden. Deze aspecten hangen samen met het gegeven dat men op basis van de meetgegevens een uitspraak wil doen over iets buiten de beoordelingssituatie. In het onderwijs gaat het dan met name om het inhoudsaspect (de mate waarin het leerstofgebied gedekt wordt) en het externe aspect (de mate waarin op basis van de toetsprestaties uitspraken kunnen worden gedaan over zaken buiten de toetssituatie) (Messick, 1995). Beide aspecten worden hieronder nader toegelicht. Voor de herkenbaarheid wordt verder gesproken over respectievelijk de inhoudsvaliditeit en de criteriumvaliditeit. Inhoudsvaliditeit Doorgaans is het niet haalbaar om alle leerdoelen te toetsen. De toets die de docent nodig heeft om een uitspraak te kunnen doen over de mate waarin de leerling de leerdoelen beheerst, moet dus een steekproef zijn uit deze leerdoelen. Daarbij is het van belang dat de steekproef representatief is, dat wil zeggen dat de toets een goede afspiegeling is van het totale domein van de leerdoelen. Het mag niet voorkomen dat slechts enkele leerdoelen in de toets aan bod komen. Er wordt immers na de toetsafname op grond van de meetresultaten vastgesteld of de leerling ’de’ leerdoelen behaald heeft. Bij de inhoudsvaliditeit gaat het dus om de mate waarin een toets een relevante en representatieve steekproef vormt uit de leerdoelen waarover een uitspraak gedaan moet worden. Om tot een optimale steekproef te kunnen komen, wordt bij de constructie van een beoordelingsinstru- ment wordt uitgegaan van een overzicht van gespecificeerde leerdoelen. In zo’n overzicht staat concreet aangegeven welke leerinhouden en vaardigheden getoetst moeten worden. Vervolgens wordt in dat overzicht aangegeven met welke en hoeveel toetsonderdelen deze gemeten worden. Als dat gebeurd is, is er sprake van een toetsmatrijs. Daarmee wordt een beeld verkregen van de representativiteit van het meetinstrument. De toetsmatrijs wordt voorafgaand aan de constructie van het meetinstrument – zowel bij schriftelijke toetsen als bij praktijktoetsen – opgesteld en vormt tijdens de constructiefase een continue oriëntatiepunt voor degenen die de toets ontwikkelen. Maar ook voor diegenen die het meetinstrument naderhand gebruiken, bevat de bij het meetinstrument behorende toetsmatrijs belangrijke informatie over de reikwijdte van het instrument. Bij schriftelijke toetsen wordt per toetsvraag gewoonlijk direct in de matrijs aangegeven welke leerinhoud en welke vaardigheid deze vraag meet. Bij vaardigheidstoetsen wordt vaak gebruikgemaakt van beoordelingscriteria. Wanneer het bijvoorbeeld de bedoeling is te meten of een leerling in staat is te luisteren naar anderen, zal er in het meetinstrument een criterium opgenomen moeten zijn dat hieraan refereert, zoals: ’gaat in op door anderen gestelde vragen of opmerkingen’ Deze beoordelingscriteria vormen dan een wezenlijk onderdeel van de toetsmatrijs. De beoordelaars moeten aangeven of de beoordelingscriteria relevant en dekkend zijn ten opzichte van de te beoordelen leerdoelen. 36
  • 41. Kwaliteitseisen m.b.t. de toets als meetinstrument tabel 8 - Voorbeeld van een toetsmatrijs voor een schriftelijke toets leerinhoud: kennis toepassing inzicht totaal ontwikkeling van zuigeling en peuter zuigeling – algemeen 0 0 3 3 lichamelijke en motorische ontwikkeling 0 3 0 3 emotionele en sociale ontwikkeling 3 0 0 3 dagelijkse zorg 1 0 2 3 voeding 0 2 1 3 peuter – algemeen 1 2 0 3 lichamelijke en motorische ontwikkeling 2 0 1 3 emotionele en sociale ontwikkeling 2 1 0 3 dagelijkse zorg 0 1 2 3 voeding 1 1 1 3 totaal 10 10 10 30 Een voorbeeld van een (ingevulde) toetsmatrijs is te zien in tabel 8. Dit is een toetsmatrijs van een (gefingeerde) schriftelijke theorietoets Kinderverpleegkunde. Zoals uit de matrijs af te lezen is, bestaat deze toets uit in totaal 30 vragen. Over elk onderdeel van de leerinhoud worden 3 vragen gesteld, in een vooraf vastgestelde verhouding verdeeld over de gedragscategorieën ’kennis’, ’toepassing’ en ’inzicht’. Volgens deze matrijs moeten in elke gedragscategorie 10 vragen gesteld worden. De leerstofonderdelen zijn in deze matrijs zeer gedetailleerd aangegeven. Dat is niet altijd mogelijk en soms ook niet zinvol: als de te toetsen leerinhoud omvangrijker is dan in bovenstaande matrijs aangegeven, zou de lijst met gespecificeerde onderdelen erg groot kunnen worden. Daarom wordt in sommige gevallen volstaan met een minder gedetailleerde matrijs. Een andere reden om de matrijs iets ’grover’ te maken is het feit dat de driedeling ’kennis/toepassing/in- zicht’ in de praktijk vaak niet werkt. Het onderscheid ’toepassing/inzicht’ blijkt vaak moeilijk te maken. Om die reden worden deze twee gedragscategorieën dan samengevoegd tot één categorie. Bovendien gebruikt men tegenwoordig meestal andere termen: reproductie en productie. Voor de aantallen vragen per categorie volstaat men soms ook wel met het geven van een ondergrens en een bovengrens. Een en ander is de volgende voorbeeld-matrijs te zien (tabel 9): tabel 9 - Een meer globale toetsmatrijs leerinhoud: kennis toepassing / inzicht totaal ontwikkeling van zuigeling en peuter (reproductie) (productie) zuigeling 4-6 9-11 15 peuter 4-6 9-11 15 10 20 30 Ook voor de toetsing van praktische vaardigheden is het van belang vooraf een toetsmatrijs op te stellen. Het gaat er dan vooral om in kaart te brengen welke deelaspecten er aan de te toetsen vaardigheid onderscheiden kunnen worden: deskundigen moeten het onderling eens zijn over de aspecten waarop in de toetssituatie gelet moet worden. Anders dan bij de theorietoetsen worden de gedragscategorieën soms 37
  • 42. Hoofdstuk 3 ingevuld met het onderscheid ’zelfstandig – onder begeleiding’ of een indeling naar vaardigheden ’cognitief – psychomotorisch – reactief – interactief’. Vaker echter wordt volstaan met alleen de analyse van de deelhandelingen. In tabel 11 is zo’n een- dimensionale toetsmatrijs weergegeven voor het wassen van een patiënt. tabel 10 - Eendimensionale toetsmatrijs Leerinhoud: wassen van een patiënt • verpleegkundig dossier raadplegen • patiënt voorbereiden • juiste werkomgeving creëren • handen wassen • juiste benodigdheden klaarzetten • patiënt in juiste houding helpen • privacy van de patiënt bewaken • patiënt uitkleden en sieraden af (laten) doen • gezicht wassen • handen en armen wassen De toetsmatrijs geeft dus een beeld van de representativiteit van het meetinstrument. Voor praktische vaardigheden is dit echter aanzienlijk moeilijker dan bij een meetinstrument dat gericht is op het meten van cognitieve vaardigheden. Aan vaardigheidstoetsen wordt dikwijls een hoge validiteit toegeschreven door de beoordelaars. De reden hiervoor is dat deze toetsen ’echt aandoen’. Of deze uitspraak over de validiteit altijd terecht is, valt te betwijfelen (zie ook par. 2.5.2). Criteriumvaliditeit Het externe aspect van validiteit speelt vooral een rol wanneer men primair geïnteresseerd is in een buiten het meetinstrument liggend criterium. Dit criterium kan in de toekomst liggen, een situatie die in het onderwijs nogal eens voorkomt: men wil kunnen ’voorspellen’ wie met succes een vervolgopleiding zullen kunnen voltooien. Men spreekt in dit verband dan ook wel van predictieve validiteit. Er kan ook gekeken worden naar gelijktijdig beschikbare gegevens, waarvan men op theoretische grond verwacht dat daarmee een samenhang zou moeten zijn. Daarvoor moet een tweede set beoordelingen van de leerlingen worden verzameld. In een onderzoek van Schotten en Stolk (1995) is gebruikgemaakt van een dergelijk gelijktijdig criterium: het gemiddelde globale oordeel van een groep van 10 ’ongewapende beoordelaars’ was daarbij het criterium om de validiteit van de uitspraken van de ’gewapende’ beoordelaars te bepalen. ’Ongewapend’ betekent in dit verband dat de beoordelaars de prestaties van de leerling beoordeelden op de manier zoals ze dat gewoonlijk in hun eigen praktijk doen en daarbij geen gebruikmaakten van het ontwikkelde beoordelingsinstrument, terwijl de ’gewapende’ beoordelaars bij de beoordeling wél gebruikmaakten van dit beoordelingsinstrument. (Dit lijkt op het eerste gezicht een zwak criterium, maar de kracht ligt juist in het grote aantal beoordelaars.) Achterliggende gedachte daarbij was dat de betrouwbaarheid van de uitspraken van de ’gewapende’ beoordelaars groter zou zijn dan die van de ’ongewapende’ beoordelaars omdat zij gebruikmaakten van een gestandaardiseerde observatielijst. Of met die observatielijst ook daadwerkelijk de juiste vaardigheid werd gemeten, is dus nagegaan door een vergelijking met een buiten het instrument gelegen criterium. 38
  • 43. Kwaliteitseisen m.b.t. de toets als meetinstrument 3.3.2 Relatie validiteit en betrouwbaarheid Ter afsluiting van de bespreking van de begrippen validiteit en betrouwbaarheid, volgen hier twee uitspraken om duidelijk te maken op welke wijze deze begrippen met elkaar samenhangen. EEN TOETS DIE NIET VALIDE IS, KAN BEST BETROUWBAAR ZIJN. Het is denkbaar dat er toetsresultaten verkregen zijn die zeer consistent blijken te zijn. Toch kan er in dit geval met de toets steeds iets anders gemeten zijn dan beoogd werd te meten. Het eerder aangehaalde voorbeeld van de schriftelijke toets voor het meten van psychomotorische vaardigheden is hiervan een treffende illustratie. EEN TOETS DIE NIET BETROUWBAAR IS, KAN NOOIT VALIDE ZIJN! Als er een toets wordt afgenomen die de ene keer deze en de volgende heel andere toetsresultaten oplevert (dus onbetrouwbare/inconsistente gegevens) is het niet meer duidelijk wat er nu eigenlijk gemeten is (validiteitsvraag). Dit probleem speelt met name bij de meer representatieve toetsvormen. Deze samenhang tussen validiteit en betrouwbaarheid wordt ook nog geïllustreerd aan de hand van de volgende afbeelding, waarin drie ’schietschijven’ te zien zijn. De betrouwbaarheid is op elke schijf de mate waarin ’de schoten bij elkaar in de buurt liggen’. De validiteit is de mate waarin ’de schoten ook daadwerkelijk doel treffen’. afb. 16 - Verband tussen betrouwbaarheid en validiteit Het verband tussen betrouwbaarheid en validiteit kan ook nog op een andere manier worden aangeduid: de validiteit van een toets kan nooit hoger zijn dan de betrouwbaarheid. De correlatie met een andere toets (als maat voor de validiteit) kan nooit hoger zijn dan de correlatie zoals weergegeven in de betrouwbaarheidscoëfficiënt. De maximum validiteit (r12 max) wordt bepaald door de volgende formule: Hierin zijn r11 en r22 de betrouwbaarheidscoëfficiënten van de beide respectieve toetsen. 3.4 Overige kwaliteitseisen: efficiëntie, transparantie, aanvaardbaarheid en specificiteit Efficiëntie, als eis die aan een meetinstrument wordt gesteld, heeft zowel betrekking op de afname als op de vormgeving van het meetinstrument. De afname van de toets of toetsopdracht mag de voortgang van het onderwijs niet te veel belasten of verstoren en het scoren van de resultaten of het beoordelen van 39
  • 44. Hoofdstuk 3 de prestaties mag niet meer tijd en menskracht in beslag nemen dan strikt noodzakelijk is. Bij het begrip efficiëntie wordt dan vooral gedacht aan de moeite die het afnemen van de toets of toetsopdracht vergt. Dit wordt met name bezien vanuit het standpunt van de beoordelaar. Het gaat dan om aspecten als voorbereiding, organisatie, benodigdheden (materialen en menskracht), logistiek tijdens de afname, tijdsduur, correctie etcetera. Maar ook de omvang van de toets(opdracht) moet in de juiste verhouding staan tot de beschikbare tijd: de leerling moet in staat zijn de strategie voor het uitvoeren van de toetsopdracht als geheel te bepalen. Uiteraard moet de vormgeving van het meetinstrument ook zodanig zijn dat het uitvoeren van de toetsopdracht (schriftelijk of praktisch) zo efficiënt mogelijk kan gebeuren. Hierbij moet men denken aan aspecten van de presentatie (bijv. het qua lay-out duidelijk onderscheiden van vragen en opdrachten, informatieve teksten en richtlijnen). Toetsen voor praktische vaardigheden zullen meestal minder efficiënt zijn dan bijvoorbeeld schriftelijke toetsen of soms zelfs op gespannen voet daarmee staan. Daar waar bij het toetsen door middel van meerkeuzetoetsen vaak een min of meer ’massale’ toetsafname mogelijk is (dus sprake is van een zeer hoge efficiëntie) waarbij bovendien gebruikgemaakt kan worden van mechanische scoring en verwerking, is het toetsen van praktische vaardigheden in de daadwerkelijke beroepspraktijk vaak een zaak van beoordeling van individuele leerlingen waarbij voor de prestatiebeoordeling gebruik gemaakt moet worden van meerdere deskundigen die ter plaatse de (eerste) beoordeling uitvoeren (dus een relatief lage efficiëntie). Omwille van de haalbaarheid en realiteit zal in het algemeen gezocht moeten worden naar een zo eenvoudig mogelijke afnameprocedure zonder daarbij afbreuk te doen aan het streven naar een optimale validiteit en een voldoende betrouwbaarheid. Dit spanningsveld tussen efficiëntie, betrouwbaarheid en validiteit komt in de volgende paragraaf aan de orde. Onder transparantie verstaat men de mate waarin alle betrokkenen vooraf beschikken over relevante informatie met betrekking tot de toetsing. Voor de leerlingen betekent dit bijvoorbeeld dat zij over díe informatie beschikken die hen in de gelegenheid stelt zich op een goede manier voor te bereiden op de toetsing. Ze moeten op de hoogte zijn van de eisen die er gesteld worden (wat moeten ze kennen/kun- nen? op welk niveau?), van de vormgeving van het meetinstrument (is het een schriftelijke toets, een mondelinge opdracht of een praktijkopdracht; wordt er gebruikgemaakt van bijvoorbeeld simulatie- patiënten), van de beslissingsregels die bij de normering gehanteerd worden en van de manier waarop de cijfertoekenning tot stand komt, van de consequenties van een onvoldoende, van de omvang van de toets (hoeveel vragen in hoeveel tijd?) etcetera. Maar ook anderen dan de leerlingen hebben recht op duidelijkheid: degene die aanwezig is bij de afname van de toets of degenen die zelf de beoordeling uitvoeren, moeten weten welke procedures en regels erbij gehanteerd moeten worden. In het algemeen geldt voor alle betrokkenen dat de beoordelingsprocedures en de regels die daarbij gehanteerd worden helder en inzichtelijk moeten zijn. Uit de eis van transparantie vloeit dus in ieder geval voort dat de leerling vooraf op de hoogte wordt gesteld van het feit dat hij getoetst wordt. Soms wordt dit op de praktijkvormingsplaats achterwege gelaten met het argument dat er een gekunstelde situatie ontstaat, waarin de leerling eerder geneigd zal zijn ’gewenst gedrag’ te vertonen. Dit is echter onvoldoende reden om pas achteraf tegen de leerling te zeggen dat er een beoordeling heeft plaatsgevonden. Een vergelijkbaar bezwaar wordt wel geuit tegen het werken met observatielijsten: de leerling zou de neiging hebben de beoordelingscriteria van de lijst uit het hoofd te leren in plaats van zich te oefenen in een maximale beheersing van de te toetsen vaardigheid. Hierdoor zou men iets anders toetsen dan men beoogt te toetsen. Maar: als de leerling weet op welke aspecten hij wordt beoordeeld en daarmee in zijn 40
  • 45. Kwaliteitseisen m.b.t. de toets als meetinstrument gedrag rekening houdt, zal dit ertoe kunnen leiden dat deze leerling die aspecten integreert in zijn handelen. Dit kan de kwaliteit van het handelen alleen maar verbeteren. Een voorwaarde daarbij is dan uiteraard wel dat er gedurende de opleiding meerdere toetsmomenten in verschillende zorgsituaties zijn en dat het meetinstrument alle relevante beoordelingsaspecten bevat (valide is). Onder aanvaardbaarheid van meetresultaten verstaat men de mate waarin alle betrokkenen (de leerling, de school, de overheid, de maatschappij) de beslissingen die genomen worden op grond van deze meetresultaten kunnen accepteren. De beslissingen moeten door betrokkenen als doelmatig en billijk ervaren worden. Onder meer om deze reden maken vertegenwoordigers van deze betrokken partijen vaak deel uit van commissies die de toetsopgaven vaststellen of van commissies die beslissingen nemen op basis van de toetsresultaten. Onder specificiteit verstaat men de mate waarin het meetinstrument die vaardigheden meet die specifiek zijn voor de beroepsuitoefening en/of die het resultaat zijn van het voorafgaande onderwijs. Een meetinstrument, gericht op het meten van vaardigheden in de gezondheidszorg is specifiek als het die vaardigheden meet die rechtstreeks samenhangen met het beroep van verpleegkundige. Of een meetinstrument daadwerkelijk specifieke vaardigheden meet, kan uitsluitend beoordeeld worden door beroepsbeoefenaren. Een aandachtspunt daarbij is dat ook ’algemene vaardigheden’, zoals probleemoplos- send vermogen, kritisch denken of bepaalde sociale vaardigheden, een wezenlijk onderdeel van de beroepsvaardigheden zijn en niet verward moeten worden met ’common sense’. 3.5 Het spanningsveld tussen betrouwbaarheid, validiteit en efficiëntie Zoals aangegeven in paragraaf 3.2.3 is het doel van het verkrijgen van meetgegevens: de juiste conclusies kunnen trekken over het beheersingsniveau van leerlingen. Om de kans op onjuiste beslissingen te beperken moet gestreefd worden naar een zo hoog mogelijke validiteit (door een systematische en zorgvuldige constructie van de toets) en een zo hoog mogelijk betrouwbaarheid (door een goede meet- en beoordelingsprocedure). Bij schriftelijke toetsen (en met name meerkeuzevragen) is het relatief eenvoudig om een goede betrouwbaarheid te realiseren. Maar ook moet de toets dekkend zijn voor de leerdoelen, evenwichtig samengesteld zijn (niet te gemakkelijke of te moeilijke vragen) en een representatieve steekproef vormen uit de leerdoelen (validiteitsprobleem). Daarnaast is het van belang dat de leerlingen vooraf goed geïnformeerd zijn over de meting en de procedure die daarbij gevolgd wordt, zodat men zich optimaal kan voorbereiden op de toetssituatie. Vervolgens moeten er vooraf maatregelen getroffen zijn om de condities waaronder de toetsafname plaatsvindt optimaal te laten zijn. Tenslotte moeten er heldere afspraken zijn met betrekking tot de correctieprocedure: sluitende en eenduidige sleutels en antwoordmodellen, eventueel meer correctoren, afspraken over de volgorde van correctie e.d. Bij het toetsen van praktische vaardigheden zal het meer moeite kosten om een hoge betrouwbaarheid te realiseren. Om de toetssituatie zo dicht mogelijk te laten aansluiten op het leerdoel is het vaak gewenst de meting daadwerkelijk in de beroepspraktijk uit te laten voeren. De validiteit is dan optimaal. Voor de betrouwbaarheid ligt dat anders: de beroepspraktijk voldoet in het algemeen niet aan de eisen van betrouwbaarheid in de zin van consistent, reproduceerbaar. Ook is standaardisatie van de praktijksituatie maar ten dele te realiseren: elke praktijksituatie is weer anders doordat de omstandighe- den niet identiek zijn. Standaardisatie moet dus vooral gezocht worden in bijvoorbeeld standaardinstruc- ties voor de leerling en voor degene die de toets afneemt, gebruik van ’standaard’-observatielijsten en protocolvoorschriften, gebruik van toetsmatrijs etcetera. 41
  • 46. Hoofdstuk 3 afb. 17 - Betrouwbaarheid, validiteit en efficiëntie Ondanks deze standaardisatie blijft er echter altijd een verschil in afnamecondities: het is niet mogelijk om leerlingen altijd onder precies gelijke afnamecondities te toetsen. Een mogelijke oplossing voor dit laatste is om leerlingen vaker te toetsen. Elke leerling ’treft’ dan weleens een ’moeilijker’ en een ’gemakkelijker’ praktijksituatie. Hierdoor zijn ’gemiddeld’ de praktijksituaties toch weer voor elke leerling min of meer gelijkwaardig. Uit het voorgaande zal duidelijk geworden zijn dat de constructeur van een praktijktoets zich geplaatst ziet voor het dilemma: maximale validiteit of maximale betrouwbaarheid. Wanneer het primaat gelegd wordt bij de validiteit zal dat negatieve consequenties kunnen hebben voor de betrouwbaarheid. Andersom speelt hetzelfde: wanneer het primaat gelegd wordt bij de betrouwbaar- heid, zal dat negatieve consequenties kunnen hebben voor de validiteit. Het spanningsveld tussen validiteit en betrouwbaarheid neemt nog extra toe als men bedenkt dat een betrouwbare beoordeling van vaardigheden in ’natuurgetrouwe’ beoordelingssituaties veel tijd, geld en vooral menskracht kost. Dit is het probleem van de efficiëntie van het meetinstrument. In afbeelding 17 is het spanningsveld schematisch weergegeven. Efficiëntie is een aspect waar individuele docenten meestal nauwelijks invloed op hebben. Het management van de instelling zal – indien men tenminste het belang van een valide en betrouwbare meting ondersteunt – moeten zoeken naar wegen om het probleem van de tijdsinvestering, de beschikbaarheid van meerdere beoordelaars en de kosten die dit met zich meebrengt op te lossen (al dan niet in samenwerking met andere opleidingen). Om het spanningsveld tussen validiteit, betrouwbaarheid en efficiëntie bij het toetsen van praktische vaardigheden op te lossen, zal er in de praktijk vaak sprake zijn van een compromis. Er zal steeds een afweging moeten plaatsvinden tussen een acceptabele (zo hoog mogelijke) mate van validiteit, een acceptabele (zo hoog mogelijke) mate van betrouwbaarheid en een acceptabele (zo hoog mogelijke) mate van efficiëntie. 3.6 Aandachtspunten ter verhoging van de kwaliteit van een meetinstrument Het doel van deze paragraaf is de docent een aantal aandachtspunten aan te bieden waarmee – indien stelselmatig toegepast op het (concept)meetinstrument – de kwaliteit van het meetinstrument kan worden verhoogd. Deze aandachtspunten betreffen met name de kwaliteitseisen objectiviteit, validiteit en betrouwbaarheid. Een en ander gebeurt in een zodanige vorm dat het desgewenst gehanteerd kan worden als een checklist. Aandachtspunten tijdens de constructiefase van de toets: – Wordt met de toets gemeten wat beoogd is te meten? – Is er een correcte toetsmatrijs aanwezig waaruit men de (inhouds)validiteit kan afleiden? – Is de inhoud van de toets een goede afspiegeling van de te toetsen leerdoelen? 42
  • 47. Kwaliteitseisen m.b.t. de toets als meetinstrument – Is de toetsvorm geschikt voor de te toetsen leerdoelen? – Voldoen de toetsvragen of -opdrachten aan de eis van specificiteit? – Is de toets(opdracht) zodanig helder, eenduidig en concreet geformuleerd dat er geen interpretatiever- schillen kunnen ontstaan bij de leerlingen of beoordelaars welk gedrag of welke respons gevraagd wordt? – Sluit de toetsopdracht (qua moeilijkheidsgraad en taalgebruik/formulering) aan bij de doelgroep? – Bevat de toets geen extreem moeilijke of gemakkelijke opgaven? – Is de lengte van de toetsopdracht in overeenstemming met de omvang van het te toetsen leerstofgebied? – Is de toetslengte voldoende met het oog op de betrouwbaarheid van de meting? – Is bij de omvang van de toetsopdracht rekening gehouden met de beschikbare tijd? – Zijn er vooraf antwoordmodellen, procedures of protocollen opgesteld als hulpmiddel en leidraad bij de correctie? – Zijn de vakdeskundigen het onderling eens over het goede antwoord(model), het gewenste gedrag, de opgestelde criteria, de scoringsvoorschriften etcetera? – Zijn deze antwoord(modell)en, scoringsvoorschriften, beoordelingscriteria, observatieschema’s etcetera eenduidig geformuleerd? – Is de typografische verzorging van de toetsopdracht correct? (geen hinderlijke lay-out of tikfouten) Aandachtspunten rondom de afnamefase van de toets: – Zijn de leerlingen vooraf goed geïnformeerd over de toetsafname, de toetsprocedure etcetera? – Zijn de instructies voor degene die de toets afneemt (of degene die aanwezig is tijdens de toetsafname) duidelijk? – Is duidelijk welke hulpmiddelen tijdens de toetsing toegestaan zijn? – Zijn er maatregelen getroffen om de omstandigheden waaronder de toetsafname plaatsvindt optimaal te laten zijn? – Zijn er vooraf bij sommige leerlingen persoonlijke omstandigheden bekend die de betrouwbaarheid van de score zouden kunnen verminderen? – Hebben de leerlingen voldoende tijd om de toets te maken? – Zijn er (inhoudelijke en/of technische) maatregelen getroffen om de subjectiviteit van de beoordeling te verminderen? – Discrimineert de toetsopdracht voldoende tussen ’goede’ en ’zwakke’ leerlingen? 43
  • 48. 4 Indeling en beschrijving van kenmerken van toetsvormen 4.1 Eigenschappen van toetsvormen Een beroepsopleiding beoogt leerlingen competentie te laten verwerven ten aanzien van díe vaardigheden die de beginnende beroepsbeoefenaar nodig kan hebben bij het uitoefenen van zijn functie. Voordat het diploma overhandigd kan worden, zal de leerling moeten aantonen dat hij die vaardigheden beheerst; erover kunnen praten of schrijven is geenszins voldoende bewijs van competentie. ’Harde’ conclusies over de competentie zijn eigenlijk alleen mogelijk op basis van een toets die een beroep doet op precies díe vaardigheid die vastgesteld moet worden. Het is echter niet realistisch hieraan de conclusie te verbinden dat toetsing van beroepskwalificaties altijd zou moeten plaatsvinden in de beroepspraktijk. Er is een aantal redenen te noemen waarom andere, minder realistische toetsvormen soms de voorkeur genieten. Met verschillende toetsvormen kunnen verschillende dingen getoetst worden. Het is steeds het zoeken naar een optimaal compromis tussen de verschillende eigenschappen van toetsen. In dit hoofdstuk wordt schematisch aangegeven wat de kwaliteiten van de verschillende toetsvormen zijn. 4.1.1 Representativiteit In paragraaf 2.5 is gesproken over verschillende ordeningsmogelijkheden voor toetsvormen. Op verschillende manieren kwam daarbij naar voren dat een indeling naar vaardigheden een zeer bruikbare indeling is: de belangrijkste vraag die immers steeds gesteld moet worden, is of een toets ’representatief’ is, of deze een goede afspiegeling vormt van de werkelijkheid en de complexiteit van de taak dekt. Via het begrip ’fit’ werd in andere bewoordingen hetzelfde gezegd: een toets heeft een ’perfect fit’ als de toets die leerdoelen meet die hij moet meten. De keuze voor een bepaalde toetsvorm zou derhalve simpel kunnen zijn. Bij het selecteren van de meest geschikte toetsvorm spelen naast deze representativiteit en fit echter ook nog andere aspecten een rol. Er moet dus steeds een afweging plaatsvinden. 4.1.2 Betrouwbaarheid De betrouwbaarheid van de meting is een belangrijke factor bij de keuze van de toetsvorm. De betrouwbaarheid van een toets met gesloten vragen zal in het algemeen aanmerkelijk hoger zijn dan van een toets die in de werkelijke beroepspraktijk wordt afgenomen. Het aanbieden van verschillende taaksituaties is in zo’n context lastig te realiseren, hetgeen ten koste kan gaan van de algemene geldigheid van de toetsprestatie. Natuurgetrouwe toetsen worden ook gekenmerkt door de hoge mate van onvoorspelbaarheid met betrekking tot de wijze waarop taken worden uitgevoerd. Daardoor kan een beoordelingsinstrument niet anders dan zeer globale richtlijnen bevatten. Dit vormt een bedreiging voor de betrouwbaarheid van de toetsscores. In het algemeen kan men – althans in het gezondheidszorgonderwijs – stellen dat de betrouwbaarheid van een beoordelingsinstrument afneemt naarmate de toets representatiever is. 44
  • 49. Indeling en beschrijving van kenmerken van toetsvormen 4.1.3 Organisatie/logistiek Ook kunnen de organisatorische en logistieke aspecten voor de ene toetsvorm eenvoudiger liggen dan voor de andere toetsvorm: het ontwikkelen en afnemen van een meerkeuzetoets bij een groep leerlingen is aanzienlijk eenvoudiger te organiseren dan het opzetten van een beoordelingssysteem van leerlingen in de daadwerkelijke beroepspraktijk (work sample tests). De afname van een praktijktoets is gewoonlijk individueel. Elke leerling wordt afzonderlijk beoordeeld. Er moet een beoordelingsinstrument zijn dat de beoordelaar in staat stelt de prestaties van de leerling volgens gelijke maatstaven te meten. Er moet op het juiste tijdstip een geschikte toetssituatie beschikbaar zijn. Er moeten minimaal twee beoordelaars aanwezig zijn om de prestaties van de leerling te kunnen beoordelen. Organisatorisch blijkt het soms onmogelijk de leerling díe taak voor te leggen die een beroep doet op de te toetsen vaardigheid. Vaststellen of een leerling-verpleegkundige in staat is adequaat te reageren op een patiënt die in een shocktoestand dreigt te raken, kan niet in de beroepspraktijk getoetst worden omdat dergelijke patiënten niet op afroep beschikbaar zijn. Ethische bezwaren dringen zich op als het uitvoeren van taken een bedreiging kan vormen voor het fysische of psychische welbevinden van de leerling en/of personen op wie de taakuitvoering gericht is. Of een leerling tandheelkunde voldoende ’boorvaardig’ is, mag niet vastgesteld worden door hem preparaties te laten vervaardigen bij echte patiënten. 4.1.4 Financiële consequenties Toetsvormen verschillen onderling ook aanzienlijk in financieel oogpunt. Niet altijd zal gekozen kunnen worden voor de toetsvorm die uit oogpunt van representativiteit ’de beste’ is: aan elke toetsvorm hangt een prijskaartje, toetsen vragen in wisselende mate een investering van tijd en/of geld, een niet onbelangrijke factor bij de afweging die op curriculumniveau gemaakt moet worden. Hoewel er voor veel toetsvormen geen exacte gegevens beschikbaar zijn over de kosten, is hier wel een schatting van te geven. Daarbij is het nuttig een onderscheid te maken tussen enerzijds de productiekos- ten en anderzijds de afnamekosten van de toetsvorm. Als een meetinstrument nieuw ontwikkeld moet worden zonder dat er voorbeelden zijn van de manier van ontwikkelen (er zijn geen prototypen aanwezig) zijn de kosten hiervan in het algemeen zeer hoog. Onder deze kosten vallen dan ook de investeringen die nodig zijn om de geschiktheid van de toetsvorm vast te stellen en de kwaliteit van het meetinstrument te verbeteren. Deze situatie wordt hierna verder buiten beschouwing gelaten. – De reguliere productiekosten van een toetsinstrument (waarbij dus wel een prototype aanwezig is) verschillen sterk qua hoeveelheid tijd en benodigde deskundigheid. De constructie van een meerkeuzetoets zal in het algemeen aanzienlijk goedkoper zijn dan het ontwikkelen van een praktijktoets. – De reguliere afnamekosten ten slotte kunnen ook sterk verschillen per toetsvorm: een groepsgewijs afgenomen meerkeuzetoets vergt minder geld dan een individueel beoordelingssysteem op de werkplek. Voor bepaalde toetsvormen is het zelfs nodig over bepaalde apparatuur (video, computerapparatuur, beeldplaatspelers) te beschikken. Een voorbeeld uit het leger kan een en ander verder verduidelijken: in de militaire opleiding wordt veel gewerkt met simulatoren om bijvoorbeeld de vaardigheid van leerlingen in het gebruik van wapensystemen te beoordelen. Zeker waar het geleide projectielen betreft, is het financieel niet haalbaar leerlingen in de beroepspraktijk te toetsen. 45
  • 50. Hoofdstuk 4 4.1.5 Een schematische weergave In de volgende paragraaf passeren alle toetsvormen de revue. Elke beschrijving gaat vergezeld van een schematische weergave van de kwaliteit van de desbetreffende toetsvorm. In dit schema zijn de belangrijkste kwaliteitsaspecten opgenomen met daarachter een grijze balk. Hoe langer de grijze balk, hoe gunstiger die toetsvorm op dat kwaliteitsaspect scoort. In tabel 11 is een voorbeeld opgenomen. tabel 11 - De kwaliteiten van een toets kwaliteitsaspect kwaliteitsindicatie representativiteit laag hoog betrouwbaarheid laag hoog organisatie/logistiek lastig eenvoudig financieel: productie duur goedkoop afname duur goedkoop 4.2 De kenmerken van de verschillende toetsvormen Om de keuze van de toetsvorm te vergemakkelijken, worden nu achtereenvolgens de verschillende toetsvormen besproken. In hoofdstuk 6, 7 en 8 wordt veel uitvoeriger ingegaan op de constructie, afname, correctie en beoordeling van de verschillende toetsen. In hoofdstuk 7 wordt ook aandacht besteed aan twee onderwijs-/toets-vormen, die enigszins buiten het hier gepresenteerde indelingsprincipe vallen, namelijk de beroepspraktijkvorming en de scriptie. Omdat bij de bespreking van bepaalde toetsvormen af en toe verwezen wordt naar andere toetsvormen (om de verschillen duidelijk te maken), staan in tabel 12 alle toetsvormen alvast op een rijtje. tabel 12 - Overzicht van de besproken toetsvormen toetsvorm paragraaf representativiteit betrouwbaarheid organisatie financiën gesloten vragen 4.2.1 •1 ••••••••• ••••••••• •••••••• open vragen 4.2.2 •• ••••••• ••••••••• •••••••• casustoetsen 4.2.3 •• •••••••• •••••••• •••••••• potlood-en-papier 4.2.4 •• ••••••• •••••••• •••••••• computersimulatie 4.2.5 ••• ••••••••• •• • simulator 4.2.6 •••• •••••• ••(•••••) 2 •(•••)2 skill sample test 4.2.7 •••••• ••••••• •••• ••••• patiëntsimulatie 4.2.8 ••••••• ••••• ••• ••• work sample test 4.2.9 ••••••••• ••• ••• •••• 1 Hoe meer balletjes, hoe gunstiger de toetsvorm op het desbetreffende aspect scoort 2 De variant met een fantoom scoort hier gunstiger dan die met de ’virtual environment’ 46
  • 51. Indeling en beschrijving van kenmerken van toetsvormen 4.2.1 Toetsen met gesloten vragen Een gesloten vraag (of meerkeuzevraag) is een vraagtype waarbij de leerlingen moeten kiezen uit een beperkt aantal antwoordmogelijkheden die vooraf gegeven zijn. Een gesloten vraag bestaat uit een stam en een aantal alternatieven. Alleen in de stam wordt de vraag of het probleem gesteld. In de alternatieven bevinden zich naast één juist antwoord (= de sleutel) een of meer afleiders. Door het stellen van schriftelijke gesloten vragen is het mogelijk gedurende het totale opleidingstraject de cognitieve vaardigheden van leerlingen te toetsen. Dit meten van cognitieve vaardigheden moet breed gezien worden. Het wil namelijk ook zeggen dat de kennis gemeten wordt die ten grondslag ligt aan psychomotorische en reactieve/interactieve vaardigheden. In tabel 14 worden de sterke en zwakke punten van gesloten vragen weergegeven. tabel 13 - Toetsen met gesloten vragen kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname – De representativiteit is gering: de situatie tijdens de toets staat ver van de werkelijke beroepspraktijk. Er is wel een groot (kennis)gebied afvraagbaar: er kunnen veel vragen gesteld worden, want het invullen kost weinig tijd. Daarmee kan de inhoudsvaliditeit van de toets worden gewaarborgd. – De betrouwbaarheid is over het algemeen goed. Over het juiste antwoord bestaat in principe geen interpretatieverschil (voor zover de deskundigen, die het item geconstrueerd hebben, het ook eens zijn over het juiste antwoord). Bij de correctie is de inbreng van de beoordelaar minimaal, waardoor een gelijke behandeling van alle leerlingen gewaarborgd is. De beoordeling is derhalve objectief. Daardoor is de betrouwbaarheid doorgaans hoger. Een bedreiging voor de betrouwbaarheid wordt gevormd door het feit dat leerlingen door raden goede antwoorden kunnen geven. – De constructie vergt vrij veel tijd en geld: niet alleen moet aandacht worden besteed aan het eenduidig formuleren van de vraag en het juiste antwoord, maar ook aan de afleiders (de foute antwoorden). Het opstellen ervan vereist een grote mate van deskundigheid: er is ervaring nodig om ze te maken. – De afname kan gebeuren met grote groepen leerlingen tegelijk en is betrekkelijk eenvoudig te organiseren. – De correctie kost weinig tijd: per leerling hoeven maar weinig gegevens nagekeken te worden. Een voorgestructureerd antwoordblad en een correctiesjabloon kan daarbij veel helpen. Via optisch leesbare antwoordbladen kunnen de resultaten mechanisch worden nagekeken, hetgeen vooral bij grote groepen zeer efficiënt is. Andere punten: – Er kan een vrij eenvoudig scoringssysteem worden gehanteerd (goed/fout) hetgeen inzichtelijk is voor alle betrokkenen. Wanneer de vragen niet discutabel zijn, kan over de resultaatbepaling ook geen discussie ontstaan. – Goed geconstrueerde vragen zijn duidelijk voor de leerlingen: ze krijgen niet alleen de vraag maar ook de mogelijke antwoorden; zij krijgen zo een goed beeld van het antwoord dat wordt verwacht. 47
  • 52. Hoofdstuk 4 – Empirische gegevens bieden meer analysemogelijkheden dan bij andere vraagvormen: analysegege- vens richten zich met name op toetsverbetering, een systematische foutenanalyse en bieden de mogelijkheid om de normen constant te houden. – Er bestaat altijd een gokkans: het is bij elke vraag mogelijk dat leerlingen het goede antwoord niet wisten, maar hebben geraden. Het blind raden komt echter maar heel weinig voor. Om op basis van enkel gokken een voldoende te krijgen, is erg veel geluk nodig. De kans op een goed antwoord bij gokken is bij vierkeuzevragen 25%, bij driekeuzevragen 33,3% en bij ja/nee-vragen 50%. Als vuistregel kan worden aangehouden, dat toetsen die uit vierkeuzevragen bestaan minstens 40 items moeten bevatten. Bij driekeuzevragen zijn 60 items nodig en een toets met uitsluitend tweekeuzevra- gen moet uit minstens 80 items bestaan. – De productieve taalvaardigheid wordt niet getoetst: leerlingen leren niet om een antwoord te formuleren, zij hoeven het (juiste) antwoord alleen maar aan te strepen. – De docent krijgt geen inzicht in de argumentatie achter een fout antwoord. Dit hangt samen met de vorige twee punten: de leerlingen hoeven alleen een antwoord aan te strepen of met een letter op te schrijven en het is dus niet duidelijk of een antwoord gebaseerd is op (gebrek aan) kennis of op goed of fout gokken. Het is daarom aan te bevelen de afleiders zo te kiezen dat daarin bepaalde denkfouten besloten liggen (zie ook par. 2.3.4). 4.2.2 Toetsen met open vragen Een open vraag is een vraagtype waarbij de leerlingen het antwoord zelf moeten formuleren. Bij een open vraag hoort een correctievoorschrift of een beoordelingsschema. Een vast onderdeel van dit correctievoorschrift wordt gevormd door het antwoordmodel. Door het stellen van schriftelijke open vragen kunnen, evenals bij de gesloten vraagvormen, cognitieve vaardigheden of cognitieve aspecten van psychomotorische en reactieve/interactieve vaardigheden worden getoetst. Het maken van open vragen is over het algemeen moeilijker en tijdrovender dan van meerkeuzevragen, omdat tevens een antwoordmodel moet worden geconstrueerd, waarbij een onderscheid gemaakt moet worden in kort- en lang-antwoord-vragen. In tabel 15 worden de sterke en zwakke punten van open vragen weergegeven. tabel 14 - Toetsen met open vragen kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname – De representativiteit is gering: de situatie tijdens de toets staat ver van de werkelijke beroepspraktijk. De hoeveelheid leerstof die getoetst kan worden is bovendien beperkt (schrijven gaat nu eenmaal langzamer dan lezen en aanstrepen, zoals bij een toets met gesloten vragen). De werkelijkheid wordt wel beter benaderd dan bij de gesloten vragen, omdat in de dagelijkse praktijk de problemen zich zelden aandienen in meerkeuzevorm. – Een toets met open vragen heeft een minder hoge interbeoordelaarsbetrouwbaarheid (consistentie van scoring) dan een toets met gesloten vragen. – De constructie vergt vrij veel tijd en geld: niet alleen moet aandacht worden besteed aan het eenduidig formuleren van de vraag, maar ook aan een goed antwoordmodel. Het opstellen daarvan 48
  • 53. Indeling en beschrijving van kenmerken van toetsvormen vereist een grote mate van deskundigheid: er is steeds een wisselwerking tussen vraag en antwoordmodel, waarbij de vraag net zolang bijgesteld moet worden dat een goede leerling ook tot het gewenste antwoord kan komen. – De afname kan gebeuren met grote groepen leerlingen tegelijk en is betrekkelijk eenvoudig te organiseren. – Het levert de docent veel correctiewerk op en de beoordeling door een deskundige is noodzakelijk. Overige punten: – Met deze toetsvorm wordt het zelfstandig formuleren van de leerlingen gemeten. Vooral bij de lang- antwoord-vragen en essayvragen is dit een niet onbelangrijk aspect. Er kan inzicht worden verkregen in de mate waarin leerlingen zich op papier correct kan uitdrukken. – Het is niet mogelijk om door raden een correct antwoord te geven. – Het biedt de docent inzicht in fouten die de leerlingen maken in hun denken en/of de argumentatie die zij aanvoeren. – Het meet meer dan alleen kennis: ook wijze van formuleren, verbale of schriftelijke begaafdheid (als dat een doel is) tabel 15 - Kenmerkende verschillen tussen open en gesloten toetsen toetsen met open vragen toetsen met gesloten vragen De cursist gebruikt de afnametijd voornamelijk om te De cursist gebruikt de afnametijd vooral om te den- denken en schrijven. ken en te lezen. De cursist moet goed kunnen schrijven. De cursist moet goed kunnen lezen. De toets bestaat uit relatief weinig vragen waarop De toets bestaat uit een groot aantal vragen met ge- een min of meer uitvoerig antwoord gegeven moet precodeerde antwoorden. Dit bevordert zowel de be- worden. Dit is nadelig voor zowel de betrouwbaar- trouwbaarheid als de validiteit van de toets. heid (bij kortere toetsen spelen toevalstreffers een grotere rol) als voor de validiteit van de toets (kortere toetsen zijn vaak minder representatief voor de doe- len). De docent besteedt de meeste tijd aan de formulering De docent besteedt de meeste tijd aan de constructie van antwoordmodellen en aan de correctie van de van de vragen. antwoorden. Efficiënt bij kleine groep cursisten. Efficiënt bij grote groep cursisten. In gewijzigde vorm overgenomen uit: Dousma & Horsten (1980). Uit onderzoek is gebleken dat toetsen met open vragen in kwalitatieve zin net zo goed zijn als toetsen die bestaan uit gesloten vragen, tenminste als de beoordelingstaak bij de toets met open vragen voldoende gestructureerd is. Dit betekent dan dat de keuze voor de vraagvorm vooral een kwestie van efficiëntie is: volgens Dousma & Horsten (1980) zijn gesloten vragen efficiënter vanaf ongeveer 40 leerlingen. Maar de uitkomsten van dit onderzoek gelden alleen als de doelen van het onderwijs in alle redelijkheid met zowel open als gesloten vragen getoetst kunnen worden. 4.2.3 Casustoetsen In het kader van de toetsing verstaan wij onder een casus een beschrijving van een aan de praktijk ontleende situatie, waaraan vanuit een of meer vakgebieden (of leergebieden) vragen gekoppeld zijn. Uitgangspunt hierbij is dat de vragen niet los van de beschrijving te beantwoorden zijn. In de tabel worden de sterke en zwakke punten van casustoetsen weergegeven. 49
  • 54. Hoofdstuk 4 tabel 16 - Casustoetsen met gesloten en open vragen kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname – De representativiteit is nog niet zo groot: de situatie tijdens de toets staat uiteraard ver van de werkelijke beroepspraktijk. Hier staat tegenover dat in een casus wel getracht wordt een situatie uit de beroepspraktijk te beschrijven. De hoeveelheid leerstof die getoetst kan worden is bovendien beperkt: het lezen van de casus kost (examen)tijd. Bovendien moeten de opgaven (open en gesloten vragen) gekoppeld zijn aan de casus, waardoor de keuzevrijheid beperkt is. Deze toetsvorm biedt mogelijkheid om de volgende integratieve doelstellingen te toetsen: . de leerlingen kunnen aantonen dat ze theorie en praktijk met elkaar in verband kunnen brengen en vanuit de theorie probleemoplossend bezig kunnen zijn in een aan de praktijk ontleende situatie (integratie theorie en praktijk); . de leerlingen kunnen verschillende vak- en leergebieden met elkaar in verband brengen (integratie van vakken), waarbij verpleegkunde het centrale vak is; . de leerlingen kunnen problemen op cognitief, psychomotorisch, reactief en/of interactief gebied oplossen (integratie van vaardigheden). Met name op de eerste twee punten biedt de casustoets mogelijkheden. Ten aanzien van het laatste punt geldt uiteraard, dat alleen kennis over het psychomotorisch handelen en de manier van inleven en reageren getoetst kunnen worden (voorwaardelijke kennis). Het voordeel is wel dat leerlingen gevraagd kunnen worden naar argumenten voor hun handelen, iets wat in de praktijk moeilijk kan. Hierbij geldt echter weer de beperking dat de docent nooit weet of leerlingen in de praktijk inderdaad zo zullen handelen: de docent kan alleen toetsen of zij weten hoe zij zouden moeten handelen en of zij weten waarom dat zo is. Algemeen geldt toch dat, wanneer de leerdoelen samenhang vertonen, deze ook in samenhang getoetst worden. En daar is een casus bij uitstek geschikt voor. – Een casustoets met open en gesloten vragen zit wat de interbeoordelaarsbetrouwbaarheid (consistentie van scoring) betreft in tussen een toets met alleen gesloten vragen en een toets met alleen open vragen. – De constructie vergt veel tijd en geld: naast het construeren van opgaven en het voldoen aan alle eisen die daarvoor gelden, moet ook een casusbeschrijving gemaakt worden, die aan verschillende eisen voldoet. – De afname kan gebeuren met grote groepen leerlingen tegelijk en is betrekkelijk eenvoudig te organiseren. – Het levert de docent, voor zover er gebruik wordt gemaakt van open vragen, veel correctiewerk op en de beoordeling door een deskundige is noodzakelijk. 4.2.4 Potlood-en-papier-toetsen De term ’potlood-en-papier’–toets geeft al aan dat er bij deze toets geen handelend optreden van de leerling wordt verwacht bijvoorbeeld in de zin van daadwerkelijk een anamnesegesprek voeren met een zorgvrager, en ook niet in de vorm van het schrijven van een rapportage of andere ’authentieke taken’ 50
  • 55. Indeling en beschrijving van kenmerken van toetsvormen (dat wil zeggen: taken die een grote gelijkenis vertonen met de taken van een beroepsbeoefenaar in de gezondheidszorgsector). De potlood-en-papier–toets omvat in ieder geval op papier aangeboden opgaven; de antwoorden worden op papier genoteerd en na afloop van de toets ingeleverd. Maar de potlood-en-papier toets biedt meer: deze toetsvorm is vooral geschikt om toepassingsvaardighe- den van een leerling te toetsen die te beschrijven zijn als algoritmische procedures. Algoritmen zijn logische oplossingsprocedures die gegarandeerd tot de oplossing leiden die de algoritme beschrijft. Zij bieden goede aanknopingspunten voor de formulering van eenduidige beoordelingscriteria. Een goed voorbeeld is een toets die naar aanleiding van verkeersonderwijs afgenomen zou kunnen worden. De toetsitems zijn op papier gepresenteerde verkeerssituaties. De leerling moet die oplossen door bijvoorbeeld aan te geven welke verkeersdeelnemer voorrang heeft. Met zo’n toets kan vastgesteld worden of de leerling de voorrangsregels op toepassingsniveau beheerst, maar niet of hij die in het verkeer zelf correct kan uitvoeren. Daarvoor is de toets te veel een reductie van de complexe werkelijkheid. De snelheid waarmee de verkeerssituatie beoordeeld moet worden, het beperkte overzicht (in vergelijking met de op papier gepresenteerde situaties) en de soms stressvolle situatie maken de toets en de praktijk tot twee heel verschillende taken. Met potlood-en-papier-toetsen kan dus meer getoetst worden dan alleen maar het herinneren en begrijpen van leerstof. Ook de toepassing van het geleerde in onbekende contexten kan zo geëvalueerd worden, echter alleen in voorwaardelijke zin. Dat wil zeggen: de toets stelt alleen vast of de leerling weet hoe de verworven kennis en vaardigheden in een taaksituatie moeten worden toegepast. Bij algoritmeachtige taken worden oplossingsprocedures toegepast op gelijksoortige taken als tijdens de instructie/het onderwijs aan de orde zijn gekomen. Hierdoor onderscheidt de potlood-en-papier toets zich van de casustoets. Bij een casustoets bestaat de mogelijkheid om een diversiteit aan problemen aan te bieden, die niet als algoritmen te kenschetsen zijn. Overigens kan ook bij een potlood-en-papier-toets een korte situatieschets een goed startpunt zijn. In termen van Romiszowski gaat het bij potlood-en-papier-toetsen om productieve, cognitieve vaardigheden. Het cognitieve karakter van deze toetsvorm komt tot uitdrukking in het feit dat het vooral gaat om plannen, beslissingen nemen, keuzen maken, problemen oplossen en logisch denken. Het gaat daarnaast om productieve vaardigheden, omdat de leerling met nieuwe situaties wordt geconfronteerd, dat wil zeggen situaties die niet exact gelijk zijn aan de taken die tijdens het onderwijsleerproces aan de orde zijn gekomen. Het vraagt probleemoplossend vermogen met betrekking tot een nieuwe probleemstelling. Kenmerkend voor productieve vaardigheden is het blijvend belang van het planningselement om tot de juiste uitvoering te komen. Zoals gezegd gaat het bij de potlood-en-papier-toets om taken waaruit moet blijken dat de leerling een productieve, cognitieve vaardigheid beheerst. Cognitieve vaardigheden zijn echter een reductie van geïntegreerde vaardigheden. Hoewel alle vaardigheden (cognitieve, reactieve, etc.) vaak zeer verweven zijn, en voor het uitvoeren van de meeste beroepstaken in de zorgsector meerdere vaardigheden uit verschillende categorieën tegelijkertijd nodig zijn, worden bij het maken van potlood-en-papier-toetsen voor beroepsopleidingen alléén de cognitieve vaardigheden als uitgangspunt genomen, maar het gaat dan wel om complexere denkactiviteiten (productieve, cognitieve vaardigheden). Anders gezegd: het gaat om een reductie van de werkelijkheid tot het niveau van het productieve, cognitieve aspect van de taakuitvoering, om een eenzijdige gerichtheid op de cognitieve component. Overigens worden deze cognitieve vaardigheden in de potlood-en-papier-toets niet alleen beoordeeld op grond van een eindresultaat (een definitieve keuze, een oplossing) maar ook en vooral op grond van het denkproces dat tot dit resultaat geleid heeft. De registratie van het denkproces vindt indirect plaats, bijvoorbeeld doordat de leerling zijn keuzen of beslissingen in het denkproces schriftelijk vastlegt. Een potlood-en-papier-toets mag echter niet geassocieerd worden met een kennistoets (kennis in de zin van Romiszowski). Er kan namelijk méér getoetst worden dan alleen maar het herinneren/herkennen en begrijpen van feiten, concepten e.d. Zo is het bijvoorbeeld met deze toetsmethodiek mogelijk om 51
  • 56. Hoofdstuk 4 ontwerpvaardigheden en afleesvaardigheden vast te stellen. In paragraaf 7.4 zullen deze beide vaardigheden worden toegelicht aan de hand van voorbeelden. tabel 17 - Potlood-en-papier-toetsen kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname Potlood-en-papier-toetsen zijn aantrekkelijk vanwege het gemak waarmee grote aantallen leerlingen tegelijkertijd getoetst kunnen worden. Het toetsen door middel van potlood-en-papier-toetsen is niet zo arbeidsintensief. Er hoeft geen gebruik gemaakt te worden van dure of extra materialen. Behalve dat de kostprijs laag is ten aanzien van het gebruik, geldt dit ook ten aanzien van de constructie. Op organisatorisch vlak zijn er weinig obstakels. Het belangrijkste nadeel schuilt in de mogelijk slechte ’fit’ tussen dat wat getoetst wordt en de vaardigheid waarover eigenlijk een uitspraak moet worden gedaan. De mate van representativiteit voor de reële werksituatie is over het algemeen laag. Overigens hoeft dit niet altijd het geval te zijn. Het komt voor dat de vaardigheid waarop met een potlood-en-papier-toets een beroep wordt gedaan, zeer sterk overeenkomt of identiek is aan de vaardigheid die in de reële werksituatie vereist is. Denk bijvoorbeeld aan een vaardigheid als het bijwerken van een patiëntenkaart door een doktersassistente. Een potlood-en-papier-toets waarin deze vaardigheid bevraagd wordt, is uiteraard zeer representatief. 4.2.5 Computersimulatie, beeldplaat Net als de potlood-en-papier-toets is de computersimulatie een toetstechniek waarmee alleen vastgesteld kan worden of een leerling weet hoe hij zou moeten handelen. Daartoe geeft een leerling aan wat hij in een bepaalde situatie zou doen, zonder daar uitvoering aan te geven. Het gaat ook hier derhalve om cognitieve vaardigheden. De representativiteit kan echter hoger zijn, omdat voor het vormgeven van het uitgangsmateriaal de nog steeds groeiende mogelijkheden van de multimedia benut kunnen worden. Computersimulaties bieden daarom een tamelijk realistische context voor het vaststellen van de bekwaamheid om problemen op te lossen of beslissingen te nemen in complexe taaksituaties. Computersimulaties kunnen door hun eenzijdige gerichtheid op de cognitieve component meestal niet dienen als vervanging van de proeve van bekwaamheid in de werksituatie zelf. Maar op de weg daarheen kunnen ze een waardevol instrument zijn om tijdig hiaten of tekortkomingen in de betreffende vaardigheid vast te stellen. De structuur van dergelijke computersimulaties is in grote lijnen dezelfde: de leerling wordt in een taaksituatie geplaatst met de opdracht om voorkomende problemen op te sporen en die vervolgens op te lossen. Het oplossingsproces kenmerkt zich veelal door de volgende fasen: informatie verzamelen over het probleem, definitieve probleemstelling formuleren, kiezen van een oplossing en evalueren van het resultaat. Bij de beoordeling wordt de weg waarlangs de oplossing bereikt werd heel expliciet in beschouwing genomen. Een goed voorbeeld van een computersimulatie is het oefen- en toetsprogramma ’Triage’ dat ontwikkeld is voor de Koninklijke Landmacht. Triage is een voorschrift voor de handelwijze van artsen bij calamiteiten. Het voorschrift is erop gericht zoveel mogelijk slachtoffers te helpen. Dit betekent dat 52
  • 57. Indeling en beschrijving van kenmerken van toetsvormen alleen levensreddende handelingen uitgevoerd mogen worden. Dit druist in tegen de medische ethiek van de arts onder normale omstandigheden, die een patiënt zo volledig mogelijk wil helpen. Het programma stelt militaire artsen in staat hun kennis en vaardigheid toe te passen onder gesimuleerde omstandigheden. Bij de start van de simulatie kiest het programma vijf gewonden uit de databank. De taak van de arts is om de conditie van zoveel mogelijk gewonden zodanig te stabiliseren dat ze vervoerd kunnen worden naar een locatie waar ze volledig behandeld kunnen worden. Op basis van het tijdstip en de ernst van de verwondingen wordt voor elke gewonde de beginconditie berekend. Het programma geeft vervolgens een korte beschrijving van elke gewonde: voorgeschiedenis en aard van de verwonding. Dit wordt ondersteund met beelden. Vervolgens gaat de klok lopen en kan de arts elke gewonde, in een zelf te bepalen volgorde, onderzoeken of behandelen. Na elk onderzoek/behandeling wordt de klok zoveel verder gezet als overeenkomt met de tijd die het onderzoek of de behandeling in werkelijkheid zou hebben gekost. De tijd dat de arts niets doet, loopt de klok met normale snelheid. De conditie van de gewonden wordt voortdurend herberekend naar de actuele kloktijd van de simulatie. Als de toestand van een gewonde kritiek wordt verschijnt een waarschuwing op het scherm (niet bij toetsing). De simulatie eindigt als alle gewonden zijn overleden of afgevoerd. Na afloop kan men op verschillende manieren geïnformeerd worden over de prestaties. Het programma kan de prestatie (in termen van tijdsduur en gemaakte fouten) vergelijken met die van andere artsen. In de tweede plaats kan de volgorde waarin de slachtoffers behandeld zijn kritisch beschouwd worden. Een andere mogelijkheid is om een overzicht te krijgen van ten onrechte uitgevoerde behandelingen en van ten onrechte nagelaten behandelingen. tabel 18 - Computersimulatie (beeldplaat, CD-i) kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname In vergelijking met het aanbieden van een probleemsituatie op papier is de meerwaarde van de computer vooral gelegen in de mogelijkheid om dynamische problemen aan te bieden. Dat wil zeggen problemen waarvan de aard kan veranderen als gevolg van de acties die de leerling ’uitvoert’. Ingeval van een medische computersimulatie bijvoorbeeld betekent dit dat patiënten nieuwe klachten kunnen krijgen als gevolg van een ’uitgevoerde’ behandeling. Een ander belangrijk voordeel van de computer is dat achteraf het oplossingsproces opgevraagd en beoordeeld kan worden. Het is ook mogelijk dat het oplossingspro- ces door het computerprogramma zelf gescoord wordt en dat de leerling onmiddellijk na afloop uitslag krijgt. De computer biedt ook veel mogelijkheden voor het aansluiten van allerlei randapparatuur. Dit kan de natuurgetrouwheid sterk bevorderen. Door middel van interactieve video of cd–i kan het geschreven woord vervangen of ondersteund worden door beeldmateriaal en/of gesproken woord. De keerzijde van die hogere natuurgetrouwheid betreft de ontwikkelingskosten. Bij dergelijke multimedia-toepassingen zijn deze aanzienlijk hoger dan bij computersimulaties die alleen gebruikmaken van tekst. De constructie van een computersimulatie vraagt echter in alle gevallen een deskundigheid die de reikwijdte van dit handboek te buiten gaat. In paragraaf 7.5 zal daarom alleen een voorbeeld beschreven worden van een dergelijke toets. Aanwijzingen voor de constructie, zoals in de overige paragrafen van hoofdstuk 6, blijven achterwege. 53
  • 58. Hoofdstuk 4 4.2.6 Simulator Terwijl de patiëntsimulatie vooral gericht is op het toetsen van vaardigheden waarin sociaal- communicatieve aspecten een belangrijke rol spelen, is de simulator, net als de skill sample test, vooral bedoeld om de technische kant van een vaardigheid te toetsen. Het verschil met de skill sample test is dat de simulator vooral wordt ingeschakeld als het gaat om vaardigheden die in hun uitwerking vervelend of bedreigend kunnen zijn voor mensen. tabel 19 - Simulator kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname = kwaliteitsindicatie voor fantoom Een simulator is een apparaat dat sterk lijkt op (een onderdeel uit) de werkomgeving van een bepaalde functionaris. Hij wordt gebruikt voor de training en toetsing als het gebruik van de echte uitrusting (vervoermiddel, bedieningsapparatuur, instrumenten) niet haalbaar is. Bijvoorbeeld omdat de echte uitrusting continu in gebruik is voor productiedoeleinden (denk aan de procesindustrie), omdat de operationele kosten van het gebruik van de echte uitrusting te hoog zijn (denk bijv. aan de opleiding voor vlieger in de burgerluchtvaart) of omdat aan het gebruik van de echte uitrusting gevaren zijn verbonden voor de leerling of diens omgeving (denk aan de opleiding van stuurman voor de grote vaart). Ook in de gezondheidszorgopleidingen wordt de simulator zinvol ingezet, alleen wordt daar meestal van ’fantoom’ gesproken. Bekende voorbeelden zijn de fantoomkop uit de opleiding voor tandarts die gebruikt wordt voor training en toetsing van ’boren en vullen’ en de ’dummy’ die in EHBO-opleidingen gebruikt wordt voor training en toetsing van het beademen van bewusteloze mensen. Hoewel leerlingen zich bewust zijn van de kunstmatige situatie waarin ze verkeren, kunnen sommige simulatoren de reële werksituatie zeer dicht benaderen. Dit is met name het geval bij simulatoren die vallen in de categorie ’virtual environment’. Dit is een kunstmatige werkomgeving die als gevolg van allerlei technische aanpassingen door mensen als zeer realistisch wordt ervaren. In Canada wordt een VE- systeem gebruikt in de opleiding voor jachtvlieger bij het onderdeel ’luchtgevecht’. De piloot zit in een simulator en draagt een helm die volledig lichtdicht is. Op zijn ogen wordt een stereoscopisch beeld geprojecteerd en twee ingebouwde speakers zorgen voor de akoestische illusie. Een uiterst krachtige computer zorgt ervoor dat de kunstmatige omgeving op een natuurlijke manier reageert op de gebruiker. Als deze bijvoorbeeld zijn hoofd naar links draait, moet hij het beeld naar rechts zien verschuiven. Ook de akoestiek moet automatisch worden aangepast. De helm zorgt ervoor dat de menselijke waarneming bijna volledig gedicteerd wordt door de computer. De simulatie is zó natuurgetrouw dat de piloot een ’noodknop’ tot zijn beschikking heeft waarmee hij de simulatie kan afbreken teneinde ongewenste lichamelijke reacties te voorkomen (SURF, 1993). Gebruikt in een toetssituatie biedt de VE een zeer hoge natuurgetrouwheid gekoppeld aan een hoge graad van standaardisatie. Het grootste voordeel van de simulator is dat ook zeldzame, gevaarlijke en dure taken voorgelegd kunnen worden aan leerlingen. Doordat elke leerling geconfronteerd kan worden met identieke taken, kan beoordeling plaatsvinden op grond van een standaard–beoordelingsvoorschrift. Ook automatische registratie en beoordeling behoren soms tot de mogelijkheden. Daarvoor is vereist dat de simulator 54
  • 59. Indeling en beschrijving van kenmerken van toetsvormen ’gestuurd’ wordt door een computer en dat de beoordelingscriteria zo eenduidig geformuleerd kunnen worden dat machinale scoring mogelijk is. Een cruciale vraag bij de inzet van de simulator voor toetsdoeleinden is natuurlijk of de toetsprestatie geldigheid bezit voor de reële werksituatie. Dit zal voor elke nieuwe toepassing uitgezocht moeten worden. Soms is er weinig keuze: of een piloot voldoende competent is met betrekking tot het uitvoeren van noodprocedures is niet in de reële werksituatie te toetsen. In algemene zin geldt dat het veilig is om op basis van een simulatortoetsing alleen conclusies te trekken over de competentie in technisch opzicht, gedemonstreerd onder gestandaardiseerde omstandigheden. Als hiervan sprake is, is het verantwoord om de leerling toe te laten tot de oefenfase waarin de betreffende vaardigheid wordt toegepast onder realistische werkomstandigheden. Deze fase kan vervolgens worden afgesloten met een toets waarin met echte of simulatiepatiënten gewerkt wordt. Een belangrijk nadeel van de simulator vormen vaak de kosten. De aanschafprijs voor complexe simulatoren is dermate hoog dat terugverdienen vaak alleen mogelijk is voor opleidingen waarin de training van de vaardigheid in de reële werksituatie ook zeer hoge kosten met zich meebrengt. Een ander nadeel heeft betrekking op de bruikbaarheid: met een simulator kan slechts één leerling tegelijk getoetst worden zodat een toets veel tijd in beslag zal nemen als het aantal leerlingen groot is. 4.2.7 Skill sample test De skill sample test lijkt op de work sample test (zie par. 4.2.9) in die zin dat het gaat om een steekproef uit een groot aantal relevante vaardigheden. tabel 20 - Skill sample test kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname Het verschil is gelegen in het feit dat bij de skill sample test de aandacht exclusief uitgaat naar de vaardigheid zelf en niet naar de omstandigheden waaronder die wordt uitgevoerd. De te toetsen vaardigheden kunnen gericht zijn op mensen of op apparatuur, instrumenten, e.d. Het bepalen van de longcapaciteit met een spirometer is bijvoorbeeld een vaardigheid die zich goed leent om met behulp van een skill sample test te worden vastgesteld. Omdat het vooral gaat om het technisch correct uitvoeren van een procedure kan elke persoon (bijv. een medeleerling) dienen als ’patiënt’ waarop de vaardigheid gericht is. Echte patiënten of simulatiepatiënten zijn niet nodig. Natuurlijk is deze techniek niet bruikbaar als het gaat om vaardigheden die in hun uitwerking vervelend of zelfs bedreigend kunnen zijn voor degenen op wie ze gericht zijn. Voor dergelijke vaardigheden moet worden uitgeweken naar de simulator. 4.2.8 Patiëntsimulatie De patiëntsimulatie komt als toetsvorm tegemoet aan een belangrijke tekortkoming van de work sample test (zie par. 4.2.9), namelijk de beperkte mogelijkheden om het verloop van de toets te kunnen controleren. In een work sample test wordt met echt materiaal, echte apparatuur en echte mensen gewerkt onder reële werkomstandigheden. Zeker als de te toetsen vaardigheid gericht is op het bieden van hulp 55
  • 60. Hoofdstuk 4 aan mensen komt de voorspelbaarheid van de uitvoering van de vaardigheid onder druk te staan. De patiëntsimulatie biedt hiervoor een oplossing door de interacties tussen de leerling en degene op wie de vaardigheid gericht is, volgens een van tevoren uitgewerkt plan te laten verlopen. Op die manier wordt het mogelijk díe (deel)vaardigheden uit te lokken waarnaar de interesse uitgaat en deze te beoordelen aan de hand van een beoordelingsvoorschrift. De patiëntsimulatie leent zich bij uitstek voor het toetsen van complexe vaardigheden; dat zijn vaardigheden die als gevolg van het grote aantal beslissingen dat moet worden genomen, op veel verschillende manieren kunnen worden uitgevoerd. Doorgaans is het niet mogelijk bij het opstellen van een beoordelingsvoorschrift rekening te houden met alle mogelijke uitvoeringsvarianten. Door het voorschrijven van een ’rol’ wordt het aantal verschillende uitvoeringsvari- anten drastisch beperkt en kan worden volstaan met een hanteerbaar beoordelingsvoorschrift. tabel 21 - Patiëntsimulatie kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname Een voorbeeld van een patiëntsimulatie is het EHBO-examen dat wordt afgenomen door het Amerikaanse exameninstituut National Registry of Emergency Medical Technicians (Priestley, 1982). In dit examen worden leerlingen op zes tot acht ’stations’ getoetst op hun EHBO-vaardigheden. Een station is een plaats in of buiten het examengebouw waar een gewonde ligt die onmiddellijke hulp behoeft. Elk station doet een beroep op een ander type vaardigheid. Bij binnenkomst van een station krijgt een leerling korte informatie en instructies. Met behulp van geprogrammeerde patiënten wordt een ongevalssituatie zeer realistisch weergegeven. De ’patiënten’ zijn zodanig aangekleed en geschminkt dat ze er als slachtoffers uitzien en ze gedragen zich alsof ze veel pijn hebben. De verrichtingen van de leerlingen worden waargenomen door examinatoren en gescoord aan de hand van een checklist. Daarop wordt precies aangetekend wanneer (na hoeveel minuten) welke verrichting is uitgevoerd en of de uitvoering al dan niet acceptabel was. Grootste nadeel van de patiëntsimulatie schuilt in de organisatie. Anders dan bij de work sample test is de beschikbaarheid van ’cases’ geen probleem meer: zelfs de meest zeldzame gevallen kunnen worden voorgelegd. Maar de voorbereidingen voor de afname zijn nog omvangrijker dan bij de work sample test (schrijven van een script, instructie van acteurs). 4.2.9 Work sample test / praktijktoetsing op de werkplek Van de verschillende toetsmethodieken die onderscheiden kunnen worden voor het meten van vaardigheden is de ’work sample test’ de toetstechniek met de beste aansluiting bij de reële werksituatie (Straetmans, 1993). Om de Engelse term te vermijden, spreken wij over toetsing op de werkplek. Bij deze toetsvorm gaat het om een gecontroleerde uitvoering van een vaardigheid onder reële werkomstan- digheden. ’Gecontroleerd’ wil zeggen dat de vaardigheid doelbewust wordt uitgelokt door de leerling een bepaalde taak voor te leggen. Hierin onderscheidt de work sample test zich van de observatie. Bij het gebruik van laatstgenoemde techniek moet de observator passief afwachten totdat het gewenste gedrag zich voordoet. De techniek van de bewuste uitlokking maakt het tevens mogelijk het gedrag in grote lijnen te voorspellen. Dit biedt aanknopingspunten voor gestandaardiseerde beoordeling aan de hand 56
  • 61. Indeling en beschrijving van kenmerken van toetsvormen van beoordelingsvoorschriften. Dit laatste is alleen zinvol als er duidelijke uitvoeringsroutines zijn voor de betreffende vaardigheid die in het voorafgaande onderwijs getraind zijn. Een vaardigheid die zich goed leent om te worden vastgesteld met behulp van een work sample test is bijvoorbeeld het meten van de bloeddruk bij een patiënt/cliënt/bewoner. Deze vaardigheid kan vrij eenvoudig worden ontleed in een aantal achtereenvolgens uit te voeren stappen, die algemeen (op bijna elke persoon) toepasbaar zijn en door de meeste leerlingen als zodanig verworven zijn. Overigens zal daarbij dan niet het accent liggen op het beoordelen van instrumenteel-technische vaardigheden, omdat daarvoor andere toetsmethodieken meer aangewezen zijn, zoals skill sample test of de patiëntsimulatie. Juist omdat gebruik wordt gemaakt van echte patiënten in reële situaties, is er de mogelijkheid om de reactieve en interactieve vaardigheden van de leerling te beoordelen. Beroepstaken die een zware wissel trekken op dergelijke vaardigheden, zoals het voeren van een opname-gesprek, verdienen het dan ook om op de werkplek beoordeeld te worden. Een voorbeeld van een speciaal daarvoor ontwikkeld instrument is opgenomen in paragraaf 7.9. tabel 22 - Work sample test (praktijktoetsing op de werkplek) kwaliteitsaspect kwaliteitsindicatie representativiteit betrouwbaarheid organisatie/logistiek financieel: productie afname Het lastigste punt bij de organisatie is de beperkte beschikbaarheid in de werksituatie van apparatuur, materiaal en cases. Met ’cases’ wordt het volgende bedoeld: als een leerling getoetst moet worden op zijn vaardigheid een gipsverband aan te leggen dan is daarvoor de aanwezigheid vereist van een patiënt met een botbreuk. Wanneer echter meer de nadruk wordt gelegd op het generieke aspect (de reactieve en interactieve vaardigheden) en minder op de instrumenteel-technische handeling, zouden meer situaties in aanmerking kunnen komen: elke situatie waarbij sprake is van het aanleggen of verwisselen van een verband is dan in principe geschikt als toetssituatie. In tabel 22 worden de sterke en zwakke punten van deze toetsvorm weergegeven: – De representativiteit is optimaal: de verpleegsituaties waarin toetsing plaatsvindt, zijn levensecht, waardoor niet alleen de vaardigheid op zich beoordeeld kan worden maar ook de inpassing daarvan in het volledige verpleegkundig handelen (m.n. de omgang met de patiënt, het rekening houden met het gehanteerde verpleegsysteem e.d.). Een voorwaarde is dan wel dat de leerling het niveau van een beginnend beroepsbeoefenaar heeft. De leerling moet immers niet alleen de vaardigheid op zich beheersen maar ook voldoende kennis hebben van bijvoorbeeld de aandoening van de patiënt. Er zijn wel enkele beperkingen: . niet alle vaardigheden kunnen altijd getoetst worden, omdat de vereiste situatie zich niet voordoet; . omdat er sprake is van echte patiënten, is niet elke situatie geschikt als beoordelingssituatie: soms is het immers medisch of ethisch onverantwoord om een leerling in een acute of emotionele situatie te beoordelen. – Naar de betrouwbaarheid van deze toetsvorm is nog weinig onderzoek gedaan. Uit onderzoek van Schotten en Stolk (1995) is gebleken dat de betrouwbaarheid vrij laag ligt, hetgeen dus direct consequenties heeft voor de validiteit. Wel heeft het genoemde onderzoek suggesties opgeleverd om de betrouwbaarheid te verbeteren. 57
  • 62. Hoofdstuk 4 – Het construeren van een beoordelingslijst kost veel tijd en onderling overleg. De te beoordelen vaardigheden moeten in kaart worden gebracht. Doordat de toetssituatie niet gestandaardiseerd kan worden, moeten de beoordelingsaspecten ruim geformuleerd worden. Dit houdt tevens in dat de beoordelaars het eens moeten zien te worden over de te hanteren beoordelingscriteria. – De verpleegsituaties waarin toetsing plaatsvindt zijn vrijwel altijd voorhanden, tenzij het om zeer zeldzame vaardigheden gaat. Het gaat immers niet om een nieuw toetsmoment, maar om het verbeteren van de huidige methode van ’observeren en aftekenen’: iedere leerling wordt op dezelfde aspecten beoordeeld, waardoor een grotere mate van standaardisatie (en daarmee van objectiviteit) in de beoordeling ontstaat. Door het vastleggen van procedures en expliciteren van voorwaarden kan de betrouwbaarheid worden bevorderd. – De toetsing is organisatorisch relatief eenvoudig, omdat de leerling in principe gewoon zijn werk doet. Uiteraard kan er per toetsmoment maar één leerling worden beoordeeld. – De toetsing is qua uitvoering relatief goedkoop, in vergelijking met het opzetten van complexe simulatiesituaties. 58
  • 63. 5 Beslissingen en activiteiten op curriculumniveau In de voorafgaande hoofdstukken is beschreven welke plaats beoordelen in het didactische proces kan hebben, welke functies daaraan toegekend kunnen worden en aan welke eisen het meten van leerresultaten moet voldoen om verantwoorde beslissingen te kunnen nemen. Ten slotte werden de verschillende toetsvormen kort gepresenteerd. Voordat beschreven gaat worden hoe de constructie van de gepresenteerde toetsvormen aangepakt kan worden, is het noodzakelijk om na te gaan aan welke toetsvormen behoefte bestaat en welk soort uitspraak men op basis daarvan wil doen. Dit zijn zaken die op curriculumniveau geregeld moeten worden. In dit hoofdstuk wordt beschreven voor welke afwegingen men komt te staan op curriculumniveau: de beschikbare middelen (materiaal, mensen) moeten zo verdeeld worden over de verschillende toetsmomenten dat de verzamelde gegevens niet alleen betrouwbaar en valide zijn, maar ook optimaal sturing geven aan het onderwijsproces. Het document waarin deze afwegingen hun beslag krijgen, is de onderwijs- en examenregeling. 5.1 Onderwijs- en examenregeling Het is voor elke opleiding van belang een onderwijs- en examenregeling vast te stellen. In paragraaf 9.5 wordt uitgebreid ingegaan op de invulling hiervan. Op dit moment is het voldoende om te vermelden dat in de onderwijs- en examenregeling wordt vastgelegd wat de toetsinhouden zijn, welke toetsmomen- ten er per studiejaar zijn en welke toetsvormen er gebruikt zullen worden. In de volgende paragrafen wordt nader ingegaan op de toetsinhouden, de toetsmomenten en de toetsvormen. Enkele andere zaken waaraan op curriculumniveau aandacht moet besteden, worden hieronder kort aangestipt. – Voor de toetsen, waarvoor dit relevant is, zal de wijze waarop de externe legitimering plaatsvindt, aangegeven moeten worden. – Verder zal de tijdsduur van de toetsen bepaald moeten worden. Het is moeilijk om hier algemene regels voor op te stellen. Vaak spelen ervaring en traditie een rol bij het bepalen van de tijdsduur. Belangrijk is dat bij vaardigheidsdoelen snelheid een rol kan spelen bij de beoordeling en dat bij kennistoetsen voldoende tijd wordt geboden aan de leerlingen om tot een goed antwoord te komen. Als regel wordt voor een toets met 30 à 40 meerkeuzevragen een uur gerekend, voor parate kennis. – Het aantal herkansingen wordt vermeld. – Verder is de vraag naar het combineren van toetsresultaten van belang. Als er meer toetsen te maken zijn bij één examenonderdeel, kan men dan aangeven volgens welke regels toetsresultaten gecombineerd moeten worden om te kunnen bepalen of leerlingen geslaagd of gezakt zijn voor het examenonderdeel? Deze vraag is altijd relevant, waar meer dan één toets wordt afgelegd bij één certificaateenheid. Men kan hierbij denken aan het compenseren van onvoldoende resultaten op één toets met goede resultaten op een andere toets (compensatie), elke toets moet voldoende zijn (conjunctie) of aan een minimumaantal voldoende toetsen (disjunctie). 59
  • 64. Hoofdstuk 5 5.1.1 Toetsinhouden Een leerstofbeschrijving kan eenvoudig afgeleid worden uit het curriculum. Hierin staat immers beschreven op welk moment in de opleiding welke leerdoelen bereikt moeten zijn en/of welke leerstof behandeld moet worden. De inhoud van de toetsen wordt gespecificeerd uit de leerstof. In principe is alle leerstof potentiële toetsstof. Een toets is dan een representatieve steekproef uit deze leerstof. Over het algemeen wordt de stelregel gehanteerd dat die leerstof waar de meeste onderwijstijd in wordt geïnvesteerd, belangrijke leerstof is, die beslist getoetst moet worden. Welke criteria spelen een rol bij het specificeren van de inhoud van de toets? – de tussen- en eindtermen van de opleiding; – de tijdsduur van bepaalde leerstofonderdelen (in het leerplan is meer tijd beschikbaar voor het ene onderdeel dan voor een ander onderdeel); – de tijdsduur van verschillende onderwerpen binnen bepaalde leerstofonderdelen (aan het opmaken van een bed (verpleegkunde) wordt over het algemeen minder tijd besteed dan aan het leren toedienen van een injectie). Voor deze specificatieronde kan een toetscommissie van docenten worden gevormd. Deze toetscommissie stelt het aantal toetsen vast, specificeert de inhoud en verdeelt de te toetsen leerstof over de verschillende toetsmomenten. Indien gewerkt wordt met modulen kan elke module worden afgesloten met een toets, die zo nodig een vrijstelling geeft voor de afsluiting van een bepaald toetsonderdeel. Het is raadzaam om ook de leerstofonderdelen (vakken, modulen of thema’s) waarin de toetsstof aan bod komt, te noemen. Het verdient aanbeveling om op dit niveau een toetsmatrijs op te stellen. 5.1.2 Toetsmomenten Het roosteren van tijdstippen van de afname behoort bij de organisatie van de toetsing. Hier wordt op meer algemene gronden bepaald wanneer de toetsing van dit speciale onderwerp plaatsvindt. Belangrijk hierbij is de voorwaardelijkheid van de toetsen ten opzichte van elkaar. Bij een ’eindexamen’ behoeft men hier geen rekening mee te houden en bij toetsen die alle op eindtermniveau toetsen, zal dit ook geen probleem vormen. Uit ervaring blijkt dat bij het toetsen van modulen, de kennis en vaardigheden van de ene module voorwaardelijk kunnen zijn voor de kennis en vaardigheden van andere modulen. Het is dan zaak om deze volgorde van inhouden vast te leggen. Bij het vaststellen van de toetsmomenten moet men zich ook realiseren dat van toetsing een sterke sturing uitgaat naar de leerlingen. Er wordt weleens gesteld dat ’wat niet getoetst wordt ook niet geleerd wordt’. Misschien is dat te sterk uitgedrukt, maar feit is wel dat leerlingen regelmatig informatie moeten krijgen over hun leerproces. Soms is de leerstof zelf-evaluerend, in de meeste gevallen zal die informatie via meting verkregen moeten worden. Ook degene die onderwijs geeft, heeft van tijd tot tijd behoefte aan informatie over de voortgang van het onderwijsproces. Zulke momenten zullen in de onderwijs- en examenregeling ingebouwd moeten worden. Per toetsmoment moet derhalve aangegeven worden welke functie aan de desbetreffende toets wordt toegekend. Dit heeft immers consequentie voor de eisen die er aan de toets gesteld worden. Dit is in tabel 23 schematisch weergegeven. Het belangrijkste uitgangspunt bij de eisen die aan het toetsinstrument gesteld moeten worden, zijn de consequenties die er voor de leerling aan verbonden zijn. Hoe groter die consequenties zijn, in de zin van zakken of leerstof herhalen, hoe betrouwbaarder de meting moet zijn. Ook de verlangde validiteit verandert daarmee: een diagnostische toets moet de leerstof zo goed mogelijk dekken (inhoudsvaliditeit), een certificerende toets moet een betekenisvolle score opleveren (dit wordt wel aangeduid met begripsvaliditeit) of een aantoonbaar verband hebben met een objectieve maat buiten de toets, zoals succes in een vervolgopleiding (criteriumvaliditeit). 60
  • 65. Beslissingen en activiteiten op curriculumniveau tabel 23 - Toetsfuncties en kwaliteitseisen diagnosticering onderwijsevaluatie selectie en certificering wie betreft het individuen groepen kandidaten individuen consequentie voor leer- gering gering of groot groot ling vereiste toetskenmerken: • vergelijkbaarheid gering groot groot informatie • objectieve scoring nee ja ja • gestandaardiseerde nee ja ja verwerking vereiste informatie: • gedetailleerd of alge- gedetailleerd algemeen algemeen meen (aanknopingspunten voor remediëring) • frequentie regelmatig gedurende eenmaal per jaar of min- afhankelijk van mate van een schooljaar der flexibilisering • onmiddellijk beschik- ja nee nee baar technische eisen: • betrouwbaarheid kan wisselen groot zeer groot • soort van bewijs voor inhoudsvaliditeit bij ’geringe consequen- inhoudsvaliditeit plus validiteit ties’: inhoudsvaliditeit aanvullende informatie bij ’grote consequenties’: over validiteit in verband constructvaliditeit met specifiek toetsdoel 5.1.3 Toetsvormen De volgende beslissing die genomen moet worden is die van de toetsvorm. Eerder (zie par. 2.5.1) is betoogd dat de toetsvorm moet aansluiten bij het te toetsen leerdoel (en bij de wijze waarop dit is aangeleerd). Om praktische redenen zal dat niet altijd mogelijk zijn. Er moet echter rekening mee worden gehouden dat leerlingen geneigd zijn om bij het bestuderen van de stof uit te gaan van de wijze waarop deze leerstof in de toets aan de orde wordt gesteld: worden alleen de feiten bevraagd of is er ook enig inzicht nodig? In het eerste geval zal de leerling zich vooral richten op het memoriseren van de stof, in het tweede geval zal hij op zoek gaan naar samenhangen. Ook de voorbereiding op een schriftelijke toets zal anders zijn dan op een praktische toets. Opleidingen hebben de taak zich ervan te vergewissen dat uiteindelijk de eindtermen getoetst worden. Dat kan niet door alleen maar vragen te maken en toetsvormen te kiezen die vrij gemakkelijk te construeren zijn. In tabel 24 zijn enkele overwegingen te zien, die een rol spelen bij het kiezen van de meest geschikte toetsvorm. Hierbij wordt uitgegaan van een taak die een beroep doet op een mix van vaardigheden. Uiteraard komen in de hoog representatieve toetsvormen ook cognitieve en of psychomotorische vaardigheden aan de orde, maar de aandacht zal in meeste gevallen vooral gericht zijn op de reactieve en interactieve aspecten van de taak, ervan uitgaande dat de cognitieve en psychomotorische aspecten op een eerder moment in een beter controleerbare situatie zijn getoetst. Het schema in tabel 25 geeft een nuancering van tabel 24. De dimensie ’representativiteit’ is nu uitgesplitst in ’omvattendheid’ en ’natuurgetrouwheid’. Bestudering maakt direct duidelijk wat het grote probleem is van de toetsconstructeur: voor vier van de zes toetstechnieken is het niet goed mogelijk om zowel de omvattendheid als de natuurgetrouwheid te bevorderen. Dit betekent ofwel dat conclusies over 61
  • 66. Hoofdstuk 5 tabel 24 - Overwegingen bij het kiezen van de juiste toetsvorm representativiteit overige keuzen toetsvormen mogelijkheden voor verhogen validiteit (classificatie vlgs. en betrouwbaarheid Romiszowski) snelle correctie gewenst, veel vragen voldoende vragen stellen, gespreid over meerkeuzevragen laag gewenst, veel kandida- de leerstof (vooral gericht op ten kennis) zelf formuleren voldoende vragen stellen, gespreid over gewenst, weinig kandi- open vragen de leerstof, uitgewerkt correctievoor- daten schrift, tweede corrector inschakelen potlood-en-pa- meerdere malen een soortgelijke toets procedures toepassen pier afnemen laag - gemiddeld (vooral gericht op meerdere malen een soortgelijke toets samenhang zien casus cognitieve vaardig- afnemen heden) meerdere malen een soortgelijke toets computersimula- probleem oplossen afnemen vooral ter verhoging van de tie validiteit beoordelingscriteria goed uitwerken, gemiddeld werkelijke uitvoering meerdere malen een soortgelijke toets simulator (vooral gericht op bezwaarlijk afnemen, tweede beoordelaar inscha- cognitieve en psy- kelen chomotorische vaar- vaardigheid centraal, beoordelingscriteria goed uitwerken, digheden) omstandigheden niet skill sample meerdere malen een soortgelijke toets belangrijk afnemen beoordelingscriteria goed uitwerken, bezwaarlijk voor een tweede beoordelaar inschakelen, stan- echte patiënt & te simu- patiëntsimulatie daardisatie van de toetssituatie, meer- hoog leren dere malen een soortgelijke toets afne- (vooral gericht op men reactieve/interactieve tweede beoordelaar inschakelen, con- vaardigheden) niet bezwaarlijk voor sensus proberen te bereiken over de een echte patiënt & niet work sample reactieve en interactieve aspecten, meer- te simuleren dere malen een soortgelijke toets afne- men competentie beperkt moeten blijven tot de taak die in de toets werd aangeboden (ingeval van work sample test en patiëntsimulatie) ofwel dat alleen conclusies getrokken worden over de beheersing van de cognitieve vaardigheden die voorwaardelijk zijn voor competentie (in het geval van computersimulatie en potlood-en-papier-toets). Alleen bij de skill sample test en de simulator lijkt het mogelijk om zowel de omvattendheid als de natuurgetrouwheid te bevorderen, maar nooit tot een niveau dat bij gebruik van andere toetstechnieken mogelijk zou zijn. 62
  • 67. Beslissingen en activiteiten op curriculumniveau tabel 25 - Omvattendheid en natuurgetrouwheid van enkele toetsvormen work sam- patiënt- skill sample computer potlood- simulator ple test simulatie test simulatie en-papier hoog mid- omvattendheid den laag hoog natuurgetrouw- mid- heid den laag 6 Uitvoeringsniveau: algemene richtlijnen In de volgende drie hoofdstukken, die alle gericht zijn op het uitvoeringsniveau, worden aanwijzingen gegeven voor de constructie, afname en beoordeling van diverse toetsen en beoordelingsinstrumenten. In hoofdstuk 6 worden algemene richtlijnen gegeven voor de constructie vragen en toetsopdrachten; in hoofdstuk 7 worden per vraagvorm specifieke richtlijnen gegeven. In hoofdstuk 8 wordt tot slot ingegaan op de afname van de toets, het verwerken van de gegevens en de correctie. Daarbij wordt tevens ingegaan op de beoordeling van de toetsresultaten. 6.1 Stappenplan voor de constructie van kennistoetsen In het stroomschema op de volgende bladzijde (afb. 18) staan de stappen die gezet moeten worden bij de constructie van kennistoetsen. Hieronder worden de verschillende stappen nader toegelicht. Sommige stappen (stap 0 en 1: zie par. 3.3.1 en 5.1.1 en stap 5: zie par. 2.3 en 5.1.2) zijn, als het goed is, al voor een deel genomen zijn op curriculumniveau. Voor de volledigheid zijn deze stappen toch in het schema opgenomen. ’Kennistoets’ is overigens niet helemaal de juiste term, omdat de beschreven procedure uitgaat van cognitieve taken. Wanneer daarvan alleen de onderliggende kenniselementen op een reproductieve manier getoetst worden, is er sprake van een kennistoets. Binnen de procedure kan echter ook gekozen worden voor een accent op probleemoplossende vaardigheden. 0 Inventariseer de cognitieve taken Zorg dat er een overzicht beschikbaar is van de kenniselementen en cognitieve taken, die een leerling moet beheersen. 63
  • 68. 1 Stel een toetsmatrijs op Een toets, ongeacht de omvang ervan, is altijd een steekproef uit de grote hoeveelheid toetsitems die erin opgenomen zouden kunnen worden. Er wordt dan uitgegaan van de veronderstelling dat de responsen op deze geselecteerde deelverzameling typerend zijn voor de responsen op mogelijke andere deelverzamelingen van items. Maar dit betekent wél dat de toets een representatieve steekproef moet zijn. Een toetsmatrijs is een handig hulpmiddel voor het bewerkstelligen van die representativiteit. Elders is beschreven hoe een toetsmatrijs kan worden opgesteld. 2 Selecteer de te toetsen leerstofonderdelen Een toetsmatrijs bevat alle concrete doelstellingen van een stuk onderwijs. Zoals eerder opgemerkt, is het meestal niet mogelijk alle doelstellingen met een of meer items te toetsen. Er moet een selectie gemaakt worden. Het is handig om de selectie in de toetsmatrijs aan te geven door de betreffende cellen met een textmarker in te kleuren. Bij de selectie moet de toetsconstructeur al enige rekening houden met de tijd die leerlingen beschikbaar hebben om de toets te maken. 64
  • 69. Uitvoeringsniveau: algemene richtlijnen afb. 18 - De constructie van een kennistoets 65
  • 70. Hoofdstuk 6 3 Beslis welk aspect getoetst gaat worden: kennis, cognitieve vaardigheden of beide Afhankelijk van de te toetsen vaardigheid, moet gekozen worden voor een bepaalde toetsvorm. Een toets met losse gesloten en/of open vragen is uitermate geschikt om kennis (feiten, begrippen) te toetsen. Wanneer kennis moet worden toegepast in een nieuwe situatie en de oplossing is niet via vaste algoritmen te vinden, dan komt een casustoets in aanmerking. Voor het meten van productieve cognitieve vaardigheden is een potlood-en-papier-toets geschikt. Overigens is de scheiding tussen de verschillende toetsvormen niet zo absoluut als hier wellicht gesuggereerd wordt. Met meerkeuzevragen kan ook meer dan alleen kennis getoetst worden, een inleiding op een open vraag kan een kleine casusbeschrijving zijn, sommige casusvragen laten zich algoritmisch oplossen etcetera. Het onderscheid wordt enkel gemaakt om het beslissingsproces helder te laten verlopen. Waar sprake is van het toetsen van hogere cognitieve vaardigheden ontstaat een raakvlak met het hierna te bespreken stappenplan voor de constructie van vaardigheidstoetsen. Immers, wanneer bij het toetsen van vaardigheden gekozen wordt om vooral de cognitieve component te toetsen, komt men op dezelfde toetsvorm uit. 4 Ontwikkel de toets Bij een toets met alleen losse vragen is het ontwikkelen van de toets bijna hetzelfde als het construeren van de items (zie de volgende stap). Wanneer gekozen wordt voor een casustoets of een potlood-en- papier-toets, moet apart aandacht worden besteed aan het construeren van een casusbeschrijving of een probleemsituatie. 5 Construeer de toetsitems Afhankelijk van de functie die de toets moet gaan vervullen, moeten de items aan bepaalde voorwaarden voldoen. Bij een summatieve toets moeten de items qua inhoud een evenwichtige en representatieve afspiegeling vormen van de leerdoelen die bereikt moeten worden. De toets is bedoeld om vast te stellen welke leerlingen wel en welke niet voldoen aan de gestelde norm. Belangrijk is dus dat de vragen of opdrachten in de toets ’discrimineren’ tussen ’goede’ en ’slechte’ leerlingen. Dit kan vooral bereikt worden door voldoende items in de toets op te nemen met een moeilijkheidsgraad die ligt rondom de beoogde cesuur: wanneer gestreefd wordt naar 25% zakkers, zullen er voldoende items moeten worden geconstrueerd met een geschatte p-waarde van .75. Ook een formatieve toets moet een evenwichtige en representatieve afspiegeling vormen van de leerstof, zowel qua inhoud als qua moeilijkheidsgraad. De toets hoeft echter geen hoog onderscheidend vermogen te hebben in een bepaalde range. Bij de itemconstructie kan men bewust gebruik maken van veel voorkomende denkfouten, foutieve oplossingsstrategieën e.d. Op die manier verkrijgt men aanknopings- punten voor remediëring. Elk item moet wel bijdragen aan de betrouwbaarheid en validiteit van de toets. Die bijdrage is positief als het toetsitem: – relevant is (het verlangde antwoord geeft een indicatie over de beheersing van het leerstofonderdeel dat de vraag beoogt te toetsen); – objectief is (er is geen discussie mogelijk over het goede antwoord); – van het juiste niveau is (de vraag is niet te moeilijk of te gemakkelijk); – differentiërend vermogen heeft (de vraag kan op de juiste wijze onderscheid maken tussen leerlingen die de stof wel en niet beheersen); – efficiënt is (de investering in lees- en antwoord-gedrag van de leerling en de constructie en beoordelingsinspanning van de docent moeten in redelijke verhouding staan tot de informatie die de vraag levert over het kennisniveau van de leerling). 66
  • 71. Uitvoeringsniveau: algemene richtlijnen 6 Stel de toets samen De afzonderlijke vragen moeten nu aaneengesmeed worden tot een toets. De volgende richtlijnen kunnen daarvoor gevolgd worden: – Laat de toets beginnen met één of enkele relatief eenvoudige vragen (opwarmertje; aanmoediging voor faalangstige kandidaten). – Zet vragen van dezelfde vorm bij elkaar (dus geen meerkeuzevragen en open vragen door elkaar gebruiken). De verschillende vraagvormen doen een beroep op geheel verschillende antwoordstrate- gieën; een voortdurende omschakeling is voor leerlingen niet prettig. – Binnen een bepaalde vraagvorm moeten vragen over hetzelfde leerstofonderdeel bij elkaar geplaatst worden. – Controleer de vragen op afhankelijkheid. (Bevatten de vraagstelling of de antwoordalternatieven in de ene vraag geen informatie die de beantwoording van andere vragen vereenvoudigd?) – Ken eventueel een gewicht toe aan de vragen. Een goed uitgangspunt hierbij is de inspanning die de gemiddelde leerling moet leveren om de vraag te beantwoorden. Hierbij moet de inspanning bij het beantwoorden van een meerkeuzevraag niet onderschat worden. Onderzoek heeft overigens uitgewezen dat weging weliswaar tegemoetkomt aan het rechtvaardig- heidsgevoel van docenten en leerlingen, maar dat het voor het uiteindelijke toetsresultaat weinig uitmaakt: de rangorde van de leerlingen verandert er nauwelijks door. Weging wordt nogal eens gebruikt om het relatieve belang van een bepaald leerstofonderdeel te benadrukken. Met die ene vraag over dat belangrijke onderwerp zijn opeens 20 punten te verdienen. Als dat onderwerp echter zo belangrijk wordt gevonden, kunnen daarover beter meerdere vragen gesteld worden. Het gewicht van de vraag moet in ieder geval bij de vraag vermeld worden. Leerlingen kunnen daarmee bij het maken van de toets rekening houden. 7 Bepaal de cesuur De grens tussen een voldoende en onvoldoende prestatie kan op twee manieren worden vastgesteld: 1 achteraf op grond van de prestaties van alle kandidaten en 2 vooraf op grond van een door de toetsconstructeur zinvol geacht criterium. Eerstgenoemde methode wordt in de literatuur vaak aangeduid met ’relatieve cesuurbepaling’ en de tweede methode met ’absolute cesuurbepaling’. Vroeger, maar ook nu nog gebruiken veel leerkrachten (vaak onbewust) een relatieve cesuurbepaling. Het prestatieniveau van de groep leerlingen is dan bepalend voor waar de cesuur gelegd wordt. Als de groep goed presteert, ligt de cesuur hoog; presteert de groep slecht dan ligt de cesuur laag. Dat dit systeem vaak onbewust gehanteerd wordt, komt omdat docenten over het algemeen een constant zakpercentage van zo’n 25% een rechtvaardige zaak vinden. Het belangrijkste nadeel van deze methode is dat het niveau van het onderwijs voor een aanzienlijk deel gedicteerd wordt door de onderwijsconsu- menten. Kwaliteitsbewaking is in zo’n situatie moeilijk te realiseren. Bij absolute cesuurbepaling wordt de grens tussen voldoende en onvoldoende van tevoren vastgelegd. Het vaststellen van die beheersingsstandaard is, zeker als de kwaliteit van de toetsvragen onbekend is, een nogal subjectief gebeuren. Er zijn wel procedures ontwikkeld die beogen dit proces te objectiveren, maar die zijn over het algemeen zeer bewerkelijk en slagen er bovendien niet in om de subjectiviteit helemaal terug te dringen. Een snel alternatief biedt de volgende procedure: a Stel de maximaal bereikbare score vast. b Bepaal bij welk percentage van de maximumscore de cesuur moet liggen. Intuïtief vinden veel docenten dat 60% verdedigbaar is. c Stel de cesuur vast op basis van de waarden uit stap a en b. d Bestaat de toets (voor een deel) uit gesloten vragen en werden de leerlingen geïnstrueerd om geen vragen over te slaan, dan moet de vastgestelde cesuur gecorrigeerd worden voor dit raadeffect. Immers, bij gesloten vragen kunnen kandidaten punten scoren door blind of beredeneerd te raden. Een voorbeeld van een toets bestaande uit 45 vragen is te zien in tabel 26. 67
  • 72. Hoofdstuk 6 tabel 26 - Cesuurbepaling met correctie voor raden vraagnum- vraagtype maximale score kansscore mer 1 (open vraag) max. 1 punt 2 (open vraag) max. 2 punten 3 (open vraag) max. 3 punten 4 (open vraag) max. 5 punten 5 (open vraag) max. 6 punten 6 t/m 15 (ja/nee vragen) max. 10 punten kansscore: 10/2 = 5 16 t/m 45 (driekeuzevragen) max. 30 punten kansscore: 30/3 = 10 max. 57 punten totale kansscore = 15 H ieruit blijkt dat elke leerling, ook degene die niets weet, waarschijnlijk een score haalt van minimaal 15. Het scorebereik loopt dus eigenlijk niet van 0 tot 57 maar van 15 tot 57 (42 punten). Met dit gegeven in de hand kan nu een absolute cesuur worden vastgesteld. 60% van 42 punten is 25. Dit wordt opgeteld bij de kansscore van 15, waarmee de cesuur op 40 komt te liggen. 8 Schrijf aanwijzingen voor de kandidaten Het voorblad van de toets dient informatie te bevatten over de volgende zaken: – toegestane tijd voor de beantwoording. – de minimaal te behalen score. – de wijze van scoring bij gesloten vragen (’correctie voor raden’ of ’gedwongen raden’). Bij het correctie–voor–raden–systeem levert een fout antwoord een lagere score (er worden punten afgetrokken) op dan niet beantwoorden (0 punten). Dit systeem dient om het blind raden tegen te gaan als de kandidaat alle alternatieven even waarschijnlijk voorkomen. Bij het gedwongen- –raden–systeem luidt de scoringsregel: goed antwoord: 1 punt; fout antwoord of overgeslagen: 0 punten. Uit onderzoek is gebleken dat het ene systeem niet leidt tot meer betrouwbare scores dan het andere. Gelet op het feit dat leerlingen nogal eens moeite hebben met het correctie-voor-raden systeem gaat de voorkeur uit naar het gedwongen–raden–systeem. – De te volgen antwoordstrategie (bij gesloten vragen). Als het gedwongen–raden–systeem gebruikt wordt, moeten leerlingen erop gewezen worden dat alle vragen beantwoord moeten worden, desnoods door te raden. Het overslaan van vragen heeft een nadelige invloed op de te behalen score. Bij het correctie–voor–raden–systeem luidt de geadviseerde antwoordstrategie: ’Laat vragen waar je door tijdnood niet aan toekomt onbeantwoord. Komen alle antwoordalternatieven je even waarschijnlijk voor, laat de vraag dan onbeantwoord. Kun je een of meerdere alternatieven wegstrepen, beantwoord de vraag dan wel.’ 6.2 De constructie van kennistoetsen met behulp van een toetsenbank Alle docenten proberen opgaven en toetsen opnieuw te gebruiken bij volgende toetsmomenten. Losse vragen en complete toetsen worden bewaard en zo mogelijk hergebruikt. En terecht, want een opgave of toets die zijn waarde inmiddels bewezen heeft, verdient het om vaker gebruikt te worden. Bovendien is er een trend te bespeuren om de toetsing en afsluiting te flexibiliseren. Dat vraagt niet alleen om veel items maar ook om een efficiënte inzet van het beschikbare toetsmateriaal. In het verleden was dat in veel gevallen een kwestie van goed zoeken, knippen, plakken en kopiëren. Soms moesten delen opnieuw uitgetypt worden. Tegenwoordig kan de computer dit werk aanzienlijk 68
  • 73. Uitvoeringsniveau: algemene richtlijnen vergemakkelijken. Het toetsmateriaal wordt opgeslagen in zogenaamde itembanken of toetsenbanken. Deze kunnen al dan niet deel uitmaken van een toetsservicesysteem. Voordat wordt ingegaan op de mogelijkheden van zo’n elektronische aanpak, worden hieronder de verschillende begrippen eerst nader toegelicht. Itembank/opgavenbank De begrippen itembank en opgavenbank mogen door elkaar gebruikt worden. ’Opgave’ is een ruimer begrip dan ’item’, waarmee vaak alleen een meerkeuzevraag wordt aangeduid. Het wordt itembank lijkt echter het meest te zijn ingeburgerd. Een itembank is een geordende verzameling opgaven. Opgaven zijn losse vragen, maar kunnen ook vragen zijn die bij elkaar horen en gekoppeld zijn aan bepaald uitgangsmateriaal (een tekening, een casusbeschrijving etc.). Een belangrijk kenmerk van een itembank is dat de opgaven geordend zijn volgens één of meer indelingen. Itembanksysteem Een itembanksysteem is een geautomatiseerd hulpmiddel waarmee items worden opgeslagen, gewijzigd en beheerd. Het systeem zorgt voor selecties op basis van door de gebruiker aangegeven categorieën. Indelingen van itembanken Een itembank wordt zo ingedeeld, dat het samenstellen van toetsen met zo weinig mogelijk moeite automatisch kan geschieden zonder overigens handmatige wijzigingen uit te sluiten. De structuur van de itembank zit dan niet alleen in de vakinhoudelijke classificatie, maar ook in de vraagvorm, de gebruiksgegevens etcetera. Het moet in principe mogelijk zijn een toets samen te laten samenstellen op basis van een toetsdefinitie. Toetsdefinitie De ’schets’ of ’blauwdruk’ voor een toets wordt toetsdefinitie genoemd. In de toetsdefinitie staat vermeld voor welke doelgroep de toets is bedoeld en staan de te selecteren categorieën vermeld. De toetsdefinitie bakent een deel van de gehele itembank af. Het is in feite een toetsmatrijs, waarbij is opgegeven wat de omvang van de toets moet zijn. Toetsenbank Een toetsenbank is een verzameling kant-en-klare toetsen, die zodanig in de verzameling zijn opgenomen, dat zij bij een selectie in hun geheel kunnen worden gebruikt. Toetsen zijn geordend naar te toetsen eenheden. Toetsservicesysteem Een toetsservicesysteem kan worden gekenschetst als een itembanksysteem met extra faciliteiten. Het biedt als extra namelijk mogelijkheden voor het oproepen en presenteren van toetsen (op papier of via de computer) en het analyseren van toetsresultaten. In afbeelding 19 is te zien dat de opgavenbank in feite de kern van het toetsservicesysteem is. Op basis daarvan worden toetsen geconstrueerd. Wellicht geeft ’geselecteerd’ beter weer wat er gebeurt: op basis van de toetsdefinitie worden bepaalde items in de toets opgenomen. Het enige dat geconstrueerd wordt, is het toetsorigineel dat in oplage gekopieerd moet worden. De toets blijft op deze manier ook gewoon deel uitmaken van de itembank. Na de toetsafname (welke geen deel uitmaakt van het toetsservicesysteem, vandaar het afwijkende kader) kunnen de resultaten worden geanalyseerd. De gegevens die hier uit komen, kunnen vervolgens gebruikt worden om opgaven bij te stellen en/of de toetsdefinitie aan te passen. In principe zijn dit gegevens, die alleen iets zeggen over de toets als geheel zoals deze door een bepaalde groep leerlingen is gemaakt. 69
  • 74. Hoofdstuk 6 Door calibratie1 kunnen deze gegevens ook vertaald worden in itemparameters, die bij de items kunnen worden opgeslagen. afb. 19 - Toetsservicesysteem Het grote voordeel van een professioneel itembanksysteem is dat het proces van toetsproductie is geautomatiseerd: bij een voldoende aantal opgaven kan het systeem inhoudelijk gelijkwaardige toetsen ’genereren’. Dit betekent een zeer grote flexibiliteit bij het toetsen en examineren: de opgavenbank zorgt voor een voldoende aantal verschillende en toch inhoudelijk gelijkwaardige opgaven, zodat geen problemen rond geheimhouding ontstaan. De ene student kan de andere geen goede antwoorden meer doorspelen, omdat de reeks opgaven per toetsdatum verschilt. Het ’genereren’ van toetsen moge dan wel geautomatiseerd verlopen, maar voor het systeem operationeel is, moet er nog wel het een en ander gebeuren: – de examenstof moet op een bepaalde manier georganiseerd worden; – er moet een groot aantal opgaven verzameld en geconstrueerd worden; – er moeten ’recepten’ voor toetsen gemaakt worden, waarmee het systeem aan de slag kan. Over deze afzonderlijke werkzaamheden gaan de volgende passages. Organisatie van de examenstof: de itembankstructuur Als een school met een itembanksysteem gaat werken, moet iemand de structuur van een opgavenbank bepalen. Zonder structuur is er geen adequate opslag en selectie van opgaven mogelijk. Het lijkt voor de hand te liggen om voor een geordende opslag van opgaven uit te gaan van onderwijseenheden (dat wil zeggen modulen, leerstofkavels, cursusblokken en wat er nog meer aan termen in omloop is) of deelkwalificaties (combinaties van eindtermen die gelden voor een bepaalde beroepsopleiding) als organisatorisch principe. De WEB schrijft immers voor dat onderwijseenheden en deelkwalificaties getoetst worden. 1 Bij calibratie worden gebruiksgegevens van opgaven zodanig bewerkt, dat het mogelijk wordt de opgaven te rangordenen op een schaal van makkelijk naar moeilijk. Deze schaal is in tegenstelling tot de klassieke p-waarden populatie-onafhankelijk. Op deze manier kunnen de eigenschappen van opgaven bepaald worden onafhankelijk van de personen die de opgaven gemaakt hebben en omgekeerd kunnen de eigenschappen van personen gemeten worden onafhankelijk van de opgaven die men daarvoor gebruikt. 70
  • 75. Uitvoeringsniveau: algemene richtlijnen Het grote nadeel van dit uitgangspunt is dat onderwijseenheden en deelkwalificaties inhoudelijk kunnen veranderen. Bovendien zullen de onderwijseenheden per opleiding verschillen, waardoor een opgavenbank die specifiek ontwikkeld is voor één opleiding, onbruikbaar is voor andere. Om een bank geschikt te maken voor vernieuwing en algemeen gebruik, kan de indeling beter gebaseerd worden op onderwerpen. Nagenoeg ieder vak kent een onderwerpenstructuur. Onderwerpen verwijzen naar leerstof. Opgaven om die leerstof te toetsen, kunnen dus altijd bij een bepaald onderwerp worden ingedeeld. Wel moet eerst een handige onderwerpenstructuur worden ontwerpen en vaststellen. Onderwerpen zijn vaktermen die aangeven waar een groep opgaven in een bank over gaat. Onderwerpen kunnen op hun beurt weer onder overkoepelende onderwerpen vallen. Een voorbeeld: afb. 20 - Onderwerpenstructuur Onderwerpen worden meestal afgeleid van een vak. Het begrip ’vak’ is hier heel algemeen gebruikt. Het kan gaan om theorievakken, praktijkvakken of nieuwe vakken die aan beroepsactiviteiten ontleend zijn. Er kan ook worden uitgegaan van deelkwalificaties. Wat telt, zijn de onderwerpen. Door onderwerpen te kiezen, is het mogelijk behalve een vak ook onderwijseenheden, deelkwalificaties of eindtermen te definiëren. Onderwerpen met de bijbehorende opgaven geven immers aan welke kennis en vaardigheden nodig zijn om een beroepstaak op de juiste wijze uit te voeren. Afbeelding 21 brengt de relatie tussen onderwerpen, vakken, deelkwalificaties en eindtermen in beeld: afb. 21 - Verdeling van onderwerpen over vakken 71
  • 76. Hoofdstuk 6 Met A t/m H worden onderwerpstructuren aangeduid als in de vorige figuur. Tot het vakgebied 1 behoren de onderwerpen onder A, B, C en E, tot vakgebied 2 de onderwerpen onder C, D, G en H. Onderwerpen onder C zijn voor beide vakken van belang, terwijl onderwerpen onder F buiten beide vakgebieden vallen. De onderwerpen onder A + B kunnen nu een onderwijseenheid vormen. Daarnaast zouden C + D + G ten grondslag kunnen liggen aan een deelkwalificatie, bestaande uit eindtermen die door C, D en G bepaald worden. De vulling van een opgavenbank In het begin is de opgavenbank leeg. Ongetwijfeld kan men uit eerdere tentamens en examens opgaven halen die geschikt zijn voor de bank. In de regel zal men echter opgaven moeten bijmaken, om het itembanksysteem voldoende selectiemogelijkheden te bieden: enerzijds voor het samenstellen van toetsen die representatief zijn voor de totale examenstof (inhoudsvalide toetsen), anderzijds om te voorkomen dat in toetsen die volgens hetzelfde recept zijn gemaakt steeds weer dezelfde opgaven terechtkomen. Het ontwikkelen van opgaven is teamwork. De ervaring leert dat docenten vaak heel aardige vragen en opgaven kunnen bedenken, maar dat een collega er toch altijd weer onduidelijkheden en onvolkomenhe- den uithaalt. Het verdient daarom aanbeveling om per opgavenbank een productiegroep te formeren. Leden van zo’n groep, de vakdeskundigen, kunnen onafhankelijk van elkaar vragen ontwerpen, maar daarna is er een gezamenlijke bespreking en eindredactie noodzakelijk. Opgavenontwikkeling is géén eenmanszaak. Zeker als het gaat om opgaven voor hergebruik, is het de moeite waard om de nodige tijd en aandacht in het materiaal te steken. Verhoging van de kwaliteit van de opgaven verhoogt de kwaliteit van de toetsing. Het werken met een opgavenbank voor flexibele toetsing maakt deze investering toch rendabel. De opgaven komen immers meer dan eens aan bod, in verschillende arrangementen voor verschillende leerlingen. Nieuwe opgaven kunnen in de bank worden opgeslagen met een bepaalde statusaanduiding. Voorbeelden van statusaanduidingen zijn: ’eerste concept’, ’herziene versie’ of ’gereed voor goedkeuring’. Zeker als met grote aantallen opgaven wordt gewerkt, vergemakkelijkt een gecomputeriseerde opgavenbank het productieproces. Met een paar eenvoudige commando’s kan men de opgaven oproepen die voor verdere behandeling in aanmerking komen. Als men uit de itembank toetsen gaat samenstellen, moet men ervan op aan kunnen dat de kwaliteit van de opgaven goed is. Als het systeem kant-en-klare toetsen moet leveren, die volgens een bepaald recept zijn bereid, moet men op de kwaliteit van de gebruikte ingrediënten kunnen vertrouwen. Het is wenselijk om de vaststelling van opgaven, dat wil zeggen hun goedkeuring voor gebruik in een toets, buiten de productiegroep te houden en over te laten aan degenen die voor het samenstellen van toetsen verantwoordelijk zijn. Zij kunnen het itembanksysteem dan met een gerust hart toetsen laten assembleren, in de zekerheid dat de opgaven hun goedkeuring kunnen wegdragen. Als het gaat om opgaven die in het kader van externe legitimering een rol spelen, kan onafhankelijke vaststelling zelfs noodzakelijk zijn. De computer stelt toetsen samen uit goedgekeurde opgaven. Naar goedgekeurde opgaven hoeft bij het samenstellen van een toets niet meer gekeken te worden. Ze zijn klaar voor gebruik. Wel bestaat de mogelijkheid dat ze op grond van hun ’afwijkende gedrag’ in een toets alsnog moeten worden verwijderd of herzien. Er kan een onduidelijkheid zitten in de vraagstelling. De stof kan geheel onbekend zijn. Er kan een onbedoelde aanwijzing in één van de alternatieven van een meerkeuzevraag zitten, waardoor iedereen vanzelf het goede antwoord kiest, etcetera. 72
  • 77. Uitvoeringsniveau: algemene richtlijnen Toetssamenstelling Er is al een paar keer sprake geweest van recepten voor de samenstelling van toetsen. Zulke recepten noemt men toetsmatrijzen. Volgens de WEB worden onderwijseenheden die leiden tot een deelkwalifica- tie, afgesloten met een toets. Voor het samenstellen van zo’n toets moet men eerst de onderwerpen inventariseren die in de onderwijseenheden voorkomen. Stel, er is bij pathologie een onderwijseenheid getiteld ’Aandoeningen van hart en bloedvaten’. In deze eenheid komen de volgende onderwerpen aan de orde: – afwijkingen in de prikkelvorming, onderverdeeld in sinusbradycardie, sinustachycardie, fibrilleren en extrasystolie; – afwijkingen in de prikkelgeleiding, onderverdeeld in atrioventriculair block, bundeltakblock en totaalblock; – arteriële aandoeningen; – veneuze aandoeningen. Daarna moeten worden bepaald, hoeveel scorepunten de opgaven bij de verschillende onderwerpen aan de totaalscore van de toets mogen bijdragen. Spreiding van de scorepunten over onderwerpen is nodig om er zeker van te zijn dat door de toets een volledig en evenwichtig beeld van de kundigheden van de leerlingen wordt verkregen. Misschien kunnen ook nog typen opgaven worden onderscheiden: snel te beantwoorden meerkeuzevragen die bij een goed antwoord slechts één punt opleveren, of tijdrovende essayvragen of berekeningen die wel voor 10 scorepunten kunnen zorgen. Dergelijk keuzen worden vastgelegd in een toetsmatrijs. Het voordeel van het werken met toetsmatrijzen is duidelijk: men hoeft zich alleen maar te buigen over de vraag welke onderwerpen bij de toetsing aan de orde moeten komen en welk gewicht zij bij de beoordeling krijgen. Als dit is vastgesteld, kan de computer uit de opgavenbank een groot aantal toetsen putten die volgens zo’n voorschrift zijn samengesteld. Wel moet de bank heel wat opgaven bevatten als de toetsen niet te veel vragen gemeenschappelijk mogen hebben. Het verwijderen of toevoegen van een eindterm bij een examen verandert niets aan de bank. Het itembanksysteem slaat de bijbehorende opgaven bij een selectie simpelweg over of neemt ze mee. Hier komt een belangrijk voordeel van een itembank naar voren, zeker als het systeem wordt geplaatst naast een meer traditionele werkwijze, waarbij docenten kant-en-klare toetsen als ’hardcopies’ of elektronische bestanden bewaren: als de inhoud van het examen wijzigt, moeten alle toetsen worden herzien. Bij het werken met een geavanceerde itembank hoeft men alleen het recept voor een toets aan te passen. Wanneer gebruik wordt gemaakt van een itembank kan men dus uit een voorraad geordende opgaven met behulp van toetsmatrijzen toetsen maken die op diverse data kunnen worden afgenomen. Het feit echter dat men bij opgavenontwikkeling niet over één nacht ijs moet gaan, leidt er wel toe dat de beoogde flexibilisering een geleidelijk proces is. Als men start met een opgavenbank, is het aantal opgaven in de regel niet groot genoeg om tot volledige flexibiliteit over te gaan. Het aantal toetsdata kan geleidelijk worden uitgebreid, bijvoorbeeld van één tentamen met één herkansing per trimester via enkele vaste tentamendata naar een groot aantal gespreide keuzedagen. Bij het creëren van meer afnamemomenten moet er niet alleen rekening worden gehouden met de capaciteit van de opgavenbank, maar ook met de organisatorische spankracht van de school. Correctie en normering Als er in een toets open opgaven voorkomen, zijn er examinatoren of correctoren nodig die de antwoorden nakijken. Om geen uiteenlopende waarderingen te krijgen van wat goed is en fout, vormt iedere opgave één geheel met zijn correctievoorschrift, dat wil zeggen de richtlijnen voor correctoren: een overzicht van foute, 73
  • 78. Hoofdstuk 6 gedeeltelijk goede en juiste antwoorden met hun respectieve waardering. Bij meerkeuzevragen hoeven men alleen maar het juiste alternatief aan te geven. Onder normeren wordt verstaan: het bepalen van regels volgens welke toetsscores in cijfers worden omgezet. De bepaling van de norm op bredere basis dan een enkele school (bijv. door rekening te houden met inzichten en opvattingen in het werkveld) verleent de niveauvaststelling een externe legitimering. Als de moeilijkheidsgraad van de opgaven in een bank bekend is, kan de computer toetsen samenstellen van een vaste moeilijkheidsgraad. In dat geval hoeft alleen maar te worden bepaald hoe moeilijk de toets mag zijn en welke score een leerling minimaal moet halen voor een voldoende. Dan kan de computer toetsen samenstellen die niet alleen inhoudelijk gelijkwaardig zijn, maar ook nog dezelfde eisen aan de leerlingen stellen. Toetsen die dus over dezelfde leerstof gaan en even moeilijk zijn, maar uit andere vragen bestaan. Zulke toetsen heten parallel. Als de norm eenmaal bepaald is, garandeert de computer dat aan alle leerlingen dezelfde eisen worden gesteld. Als men begint te werken met een opgavenbank, ontbreken in de regel gegevens over de moeilijkheids- graad van opgaven. Men moet accepteren dat de ene vraag moeilijker is dan de andere, ook al gaan ze allebei over precies dezelfde stof. Dit betekent dat na een toets de resultaten van de leerlingen bekeken moeten worden. Valt de uitslag tegen of mee? Waar wordt de norm gelegd? Ook bij volgende toetsen, gemaakt volgens hetzelfde recept, luidt telkens de vraag: Is dit een ’uitschieter’ of niet? Indien niet is aan te nemen dat de leerlingen bij de ene toets veel minder (of meer!) kennen en kunnen dan bij de andere, moet er met de norm geschoven worden, als er naar verhouding veel of weinig onvoldoendes dreigen te vallen. De scoreverschillen liggen dan aan de toets en niet aan de leerlingen. Het doorlopend verzamelen, verwerken en opslaan van toetsresultaten maakt dat er na enige tijd wél parallelle toetsen kunnen worden samengesteld. In dat geval blijft het werk beperkt tot het opstellen en zo nodig bijstellen van de toetsmatrijs en het vaststellen van de norm. De productie van toetsen en verwerking van resultaten is dan alleen nog maar routine. Werken met parallelle toetsen garandeert een gelijke behandeling van iedere leerling die voor een bepaald tentamen opgaat, naast de handhaving van een constant niveau. Een zorgvuldige registratie van gegevens per opgave is van belang voor het vaststellen van hun moeilijkheidsgraad en het naderhand produceren van parallelle toetsen. De beoordelaars moeten de gegevens op een zodanige manier vastleggen dat ze voor een computer leesbaar zijn en/of volgens een bepaald programma verwerkt kunnen worden. Resultaatverwerking en kandidatenregistratie De gegevens die met behulp van toetsen worden verzameld, zijn in eerste instantie bedoeld om beslissingen te nemen over leerlingen: zak-/slaag-beslissingen, cijfergeving. Pas in tweede instantie zijn ze bedoeld om opgaven in de bank te voorzien van een moeilijkheidsindex. Beveiliging Zoals op het gemeentehuis niet iedereen in de kaartenbakken van de burgerlijke stand mag grasduinen en kaarten mag toevoegen, verwijderen of veranderen, zo mogen alleen geautoriseerde personen met een opgavenbank werken. Het is niet de bedoeling dat een individuele docent aan een eenmaal vastgestelde toetsmatrijs gaat sleutelen of dat een ’hacker’-leerling de opgaven voor een examen vooraf laat uitprinten en onder de toekomstige kandidaten verspreid. Er is daarom een fysieke en software-matige beveiliging van het systeem noodzakelijk: de computer mag zich niet op een voor iedereen toegankelijke plaats bevinden en geautoriseerde gebruikers moeten zich bedienen van toegangscodes (’wachtwoorden’) die bepalen tot welk gebruik en welke ingrepen zij bevoegd zijn. 74
  • 79. Uitvoeringsniveau: algemene richtlijnen 6.3 Stappenplan voor de constructie van vaardigheidstoetsen In het stroomschema op de volgende bladzijde (afb. 22) staan de stappen die gezet moeten worden bij de constructie van vaardigheidstoetsen. Hieronder worden de verschillende stappen nader toegelicht. Sommige stappen (0, 1 en 5) zijn, als het goed is, al voor een deel genomen zijn op curriculumniveau. Voor de volledigheid zijn deze stappen toch in het schema opgenomen. 0 Inventariseer de taken Een functie bestaat meestal uit een aantal taken die de functionaris moet kunnen uitvoeren. Een taak wordt hier opgevat als een goed omschreven, doelgerichte activiteit met een onderscheidbaar begin en einde. Meestal wordt een taak in een relatief kort tijdsbestek uitgevoerd. Bij bestaande beroepsopleidingen zullen de taken van de functie waarvoor wordt opgeleid dikwijls expliciet beschreven zijn in het opleidingsplan. Het inventariseren van taken kan dan worden overgeslagen. Als dit niet het geval is, zal een functieanalyse moeten worden uitgevoerd om de taken te inventariseren. 1 Selecteer de taken Het ontwikkelen van een vaardigheidstoets is een ingewikkelde en langdurige activiteit. Doorgaans zal het niet mogelijk blijken voor alle taken een vaardigheidstoets te ontwikkelen. Bij de selectie van taken die getoetst moeten worden moet rekening worden gehouden met beschikbare informatie over het verwervingsproces van de vereiste vaardigheden om de betreffende taak te kunnen uitvoeren. Als de meeste leerlingen probleemloos de vereiste vaardigheden verwerven, is toetsing minder urgent. Daarnaast speelt de crucialiteit van de taak een belangrijke rol: kritieke taken komen in principe altijd voor toetsing in aanmerking. 2 Bepaal of de beoordeling gebaseerd moet worden op het product, het proces of op beide Of een leerling voldoende vaardig is in het uitvoeren van een taak kan op drie manieren worden vastgesteld: a direct, door de taakuitvoering te observeren en te beoordelen; b indirect, door een eventueel resulterend product te beoordelen; c combinatie van a en b. Voor de keuze voor a, b of c is geen algemeen geldend voorschrift te geven. Per taak zal steeds zorgvuldig afgewogen moeten worden wat de voorkeur geniet. Enig houvast bieden de volgende vuistregels: – Beoordeel de taakuitvoering als de uitvoeringsprocedure in het onderwijs expliciet geoefend is (m.a.w. als er sprake is van een gewenst handelingsverloop). – Beoordeel het product als voor de uitvoering veel varianten aanvaardbaar zijn (m.a.w. dat het er niet zo toe doet hoe iemand een taak uitvoert). Ter illustratie: Of iemand een vaardig beeldhouwer is, moet blijken uit de kwaliteit van zijn sculpturen. Het beeldhouwen zelf moet niet zozeer worden opgevat als een procedure (d.w.z. stappen die in een bepaalde volgorde uitgevoerd tot een vooropgezet doel leiden) maar eerder als een creatief proces. Dit betekent dat het vormgevingsproces een onvoorspelbaar karakter heeft waardoor het niet of nauwelijks objectief beoordeeld kan worden. 3 Voer een taak- en/of productanalyse uit Objectieve beoordeling van uitvoeringsprocessen en van daaruit voortkomende producten is alleen mogelijk aan de hand van eenduidige beoordelingsvoorschriften. Voor processen houdt dit in dat beoordeeld moet worden of de diverse stappen in de procedure (taakelementen) op de juiste wijze en in 75
  • 80. Hoofdstuk 6 afb. 22 - De constructie van een vaardigheidstoets 76
  • 81. Uitvoeringsniveau: algemene richtlijnen de juiste volgorde zijn uitgevoerd. Voor producten betekent het dat de beoordeling gebaseerd wordt op meerdere kritieke kwaliteitsaspecten. Het in kaart brengen van de stappen in een procedure en van de kwaliteitsaspecten van producten gebeurt door het uitvoeren van een taak– respectievelijk productanalyse. 3A Taakanalyse Een taakanalyse is een activiteit die leidt tot de specificatie van zowel waarneembaar als niet- waarneembaar gedrag dat noodzakelijk is voor de uitvoering van een taak. Als het goed is, is voor elke taak die in een opleiding onderwezen wordt een taakanalyse uitgevoerd (het is de enig juiste manier om de doelstellingen van het onderwijs en de sequentiëring daarvan vast te stellen). Voor gevallen waarin dit niet gebeurd is of voor compleet nieuwe taken, is het uitvoeren van een taakanalyse echter noodzakelijk. De keuze voor een taakanalytische techniek (let op: meestal is het verstandig om gebruik te maken van meer dan één techniek) is ten dele een zaak van persoonlijke voorkeur. Er is echter een aantal vragen waarvan de beantwoording het keuzeproces rechtstreeks beïnvloedt: – Kan de taakuitvoering geobserveerd worden? Bij sommige taken ligt de nadruk op de cognitieve component waardoor een groot deel van de uitvoering voor het oog van de observator verborgen blijft. Het is ook mogelijk dat er opdracht is gegeven om een toets te construeren voor het evalueren van de vaardigheid met betrekking tot een nog niet bestaande taak (bijvoorbeeld: in een machinefabriek gaan de traditionele draaibanken vervangen worden door CNC-banken en de directie wil dat alleen díe werknemers de nieuwe apparatuur bedienen, die bewezen hebben vaardig te kunnen omgaan daarmee.) – Hoeveel overeenstemming is er over de uitvoering van (niet observeerbare) taken? Niet direct waarneembare taakuitvoeringen kunnen alleen geanalyseerd worden door een beroep te doen op de opinies van relevante betrokkenen. Daarmee wordt uiteraard een aanzienlijke dosis subjectiviteit in de analyse ingebracht. Om deze subjectiviteit te beperken zijn verschillende taakanalytische technieken beschikbaar. Op grond van bovenstaande twee vragen kan het in tabel 28 weergegeven selectiehulpmiddel worden vervaardigd. tabel 27 - Methoden voor taakanalyse TAAKUITVOERING IS: observeerbaar niet observeerbaar taak bestaat taak bestaat niet meningsverschillen: meningsverschillen: klein matig groot klein matig groot 1 documentstudie 2 observatie 3 interview 4 focusgroep 5 critical incident 6 simulatie 7 Delphi 77
  • 82. Hoofdstuk 6 Hieronder volgt een summiere bespreking van deze technieken. documentstudie Als er documentatie beschikbaar is over de wijze waarop een taak uitgevoerd dient te worden, is het in alle gevallen raadzaam hiervan kennis te nemen. observatie Men wake ervoor de taakuitvoering van experts tot norm te verheffen voor gebruik in opleidingssituaties. Aan een beginnend beroepsbeoefenaar mogen in alle redelijkheid niet dezelfde eisen gesteld worden als aan een ervaren beroepsbeoefe- naar. De ’verkortingen’ die experts aanbrengen in de taakuitvoering zijn voor beginners vaak niet haalbaar. Beginners moeten beoordeeld worden op de taakuitvoe- ring zoals die in de opleiding is verworven. Dit is de reden waarom in opleidingscon- texten taakanalyses uitgevoerd moeten worden bij beginnende beroepsbeoefenaren. interview Als de taakuitvoering niet echt observeerbaar is, kan geprobeerd worden door middel van een interview te achterhalen welke aanpak meestal gevolgd wordt. Evenals bij ’observatie’ verdient het aanbeveling hiervoor geen experts te gebruiken. Het interview kan ook de vorm aannemen van een ’hardop-denk-protocol’: de taakuit- voerder vertelt wat hij denkt tijdens de uitvoering van een taak en geeft zo inzicht in de relevante aspecten die aan de taak te onderscheiden zijn. focusgroep Focusgroepen zijn erop gericht om door middel van discussies informatie te verschaffen over belangrijke kenmerken van een functie/taak, over specifieke problemen die zich voordoen bij de uitvoering, en over specifieke eisen die aan de functionaris/taakuitvoerder gesteld moeten worden. Een aantal, verschillend samengestelde groepen van werknemers (een groep verantwoordelijke managers, twee of drie groepen taakuitvoerders die volgens de managers uitstekend functioneren en een groep taakuitvoerders die volgens de managers onvoldoende functioneren) discussieert over vragen die de analist hen voorlegt. critical incident Bij deze techniek gaat het niet om complete gedragspatronen maar om tamelijk geïsoleerde gedragingen naar aanleiding van kritieke voorvallen. Twee groepen inhoudelijke experts beschrijven onafhankelijk van elkaar specifieke voorvallen met daarbij de gevolgen die in relatie gebracht kunnen worden met een bepaalde wijze van taakvervulling. Tevens wordt gevraagd om aan te geven welke menselijke factoren de voorvallen gunstig of ongunstig beïnvloed kunnen hebben. Vervolgens worden de voorvallen geordend op een schaal van sterk positief naar sterk negatief. Elk schaalpunt moet door minstens één voorval beschreven worden. Ten slotte worden beide groepen bij elkaar gebracht en wordt elkaars werk besproken, verschillen toegelicht en opgelost. De techniek leidt uiteindelijk tot aanbevelingen in de trant van: ’...doe meer van die dingen en minder daarvan...’. simulatie Als de taak nog niet bestaat kan men proberen de taaksituatie na te bootsen en vervolgens te observeren hoe de taakuitvoering verloopt. Vooral ’live simulaties’ (acteurs spelen een rol waarop de taakuitvoerder moet reageren) en ’simulatoren’ (apparaten die een nauwkeurige nabootsing zijn van werktuigen of machines) komen hiervoor in aanmerking. Delphi Deze methode verdient aanbeveling als er goede reden is om aan te nemen dat de vakinhoudelijke experts grote meningsverschillen zullen hebben over de taakuitvoe- ring. De analist legt stellingen/vragen voor aan een anonieme groep van vakinhoude- lijke experts. Hun responsen worden geanalyseerd en omgewerkt tot nieuwe stellingen/vragen, die vervolgens opnieuw worden voorgelegd aan dezelfde groep. Deze cyclus wordt herhaald totdat de groep overeenstemming heeft bereikt. 78
  • 83. Uitvoeringsniveau: algemene richtlijnen 3B Productanalyse Op welke aspecten moeten resulterende producten beoordeeld worden? Het antwoord op deze vraag kan gevonden worden door het raadplegen van productievoorschriften, productieverantwoordelijken, NEN-ISO normen en kenners/experts. Productkwaliteiten kunnen meer of minder objectief van aard zijn. Vanzelfsprekend moet gestreefd worden naar het afleiden van productkwaliteiten die zo objectief mogelijk vastgesteld kunnen worden. Dit zijn kwaliteiten die gebaseerd zijn op fysieke (en dus meetbare) eigenschappen, zoals: afmeting, gewicht, volume, kleur, e.d. Echter, lang niet alle producten kunnen (alleen) op basis van hun fysieke eigenschappen beoordeeld worden. Denk bijvoorbeeld aan de kwaliteit van een gipsverband. Een heel belangrijk aspect daarvan is het comfort voor de drager. Maar dat is typisch een aspect dat objectief niet goed vast te stellen is. De kwaliteit wordt dan bepaald door inschattingen te maken. Door goede richtlijnen te geven voor het inschatten (in de vorm van beoordelingsvoorschriften) kan de subjectiviteit zoveel mogelijk beperkt blijven. 4 Selecteer en operationaliseer de beoordelingsaspecten Het uitvoeren van taak- en productanalyses kan leiden tot lange opsommingen van processtappen of productkenmerken. Niet alle stappen of kenmerken moeten per se als beoordelingsaspect in de toets worden opgenomen. Soms zijn processtappen dermate elementair dat elke leerling die zonder meer (correct) zal uitvoeren. Soms is de uitvoering ervan niet of slechts na veel inspanning waarneembaar te maken. Dergelijke stappen kunnen beter buiten de beoordeling gehouden worden. De selectie van productkwaliteiten kan gebaseerd worden op de vraag (aan deskundigen) welke productkenmerken het beste onderscheid maken tussen voldoende en onvoldoende producten. tabel 28 - Voorbeeld beoordelingsaspecten en beoordelingscriteria beoordelingsaspecten beoordelingscriteria infuusfles ophangen - infuusfles met de vulopening naar beneden gericht; - infuusfles zit in een passend mandje; infuusfles desinfecteren - vloeistof aanbrengen op het rubber van de vulope- ning; - tenminste één minuut laten inwerken; toedieningssysteem uitpakken - zonder contaminatie van de naalden toedieningssysteem aansluiten - eerst toedieningsslang met kamer op z’n kop; - dan toedieningsslang afklemmen; - vervolgens ontluchtingsslang met wattenfilter boven vloeistofniveau; etc. Ook de uitkomst van stap 6 en 7 heeft invloed op de selectie van beoordelingsaspecten. Bepaalde beoordelingsas- pecten kunnen komen te vervallen als gekozen wordt voor een toetsvorm die meer gericht is op cognitieve vaardigheden. Wanneer een selectie gemaakt is van de aspecten waarop een proces en/of product beoordeeld moet worden, is het zaak om deze beoordelingsaspecten om te zetten in beoordelingscriteria. De eis van objectiviteit gebiedt dat de beoordelingsaspecten zodanig geformuleerd zijn dat onafhankelijk van elkaar werkende beoordelaars de prestatie van een leerling identiek kunnen beoordelen. Aan deze eis kan niet altijd voldaan worden, maar in ieder geval dient de toetsconstructeur ernaar te streven om elk beoordelingsaspect in zo objectief mogelijke termen te formuleren. Het voorbeeld in tabel 28 maakt duidelijk wat de bedoeling is. 79
  • 84. Hoofdstuk 6 5 Bepaal de representativiteit van de vaardigheidstoets en kies een toetsvorm De keuze voor de toetsvorm is niet alleen afhankelijk van de te toetsen vaardigheid, maar ook van de beschikbare middelen en menskracht. Zo kan om uiteenlopende redenen gekozen worden om een bepaalde vaardigheid niet in de meest natuurgetrouwe setting te toetsen, maar met behulp van een simulatiepatiënt of alleen de cognitieve aspecten te toetsen met behulp van een potlood-en-papier-toets. Uiteraard heeft deze beslissing consequenties voor de uitspraken die op basis van de toetsresultaten kunnen worden gedaan. Daarom zal deze beslissing genomen moeten worden in het kader van de onderwijs- en examenregeling, dus op curriculumniveau. Op dat niveau kan men een afgewogen besluit nemen om sommige vaardigheden wel en andere vaardigheden niet in de volle omvang te toetsen. Het verloop van de constructieprocedure in stap 6 en 7 is afhankelijk van de gemaakte keuze in stap 5. Taaksituaties en scoringssystemen voor de meer representatieve toetsen worden anders ontworpen dan die voor minder representatieve toetsen. Bij dergelijke toetsen is de vaardigheid die getoetst moet worden gereduceerd van een complexe, geïntegreerde vaardigheid tot een cognitieve vaardigheid. Maar het gaat daarbij alleen om de zogeheten ’hogere orde’ cognitieve vaardigheden, zoals: besluitvorming en probleemoplossing. Dat zijn vaardigheden die niet alleen beoordeeld moeten worden op grond van een eindresultaat (een definitieve keuze, een oplossing) maar ook (en vooral) op grond van het denkproces dat daartoe geleid heeft. Omdat het maken van hardop-denk-protocollen voor toetsdoeleinden in het onderwijs niet haalbaar is, moet de registratie van het denkproces op een meer indirecte wijze plaatsvinden, bijvoorbeeld door de leerling te dwingen zijn keuzes of beslissingen in het denkproces schriftelijk vast te leggen. Voor de toetsconstructeur is het de kunst om de leerling een taaksituatie voor te leggen met daarin verweven verschillende momenten waarop beslissingen genomen moeten worden ten aanzien van de taakuitvoering, zonder dat leerlingen dit als erg kunstmatig gaan ervaren. De stappen voor de meer complexe toetsen zijn herkenbaar aan de A-codering, die voor de cognitieve toetsen aan de B-codering. 6A Ontwikkel een taaksituatie voor het beoordelen van gedrag en/of een product In de voorgaande stappen is helder geworden hoe bepaalde taken uitgevoerd moeten worden, waarop ze beoordeeld moeten worden en in hoeveel verschillende taaksituaties de vaardigheid gedemonstreerd zou moeten worden. Met die wetenschap kan nu aan het werk gegaan worden om de benodigde taaksituaties te beschrijven. Het gaat dan om een beschrijving van enerzijds de opdracht die leerlingen krijgen voorgelegd en anderzijds de omstandigheden, voorzieningen en voorwaarden zoals die gelden tijdens de taakuitvoering. Als getoetst wordt onder reële werkomstandigheden zijn er weinig of geen mogelijkheden om de omstandigheden waaronder de vaardigheid gedemonstreerd moet worden, te controleren. Verlichting, temperatuur, locatie, drukte, e.d. zijn gegeven en kunnen niet gemanipuleerd worden om de omstandigheden meer of minder gunstig te laten zijn. Onder gesimuleerde werkomstandigheden kan dit wel. De stress waaronder gewerkt wordt bij de Eerste Hulp, bijvoorbeeld, kan flink worden opgevoerd door een groot aantal verkeersslachtoffers tegelijk binnen te brengen. Onder voorzieningen vallen gereedschappen, apparatuur, instrumenten en materialen. Beschreven moet worden welke voorzieningen aanwezig moeten zijn, zo nodig gespecificeerd naar hoeveelheid, afmeting en kwaliteit. Ten slotte moeten de voorwaarden beschreven worden waaronder de uitvoering van de taak zijn beslag moet krijgen. Hierbij moet antwoord gegeven worden op vragen als: Is er een tijdslimiet? Hoeveel producten (al dan niet tastbaar) moeten minimaal vervaardigd worden? Is hulp inroepen toegestaan en zo ja, hoe vaak? Zijn er beperkingen aan de hoeveelheid te verbruiken materiaal? Welke veiligheidsmaat- regelen moeten beslist in acht worden genomen? 80
  • 85. Uitvoeringsniveau: algemene richtlijnen 6B Ontwikkel een taaksituatie voor het beoordelen van cognitieve vaardigheden Op basis van de resultaten van stap 1 tot en met 5 ontwikkelt de toetsconstructeur in deze fase een taaksituatie die een beroep doet op de te toetsen (cognitieve) vaardigheid van de leerling. In de onderwijskundige literatuur worden dergelijke toetsen vaak aangeduid met de term ’schriftelijke simulatie’. Het creëren van deze taaksituatie is een tijdrovend proces dat een groot beroep doet op de creativiteit van de toetsconstructeur en op diens vakinhoudelijke kennis. Dit stappenplan is niet de juiste plek om gedetailleerde aanwijzingen te geven voor de constructie van dergelijke taaksituaties. Er wordt volstaan met een opsomming van de belangrijkste stadia in het ontwikkelingsproces en met het verwijzen naar een uitvoerige handleiding. Ontwikkelingsstadia bij een toets voor hogere cognitieve vaardigheden – Formuleer een probleemsituatie. Het probleem moet afgestemd zijn op de vaardigheid die getoetst moet worden. Bij de keuze moet men proberen het midden te houden tussen triviale ’rechttoe rechtaan problemen’ en onwaarschijnlijk complexe problemen. – Maak een blauwdruk van het oplosproces. Als de leerling kennis heeft genomen van de probleemsituatie moet hij door het nemen van een reeks beslissingen proberen tot een oplossing te komen. Na elke beslissing die hij neemt kan de oplossing dichterbij komen of juist onwaarschijnlijker worden. In de blauwdruk worden de gebeurtenissen (naar aanleiding waarvan de leerling beslissingen moet nemen) ontworpen en hun sequentie bepaald. Het eindresultaat van deze fase is een schema waarin tussen probleemsituatie en oplossing verschillende ’oplosroutes’ zichtbaar zijn. De oplosroutes verschillen van elkaar in de beslissingen die achtereenvolgens genomen zijn. – Werk de oplosroutes uit. Alle mogelijke oplosroutes, ook die welke niet tot een correcte oplossing leiden, moeten in detail worden uitgewerkt. Dit betekent dat de gebeurtenissen naar aanleiding waarvan de leerling moet reageren worden uitgeschreven evenals de verschillende reacties waaruit de leerling kan kiezen en de terugkoppeling die gegeven moet worden (in termen van het gevolg van de reactie van de leerling). – Maak een stroomdiagram. Het verloop van de interactie tussen toets en leerling moet schematisch worden weergegeven in een stroomschema. Op basis van dit stroomschema kan de toets geprogrammeerd worden voor gebruik op een computer. – Ontwerp en controleer het programma. Zodra het programma in een eerste versie beschikbaar is, moet het uitvoerig getest worden op ’bugs’ (fouten in het programma) waarna de definitieve versie vervaardigd kan worden. 7A Ontwikkel de beoordelingslijst Een beoordelingslijst bestaat uit een verzameling aspecten die door de observator worden gemeten. Deze beoordelingsaspecten worden geoperationaliseerd door hieraan criteria te verbinden. Het zijn doorgaans de criteria die als items in de beoordelingslijsten zijn opgenomen. Hierdoor worden de beoordelingslijsten ook wel criterialijsten genoemd. Het kan echter ook voorkomen dat criteria niet in de beoordelingslijsten zijn geëxpliciteerd. Het is dan wel noodzakelijk om de beoordelingsaspecten tijdens een beoordelaarstraining te verduidelijken (zie bij stap 10). Proces- en/of product-beoordeling Bij vaardigheidstoetsing kan een vaardige taakuitvoering op drie verschillende manieren worden vastgesteld, namelijk door beoordeling van: 1 het proces, 2 het product of 3 beide. 81
  • 86. Hoofdstuk 6 1 Wanneer de vaardigheid direct kan worden geobserveerd, ligt het accent op het meten van het proces van de taakuitvoering. Een voorbeeld is de meting van de vaardigheid om een patiënt te katheteriseren. 2 Voor een beoordeling van het product van de vaardigheid kan worden gekozen als er meerdere varianten van de taakuitvoering mogelijk zijn of wanneer de procedure niet belangrijk is. Dit laatste is bijvoorbeeld het geval wanneer de vaardigheid bestaat uit een creatief proces (bijv. het componeren van een muziekstuk). 3 Product en proces kunnen ook beide worden gemeten. Een voorbeeld hiervan is het aanleggen van een wonddrukverband. Zowel de procedure van de aanleg van het verband (het proces) als het aangelegde verband (het product) kan worden gemeten. De beoordelingslijsten die bij de drie genoemde manieren van meten worden gebruikt bevatten respectievelijk procesitems, productitems en een combinatie van proces en productitems. Afhankelijk van de wijze waarop de vaardigheid wordt getoetst, kunnen dus verschillende typen items in de observatielijsten worden onderscheiden met als resultaat dat het karakter van de lijsten verschillend is. Detaillering Wat betreft de detaillering kunnen beoordelingslijsten worden gerangschikt van zeer globaal tot zeer gedetailleerd. Een globale beoordelingslijst bevat doorgaans minder items dan een gedetailleerde lijst (die over hetzelfde onderwerp gaat). Verder verschillen de items uit beide lijsten van elkaar: een item in een globale lijst heeft het karakter van een beoordelingsaspect, waarbij het criterium vaag is omschreven (bijv. een handeling moet adequaat zijn uitgevoerd) maar bekend is bij de observator (op basis van deskundigheid of op basis van een training). Items van gedetailleerde lijsten zijn duidelijk omschreven criteria. Er kunnen verschillende redenen zijn om voor een gedetailleerde beoordelingslijst te kiezen. – Er wordt op die manier nauw aangesloten bij de stappen die te onderscheiden zijn bij de uitvoering van een gestandaardiseerde ’variant’ van de vaardigheid die centraal staat tijdens de instructie. Zo wordt bijvoorbeeld in een medisch curriculum een hartonderzoek volgens één vaste procedure aangeleerd en worden varianten (eventueel) in de praktijk geleerd. – Een tweede reden, die voortvloeit uit de vorige, is het gegeven dat door het gebruik van gedetailleerde lijsten de onderwijsdoelstellingen duidelijk worden gemaakt. Leerlingen weten beter wat van hen wordt verwacht. – Een gedetailleerde lijst biedt verder de mogelijkheid om specifieke feedback te geven. Met name voor de patiëntsimulatie die gericht is op diagnosticeren kan dit van belang zijn. – Tot slot, maar niet in de laatste plaats, leidt het gebruik van gedetailleerde lijsten tot objectivering van de beoordeling. De operationalisatie van de vaardigheid die wordt gemeten is specifieker en dit geeft de observator meer duidelijkheid over de aspecten waarop de leerling moet worden beoordeeld. De observator krijgt minder interpretatievrijheid en is dus objectiever. Er zijn ook argumenten die pleiten tégen het gebruik van een uitgebreide analytische beoordelingslijst: – Een analytische beoordeling wordt door deskundige beoordelaars vaak als een strak keurslijf ervaren wat afbreuk kan doen aan de acceptabiliteit. – Leerlingen kunnen in de verleiding komen om voorafgaand aan de toetsing de gedetailleerde beoordelingslijst uit het hoofd te leren. Dit fenomeen wordt wel omschreven als strategisch gedrag dat het gevolg is van transparantie. – Een derde punt van kritiek is het feit dat in de praktijk niet altijd gewerkt wordt op de systematische en gedetailleerde wijze zoals wordt gesuggereerd met een gedetailleerde beoordelingslijst. Naarmate een leerlingen zijn gevorderd in de opleiding en meer praktijkervaring opdoen, moet er ook aandacht worden besteed aan de individuele variatie bij de uitvoering van vaardigheden. – Als laatste kritiekpunt wordt het gevaar voor trivialiteit genoemd. Ook hier geldt dat dit met name van toepassing is tijdens toetsing van de gevorderde leerlingen. Het klaarleggen van materiaal is 82
  • 87. Uitvoeringsniveau: algemene richtlijnen essentieel bij een lichamelijk onderzoek, maar is voor gevorderde leerlingen zo’n vanzelfsprekend- heid bij de taakuitvoering dat het beter is dat het wordt weggelaten in de beoordeling. Moeten vaardigheden nu op een globale of analytische wijze worden beoordeeld? Erg veel onderzoek is er niet gedaan waarbij een directe vergelijking van analytische en globale beoordelingslijsten centraal stond. Er lijkt weinig verschil te bestaan tussen analytische en globale beoordelingen wanneer gekeken wordt naar de totale toetsbetrouwbaarheid en de inhoudsvaliditeit. Dat zou dus pleiten voor het gebruik van meer globale beoordelingslijsten aangezien ook de voorkeur van observatoren uitgaat naar minder gedetailleerde lijsten. Toch is een nuancering hier op zijn plaats. Ondanks het feit dat door een hoge mate van detaillering de acceptabiliteit en de hanteerbaarheid van een beoordelingslijst vermindert, kan in bepaalde gevallen een gedetailleerde lijst erg nuttig zijn. Bij diagnosticering is een analytische lijst gewenst omdat uitvoerige feedback mogelijk is. Wanneer observatoren geen vakdeskundigen zijn is detaillering noodzakelijk in verband met de objectiviteit van de meting. Verder is in het begin van de opleiding of bij het aanleren van nieuwe vaardigheden een analytische beoordeling onoverkomelijk omdat veel aspecten van een vaardigheid pas zijn aangeleerd en dus ook getoetst moeten worden. Het is daarom ook niet verwonderlijk dat de mate van detaillering bij het beoordelen gedurende de opleiding varieert van zeer gedetailleerd in de beginfase tot globaal in de eindfase. Schaalvorm Naast de detaillering van de beoordelingslijst (d.w.z. het aantal items) is de wijze waarop de items worden gescoord een kenmerkend aspect van de vorm van de beoordelingslijst. Dit aspect noemt men wel de schaalvorm. Er kunnen drie schaalvormen worden onderscheiden: – de checklist (inventarisatielijst); – de ratingscale (waarderingsschaal); – de productscale (modellenreeks). Checklists worden gebruikt om te inventariseren welke aspecten van het uitvoeringsproces vertoond worden of om de aan- c.q. afwezigheid van bepaalde kwaliteitskenmerken in een product te signaleren (zie tabel 29 voor een voorbeeld van een (onderdeel uit een) checklist voor een verpleegkundige taak). Waar een voorgeschreven volgorde van stappen in de taakuitvoering van belang is, moeten afwijkingen daarvan op eenvoudige en inzichtelijke wijze (d.w.z. dat achteraf moeiteloos gereconstrueerd moet kunnen worden welke stappen onderling verwisseld zijn) op de checklist genoteerd kunnen worden. tabel 29 - Voorbeeld van een checklist ja nee n.v.t. ......... bepaalt bloeddrukwaarde - plaatst membraam in elleboogplooi - laat manchet met een snelheid van 2 à 3 mmHg/s leeglopen - laat manchet ononderbroken leeglopen - leest de stand van de kwikkolom op ooghoogte af ......... Bij een ratingscale wordt een component van een proces of product niet alleen op aan- of afwezigheid gecheckt, maar wordt er tevens een waardeoordeel aan toegekend. Deze oordelen liggen op een continuüm van goed naar slecht, van hoog naar laag, etc. Ratingscales kunnen op zeer veel verschillende manieren worden vormgegeven. In de praktijk wordt vaak gebruikgemaakt van de grafische ratingscale. 83
  • 88. Hoofdstuk 6 Kenmerkend voor zo’n schaal is dat elke component van een proces of product beoordeeld wordt door een checkmark te plaatsen op een horizontale lijn. Over het algemeen worden op deze lijn tussen drie en zeven posities (ankers) gemarkeerd, die al dan niet gedetailleerd omschreven zijn (zie tabel 30). tabel 30 - Voorbeeld van een ratingscale De afwerking van het product is: onacceptabel gebrekkig vrij van gebreken excellent De beoordelaar mag echter op elke plek een checkmark zetten en is dus niet verplicht om voor een van de omschreven posities te kiezen. Gedetailleerde omschrijving van de ankers is tijdrovend en daarom alleen aan te bevelen in situaties waarin de kans groot is dat de gespecificeerde gedragingen of eigenschappen inderdaad geobserveerd kunnen worden. Naarmate de test levensechter is, wordt die kans echter kleiner als gevolg van de geringere standaardisatie en daardoor gereduceerde voorspelbaarheid van het te beoordelen gedrag. Over het optimale aantal ankers bestaan veel verschillende opvattingen. Enkele overwegingen daarbij luiden als volgt. Bij het beoordelen van vaardigheden is een gedetailleerde uitspraak in de vorm van een cijfer tussen 1 en 10 een weinig realistisch streven. De over het algemeen lage betrouwbaarheid staat een dergelijke nauwkeurigheid niet toe; er is in feite sprake van een schijnnauwkeurigheid. Het simpele onderscheid voldoende-onvoldoende lijkt dan een aantrekkelijk alternatief, ware het niet dat niet zelden te weinig informatie voorhanden is om de keuze tussen deze twee te maken. Tussen beide uitersten zou een tussencategorie ’twijfelachtig’ moeten komen om de beoordelaar te behoeden voor een impasse en een vervolgens waarschijnlijk arbitraire keuze. Om prestaties die duidelijk boven het gemiddelde liggen toch als zodanig te kunnen waarderen, dient de driepuntsschaal met een categorie ’goed’ uitgebreid te worden tot een vierpuntsschaal. Dit biedt leerlingen de gelegenheid om zich enerzijds te onderscheiden en anders compensatiepunten te vergaren. Voor het evenwicht en de symmetrie zou dan ook een categorie ’slecht’ toegevoegd kunnen worden. Bindende adviezen zijn hierover in feite dus niet te geven. In hoofdstuk 6, waarin concrete voorbeelden van bestaande beoordelingsinstrumenten de revue passeren, zullen dan ook diverse varianten te vinden zijn. Het is echter wel aan te bevelen dat de docenten onderling overeenstemming te bereiken over de te hanteren schaal. Dit bevordert de communicatie tussen de verschillende docenten en tussen docenten en leerlingen (iedereen weet wat ’goed’ betekent). De productscale tot slot is een instrument dat alleen voor de beoordeling van tastbare producten gebruikt wordt. De beoordelaar krijgt daarbij de beschikking over een serie producten die verschillende kwaliteiten representeren. Het gebruik van de schaal behelst dat de beoordelaar het te beoordelen product vergelijkt met elk van de geschaalde producten, totdat er sprake is van een ’match’. Het beoordeelde product krijgt dan de waarde toegekend van het geschaalde product waarop het het meest lijkt. Anders dan bij checklists of ratingscales zijn productbeoordelingen op basis van productscales globaal van aard. Globale beoordeling kan een oplossing zijn als het moeilijk is om aan een product meer, onafhankelijke aspecten te onderscheiden die de kwaliteit beïnvloeden. Productscales worden bijvoorbeeld gebruikt in het preklinisch vaardigheidsonderwijs in de tandheelkunde om de afwerking van restauraties (vullingen) in plastic tanden of kiezen beter te kunnen beoordelen. 84
  • 89. Uitvoeringsniveau: algemene richtlijnen Weging Het laatste punt waarover een besluit moet worden genomen is de weging: moet elk criterium evenveel punten krijgen of zijn er criteria die een groter gewicht moeten krijgen dan andere? In sommige gevallen kan besloten worden om criteria te wegen, om redenen van aanvaardbaarheid van de toets: gewogen schema’s wekken een zorgvuldiger indruk dan ongewogen schema’s. In het algemeen blijkt echter dat weging vrijwel niet van invloed is op het eindcijfer: alle criteria kunnen evenveel punten krijgen. Na het vaststellen van het maximumaantal punten per beoordelingscriterium moet worden aangegeven, indien mogelijk, hoe het totaal aantal punten verdeeld moet worden: wanneer krijgt een leerling een maximumscore van bijvoorbeeld 3 punten en wanneer krijgt hij 0, 1 of 2 punten? Bij sommige handelingen is het niet mogelijk onderscheid aan te brengen. Als er een beoordelingscriteri- um is zoals ’de leerling sluit de bedgordijnen’ dan is dat alleen met ja of nee te scoren. Dat is dan dus een scoring van 0 of de maximale score. Ten slotte worden ook wel minpunten toegekend: voor het ten onrechte of ten overvloede uitvoeren van een bepaalde handeling worden strafpunten gegeven. 7B Ontwikkel een scoringsvoorschrift Er moet duidelijk op papier komen te staan op welke manier de beoordelaars met de beoordelingslijst moeten omgaan. In zo’n scoringsvoorschrift moeten aandacht besteed worden aan: – het aantal scorepunten per item; – de score van gedeeltelijke juiste handelingen; – het eventuele verschil tussen een niet-uitgevoerde en fout-gevoerde handeling; – het al dan niet gelijktijdig observeren en scoren; – de wijze waarop moet worden omgegaan met verbetering van eventueel eerder gemaakte fouten; – de mogelijkheid van compensatie van samenhangende handelingen die tezamen één item vormen. 8 Bepaal de cesuur Cesuurbepaling kan in principe op twee manieren: disjunctief en conjunctief. Bij de disjunctieve methode wordt een kritische score vastgesteld door voor elk beoordelingsaspect afzonderlijk een minimaal te behalen score te bepalen. Bij de conjunctieve methode wordt op basis van het minimale en maximale aantal te behalen punten een kritische score vastgesteld, zonder dat er verdere restricties geformuleerd worden over de wijze waarop die score tot stand komt. Een lage score op een bepaald aspect kan dan gecompenseerd worden door een hoge score op een ander aspect. 9 Schrijf een handleiding voor de testleider De handleiding moet informatie bevatten over de voorbereidingen die getroffen moeten worden, de handelwijze tijdens de afname en de wijze van scoring na de afname. Aanwijzingen hiervoor staan vermeld in hoofdstuk 8. 10 Train beoordelaars in het gebruik van het beoordelingsinstrument Beoordelingsinstrumenten zijn zelden of nooit dermate duidelijk in de formuleringen van hun criteria, dat elke beoordelaar hetzelfde daaronder verstaat. Het gevolg is dat beoordelaars de criteria gaan interpreteren en daarmee subjectiviteit brengen in hun beoordeling. Beoordelaarstraining heeft tot doel de interpretatie van de criteria hetzelfde te laten zijn voor elke beoordelaar. Diverse studies hebben laten zien dat het mogelijk is (in ieder geval voor de korte termijn) om de interbeoordelaarsovereenstemming te verhogen door training van beoordelaars. De rol van observator kan door verschillende personen worden vervuld. Doorgaans zijn het vakinhoudelijk deskundigen die de kandidaat observeren en beoordelen. Bij een patiëntsimulatie kan ook degene die de patiënt speelt voor de meting van de kandidaten worden ingezet. 85
  • 90. Hoofdstuk 6 In het voorgaande wordt steeds gesproken over beoordelaars. Volgens de formule op bladzijde 9 zou dit betekenen dat er niet alleen sprake is van een meting, maar ook van waarderen. In feite is dat ook zo: vaak moet al op itemniveau een waardeoordeel (goed vs. fout) uitgesproken worden. Uiteraard wordt achteraf een oordeel gegeven over de gehele vaardigheid en wordt daarbij aan de waardering een (didactische) beslissing gekoppeld. 86
  • 91. 7 Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.1 Gesloten vragen Een gesloten vraag is een vraagtype waarbij de leerling moet kiezen uit een beperkt aantal antwoordmo- gelijkheden die vooraf gegeven zijn. Een gesloten vraag bestaat uit een stam en een aantal alternatieven. Alleen in de stam wordt de vraag of het probleem gesteld. In de alternatieven bevinden zich naast één juist antwoord (= de sleutel) een of meer afleiders. Een voorbeeld van een vierkeuzevraag: Welk orgaan breekt alcohol af? (stam) A bijnier (afleider) B dunne darm (afleider) @ C lever (juiste antwoord of sleutel)1 D maag (afleider) Niet elke gesloten vraag hoeft vier alternatieven te hebben. Het minimum is uiteraard twee. Er is dan meestal sprake van een waar/onwaar-vraag of ja/nee-vraag. Over het algemeen wordt zes alternatieven als het maximum gezien: de vraag dreigt dan onoverzichtelijk en minder efficiënt te worden. 7.1.1 Vraagformulering De vraag kan op verschillende manieren in de stam geformuleerd worden. Er kan onderscheid worden gemaakt in een positief geformuleerde stam en een negatief geformuleerde stam. – Positief geformuleerd. Voorbeeld: Welke van onderstaande bestanddelen van de voeding zijn belangrijk voor de opbouw van lichaamscellen? @ A eiwitten B koolhydraten C vetten D vitamines – Negatief geformuleerd. Wanneer de stam negatief geformuleerd wordt, verdient het aanbeveling de leerling hier door de lay- out op te wijzen, bijvoorbeeld door negatieve woord te onderstrepen of in hoofdletters te zetten. Een negatieve stam zou anders wel een strikvraag kunnen zijn. In het algemeen is de positieve vorm te verkiezen. Door bij onderstaand voorbeeld te vragen naar de 2e lijn van de gezondheidszorg wordt de vraag op eenvoudige wijze een positieve formulering. Voorbeeld: 1 De sleutel wordt aangegeven door een @-teken voor het betreffende alternatief. 87
  • 92. Hoofdstuk 7 Welk beroep behoort NIET tot de 1e lijn van de gezondheidszorg? A huisarts @ B specialist C wijkverpleegkundige 7.1.2 Vraagtypen Daarnaast is een indeling te maken naar vraagtypen: – een directe vraag; – een zin met weglating van het einde; – een zin met weglating in het midden; – een zin met dubbele weglating in het midden (invulvraag); – een enkelvoudige stellingvraag (waar/onwaar- of ja/nee-vraag); – een dubbele stellingvraag. – Directe vraag Deze vraagvorm verdient in het algemeen de voorkeur, omdat de constructeur gedwongen wordt het probleem te omschrijven, waardoor de vraag voor de leerling duidelijk wordt. Voorbeeld: Waartoe leidt, volgens Erikson, een positieve oplossing van het kernconflict in de kleutertijd? @ A initiatief B vertrouwen C vlijt D zelfstandigheid – Zin met weglating van het einde Bij deze vraagvorm moet u er goed op letten dat het probleem in de stam duidelijk wordt. Het goede alternatief zou de leerling moeten kunnen geven zonder dat de alternatieven zichtbaar zijn. Voorbeeld: Volgens de psychoanalytische theorie wordt de basis van de persoonlijkheid gevormd door @ A driften. B het geweten. C identificatie. D onbewuste conflicten. – Zin met weglating in het midden Voorbeeld: Wanneer een verpleegkundige een probleemgesprek voert met een patiënt, is er sprake van ... communicatie. A horizontale, intentionele B horizontale, niet-intentionele @ C verticale, intentionele D verticale, niet-intentionele 88
  • 93. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm – Zin met dubbele weglating in het midden (invulvraag) Voorbeeld: De linker kamer van het hart heeft een (1) ... wand dan de rechter kamer en de linker kamer heeft ten opzichte van de rechter kamer een (2) ... slagvolume. @ A (1) dikkere --- (2) gelijk B (1) dikkere --- (2) groter C (1) dunnere --- (2) gelijk D (1) dunnere --- (2) groter – Enkelvoudige stellingvraag (waar/onwaar-vraag of ja/nee-vraag) Een ja/nee-vraag bestaat uit een bewering die beoordeeld moet worden als waar of onwaar, goed of fout, mee eens of mee oneens, enzovoort. Het grootste voordeel van dit type vraag is dat de beantwoording heel weinig tijd vraagt van de leerling en dus dat er in de toegemeten tijd veel van beantwoord kunnen worden. Dit komt de dekking van de leerstof ten goede. Geheel ten onrechte staat dit type vraag bekend als eenvoudig te construeren: je pakt een bewering uit een syllabus of studieboek en klaar is Kees. Eventueel wordt er iets aan die bewering veranderd om hem ’onwaar’ te maken. Deze handelwijze moet om twee redenen worden ontraden. In de eerste plaats omdat op deze wijze het studiegedrag gestuurd wordt in de richting van ’van buiten leren’. In de tweede plaats omdat beweringen buiten de context vaak niet ondubbelzinnig waar of onwaar zijn. Het is overigens beslist niet waar dat ja/nee-vragen alleen geschikt zouden zijn voor het evalueren van reproductieve operaties; ook inzicht in de stof kan ermee vastgesteld worden zoals onderstaand voorbeeld kan aantonen (voorwaarde is dat in de les of in de studieteksten het betreffende voorbeeld niet behandeld is, maar dat alleen aandacht is besteed aan de eigenschap van zout om vocht vast te houden). Voorbeeld: Als een persoon met hoge bloeddruk een streng natriumbeperkt dieet krijgt voorgeschreven, is de kans groot dat hij meer gaat urineren. ja / nee Dit is in feite een tweekeuzevraag, waarbij overigens in de stam geen vraag wordt gesteld. Voor de gehele toets wordt volstaan met de instructie ’Geef van onderstaande uitspraken aan of ze waar of onwaar zijn.’ Voorbeeld: In alle slagaders stroomt het bloed van het hart af. @ A waar B onwaar Het is aan te bevelen termen als ’altijd’, ’nooit’, ’alleen’ en ’alle’ in dergelijke stelling te vermijden. Stellingen die deze termen bevatten zijn meestal onjuist. Bovenstaand voorbeeld vormt daarop een uitzondering. – Tweestellingenvraag Dit type vraag moet voldoen aan de volgende eisen (naast de eis die voor de enkelvoudige stellingvraag geldt): . De twee in de stam genoemde stellingen moeten verband met elkaar houden. Als dit niet het geval zou zijn kunnen er beter twee afzonderlijke vragen over gesteld worden. . De stellingen mogen elkaar niet uitsluiten, zodat alle vier de standaardalternatieven mogelijk zijn. Deze luiden: A I en II zijn juist. B Alleen I is juist. C Alleen II is juist. D I en II zijn niet juist. 89
  • 94. Hoofdstuk 7 . Vóór de stellingen moet een instructie voor de leerlingen staan, bijv. ’Beoordeel de juistheid van onderstaande stellingen.’ Voorbeeld van een tweestellingenvraag: Beoordeel de juistheid van onderstaande stellingen. I Het voordeel van een bedzeil is dat het matras beschermd wordt tegen inwerking van vocht. II Het nadeel van een bedzeil is dat het de kans op doorliggen bij de patiënt verhoogt. @ A I en II zijn juist. B Alleen I is juist. C Alleen II is juist. D I en II zijn niet juist. – Voorbeeld van een, twee of meer uitspraken vraag (cluster): Welke van onderstaande vormen van incontinentie kunnen zich als gevolg van een CVA ontwikkelen? 1 overloop-incontinentie 2 stress-incontinentie 3 urge-incontinentie A alleen 1 en 2 @ B alleen 1 en 3 C alleen 2 en 3 D alle drie – Voorbeeld van een herordeningsvraag: De behoeftenhiërarchie van Maslow kan uitgebeeld worden als een trap. In welke volgorde, van laag naar hoog, staan de onderstaande behoeften in deze hiërarchie? 1 liefde 2 veiligheid 3 zelfrespect 4 zelfverwerkelijking A 1-2-3-4 B 1-2-4-3 @ C 2-1-3-4 D 2-1-4-3 Een minder geslaagd type wordt gevormd door het volgende voorbeeld: Hieronder staan de delen van het darmkanaal van de mens vermeld. 1 dikke darm 2 dunne darm 3 endeldarm 4 maag 5 slokdarm 6 twaalfvingerige darm In welke volgorde doorloopt het voedsel van de mens deze delen? A 2, 1, 3, 5, 4, 6 B 4, 5, 6, 2, 1, 3 C 5, 4, 6, 2, 1, 3 D 6, 5, 4, 1, 2, 3 Voor het beantwoorden van deze vraag hoeft de leerling alleen te weten dat het voedsel als eerste door de slokdarm gaat! Een open vraag verdient in dit geval de voorkeur. 90
  • 95. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.1.3 Algemene eisen aan gesloten vragen – Relevantie. Hierbij gaat het om het beantwoorden van de vraag: ’In hoeverre is het item relevant ten opzichte van wat men met het item wil meten?’. De belangrijkste zonden tegen deze eis zijn: . het item is triviaal; . het is uitsluitend een leesoefening; . het is een stokpaardje van de docent; . het is een strikvraag. – Objectiviteit. Een item wordt als objectief beschouwd als verschillende experts allen hetzelfde alternatief als het goede antwoord aanwijzen. De belangrijkste zonden tegen deze eis zijn: . er wordt gevraagd naar de mening van de leerling; . meer alternatieven zijn juist; . de meningen van deskundigen zijn verdeeld. – Specificiteit. Een item wordt specifiek genoemd als iemand het betreffende onderwijs niet genoten heeft, het item slechts door raden op kan lossen. De belangrijkste zonden tegen deze eis zijn: . woorden als ’nooit’, ’altijd’, ’alleen’, ’alle’ wijzen vrijwel altijd in een bepaalde richting, . het juiste alternatief in wijkt lengte af van de andere alternatieven; . de items zijn afhankelijk; . het juiste alternatief staat systematisch op een bepaalde plaats staat. – Efficiëntie. Een item is efficiënt, als het relevante informatie verschaft, terwijl de tijd die de leerling nodig heeft om het te kunnen beantwoorden zo kort mogelijk is. De belangrijkste zonden tegen deze eis zijn: . er komen ingewikkelde zinsconstructies in voor; . er worden onbekende woorden vermeld; . de aansluiting tussen de stam en de alternatieven is grammaticaal niet juist. – Moeilijkheid. Is het item, gezien het doel van de toets, te moeilijk of te gemakkelijk? Er moet in elke toets enige variatie in moeilijkheidsgraad van de opgaven zijn om een goed beeld te krijgen van de prestaties van de leerlingen, maar extreem gemakkelijke of moeilijke vragen hebben weinig zin. De belangrijkste zonden tegen deze eis zijn: . sommige vragen zijn zo gemakkelijk dat alle leerlingen het goede antwoord weten, . sommige vragen zijn zo moeilijk dat geen enkele leerling het goede antwoord weet. 7.1.4 Relevante aspecten om aandacht aan te besteden bij standaard–meerkeuzevragen – Inhoudelijke aspecten. . Lees en beantwoord de vraag zonder naar de sleutel te kijken. . Als het antwoord fout is, ligt dat dan aan het item? Controleer hiervoor of: 91
  • 96. Hoofdstuk 7 a er wel een goed antwoord is; b er misschien meer goede antwoorden zijn; c de vraag onduidelijkheden bevat, d de alternatieven onduidelijkheden bevatten. . Voer de controle b t/m d ook uit als het antwoord goed was. . Is de vraag belangrijk genoeg om te stellen? (Raakt hij aan hoofdzaken, past hij in de toetsmatrijs?) . Meet de vraag ook wat de toetsconstructeur wilde meten? (Is het doel duidelijk?) Formuleer de stam doelgericht. Ga ook achteraf na of de inhoud van de vraag past bij de doelstelling en of de vaardigheid overeenkomt met de doelstelling. . Is de vraag alleen te beantwoorden op basis van vakinhoudelijke kennis? – Toetstechnische aspecten Ten aanzien van de stam kunnen de volgende zaken opgemerkt worden: . Bevat de stam een duidelijke vraag of opdracht? . Bevat de stam voldoende informatie om het item te beantwoorden? Omschrijf het referentiekader van de vraag zo duidelijk mogelijk. De leerling moet weten vanuit welke invalshoek geantwoord moet worden. . Bevat de stam geen overbodige informatie? Neem in de stam alleen noodzakelijke informatie op. Overbodige informatie verlengt de leestijd onnodig. Bovendien is overbodige leestijd voor de leerling verwarrend: het is niet duidelijk of de informatie gebruikt moet worden bij de oplossing van het probleem. Een surplus aan informatie is alleen gewenst wanneer het de bedoeling is dat de leerling uit een veelheid van gegevens een selectie moet maken die nodig is om het probleem op te lossen. De doelstelling die getoetst wordt zal bijvoorbeeld zijn: de leerling kan selecteren. . Is de stam precies, beknopt en grammaticaal juist geformuleerd? Formuleer de stam helder en ondubbelzinnig. Voorkom dat de probleemstelling voor meer interpretaties vatbaar is. . Als de stam een ontkenning bevat, is die dan onderstreept of gecursiveerd? . Bevat de stam geen dubbele ontkenning? Ten aanzien van de alternatieven moet men rekening houden met de volgende zaken: . De meest bekende meerkeuzevorm is die van een stam met vier alternatieven (de vierkeuze- vraag). Het is echter ook heel goed mogelijk een meerkeuzevraag met minder of meer alternatieven te construeren (tot zes alternatieven zijn de vragen te verwerken tot toets- en itemanalyses). Ook is het niet noodzakelijk dat een toets bestaat uit allemaal meerkeuzevragen met eenzelfde aantal alternatieven. . Slechts één van de alternatieven mag juist zijn. . De alternatieven moeten zo duidelijk zijn dat de essentiële verschillen ertussen goed uitkomen. . Stel altijd eerst het juist alternatief op en pas daarna de afleiders. . De afleiders moeten geloofwaardig zijn voor die leerlingen die de stof niet goed beheersen. . Gebruik als afleiders ook leermoeilijkheden en veel voorkomende vergissingen. . Rangschik de alternatieven in een logische volgorde, zoals opklimmende getalsgrootte of alfabetische volgorde, om te zorgen dat het goede antwoord op een willekeurige plaats komt. . Alle alternatieven van een item moeten overeenkomen in uitgangspunt, grammaticale structuur en algemene indruk (lengte!). . Het alternatief ’geen van bovengenoemde’ of ’alle bovengenoemde’ is niet wenselijk, omdat dit meestal onjuist is. . Wanneer de verschillen tussen de alternatieven groot zijn, is het item meestal gemakkelijk. Het item kan moeilijker gemaakt worden door de verschillen tussen de alternatieven te verfijnen. 92
  • 97. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm . Er komen geen termen uit de stam terug in het goede alternatief. . In de afleiders staan geen woorden als ’altijd’ of ’nooit’. . Tussen de stam en een of meer afleiders ontstaat geen dubbele ontkenning. . De alternatieven sluiten elkaar niet uit. . De alternatieven sluiten grammaticaal en inhoudelijk goed aan op de stam. 7.1.5 Correctievoorschrift Bij elke toets met gesloten vragen moet een correctievoorschrift worden opgesteld dat bestaat uit : – een beoordelaarsinstructie, waarin algemene richtlijnen staan voor de beoordeling. Voorbeeld: . Voor ieder juist antwoord wordt 1 punt toegekend. . Wanneer geen alternatief als juist is aangegeven of meer alternatieven zijn gekozen, worden geen punten toegekend. – de sleutel. Dit is een lijst met een overzicht per vraag van het juiste alternatief. Een apart aspect bij het scoren van gesloten vragen is de onzekerheid die er is over het al dan niet raden van het juiste antwoord. Er bestaan verschillende manieren om daarmee om te gaan: – gedwongen raden: een niet beantwoorde vraag wordt fout gerekend, zodat leerlingen altijd iets zullen invullen. Een juist antwoord levert 1 punt op, een fout of niet beantwoorde vraag levert 0 punten op. Bij het bepalen van de cesuur moet de docent er rekening mee houden dat een leerling die niets weet alleen door blind gokken een bepaald percentage van de vragen goed kan beantwoorden. Bij vierkeuzevragen is dat 25%, bij tweekeuzevragen zelfs 50%. Vanzelfsprekend moet hiermee bij het vaststellen van de testlengte rekening worden gehouden. – een zekerheidsscore: naast het aankruisen van het (vermoedelijk) juiste alternatief moet de leerling ook aangeven of hij het antwoord zeker weet. Een goed antwoord waarvan de leerling zeker is, levert dan 2 punten op, terwijl een goed antwoord dat de leerling kennelijk gegokt heeft slechts 1 punt oplevert. Voor foute antwoorden geldt dan: als er gegokt is 0 punten en als de leerling dacht zeker te zijn van het antwoord −1 punt. Dit systeem levert een vrij complexe scoring op en wordt dan ook weinig toegepast. – niet gokken: leerlingen krijgen de instructie om vragen waarop zij het antwoord niet weten open te laten, aangezien een fout antwoord −1 punt oplevert en een niet beantwoorde vraag 0 punten. Hoewel dit systeem pedagogisch wellicht de voorkeur verdient (het voorkomt gokgedrag), maar doordat verschillende leerlingen bij de beantwoording verschillende strategieën zullen hanteren, zijn de toetsresultaten vaak moeilijk onderling te vergelijken. 7.1.6 Screening Na het opstellen van de vragen en het correctievoorschrift volgt het controleren van de toets. Hieronder staat puntsgewijs aangegeven waarop gelet moet worden. – Taalgebruik. . De vraag is grammaticaal juist geformuleerd. . De zinsconstructies zijn eenvoudig (zonder bijzinnen). . De vraag bevat geen dubbele ontkenning. . De woordkeus is eenvoudig. . De vraag is niet onnodig negatief gesteld. . De formulering is ondubbelzinnig. . Er bestaat geen gevaar dat door klemtoonverschuiving de vraag van betekenis verandert. 93
  • 98. Hoofdstuk 7 – Informatie. . De vraag bevat voldoende informatie om het antwoord te kunnen geven. . De informatie en de probleemstelling zijn duidelijk te onderscheiden. – Relevantie en inhoudsvaliditeit. . De vraagvorm is geschikt voor de te toetsen doelstelling. . De vraag is geen strikvraag (het suggereren van een probleem dat er niet is). . De vraag bevat geen onbedoelde hints voor het juiste antwoord. . De vraag bevat geen onbedoelde hints voor het juiste antwoord van een andere vraag. . De gegevens die vermeld worden zijn allemaal van belang voor het oplossen van de vraag. . Er wordt in de stam niet naar de mening van de leerling gevraagd. . De vraag bevat geen dubbele ontkenning. . De stam bevat geen overbodige informatie. . Er worden geen woorden als ’nooit’, ’alleen’, ’altijd’, ’alle’ gebruikt. . Het juiste alternatief is niet langer of korter dan de overige alternatieven. . De alternatieven staan in alfabetische volgorde. . Alle alternatieven sluiten aan op de stam (logisch of grammaticaal). . Er komen geen woorden uit de stam terug in het juiste alternatief. . De alternatieven sluiten elkaar niet uit. . De stam met alternatieven staat op één bladzijde. – Het gebruik van contextmateriaal. . De toelichting bij de afbeeldingen is duidelijk, kort en helder geformuleerd . Het gebruik van plaatjes, grafieken etcetera is functioneel. . De afbeeldingen zijn duidelijk en voorzien van korte toelichting. . Er wordt correct naar de afbeeldingen/bijlagen verwezen. – Presentatie/lay-out. . De vragen en vraagonderdelen zijn duidelijk van elkaar onderscheiden. . De nummering van de vragen is correct en inzichtelijk. . De algemeen geldende conventies wat betreft symboolgebruik, interpunctie en spelling zijn aangehouden. – Totaliteit van de toets. . De goede alternatieven zijn (zoveel mogelijk) random over de plaatsen a t/m d verdeeld . De items zijn onafhankelijk van elkaar: bevat het ene item geen cue voor het andere item? . Het hele item staat op dezelfde bladzijde. . De moeilijkheidsgraad als geheel komt overeen met de eisen. . De toets is een redelijke afspiegeling van de te toetsen doelstellingen. – Correctievoorschrift. . Er zijn beoordelaarsinstructies. . Van elke vraag is het juiste antwoord aangegeven. . Het antwoord zelf is eenduidig juist. . Het juiste antwoord is het enig juiste alternatief. 94
  • 99. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.2 Open vragen Een open vraag is een vraagtype waarbij een leerling het antwoord zelf moet formuleren. Bij open vragen hoort een correctievoorschrift of een beoordelingsschema. Een vast onderdeel van dit correctievoorschrift wordt gevormd door het antwoordmodel. Open vragen kunnen op verschillende manieren worden ingedeeld: – naar de lengte van het antwoord – naar complexiteit van het antwoord – naar de verlangde gedragscategorie 7.2.1 Vraagvormen naar lengte van het antwoord – In- en aanvulvraag. Bij een in- en aanvulvraag wordt van de leerling verwacht dat hij een onvolledige zin, berekening of tekening completeert. Voorbeelden van in- en aanvulvragen De Nederlandse naam voor parotitis epidemica is ... . Het ademtype volgens ... wordt aangetroffen bij patiënten met een metabole acidose. – Kort-antwoord-vraag. Dit is een vraag die met één woord/getal/symbool, een korte opsomming of met een kort zinnetje beantwoord kan worden. Dit type vraag combineert enkele van de voordelen van open en gesloten vraagvormen. De constructie is vrij eenvoudig, de beantwoording neemt weinig tijd in beslag zodat er veel vragen gesteld kunnen worden. Bij de beantwoording speelt raden nauwelijks een rol en de beoordeling kan vrij objectief geschieden. Nadeel is dat dit type vraag minder geschikt is om vast te stellen in hoeverre leerlingen de leerstof begrijpen. Wanneer uitsluitend gebruikgemaakt wordt van dit vraagtype, loopt men het risico dat leerlingen zich eenzijdig voorbereiden op het memoreren van feitenkennis. De kort-antwoord-vraag kent in principe twee verschijningsvormen: 1 De leerling krijgt een vraag of opdracht voorgelegd. Voorbeeld: Noem drie verschijnselen die vaak optreden bij een hartinfarct. 2 De leerling krijgt een bewering voorgelegd waaruit een relevant woord is weggelaten. Voorbeeld: Angst, benauwdheid en pijn in de borst zijn verschijnselen die wijzen op een mogelijk ... Voor de tweede vorm is het vaak eenvoudiger om tot een objectieve beoordeling te komen. Maar het nadeel is dat de constructie meer tijd in beslag zal nemen in verband met het bewerkstelligen van die objectiviteit. De constructeur moet de bewering namelijk zodanig zien te formuleren dat elke leerling die voldoende op de hoogte is van het onderwerp, tot het juiste antwoord zal komen. Bij de eerste vorm is het van groot belang dat alle verschijnselen die in aanmerking kunnen komen, worden opgenomen in een antwoordmodel. Het antwoordmodel bevat het juiste antwoord of de elementen die deel uit kunnen maken van het juiste antwoord. Tevens wordt in het antwoordmodel een scoringsvoorschrift opgenomen: wat is een correct antwoord of deels correct antwoord waard? Van de leerling wordt verwacht dat hij de vraag beantwoordt door middel van een citaat (mag ook door begin- en eindaanduidingen van dit citaat), enkele woorden, een enkelvoudige zin, getal, (eenvoudige) tekening of formule. 95
  • 100. Hoofdstuk 7 – Voorbeelden van kort-antwoord-vragen . (Naar aanleiding van een tekst:) Welk verpleegsysteem wordt op deze afdeling gehanteerd? . Noem 3 belangrijke symptomen van mazelen. N.B.: Een in- en aanvulvraag is ook een voorbeeld van een kort-antwoord-vraag! – Lang-antwoord-vraag. De lang-antwoord-vraag wijkt af van de kort-antwoord-vraag in de lengte van het antwoord, maar vooral in de diversiteit van de responsen. Het antwoord op een dergelijk vraagtype kan vaak op talloze manieren geformuleerd worden. In verband met een zo objectief mogelijke beoordeling worden hoge eisen gesteld aan de formulering van de vraag/opdracht en het antwoordmodel. De vraag/opdracht mag de leerling niet in het ongewisse laten over wat de vragensteller nu eigenlijk van hem wil weten. Duidelijk aangegeven moet worden over welk onderwerp het gaat, welke vraag de leerling moet beantwoorden en van welke omvang dit moet zijn. Het antwoordmodel moet minimaal aangeven welke elementen in het antwoord aanwezig moeten zijn en hoe er gescoord moet worden. Fout voorbeeld: Geef een beschrijving van het spijsverteringsstelsel. Goed voorbeeld: Iemand eet een bruine boterham met boter en kaas. Beschrijf welke delen van het darmkanaal het voedsel achtereenvolgens passeert en welke voedingsstoffen daar verteerd worden (max. 50 woorden). Bij een lang-antwoord-vraag wordt van de leerling verwacht dat hij de vraag beantwoordt door middel van een samengestelde zin of een toelichting, een gecompliceerde berekening of tekening, of een bewijs bestaande uit verschillende stappen. Voorbeeld: Een functioneringsgesprek en een beoordelingsgesprek verschillen op een aantal belangrijke punten van elkaar. Noem 3 van deze verschillen. – Opstelvraag. Bij een opstelvraag moet een leerling een aanzienlijk stuk tekst, gestructureerd bijvoorbeeld naar inleiding, midden en slot, of een zeer gedetailleerde tekening of berekening produceren, die beide als een afgerond geheel beschouwd kunnen worden. Voorbeeld: Beschrijf aan de hand van de verschillende fasen uit het verpleegkundig proces waar de verantwoor- delijkheden en bevoegdheden liggen van de eerst verantwoordelijke verpleegkundige. N.B. Het verdient in alle gevallen aanbeveling om aan de leerling duidelijk te maken hoe uitgebreid het antwoord moet worden. Hierdoor wordt het gegeven antwoord ook beter te beoordelen. Dit kan bereikt worden door een complexe vraag op te delen in afzonderlijke subvragen. 96
  • 101. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.2.2 Indeling naar complexiteit van het antwoord Wanneer de vraag al dan niet opgedeeld wordt in subvragen, ontstaan de volgende vraagvormen: – Enkelvoudige vraag. Hiervan is sprake als er maar naar één antwoord gevraagd wordt. – Meervoudige vraag. Van een meervoudige vraag is sprake als er expliciet naar meer dan één antwoord gevraagd wordt. Echter ook als een leerling in zijn antwoord met meer facetten van een probleemstelling rekening moet houden, of wanneer het werk aan meer dan één, van tevoren omschreven, criterium moet voldoen. Voorbeeld van een serievraag (naar aanleiding van een inleidende tekst:) A Noem 1 consequentie die deze ontwikkeling heeft voor het verzorgingstehuis als organisatie. B Noem 1 consequentie die deze ontwikkeling heeft voor de verzorgenden van het verzorgingste- huis. Voorbeeld van een samengestelde vraag (naar aanleiding van een casus:) Beschrijf een mogelijke aanpak om Wouter meer bij de groep te betrekken. Motiveer je antwoord. 7.2.3 Indeling open vragen naar gedragscategorie Kijkend naar de verlangde gedragscategorie, kunnen de volgende vraagtypen worden onderscheiden: – reproductievraag; – identificatievraag; – productievraag; – vrije verwerkingsvraag. Bij de eerste twee soorten ligt het accent op de geheugenfunctie. Bij de laatste twee soorten op het actief omgaan met de opgedane kennis en ervaring. Hierbij is het goed dat men zich realiseert dat bij deze indeling uitsluitend gekeken wordt naar het gedrag dat de vraag beoogt uit te lokken. En dus niet naar het feitelijke gedrag van de leerling bij het beantwoorden van de vragen, zo dat al te constateren zou zijn. – Reproductievraag Kenmerken: . Er wordt gevraagd naar jaartallen, definities, namen, etcetera. . Er wordt gevraagd naar een gestandaardiseerde werkwijze. Voorbeelden: Wat is de oorzaak van een pernicieuze anemie? Hoeveel ml moet je toedienen aan een patiënt die 50 mg van een antibioticum moet hebben uit een ampul met een 4%-oplossing? – Identificatievraag. Kenmerk . In de vraag zelf is informatie in de vorm van een tekst, tekening, grafiek, tabel, partituur, etcetera. 97
  • 102. Hoofdstuk 7 Voorbeelden: In de onderstaande tabel staat de vochtbalans zoals die vandaag voor mevrouw Dommisse is ingevuld. Er zitten 8 fouten in. Zoek hiervan 6 fouten op. tabel 31 - Uitgangsmateriaal voor een identificatievraag VOCHTBALANS Naam : Datum : VOCHTOPNAME VOCHTVERLIES TIJD BIJZONDERHEDEN opgegeven soort (op)genomen parenteraal urine braken defaecatie cc per os cc per os 8.00 150 ml thee 150 ml 9.00 150 ml melk 100 ml 12.00 150 ml bouillon 100 ml 15.00 100 ml thee 100 ml 16.00 1 glas sap 100 ml 17.00 150 ml thee 100 ml 100 ml is heftig gaan men- strueren 18.00 100 ml sap 100 ml 20.00 100 ml vla 100 ml 21.00 150 ml sap 100 ml 200 ml transpiratie TOTAAL 950 ml 400 ml – Productievraag. Kenmerken: . Probleemstelling is min of meer nieuw voor de leerlingen. . De gevraagde handeling is niet-routinematig van karakter. Voorbeelden: (naar aanleiding van een casus over een leerling:) Pieter begon als jongen die alleen met de beste resultaten tevreden was. Eenmaal begonnen met de opleiding blijkt het toch niet helemaal te gaan zoals hij had gedacht. Leg in je eigen woorden uit waarom het niet zo gaat als Pieter gedacht had en maak daarbij gebruik van gegevens uit de casus. (naar aanleiding van een gegeven menu:) Noteer een gelijkwaardig en een volwaardig vegetarisch vervangingsmenu. 98
  • 103. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm – Vrije verwerkingsvraag. Kenmerken: . De oplossing van het probleem is individueel bepaald. . De vraag bevat nieuwe probleemsituaties en/of is ongebruikelijk wat oplosmethode betreft. Voorbeeld: ... (enkele citaten uit kranten met betrekking tot een bepaald onderwerp) ... Schrijf, uitgaande van deze citaten, in maximaal 1500 woorden jouw visie op dit onderwerp. Deze visie is bedoeld als ingezonden stuk voor een van de geciteerde kranten. 7.2.4 Eisen voor de formulering – Doelgericht vragen stellen. Stel de vragen doelgericht. Ga ook achteraf na of de inhoud van de vraag past bij de doelstelling en of de vaardigheid overeenkomt met de doelstelling. Een inzichtdoelstelling kan niet getoetst worden met een kennisvraag. – Referentiekader duidelijk stellen. Omschrijf het referentiekader van de vraag zo duidelijk mogelijk. De leerling moet weten vanuit welke invalshoek geantwoord moet worden. Fout voorbeeld: Waarom wordt bij een patiënt met aambeien de temperatuur tweemaal daags axillair opgenomen? Deze vraag kan veel antwoorden oproepen die op zichzelf correct zijn, maar die niet gewenst zijn, zoals: . levert informatie voor het verpleegplan; . is nu eenmaal routine in het ziekenhuis; . vaker temperatuur opnemen zou te belastend zijn voor de patiënt; . temperatuurgegevens zijn onmisbaar bij beoordeling van het ziekteverloop; . de lichaamstemperatuur is ’s morgens anders dan ’s avonds. Door het referentiekader aan te geven kunnen de antwoordmogelijkheden ingeperkt worden waardoor de vraag gericht wordt op de eigenlijke doelstelling. Goed voorbeeld: Bij een patiënt met aambeien wordt de temperatuur tweemaal daags axillair opgenomen. Geef één reden waarom dat tweemaal daags gebeurt. Geef één reden waarom dat axillair gebeurt. – Duidelijk aangeven wat verlangd wordt? Geef duidelijk aan wat van de leerling verlangd wordt. Vermijd dus termen als ’minimaal’ en ’maximaal’. In plaats van een vraag als ’Geef minimaal 3 redenen die...’ kan beter gevraagd worden ’Geef 4 redenen die...’. De toevoeging ’minimaal’ maakt het voor de leerling en voor de docent onduidelijk hoeveel redenen gegeven moeten worden om het maximum puntenaantal te behalen. Als hulpmiddel: . Als het aantal elementen vastligt en de leerling moet dit weten, dan wordt het aantal niet vermeld. Voorbeeld: Noem de gehoorbeentjes. 99
  • 104. Hoofdstuk 7 . Als het aantal elementen vastligt, maar de leerling hoeft het aantal niet te weten, wordt het aantal wel vermeld inclusief het lidwoord. Voorbeeld: Noem de 3 gehoorbeentjes. . Als het aantal elementen niet vastligt of als de leerling niet alle (vastliggende) elementen hoeft te noemen, wordt het aantal zonder lidwoord vermeld. Voorbeeld: Noem 2 gehoorbeentjes. . Wanneer bij een berekening ook de berekening zelf door de leerling genoteerd moet worden, moet hier ook expliciet naar gevraagd worden. Voorbeeld: Geef de berekening van ... of Toon met een berekening aan dat ... Wanneer hier niet naar gevraagd wordt, kunnen er bij de beoordeling geen punten gegeven worden voor een gedeeltelijk goed antwoord (bijv. rekenfout). – Alleen noodzakelijke informatie opnemen. Neem in de vraag alleen noodzakelijke informatie op. Overbodige informatie verlengt de leestijd onnodig. Bovendien is overbodige leestijd voor de leerling verwarrend: het is niet duidelijk of de informatie gebruikt moet worden bij de oplossing van het probleem. Een surplus aan informatie is alleen gewenst wanneer het de bedoeling is dat de leerling uit een veelheid van gegevens een selectie moet maken die nodig is om het probleem op te lossen. De doelstelling die getoetst wordt zal bijvoorbeeld zijn: de leerling kan selecteren. – Punten vermelden. Geef bij de vragen aan hoeveel punten er te verdienen zijn. – Helder en ondubbelzinnig formuleren. Formuleer de vraag helder en ondubbelzinnig. Voorkom dat de probleemstelling voor meer interpretaties vatbaar is, waardoor én de leerling én de docent vragen krijgen bij het beantwoorden dan wel bij het corrigeren van de antwoorden. Een leerling maakt vaak voor één diploma meer examens. Het formuleren van de examenvragen vindt plaats in de afzonderlijke examencommissies. Daardoor bestaat het gevaar dat eenzelfde soort antwoord verwacht wordt terwijl de vragen zeer verschillende geformuleerd zijn. Voor de leerling kan dit verwarrend zijn. Om dit te voorkomen is het van belang uit te gaan van richtlijnen voor het formuleren van de vragen. Hieronder staat aangegeven welke formulering gekozen zou moeten worden bij welk soort vraag. Er is aangegeven of bij de formulering een lang of een kort antwoord wordt verwacht. Formulering eventuele aanwijzing met voorbeeld Noem Dit is een kort-antwoord-vraag die te gebruiken is bij een vraag naar iets concreets zoals term, plaats, gebeurtenis; bijvoorbeeld: – Noem 4 mogelijke acties van de verpleegkundige om in deze situatie verbetering te brengen. – Noem 5 kenmerken van ... Geef (aan) ’Geef..’ kan een kort- of een lang-antwoord-vraag zijn die te gebruiken is bij een vraag naar iets abstracts zoals een reden, oorzaak. (Dus niet: waarom...) Bijvoorbeeld: – Geef 1 voordeel en 1 nadeel van de non-directieve gesprekstechniek. – Geef de formule van .. 100
  • 105. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm Hoe... Deze kort-antwoord-vraag is te gebruiken bij kwantitatieve vragen; bijvoorbeeld: – Hoeveel °C moet men bij axillaire temperatuuropname bij de gemeten waarde optellen? – Hoe lang moet bij axillaire temperatuuropname de thermometer in de okselholte blijven? Wie ’Wie’ kan gebruikt worden in combinatie met voorzetsels; een voorbeeld van deze kort-antwoord-vraag: – Wie was de ontdekker van de penicilline? Wat Dit is een kort-antwoord-vraag; bijvoorbeeld: – Wat is de betekenis van de letters in de afkorting CARA? – Wat wordt verstaan onder ...? Waar ’Waar’ kan gebruikt worden in combinatie met voorzetsels en heeft dan betrekking op een concrete plaatsaanduiding; voorbeelden van deze kort-antwoord-vraag: – Waar staat de oudste Nederlandse inrichting voor het verplegen van psychisch zieken? – Waarin ... Welke ’Welke’ kan worden gebruikt in combinatie met voorzetsels. ’Welke’ is bij voorkeur een vraag naar een concreet object of een concrete categorie; voorbeelden van deze kort-antwoord-vraag: – In welk document is de bescherming geregeld van de gegevens van de patiënt? – Voor welke waarde van .. geldt ..? Wanneer Een voorbeeld van deze kort-antwoord-vraag: – Wanneer is Florence Nightingale geboren? Leg uit Dit is een lang-antwoord-vraag; een voorbeeld: – Leg uit waarom het niet zo gaat als Pieter gedacht had en maak daarbij gebruik van gegevens uit de casus. Beschrijf Bij ’beschrijf’ moet een antwoordrestrictie worden opgenomen. De restrictie bij deze vraag is: ’met betrekking tot haar psychisch functioneren’. Een voorbeeld van deze lang-antwoord-vraag: – Beschrijf de 3 belangrijkste verpleegproblemen, verpleegdoelen en de verpleeg- kundige interventies bij Wilma met betrekking tot haar psychisch functioneren. 7.2.5 Correctievoorschrift Bij elke toets met open vragen moet een correctievoorschrift worden opgesteld. Dit is een lijst met richtlijnen voor de docenten, waardoor de beoordeling zo objectief mogelijk wordt. Een correctievoor- schrift bestaat uit: – de beoordelaarsinstructies; – een algemeen scoringsvoorschrift; – scoringsvoorschrift per vraag. 101
  • 106. Hoofdstuk 7 – De beoordelaarsinstructies. Dit zijn de algemene richtlijnen die gegeven worden over de wijze waarop de toets beoordeeld moet worden. Voorbeelden van algemene richtlijnen over de wijze van beoordelen zijn: . De beoordeling dient door twee beoordelaars onafhankelijk van elkaar te geschieden. . Het werk dient anoniem (via een leerlingnummer o.i.d.) nagekeken te worden. . Het werk dient per vraag nagekeken te worden. . Om ongewenste beoordelingseffecten tegen te gaan, dient de corrector de beoordeling van het werk van de leerlingen per vraag uit te voeren en tijdens de correctie de volgorde van examenwerken enkele keren te wijzigen. . Bij lange antwoorden mag de correctie per vraag niet onderbroken worden. . Bij de beoordeling van een vraag worden slechts hele punten toegekend. . Ontbreekt voor een vraag elke prestatie of is er sprake van een volledig foutief antwoord, dan worden voor deze vraag nul punten toegekend. . Indien een gegeven antwoord niet in het antwoordmodel voorkomt en dit antwoord op grond van aantoonbare vakinhoudelijke argumenten als ’juist’ of ’gedeeltelijk juist’ gekwalificeerd kan worden, moet het aantal beschikbare punten geheel of gedeeltelijk aan het gegeven antwoord worden toegekend naar analogie van het antwoordmodel. . Indien een leerling meer antwoorden (in de vorm van voorbeelden, redenen, argumenten e.d.) geeft dan er expliciet gevraagd worden, komen alleen de eerstgenoemde antwoorden voor beoordeling in aanmerking. Indien er slechts één antwoord expliciet gevraagd wordt, wordt dus alleen het eerst gegeven antwoord in de beoordeling betrokken. . Indien een leerling het juiste eindantwoord vermeldt zonder de berekening, wordt de maximumscore toegekend. Bij een eindantwoord dat niet juist is en waarbij geen berekening vermeld staat, dienen nul punten toegekend te worden. . Voor een correcte uitkomst van een berekening wordt alleen een deelscore toegekend indien de berekeningswijze ook correct is. . Indien een andere oplossingsmethode is gehanteerd dan aangegeven in het antwoordmodel, moet het aantal beschikbare punten geheel of gedeeltelijk worden toegekend naar analogie van het antwoordmodel. – Algemeen scoringsvoorschrift Hierin worden de volgende zaken vermeld: . de maximale toetsscore; . het aantal scorepunten per vraag; . de scoring van gedeeltelijk goede antwoorden. Ook zijn richtlijnen opgenomen voor het behandelen van algemene fouten als spelfouten of rekenfouten. Als het aantal vragen groot genoeg is om te spreken van een voldoende dekking van alle doelstellingen in een toets, is het beter om de ongewogen scoring toe te passen. – Het antwoordmodel of beoordelingsschema Het antwoordmodel is een opsomming van goede, soms ook gedeeltelijk goede en onjuiste antwoorden bij open vragen. Zij zijn bedoeld als richtlijn voor de beoordelaar. In het antwoordmodel worden ook voorschriften opgenomen voor de beoordeling en het doorwerken van fouten bij afhankelijke vragen. Hierbij gaat het erom dat de corrector precies moet weten welk antwoord goed gerekend moet worden. Het gaat er dus niet om dat het antwoordmodel zo volledig mogelijk moet zijn, maar dat duidelijk is welk antwoord nog net goed gerekend moet worden. 102
  • 107. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm Zo mogelijk moeten ook andere goede antwoordmogelijkheden worden aangegeven en worden bedacht welke antwoorden door zwakke leerlingen gegeven zouden kunnen worden: de minder goede en de foute antwoorden. Het formuleren van antwoordmogelijkheden leidt vaak tot het bijstellen van de vraag, omdat men zich dan gaat realiseren hoe een vraag ook uitgelegd kan worden. De vraag moet dan zodanig worden bijgesteld dat de niet bedoelde antwoorden worden uitgesloten. – Scoringsvoorschrift per vraag Door bij de antwoordonderdelen te vermelden welke score moet worden toegekend, wordt eerder bereikt dat verschillende correctoren hetzelfde leerlingwerk met eenzelfde puntenaantal beoordelen. Hierbij is het aan te bevelen aan elk antwoordelement één scorepunt toe te kennen. Bijvoorbeeld: per kenmerk 1 punt. Dit om te voorkomen dat er onduidelijkheid ontstaat bij een antwoord dat ’een beetje goed’ is. Stel dat aan het goede antwoord 2 punten mogen worden toegekend, dan is onduidelijk of aan een gedeeltelijk goed antwoord misschien 1 punt kan worden toegekend. Uit onderzoek blijkt dat docenten hier heel verschillend mee om gaan. 7.2.6 Screening Na het opstellen van de vragen en het correctievoorschrift volgt het controleren van de toets. Hieronder staat puntsgewijs aangegeven waarop gelet moet worden. – Taalgebruik. . De vraag is grammaticaal juist geformuleerd. . De zinsconstructies zijn eenvoudig (zonder bijzinnen). . De vraag bevat geen dubbele ontkenning. . De woordkeus is eenvoudig. . De vraag is niet onnodig negatief gesteld. . De formulering is ondubbelzinnig. . Er bestaat geen gevaar dat door klemtoonverschuiving de vraag van betekenis verandert. . De vraag bevat geen onnodige tussenvoegsels. . De formulering van de vraag kan geen aanleiding geven tot misverstanden. – Informatie. . De vraag bevat voldoende informatie om het antwoord te kunnen geven. . De vraag geeft de gewenste lengte van het antwoord aan. . De vraag geeft de gewenste vorm (tekening, beschrijving etc.) aan. . Uit de vraag blijkt of het antwoord gemotiveerd moet worden. . De informatie en de probleemstelling zijn duidelijk te onderscheiden. – Relevantie en inhoudsvaliditeit. . Uit de vraag blijkt duidelijk welke stof en/of welke vaardigheid getoetst wordt. . De vraag heeft een aanvaardbare moeilijkheidsgraad. . De moeilijkheidsgraad wordt niet nodeloos verhoogd door irrelevante gegevens? . De vraagvorm is geschikt voor de te toetsen doelstelling. . De vraag is geen strikvraag (het suggereren van een probleem dat er niet is). . De vraag bevat geen onbedoelde hints voor het juiste antwoord. . De gegevens die vermeld worden zijn allemaal van belang voor het oplossen van de vraag. 103
  • 108. Hoofdstuk 7 – Het gebruik van contextmateriaal. . De toelichting bij de afbeeldingen is duidelijk, kort en helder geformuleerd. . Het gebruik van plaatjes, grafieken etc. is functioneel. . De afbeeldingen zijn duidelijk en voorzien van korte toelichting. . Er wordt correct naar de afbeeldingen/bijlagen verwezen. – Presentatie/lay-out. . De vragen en vraagonderdelen zijn duidelijk van elkaar onderscheiden. . De nummering van de vragen is correct en inzichtelijk. . De tabellen, grafieken, formules e.d. zijn op fouten gecontroleerd. . Bij iedere vraag is het maximaal te behalen aantal punten vermeld. . De algemeen geldende conventies wat betreft symboolgebruik, interpunctie en spelling zijn aangehouden. – De totaliteit van de toets. . De moeilijkheidsgraad als geheel komt overeen met de eisen. . De toets is een redelijke afspiegeling van de te toetsen doelstellingen. . De ene vraag bevat geen onbedoelde hints voor het juiste antwoord van een andere vraag. . De moeilijkheidsgraad van de toets als geheel is aanvaardbaar voor het betreffende schooltype. . De toets als geheel vormt een redelijke representatie van de doelstellingen, zoals die voorkomen in het ’toets’programma. – Het correctievoorschrift. . Bij elke vraag is een antwoordmodel opgesteld. . De antwoorden in het antwoordmodel zijn waarschijnlijk. . Er is duidelijk aangegeven wat gedeeltelijk juist of onjuist gerekend moet worden. . Richtlijnen van algemene aard zijn opgenomen. . Er zijn duidelijke beoordelaarsinstructies opgenomen. . Het correctievoorschrift is niet te globaal. . Het correctievoorschrift is niet zo gedetailleerd dat het onhanteerbaar is geworden. . De lay-out van het correctievoorschrift is zodanig dat de beoordelaar snel inzicht kan krijgen in zijn beoordelaarstaak. . Er zijn beoordelaarsinstructies. . Voor elke vraag is een antwoord opgesteld. . Het antwoord zelf is juist. . Het is duidelijk welke elementen minimaal genoemd moeten worden om het antwoord goed te keuren. . Antwoorden waarover twijfel kan bestaan of ze goed of fout gerekend moeten worden, staan aangegeven. . Het is duidelijk hoeveel punten aan elk antwoordelement toegekend moeten worden. 104
  • 109. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.3 Casustoets In het kader van de toetsing verstaan wij onder een casus een beschrijving van een aan de praktijk ontleende situatie, waaraan vanuit een of meer vakgebieden (of leergebieden) vragen gekoppeld zijn. Uitgangspunt hierbij is dat de vragen niet los van de beschrijving te beantwoorden zijn. 7.3.1 Randvoorwaarden Enerzijds biedt een casustoets meer mogelijkheden dan een traditionele vaktoets, anderzijds levert de constructie ook meer moeilijkheden op: – Er moet interdisciplinair samengewerkt worden, waarbij de juiste deskundigheden in de constructie- groep aanwezig moeten zijn. – Men moet elkaars producten bekritiseren en kritiek op eigen producten kunnen accepteren. – Er moet regelmatig overleg zijn over de tussenproducten, zodat voorkomen wordt dat in een vergevorderd stadium materiaal afgekeurd moet worden. – Men moet voldoende tijd beschikbaar hebben en een strakke planning opzetten voor het hele proces. Het is aan te bevelen om één coördinator als centrale figuur aan te stellen, die met name ook de administratie voert en de voortgang bewaakt. 7.3.2 De drie pijlers van een casus Een casus rust in feite op drie pijlers: de doelstellingen, de beschrijving (of casustekst) en de vragen. Deze drie zijn onderling sterk van elkaar afhankelijk. Tijdens de constructieprocedure ligt het accent weliswaar afwisselend op een bepaalde pijler, maar ze moeten toch steeds in samenhang met elkaar bekeken worden. Hieronder wordt het proces van casusconstructie stap voor stap beschreven, waarbij duidelijk wordt dat het niet om een lineair proces gaat: steeds wordt teruggesprongen naar de andere pijlers. 7.3.3 De doelstellingen – Formuleer eerst duidelijk welke delen van de leerstof aan de orde moeten komen: raadpleeg de eindtermen, de eindtermenuitwerking, het leerplan en/of de lesdoelen. Het kan raadzaam zijn om hiervoor een toetsmatrijs op te stellen: welke onderwerpen moeten op welke wijze en in welke mate in de toets aan de orde komen. 7.3.4 Van doelstellingen naar beschrijving – Ga na in welke praktijksituatie de te toetsen leerstof aan de orde komt. Is de leerstof meer gericht op meso- en/of macro-niveau, dan kan het nodig zijn een meer theoretische verhandeling te schrijven. Een casusbeschrijving kan veel verschillende vormen hebben: . een beschrijving van een patiënt of bewoner; . een agenda of de notulen van een multidisciplinair overleg; . een verslag van een groepsgesprek; . een advertentie voor een vacature in een zorginstelling; . een verpleegkundige dagrapportage; . een tijdschriftartikel; Het zal niet altijd mogelijk zijn een beschrijving te maken waarin alle geselecteerde doelstellingen aan bod komen. Enige creativiteit is hierbij gewenst, maar kijk uit voor al te gekunstelde beschrijvingen. Er blijft altijd een spanningsveld bestaan tussen de relevantie voor de praktijk en de 105
  • 110. Hoofdstuk 7 dekking van de theorie. Noteer welke onderwerpen blijven liggen en probeer die op een ander tijdstip met een andere casus of op een andere manier te toetsen. – Noteer in steekwoorden welke informatie de beschrijving moet bevatten. Bij het uitschrijven van de casustekst bestaat anders het gevaar dat bepaalde belangrijke informatie vergeten wordt of minder belangrijke zaken onevenredig veel aandacht krijgen. – Analyseer, na het uitschrijven van de casustekst, de beschrijving in die zin, dat systematisch wordt nagegaan welke doelstellingen aan de casustekst gekoppeld kunnen worden. Zo wordt direct duidelijk welke passages van de casustekst eventueel kunnen worden geschrapt (tenzij ze voor de opbouw van de rest van het verhaal essentieel zijn). Bij deze analyse is het verstandig om de eerder genoemde leerdoel-documenten opnieuw te raadplegen: het kan nieuwe ideeën opleveren. Het maken van de beschrijving en het formuleren van de doelstellingen is een iteratief proces: het analyseren van de beschrijving in doelstellingen betekent een heroverweging van de aanvankelijk voor de casus geselecteerde doelstellingen. Hierbij bestaat wel het gevaar dat van de oorspronkelijke opzet wordt afgedwaald. Wees daar alert op. 7.3.5 De opbouw van een beschrijving – Probeer, zeker als er vaker casussen gemaakt moeten worden, een vaste opbouw voor de casustekst te vinden. Het voordeel is dat leerlingen aan zo’n stramien gewend raken, waardoor ze zich meer op de essentie van de casus kunnen richten en niet onnodig in verwarring worden gebracht door de onverwachte vorm of lengte. Ze weten dan op een gegeven moment hoe ze hun tijd moeten indelen. Zo is het mogelijk elke casus, waarin een of meer patiënten/bewoners centraal staan, te laten beginnen met wat algemene informatie over de aard en de grootte van de instelling waar het verhaal zich afspeelt en de positie van de leerling: zo wordt duidelijk vanuit welke invalshoek de leerlingen de casus moeten lezen. Hierna wordt de specifieke situatie beschreven, met achtergrondinformatie over de patiënten/bewo- ners, de persoonlijke en sociale gegevens en een schets van de huidige situatie, waarin de medische en verpleegkundige gegevens gepresenteerd worden. Hierbij kan een bepaalde volgorde gehanteerd worden die parallel loopt met de zorggebieden zoals die bijvoorbeeld door Gordon beschreven zijn. Dat is tevens een middel om te controleren of alle belangrijke informatie ook genoemd wordt. – Schrijf het verhaal of het artikel in voor de leerling begrijpelijke taal en houd hierbij de omvang van de casustekst in de gaten. Wanneer er te weinig informatie in de casustekst staat, zullen veel vragen slechts speculatief beantwoord kunnen worden. Een teveel aan informatie doet een te groot beroep op de leesvaardig- heid en het tekstbegrip van de leerling. Maak de zinnen niet nodeloos lang, vermijd woorden die de leerlingen mogelijk niet weten en ook niet hoeven te weten. – Probeer een beschrijving levendig te maken: dit leest prettiger en biedt meer aanknopingspunten voor vragen. Beschrijf het reilen en zeilen op de afdeling, de interacties tussen de verpleegkundige en de patiënt/bewoner, concretiseer de gedragingen van de patiënt in plaats van dit te omschrijven. 7.3.6 Van doelstellingen naar vragen – Probeer nu bij de geformuleerde doelstellingen een eerste aanzet tot vragen te formuleren. Het is onverstandig om direct te proberen een volmaakte vraag op papier te krijgen. De exacte formulering kost vaak veel tijd en kan daarom beter in tweede instantie plaatsvinden, wanneer al wat afstand van de eerste aanzet is genomen: misschien is de vraag bij nader inzien toch niet zo goed. – Bij het formuleren van die eerste aanzet valt ook de beslissing of het een meerkeuzevraag of een open vraag moet worden. Dit is deels afhankelijk van het belang dat gehecht wordt aan de doelstelling (open vragen worden over het algemeen zwaarder meegewogen in het eindresultaat), 106
  • 111. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm deels van de praktische mogelijkheden die de doelstelling biedt: moeten de leerlingen bijvoorbeeld zelf iets onder woorden brengen of beargumenteren, dan is een meerkeuzevraag minder geschikt. Anderzijds is het niet efficiënt om een open vraag te stellen wanneer hetzelfde doel via een meerkeuzevraag getoetst kan worden. – Bij het uitwerken van de doelstellingen moet de spreiding van de vragen over de beschrijving in de gaten worden gehouden. Maak in eerste instantie niet te veel vragen over een en dezelfde passage. Als het echt een belangrijke passage blijkt te zijn, kan dat altijd nog. – Uiteindelijk zal blijken dat bepaalde doelstellingen niet omgezet kunnen worden in een zinvolle vraag, niet omdat de vraag niet relevant zou zijn, maar veeleer omdat het antwoord niet eenduidig te geven is. Vlucht dan niet in een open vraag, want ook op open vragen moet een eenduidig antwoord te geven zijn, althans een antwoord dat met enige mate van objectiviteit te beoordelen is. 7.3.7 De relatie tussen de beschrijving en de vragen – Wanneer bepaalde vragen niet gesteld kunnen worden, kan dat op zich weer consequenties hebben voor de beschrijving: nagegaan moet worden of bepaalde passages in de uiteindelijke vragen helemaal niet aan de orde komen. Hier geldt weer hetzelfde als wat bij de analyse in doelstellingen is gezegd: ongebruikte passages moeten zo mogelijk geschrapt worden. – Mede met het oog op hetgeen bij het vorige punt genoemd is, is het handig de regels van de beschrijving te nummeren. Tijdens de constructiefase verduidelijkt dit de onderlinge communicatie over de beschrijving en tijdens de toetsafname is het prettig voor de leerlingen, omdat ze bij de vragen verwezen kunnen worden naar de desbetreffende passage in de casustekst, zeker als de context van de beschrijving bij de beantwoording van de vraag extra van belang is of als de vraag begint met een korte samenvatting van een passage. – Zorg zoveel mogelijk dat de volgorde van de vragen synchroon loopt met de beschrijving. Dit maakt het eenvoudiger om te kijken of de vragen dekkend zijn voor de casus. Voor de leerlingen is het prettiger, omdat zij minder hoeven te zoeken en geen rare gedachtesprongen hoeven te maken. Veel leerlingen vinden het echter onprettig om steeds van vraagsoort en antwoordstrategie te moeten wisselen; dat pleit er weer voor om meerkeuze- en open vragen apart aan te bieden. – Houd in de gaten dat bij het maken van de vragen geen nieuwe wending aan de beschrijving wordt gegeven. De vragen mogen in principe geen nieuwe informatie bevatten, omdat daarmee de overige vragen opeens in een geheel ander licht kunnen komen te staan. Wanneer dit in een vraag wordt gesignaleerd, kan het beste getracht worden deze nieuwe informatie in de beschrijving in te passen.1 – Wees kritisch op de koppeling van de vragen met de casustekst. Het zal blijken dat bepaalde vragen eenvoudig zonder de casustekst te beantwoorden zijn. De afweging moet dan gemaakt worden om die vraag al dan niet in de casus op te nemen. Zo niet, dan kan zo’n vraag nog in een andere toets worden opgenomen. Probeer geen vragen naar parate kennis maar juist motiveringsvragen te stellen, waarbij meer toetsing van inzicht en toepassing mogelijk is. Probeer daarbij de motiveringen (per alternatief) te ontlenen aan de beschrijving: zo ontstaan echte casusgekoppelde vragen. 1 Een geheel andere vorm krijgt een casus, wanneer de beschrijving doelbewust in stukken is gehakt. Het voordeel hiervan is, dat de leerlingen direct die vragen krijgen die over de zojuist gelezen passage gaan. Bovendien kan het verhaal een dynamischer karakter krijgen. Wel stelt deze keuze geheel eigen eisen aan de casus als geheel: de draad van het verhaal moet door de fragmenten heen logisch zijn, de leerlingen moeten op basis van de nieuwe stukken informatie niet gaan twijfelen over eerder gegeven antwoorden, het moet geen kwaad kunnen als de leerlingen eerst alle tekstgedeelten doorlezen, etc. 107
  • 112. Hoofdstuk 7 – Wees niet bang dat bepaalde leergebieden niet voldoende bevraagd worden: probeer vakgerichte kennisvragen niet per se aan de casus te koppelen. Uiteraard kunnen naast de casus zonder bezwaar gewone vaktoetsen worden afgenomen, waarin iedere betrokken docent een naar zijn mening voldoende aandeel uit zijn vakgebied kan krijgen. Uiteraard is zo’n verzameling vaktoetsen (ook wel ’nietjestoets’ genoemd) niet integratief, maar daar is op zich niets tegen. Men moet zich echter wel realiseren dat op die manier niet dezelfde (geïntegreerde) doelstellingen getoetst kunnen worden. 7.3.8 De vragen – Controleer of de vragen elkaar overlappen of zelfs beantwoorden: het kan gebeuren dat het antwoord van de ene vraag te vinden is in de vraagstelling van een andere vraag. Ook moet al te grote overlap vermeden worden, tenzij het een onderwerp betreft dat extra aandacht moet krijgen. Een ander gevaar is, dat vragen afhankelijk van elkaar zijn: een vraag kan alleen beantwoord worden, wanneer de voorafgaande vraag goed beantwoord is. Wanneer dat gesignaleerd wordt, moet getracht worden deze twee zaken in één vraag onder te brengen, bijvoorbeeld een open vraag met subvragen. – Maak afspraken over het aantal vragen in een casus. Probeer een onder- en een bovengrens vast te stellen voor het aantal vragen: er moet recht worden gedaan aan de casustekst. Twee bladzijden tekst met 5 vragen is zeer inefficiënt, een half A4-tje met 50 vragen zou weleens een versierde vaktoets kunnen blijken te zijn. In beide gevallen komt de toets niet overeen met de verwachting die leerlingen zullen hebben na het lezen van de casustekst. – Wees kritisch op de kwaliteit van de vragen. De vragen die bij de casus gesteld worden, moeten aan dezelfde eisen voldoen als die welke aan gewone meerkeuze- en open vragen gesteld worden. Deze eisen zijn uitgebreid beschreven in de twee voorafgaande paragrafen. 108
  • 113. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.4 Potlood-en-papier-toets Zoals aangegeven in paragraaf 4.2.4 is een goede potlood-en-papier-toets meer dan alleen maar een kennistoets, hoewel de vorm (vragen en antwoorden worden schriftelijk gepresenteerd) daar sterk aan doet denken. Met de hier bedoelde toetstechniek kunnen met name ontwerpvaardigheden en afleesvaardigheden vastgesteld worden. Hieronder worden enkele voorbeelden gegeven van de manier waarop dergelijke vaardigheden, die over het algemeen in werkelijkheid niet schriftelijke getoond worden, toch schriftelijk getoetst kunnen worden. 7.4.1 Ontwerpvaardigheden De leerling moet voor de komende week een werkrooster opstellen voor een afdeling. Gegeven worden het aantal en soort patiënten, de kwalificaties van de beschikbare medewerkers, de aantallen dagen dat door de verschillende medewerkers inmiddels gewerkt is, eventuele wensen voor vrije dagen etcetera. Hoewel deze activiteit over het algemeen met behulp van een planbord of computer wordt gedaan, biedt de schriftelijke vorm de mogelijkheid om in korte tijd een groot aantal leerlingen te toetsen. Het product wordt beoordeeld op de mate waarin de leerling erin geslaagd is om rekening te houden met het sociale aspect (de wensen en voorkeuren van de medewerkers), het technische aspect (de formatieberekening: het aantal diensten dat een full-time medewerker kan draaien, de minimaal vereiste bezetting) en het beleidsmatige aspect (de kwaliteit van zorg: voldoende deskundigheid, gewaarborgde continuïteit, rekening houdend met het beschikbaar budget). 7.4.2 Afleesvaardigheden De leerling krijgt een aantal cardiogrammen voorgelegd en moet deze vervolgens analyseren op punten als frequentie, regelmatigheid, hoogte van de toppen, eventuele extrasystolen, fibrillaties etcetera. Tot slot moet hij het gepresenteerde beeld benoemen. Een soortgelijke opgave is te maken met röntgenfoto’s of foto’s van een monitor. 7.4.3 Combinatie van vaardigheden Hieronder volgt een voorbeeld van een opgave waarbij zowel ontwerpen als aflezen aan de orde komt. De opgave is weliswaar niet direct relevant voor de sector zorg en welzijn, maar wel heel illustratief voor de mogelijkheden van de potlood-en-papier-toets. De getoetste vaardigheid is ’het kunnen hanteren van een spreadsheet-programma’, iets wat verpleegkundigen en ziekenverzorgenden weinig zullen doen. Om de herkenbaarheid zo groot mogelijk te maken, is hetgeen berekend wordt ontleend aan de verpleegkundige praktijk: de gebruiksduur van een zuurstofcilinder. In dit voorbeeld wordt geprobeerd de volgende vaardigheden vast te stellen: – enkele belangrijke commando’s en functies van een spreadsheetprogramma toepassen; – het functioneren van een gegeven spreadsheet controleren en verbeteren; – een gegeven spreadsheet uitbreiden of efficiënter maken; – basale rekenregels toepassen. De structuur van de opgave is als volgt (zie afb. 23): de leerling krijgt een spreadsheet te zien, zoals die ook aangetroffen zou kunnen worden op een beeldscherm. Daaronder staan de belangrijkste formules afgedrukt. Deze zijn nodig voor het uitvoeren van de opdracht(en). Voor het maken van deze opdrachten moet de leerling enerzijds de inhoud van de cellen en de gehanteerde formules kunnen aflezen. Anderzijds wordt ook gevraagd om voor het verbeteren van het spreadsheet nieuwe formules te ontwerpen. 109
  • 114. Hoofdstuk 7 W1 A B C D E 1 BEREKENEN GEBRUIKSDUUR ZUURSTOFCILINDER 2 3 inhoud gasfles (liter): 10 4 druk (bar): 120 5 voorgeschreven dosering (l/min): 2 6 verwisselen na (uur): 10 7 8 verwisselen (ja/nee): nee 9 voorschrift arts nakijken (ja/nee): nee 10 11 12 13 14 15 formules: 16 17 B6=((B3*B4)/B5)/60 18 B8=ALS(B4<5;"ja";"nee") 19 B9=ALS(B5>10;"ja";"nee") 20 afb. 23 - Spreadsheet voor het berekenen van de gebruiksduur van een zuurstofcilinder Vragen: 1 a In welke cel mag geen 0 (nul) worden ingevuld, omdat anders een foutmelding volgt? b In welke cel verschijnt de bij 1a bedoelde foutmelding? 2 In welk geval moet volgens bovenstaand rekenblad het voorschrift van de arts gecontroleerd worden? 3 In B6 wordt aangegeven na hoeveel uur de zuurstofcilinder verwisseld moet worden. Uit de overige gegevens is echter op te maken dat de gehanteerde formule niet helemaal juist is. Hoe zou de formule wél moeten luiden? Antwoorden: 1 a B5 b B6 2 Als de voorgeschreven dosering meer is dan 10 liter per minuut. 3 B6=((B3*(B4-5)/B5)/60 110
  • 115. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.5 Computersimulatie De hier beschreven toetsvorm zal door een opleiding niet snel zelf gemaakt worden. Daarom wordt volstaan met de beschrijving van een voorbeeld van een computersimulatie op basis van een beeldplaat. Het hoofdstuk wordt afgesloten met enkele opmerkingen over de bruikbaarheid en de kwaliteit van de beschreven toets. Met deze overwegingen kan rekening worden gehouden bij de eventuele aanschaf van een dergelijke toets. 7.5.1 Doelgroep en toetsdoel De toets is vervaardigd voor gebruik in de studierichting ’Apothekersassistent’ van de afdeling AG (Assistenten in de Gezondheidszorg) binnen het MDGO. De vaardigheid die geëvalueerd wordt is ’dispenseren geïntegreerd’ in de apotheek. Aan deze vaardigheid kunnen de volgende deelvaardigheden onderscheiden worden: – aannemen van recepten; – inbrengen van gegevens in de computer en interpreteren van schermmeldingen; – voorraadbeheer; – etiketteren; – controleren van het geneesmiddel en het etiket; – afleveren van het geneesmiddel aan de cliënt. Bij de uitvoering van deze deelvaardigheden in de reële werksituatie wordt een beroep gedaan op zowel cognitieve, psychomotorische, reactieve als interactieve vaardigheden. Maar in de toetssituatie wordt dit gereduceerd tot vrijwel alleen cognitieve vaardigheden. De leerling neemt een groot aantal beslissingen op elk van de hierboven genoemde deelvaardigheden en krijgt vervolgens terugkoppeling over het resultaat daarvan. Met de toets wordt dus vastgesteld of leerlingen in staat zijn op systematische, efficiënte wijze de kennis van het vakgebied toe te passen op praktijkgevallen. De leerling geeft daarbij alleen zijn intenties aan: ’Ik wil nu zus of zo doen.’, maar voert de acties dus niet echt uit. De toets is bedoeld als formatief instrument: de toetsscore moet aanknopingspunten bieden voor het bijstellen van het onderwijs of van het studiegedrag van de leerlingen. 7.5.2 Toetsbeschrijving De toets bestaat uit vijf casussen die qua inhoud ontleend zijn aan de praktijk van een apotheek. Elke casus toetst in hoeverre de leerling in staat is om cliënten die met een recept aan de balie komen op efficiënte en effectieve wijze te helpen. Elke casus is zodanig ontworpen dat alle handelingen die achtereenvolgens moeten plaatsvinden als in de apotheek een recept wordt aangeboden, aan bod kunnen komen. Of ze inderdaad aan bod komen, hangt af van de beslissingen die de leerling neemt en van de specifieke problematiek in de casus zelf. De natuurgetrouwheid van de toetsing wordt bevorderd door informatie zoveel mogelijk over te dragen in een natuurlijke vorm: – als een cliënt een vraag stelt kun je hem zien en horen; – als een bepaald geneesmiddel gepakt moet worden, dient de leerling dit aan te wijzen op de schappen. Om een indruk te krijgen van de wijze waarop de relevante vaardigheden worden uitgelokt en van de verschillende manieren waarop gerespondeerd kan worden, worden hieronder enkele typerende situaties weergeven. Onder de foto van het beeldscherm staat steeds een beschrijving van de dialoog of de actie die op dat moment plaatsvindt of zou kunnen plaatsvinden. 111
  • 116. Hoofdstuk 7 Situatie 1 Aan de balie moet aan de patiënt de relevante informatie gevraagd worden. Situatie 2 Ingeval van twijfel kan eerst de apotheker geraadpleegd worden. 112
  • 117. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm Situatie 3 Wanneer bijvoorbeeld een medicijn niet op voorraad is, wordt overlegd met de arts. Situatie 4 Tot slot moeten op de verpakking de noodzakelijke stickers geplakt worden. 113
  • 118. Hoofdstuk 7 7.5.3 Beschrijving van het scoringssysteem De toets is ontworpen om sterke en zwakke aspecten van de leerling met betrekking tot de vaardigheid in kaart te brengen, zodat daar in het onderwijs op ingespeeld kan worden. Daarom wordt niet gerapporteerd met behulp van één totaalscore, maar in de vorm van een profiel. Voor elke deelvaardig- heid (aannemen van het recept; invoeren in de computer en interpreteren van schermmeldingen; klaarmaken/pakken van een geneesmiddel; voorraadbeheer; afleveren) wordt gerapporteerd hoeveel procent van de maximaal haalbare score behaald is. Daarbij wordt onderscheid gemaakt tussen de effectiviteitsscore en de efficiëntiescore. De effectiviteitsscore geeft aan in welke mate de leerling erin geslaagd is de voorgelegde problemen op te lossen. Daarbij maakt het niet uit langs welke weg die oplossing tot stand kwam. De efficiëntiescore geeft aan in hoeverre de leerling is afgeweken van de ideale aanpak. Ter illustratie een voorbeeld van een scoringsrapportage voor een fictieve leerling: tabel 32 - Scoringsrapportage computersimulatie AANNEMEN: 100% goed waarbij efficiënt werken 42% goed COMPUTER: 94% goed waarbij efficiënt werken 85% goed KLAARMAKEN/PAKKEN/ETIKETTERING: 95% goed waarbij efficiënt werken 88% goed CONTROLE/PARAFEREN: 100% goed waarbij efficiënt werken 100% goed Naast de effectiviteits- en efficiëntiescore wordt aangegeven of en zo ja welke cruciale fouten gemaakt zijn. Dit zijn fouten die een bedreiging (kunnen) vormen voor de cliënt. De cruciale fouten worden afzonderlijk vermeld opdat onmiddellijk na afloop van de toets correctief kan worden ingegrepen. tabel 33 - Feedback over cruciale fouten Je hebt 2 ernstige fouten gemaakt: • Op het recept voor Dhr van der Mey stond digi- toxine van 0,25 mg. Jij hebt digoxine van 0,25 mg gepakt. • Je hebt de interactie tussen lasix en digitoxine genegeerd. 7.5.4 Bruikbaarheid De toets kan zowel collectief als individueel worden afgenomen. Het aantal leerlingen dat tegelijk getoetst kan worden, zal echter doorgaans klein zijn. Dit vanwege het feit dat de meeste opleidingen de vereiste hardware niet in grote aantallen beschikbaar zullen hebben. Dit probleem kan de komende jaren snel worden opgelost als bijvoorbeeld de DVI-techniek massaal doorbreekt op de markt. DVI staat voor Digital Video Interactive: een systeem dat bewegende beelden kan digitaliseren, comprimeren en kan 114
  • 119. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm presenteren op een computermonitor. Een PC met een CD-ROM speler is dan een voldoende configuratie voor een toets als die van de apothekersassistent. Eventuele capaciteitsproblemen met de hardware worden nog versterkt door de afnameduur. De beeldplaattoets bestaat uit vijf casussen, voorafgegaan door een introductiecasus waarin de leerling leert omgaan met het programma. Uit onderzoek is gebleken dat twee uur toetstijd niet voldoende is om vijf casus door te werken. Uitgaande van een gemiddelde doorlooptijd van 3 uur, de beschikbaarheid van één hardware configuratie en 25 leerlingen, resulteert dit in een toetstijd van acht werkdagen continu. Voor de meeste docenten zal dit onaanvaardbaar lang zijn. Een belangrijk voordeel is dat er nauwelijks voorbereidingen getroffen hoeven te worden voor een toetsafname. Er hoeft niet gesurveilleerd te worden, geen spullen te worden klaargezet, e.d. Instructies die voor de toetsafname van belang zijn, worden door het programma verstrekt. Het enige dat de docent moet regelen is de reservering van de hardware en het ’klaarzetten’ van het programma. De toetsen worden automatisch gescoord zodat docenten geen beoordelingstaak hebben. De uitslag volgt onmiddellijk na beëindiging van de laatste casus. 7.5.5 Kwaliteitsbeschrijving De toets is ontwikkeld met als doel onderzoek te doen naar de mogelijkheden van de beeldplaat ten behoeve van toetsdoeleinden. In dat kader is ook de toetstechnische kwaliteit onderzocht, maar helaas alleen op basis van technieken die vooral geschikt zijn voor kennistoetsen. De betekenis van de resultaten daarvan voor vaardigheidstoetsen is onduidelijk. Wél kan worden aangegeven welke maatregelen genomen zijn bij de constructie om de betrouwbaarheid en de validiteit van de toetsscores te bevorderen. De betrouwbaarheid van de toetsscores wordt bevorderd door het aanbieden van gestandaardiseerde taaksituaties. De moeilijkheidsgraad van de toets kan daardoor niet variëren van leerling tot leerling. Toetsscores zijn daardoor beter onderling vergelijkbaar. Verder wordt een bijdrage geleverd aan de betrouwbaarheid door de objectieve scoring (de computer verzorgt de scoring op grond van van tevoren opgestelde scoringsregels). De validiteit van de toetsscores wordt positief beïnvloed door het gegeven dat leerlingen in principe vijf verschillende taaksituaties krijgen voorgelegd. Die taaksituaties zijn dermate verschillend dat het niet erg waarschijnlijk is dat die zich in een echte apotheek binnen korte tijd zouden voordoen. Praktisch gezien echter valt het te betwijfelen of alle vijf taaksituaties in één toetsafname kunnen worden voorgelegd: de afnameduur zou meer dan vijf uur vergen. Over het algemeen is de natuurgetrouwheid van dit soort toetsen erg beperkt. Echter, door de multimedia-aanpak konden in de onderhavige toets diverse voorzieningen worden ingebouwd die de natuurgetrouwheid in positieve zin beïnvloed hebben. Enkele voorbeelden daarvan zijn: – Cliënten richten zich rechtstreeks tot de leerling in gesproken taal. De leerling kan de cliënt daarbij ook zien. Dat is belangrijk omdat in de reële werksituatie ’het zien van de cliënt’ aanleiding kan zijn tot het stellen van bepaalde vragen of het nemen van bijzondere maatregelen (In een van de casus, bijvoorbeeld, is een cliënte duidelijk zwanger). – De leerling moet weten waar hij bepaalde geneesmiddelen van de plank kan halen in de apotheek. In de toets wordt dit niet vastgesteld door de leerling dit te laten verwoorden, maar door hem het betreffende geneesmiddel op de planken te laten aanwijzen. – Het computerprogramma kan natuurlijke taal verwerken zodat met ’open vragen’ gewerkt kan worden. In de meeste computersimulaties wordt met ’gesloten vragen’ gewerkt. Het nadeel daarvan is dat de antwoordalternatieven de onvoldoende vaardige leerling hints geven voor de beantwoording. 115
  • 120. Hoofdstuk 7 7.5.6 Toepassingen De computersimulatie is een toetsvorm die in veel verschillende typen van gezondheidszorgonderwijs kan worden ingezet. Door de gereduceerde complexiteit kan al vrij vroeg in de opleiding integratief getoetst worden, zonder dat er gevaar is voor cliënten/patiënten en zonder al te grote organisatorische/lo- gistieke problemen (bijv. geen patiënt met ziektebeeld X voorhanden). De ontwikkelingskosten van een computersimulatie zijn niet gering. Voor de bekostiging zal daarom samenwerking tussen meerdere opleidingen vaak noodzakelijk blijken te zijn. Bij een eventuele investeringsbeslissing is het goed zich te realiseren dat computersimulaties behalve voor toetsing ook voor instructiedoeleinden kunnen worden ingezet. Als tijdens de ontwerpfase hiermee rekening wordt gehouden, kan een computersimulatie zoveel feedback geven dat leerlingen kennis en vaardigheid verwerven door de casus ’door te werken’. 116
  • 121. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.6 De simulator De hier beschreven toetsvorm zal door een opleiding niet snel zelf gemaakt worden. Daarom wordt volstaan met de beschrijving van een voorbeeld van het gebruik van een simulator in een toetssituatie. Het hoofdstuk wordt afgesloten met enkele opmerkingen over de bruikbaarheid en de kwaliteit van de beschreven toets. Met deze overwegingen kan rekening worden gehouden bij de eventuele aanschaf van een dergelijke toets. Hierna zal de te bespreken toetsvorm voor het gemak worden aangeduid als ’fantoomkop-toets’. 7.6.1 Doelgroep en toetsdoel De fantoomkop-toets wordt ingezet bij leerlingen tandheelkunde die in de preklinische fase van hun studie zijn. De fantoomkop-toets is een verzamelterm voor een groot aantal toetsen die op verschillende tijdstippen in de preklinische fase worden afgenomen met als doel vast te stellen of leerlingen bepaalde technische vaardigheden voldoende beheersen om toegelaten te kunnen worden tot de kliniek waar echte patiënten behandeld moeten worden in het kader van hun verdere opleiding. 7.6.2 Toetsbeschrijving Als voorbeeld wordt een beschrijving gegeven van een van de fantoomkop-toetsen: de klasse II- tweevlakspreparatie. In de opleiding voor tandarts neemt het prepareren (boren) en restaureren (vullen) van elementen (tanden en kiezen) een belangrijke plaats in in het preklinisch onderwijs. Preparaties worden ingedeeld in een aantal klassen. De klassen verschillen van elkaar in vorm en in de plaats waar de preparatie in het element vervaardigd moet worden (bijv. in het kauwvlak en/of in één van de wanden). De hieronder te beschrijven toets is ontwikkeld om vast te stellen of leerlingen voldoende vaardigheid hebben in het prepareren van (pre)molaren (kleine of grote kiezen), waarbij zowel het kauwvlak als een van beide wanden die grenzen aan een buurelement ’opengelegd’ moeten worden. De toets kan groepsgewijs worden afgenomen in de prekliniek. In de prekliniek zijn voldoende behandelunits opgesteld om alle leerlingen van een jaargang tegelijk te laten oefenen en te toetsen. De behandelunit in de prekliniek wijkt af van die in de kliniek: er is geen stoel waar patiënten in kunnen plaatsnemen. In plaats daarvan is er een fantoomkop: een ijzeren replica van het menselijk hoofd. In de opengesperde mond kunnen kunststof kaken geplaatst worden met daarin plastic tanden en kiezen gemonteerd. De leerling voert de toets uit onder toetscondities. Dat wil onder andere zeggen dat – het te prepareren element in de voorgeschreven positie in de kunststof kaak gemonteerd is; – de leerling zelf een positie inneemt die gebruikelijk is; – er gewerkt wordt met de voorgeschreven materialen; – het werkstuk binnen de gestelde tijd wordt vervaardigd. Opdracht: Vervaardig onder toetscondities een klasse II-tweevlakspreparatie voor amalgaam in de 161. Toetstijd: 45 minuten. 1 ’16’ is een codering die aangeeft welk element behandeld moet worden: het eerste cijfer van de code verwijst naar de kaakhelft, in dit geval de linker bovenkaak; het tweede cijfer geeft de positie aan van het element in de betreffende kaakhelft gerekend vanaf de eerste snijtand. 117
  • 122. Hoofdstuk 7 7.6.3 Beschrijving van het scoringssysteem Een preparatie moet aan bepaalde kwaliteitseisen voldoen alvorens tot restauratie (’vullen’) kan worden overgegaan. Deze kwaliteitseisen hebben te maken met de begrenzing (outline) van de preparatie (niet te veel maar ook niet te weinig weefsel wegboren), met de diepte (niet te diep vanwege het risico op wortelbeschadiging maar ook niet te ondiep vanwege het risico op breuk van de vulling als er druk op uitgeoefend wordt), de hoek waaronder geboord is (bepaalde wanden moeten ondersneden zijn om te voorkomen dat de vulling eruit kan vallen) en met de afwerking. De beoordeling van de werkstukken (de vervaardigde klasse II-tweevlakspreparaties) gebeurt met behulp van een zogenoemd ’beoordelingsprotocol’. Dit is een leidraad voor beoordelaars waarin beschreven is: a aan welke eisen een werkstuk moet voldoen (de prestatiecriteria); b hoe vastgesteld moet worden of een werkstuk aan de criteria voldoet; c hoe het resultaat van die vaststelling (zoals bedoeld onder b) in een score omgezet moet worden. De prestatiecriteria zijn ontleend aan subjectieve en wetenschappelijke inzichten over de invloed van de afzonderlijke kwaliteitsaspecten op de kwaliteit van het totale werkstuk. Geprobeerd is om bij elk aspect het kwaliteitscriterium in meetbare termen te omschrijven; waar mogelijk met behulp van getallen (afmetingen, hoeken). Het beoordelingsprotocol verstrekt gedetailleerde aanwijzingen over de wijze waarop vastgesteld moet worden of een werkstuk aan de gestelde eisen voldoet. Daartoe zijn voorschriften opgenomen met betrekking tot: – de beoordelingsmethode; – de plaats (in het werkstuk) waar gemeten/geschat moet worden; – de hulpmiddelen die daarbij gebruikt moeten worden. Er wordt gebruikgemaakt van drie beoordelingsmethoden: meten, schatten en vergelijken. De breedte en diepte van een preparatie worden gemeten. Hoeken, gevormd door op elkaar staande wanden, worden geschat. De afwerking van een werkstuk wordt beoordeeld door die te vergelijken met de afwerking van een referentiewerkstuk. Waar nodig wordt de plaats aangegeven waar de beoordelaar zijn meting of schatting moet uitvoeren, bijvoorbeeld door aan te geven waar precies een meetinstrument in het werkstuk ingebracht moet worden. Een voorbeeld uit het beoordelingsprotocol kan dit verduidelijken: ’Plaats de rechte sonde in de opening tussen het geprepareerde element en het buurelement. De juiste plaats om in te steken ligt halverwege de afstand tussen het occlusale vlak en de bodem van de box.’ Vaak verduidelijkt een illustratie de omschrijving. Bij het beoordelen worden hulpmiddelen gebruikt. Tandheelkundig instrumentarium wordt gebruikt bij de beoordelingsmethoden ’meten’ en ’schatten’. Referentiewerkstukken worden gebruikt als hulpmiddel bij de beoordelingsmethode ’vergelijken’. Referentiewerkstukken zijn door eerstejaars leerlingen vervaardigde werkstukken die net voldoende zijn afgewerkt. Het beoordelingsprotocol bestaat uit 32 beoordelingsaspecten die gescoord worden op een nominale driepuntsschaal. Score 2 betekent dat het werkstuk aan de gestelde eisen voldoet. Score 1 en score 3 houden in dat het werkstuk niet aan de gestelde eisen voldoet, maar ze verwijzen elk naar een andere geconstateerde fout. Het belangrijkste voordeel van deze scoringsmethode is dat leerlingen zinvolle informatie krijgen over op welke punten hun vaardigheid tekortschiet. Een nadeel is dat er geen andere differentiatie mogelijk is in prestaties dan tussen voldoende en onvoldoende. 118
  • 123. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.6.4 Bruikbaarheid De fantoomkop-toets is een bij uitstek geschikt instrument om grote aantallen leerlingen gelijktijdig te toetsen op hun beheersing van complexe vaardigheden. De voorbereiding voor een toetsing kost zeer weinig tijd aangezien de installaties permanent staan opgesteld in de prekliniek. De leerlingen hebben zelf de kunststofkaken in hun bezit waarin ze de voorgeschreven elementen moeten monteren. Hetzelfde geldt voor het instrumentarium (boortjes, sondes, e.d.). De taak van de toezichthouders beperkt zich tot controle op handhaving van de toetscondities. Het gebruik van het beoordelingsprotocol leidt tot behoorlijk betrouwbare beoordelingen, zeker als in aanmerking wordt genomen dat beoordelaars vaak uitspraken moeten doen over aspecten in het werkstuk die met het blote oog nauwelijks waarneembaar zijn (bijv. bepalen of een wandje van 2 mm in voldoende mate ondersneden is). Uit onderzoek is gebleken dat de overeenstemming tussen onafhankelijke beoordelaars gemiddeld rond de 0.80 ligt (1.00 is maximale overeenstemming). Een uitzondering daarop vormen de aspecten die te maken hebben met de afwerking van het werkstuk; de overeenstemming tussen beoordelaars was daar flink lager (gemiddeld 0.60). Een gevoelig nadeel van het beoordelingsprotocol heeft betrekking op de aanzienlijke investering in tijd die het gebruik ervan met zich meebrengt. Uit onderzoek is gebleken dat beoordelaars gemiddeld 15 minuten nodig hebben om een werkstuk te beoordelen aan de hand van het beoordelingsprotocol. Bij een jaargang van 40 leerlingen betekent dit een investering van 10 uur. Een mogelijke oplossing hiervoor zou kunnen zijn dat leerlingen hun eigen werkstukken aan de hand van het beoordelingsprotocol gaan beoordelen. Daarna worden in een steekproef van 25% van de werkstukken opnieuw beoordeeld door een docent. Bij ernstige afwijkingen met de beoordeling van de leerling (overeenstemming kleiner dan 70%) wordt het werkstuk door nog een andere docent beoordeeld. Als de docenten het eens zijn in hun afwijzing van de beoordeling van de leerling, zullen de werkstukken van de betreffende leerling vaker aan een controle onderworpen worden. 7.6.5 Kwaliteitsbeschrijving De betrouwbaarheid van de toetsscores wordt bevorderd door de verregaande standaardisatie van de taaksituatie. Doordat die voor elke leerling identiek is, is het mogelijk om ook de beoordeling volgens een voorgeschreven standaard uit te voeren (het beoordelingsprotocol). Dit reduceert de kans op meetfouten, hetgeen in onderzoek bevestigd werd door de hoge overeenstemming tussen onafhankelijk van elkaar werkende beoordelaars. De fantoomkop-toets wordt ingezet om de vaardigheid ten aanzien van prepareren en restaureren vast te stellen. Daartoe moet over langere tijd een groot aantal verschillende werkstukken onder toetscondities vervaardigd worden. Elk werkstuk moet als voldoende beoordeeld zijn om tot de klinische patiëntbehan- deling te kunnen worden toegelaten. De validiteit van de fantoomkop-toets wordt daarom hoog ingeschat: het aantal verschillende taaksituaties waarmee leerlingen in de kliniek geconfronteerd kunnen worden, is in voldoende mate afgedekt met de toetsopdrachten, dat wil zeggen elke toetsopdracht is een combinatie van een bepaald type (klasse) preparatie of restauratie, een type element (molaar, premolaar, hoektand, snijtand) en de locatie in de kaak (linker of rechter onder-/bovenkaak). De natuurgetrouwheid van de fantoomkop-toets is redelijk, althans in technische zin. Leerlingen die tot de kliniek worden toegelaten hebben bewezen standaardpreparaties en standaardrestauraties te kunnen vervaardigen. Maar echte patiënten hebben doorgaans tanden en kiezen die qua vorm en positie afwijken van de plastic elementen in de fantoomkop. Het is de kunst om de standaardpreparaties aan te passen aan de situatie in de mond van een willekeurige patiënt. Daarnaast is er een verschil in het bewerken van ivoor in vergelijking tot plastic. En ten slotte mag niet uit het oog worden verloren dat het behandelen 119
  • 124. Hoofdstuk 7 van een echte patiënt niet te vergelijken is met het werken in een fantoomkop. In de eerste plaats is prepareren een pijnlijke ingreep en in de tweede plaats betekent een verkeerde preparatie dat de patiënt met een minder behandelingsresultaat genoegen zal moeten nemen dan mogelijk was. Deze wetenschap roept stress op en kan de (bewezen) vaardigheid van de leerling om te prepareren en te restaureren in negatieve zin beïnvloeden. 7.6.6 Toepassingen De fantoomkop-toets is uiteraard alleen toepasbaar binnen de tandartsopleiding en wellicht binnen de opleiding voor tandartsassistent of mondhygiënist. Maar het achterliggende concept van de simulator is ook in andere opleidingen in de gezondheidszorg bruikbaar. Massagetechnieken in de fysiotherapie, injecteren of het aanleggen van een infuus in de verpleegkunde, beademen van ’dummy’s’ als onderdeel van de EHBO-cursus binnen een of andere opleiding voor gezondheidszorg: het zijn slechts enkele voorbeelden van vaardigheden die geoefend en getoetst kunnen worden met behulp van een simulator. 120
  • 125. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.7 Skill sample test 7.7.1 Inleiding: stationsmodel Naar aanleiding van de resultaten van een vaardigheidstoets worden uitspraken gedaan over de bekwaamheid van een kandidaat ten aanzien van (een aspect van) een vaardigheid. Door slechts één specifieke taaksituatie aan te bieden om de vaardigheid te bepalen, bestaat het gevaar dat de prestatie niet gegeneraliseerd kan worden naar vergelijkbare taaksituaties. Van een leerling-verpleegkundige kan bijvoorbeeld niet worden gezegd dat hij de vaardigheid ’medicijnen toedienen’ beheerst, wanneer hij met goed gevolg een simulatiepatiënt een bepaald (nep)medicijn heeft laten slikken. Medicijnen kunnen namelijk op verschillende wijzen worden toegediend. Voor een correcte uitspraak over de beheersing van de vaardigheid zullen deze varianten ook in de toets aan bod moeten komen. Dit probleem van de generaliseerbaarheid ook wel aangeduid als taakspecificiteit. Het is te vergelijken met het maken van items in een meerkeuzetoets. Het maken van één item heeft nauwelijks een voorspellende waarde voor het maken van een tweede item. Daarom bestaat een multiple choice-test uit een groot aantal items. Zo zou ook de beoordeling van praktische vaardigheden uit meer taaksituaties moeten bestaan. Bij (patiënt)simulaties wordt daarom vaak gebruikgemaakt van een specifieke organisatievorm, namelijk het stationsmodel1. In een dergelijke opzet kunnen meerdere aspecten van een vaardigheid, taak of groter leerstofdomein worden getoetst. De aspecten worden in aparte stations getoetst. Een station kan worden gezien als een afgebakende ruimte waar een opdracht moet worden uitgevoerd. Deze taken kunnen zeer van elkaar verschillen in complexiteit en samenstelling. Sommige taken doen een beroep op het geïntegreerd toepassen van motorische, cognitieve, perceptuele en sociaal- communicatieve componenten. Andere zijn gereduceerd tot één of twee componenten (meestal gaat het daarbij om technische/instrumentele taken). Taken die een beroep doen op een groot aantal componenten vereisen vaak de aanwezigheid van een persoon op wie de uitvoering van de taak gericht is. Dat kan een echte patiënt zijn alhoewel het organisatorisch erg lastig is om echte patiënten op de stations te zetten. Ook toetstechnisch leidt dit vaak tot problemen vanwege de onvoorspelbaarheid van de patiënt-leerling interacties, waardoor voorgestructu- reerde beoordelingsprotocollen niet of niet volledig bruikbaar zijn. Ook simulatiepatiënten komen om organisatorische redenen niet in aanmerking. Daarom wordt meestal gewerkt met surrogaatpatiënten: dit zijn willekeurige personen die niet handelen volgens een script, zoals bij de patiëntsimulatie het geval is (zie par. 7.8). 7.7.2 Toetsbeschrijving Hieronder worden als voorbeeld van een skill sample test twee stations beschreven die deel uitmaken van het centraal examen voor het onderdeel verpleegkunde in de studierichting ’doktersassistent’ van het MDGO. Het examen bestaat uit negen stations (opdrachten), waarvan drie processtations (de leerling wordt beoordeeld op de uitvoering van een vaardigheid), drie productstations (de leerling wordt beoordeeld op het tastbare resultaat van een handeling) en drie theoriestations (de leerling wordt beoordeeld op theoretische kennis). Om het aantal leerlingen dat tegelijk geëxamineerd kan worden op te voeren, kunnen wachtstations (maximaal 3) ingericht worden. Op een wachtstation kan een leerling even op adem komen. In een sessie kunnen dus maximaal 12 leerlingen gelijktijdig geëxamineerd worden. Elke leerling begint op een ander station. Er wordt hier volstaan met de beschrijving van twee typerende stations, een processtation en een productstation. 1 Er wordt vaak gesproken over een ’stationstoets’, maar het is strikt genomen geen toetstechniek maar een organisatievorm. 121
  • 126. Hoofdstuk 7 Station 6 (processtation) In dit station wordt gebruikgemaakt van een surrogaatpatiënt. De leerling treft een persoon aan met een verband om de linker onderarm. Hij krijgt de volgende opdracht: De patiënt heeft een ontstoken schaafwond aan de linker onderarm. Verwijder het oude zalfverband en de zalfresten. Verzorg de wond opnieuw met betadinezalf, steriele gazen en witte watten. Fixeer met een elastisch hydrofiel zwachtel. De grootte en de exacte plaats van de wond zijn door de examinator/observator aangegeven. Al het benodigde materiaal ligt tussen andere materialen (die niet per se nodig zijn) gereed. tabel 34 - Checklist voor een processtation CHECKLIST Station 6 (processtation) ja nee min 1 wast de handen voor de behandeling -2 2 informeert de patiënt op de juiste wijze omtrent de handeling 3 plaatst een onderlegger onder de arm 4 de arm van de patiënt heeft steun 5 heeft handschoenen aan 6 verwijdert het oude verband op de juiste wijze -2 7 gebruikt nieuwe handschoenen of pincetten 8 maakt het wondgebied op de juiste wijze schoon 9 gebruikt hierbij de juiste vloeistof 10 brengt de betadinezalf op de juiste wijze aan 11 brengt steriel gaas op de juiste wijze aan 12 brengt witte watten op de juiste wijze aan 13 de breedte van de zwachtel is aangepast aan de dikte van de onderarm 14 de zwachtel is elastisch hydrofiel 15 legt de zwachtel op de juiste wijze aan 16 fixeert het verband op de juiste wijze 17 het verband is functioneel aangebracht -3 18 wast de handen na de handeling 19 de steriliteit is voor het overige gehandhaafd 20 de hygiëne is voor het overige gehandhaafd -3 21 informeert de patiënt op de juiste wijze over het vervolg van de behandeling 22 de leerling heeft ordelijk gehandeld -2 Behaalde score op station 6: 22 - ____ = ____ 122
  • 127. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm Station 7 (productstation) In dit station moet de leerling materialen en instrumenten klaarleggen voor twee verschillende onderzoeken. De opdrachten luiden als volgt: Opdracht A: Zet de materialen en instrumenten klaar voor een vaginaal speculumonderzoek. Opdracht B: Tref de voorbereidingen voor het maken van elektrocardiogram. Maak de cardiograaf bedrijfsklaar, bevestig de elektroden op een fantoom. N.B: Van de C-elektroden wordt alleen de eerste beoordeeld. 7.7.3 Beschrijving van het scoringssysteem Station 6 (processtation) De beoordeling vindt plaats aan de hand van een checklist welke tijdens de uitvoering van de opdracht wordt ingevuld (zie tabel 34). Een uitvoering zonder fouten levert het maximum van 22 punten op. Bij fouten in de uitvoering wordt er over het algemeen één punt afgetrokken, maar soms twee (zie criterium 1, 6 en 22) of drie (zie criterium 17 en 20). De behaalde score wordt berekend door het aantal strafpunten af te trekken van de maximumscore. tabel 35 - Checklist voor een productstation (opdracht A) CHECKLIST Station 7 (productstation) Opdracht A: vaginaal speculumonderzoek ja nee 1 bekken 2 desinfectans 3 watten of deppers 4 vaginaal speculum 5 handschoenen N.B. NIET OVERBODIG ZIJN: - onderlegger - glijmiddel - verstelbare lamp - kom per overbodig instrument of materiaal -1 .... Behaalde score op station 7A: 5 - ____ = ____ Station 7 (productstation) Het productstation bestond uit twee opdrachten. Voor de beoordeling daarvan zijn dan ook twee lijsten nodig. Voor de totale opdracht kunnen maximaal 14 punten behaald worden, voor elk correct aspect 1 punt (bij 7A maximaal 5 punten, bij 7B maximaal 9 punten). Ook hier kunnen weer aftrekpunten worden toegekend (zie tabel 35 en tabel 36). Als voor elk station de score berekend is, kan een eindcijfer vastgesteld worden voor het examenonder- deel Verpleegkunde. Daarvoor wordt gebruikgemaakt van een tabel zoals is afgebeeld in tabel 37. 123
  • 128. Hoofdstuk 7 7.7.4 Bruikbaarheid Het stationsmodel is speciaal ontwikkeld om bij een groep leerlingen een groot aantal verschillende vaardigheden te toetsen, zonder dat dit leidt tot onaanvaardbaar hoge investeringen in tijd. De opdrachten zijn zodanig samengesteld dat ze binnen tien minuten uitgevoerd kunnen worden. In totaal neemt een toetsing van 12 leerlingen ongeveer drie uur in beslag (exclusief de voorbereidingstijd die gemoeid is met het inrichten van de stations). Grote voordelen van deze toetsvorm zijn: – doorgeven van informatie is praktisch gezien niet meer mogelijk (alle leerlingen die er belang bij kunnen hebben ’zitten’ op een of ander station); – de opdrachten zijn voor elke leerling gelijk waardoor er geen onbedoelde verschillen in moeilijk- heidsgraad kunnen optreden; – stations zijn eenvoudig uitwisselbaar: met drie à vier complete stations kunnen veel verschillende varianten samengesteld worden. tabel 36 - Checklist voor een productstation (opdracht B) CHECKLIST Station 7 (productstation) Opdracht B: voorbereidingen treffen voor het maken van een elektrocardiogram ja nee 1 de cardiograaf is correct aangesloten a de stekker in het stopcontact b de juiste kabel aan de juiste elektrode c aardkabel correct aangesloten 2 de cardiograaf is bedrijfsklaar a papiertransport is mogelijk b schrijver in het midden 3 het fantoom heeft de juiste houding 4 de enkels, polsen zijn ontbloot 5 het bovenlichaam is ontbloot 6 voldoende geleidingsmiddel tussen huid en elektroden 7 elektroden op de juiste plek op polsen, enkels aangebracht 8 de eerste C-elektrode op de juiste plek op de borstkas aangebracht 9 ijkblokje is correct N.B. NIET OVERBODIG ZIJN: - bekken - watten/gazen - reinigingsmiddel - scheermateriaal per overbodig instrument of materiaal -1 .... Behaalde score op station 7: 9 - ____ = ____ 124
  • 129. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 37 - Voorbeeld van omzettingstabel behaalde score tot en met cijfer 0 42 1 43 54 2 55 65 3 66 76 4 77 87 5 88 98 6 99 109 7 110 120 8 121 131 9 132 135 10 De ’bottleneck’ bij toepassing schuilt in de organisatie: er zijn evenveel observatoren nodig als stations in de toets. Een toets met bijvoorbeeld twaalf stations doet dus een beroep op een flink deel van het docentenkorps. 7.7.5 Kwaliteitsbeschrijving Een indicatie van de kwaliteit moet door het ontbreken van afnamegegevens gebaseerd worden op een beschrijving van de maatregelen die getroffen zijn om de betrouwbaarheid en validiteit te waarborgen. De betrouwbaarheid van de toetsscores wordt gewaarborgd door het feit dat leerlingen gestandaardiseerde taaksituaties krijgen voorgelegd. Deze taaksituaties zijn zodanig samengesteld dat ze het gedrag waarnaar de interesse uitgaat, kunnen uitlokken. Door de voorspelbaarheid van het gedrag van de leerling is het mogelijk tamelijk eenduidige beoordelingscriteria te formuleren. De verwachting is dan ook dat de overeenstemming tussen twee of meer beoordelaars over de vaardigheid van een leerling tamelijk hoog zal zijn. De validiteit is gebaat bij de verschillende taaksituaties die de leerling krijgt voorgelegd. Hoe groter het aantal verschillende taken, des te kleiner wordt de kans dat de toetsprestatie alleen geldigheid bezit voor een bepaald onderdeel van de verpleegkunde. In dit verband zou het raadzaam zijn de theoriestations in te ruilen voor proces- of productstations. De validiteit neemt daardoor nog toe. Bovendien wordt met proces- en productstations ook theoretische kennis getoetst: aan elke vaardigheid ligt theoretische kennis ten grondslag. Wie een vaardigheid correct uitvoert, heeft daarmee bewezen ook over de daarvoor benodigde theoretische kennis te beschikken. De overdraagbaarheid van de examensituatie naar de reële werksituatie wordt ingeschat als ’redelijk’. De leerling voert de taken voor een deel uit zoals die in de reële werksituatie ook uitgevoerd zouden worden. Dat wil zeggen dat waar mogelijk de handelingen zich richten op een persoon (meestal een andere leerling). Alleen bij vervelende en/of bedreigende behandelingen wordt gekozen voor een fantoom. De richtlijnen vermelden expliciet dat leerlingen zich dienen te gedragen alsof ze dienst doen in een echte praktijksituatie. Echter, de stress van de reële werksituatie ontbreekt: er zijn geen doodzieke, vervelende of niet-begrijpende patiënten die met veel geduld en overtuigingskracht benaderd moeten worden. Dit probleem geldt meer voor de processtations dan voor de productstations, waar de handelingen minder vaak gericht zijn op een patiënt (vooral klaarleggen van materialen). 125
  • 130. Hoofdstuk 7 7.8 Patiëntsimulatie De patiëntsimulatie is een toetsvorm waarbij vaardigheden in een realistische maar gestandaardiseerde situatie worden getoetst. Realistisch is de toets, omdat de toetssituatie grote overeenkomsten vertoont met de praktijk (bijv. in vergelijking met een schriftelijke casus). Gestandaardiseerd is de toets, omdat de toetssituatie voor iedere leerling gelijk is. Bij een patiëntsimulatie is de omgeving waarin de leerling de vaardigheden moet tonen nagebootst. Een belangrijk aspect in deze nagebootste realiteit is de patiënt. Een getraind persoon zal volgens een script de rol van de patiënt spelen. Deze personen worden ook wel de simulatiepatiënten genoemd. 7.8.1 Geschiktheid De toetsmethodiek waarbij gebruik wordt gemaakt van een simulatiepatiënt, is in niet alle gevallen even geschikt. Wanneer het standaardiseren van de toetssituatie minder belangrijk is, kan eenvoudiger gekozen worden voor praktijktoetsing op de werkplek. Wanneer de natuurgetrouwheid niet zo groot hoeft te zijn, kan gebruik worden gemaakt van medeleerlingen of docenten. Ook niet alle taken zijn geschikt voor beoordeling via een patiëntsimulatie. In tabel 38 zijn enkele criteria te zien op grond waarvan taken al dan niet in aanmerking komen. tabel 38 - Criteria voor vaardigheidsbeoordeling middels een patiëntsimulatie positief negatief 1. Is een juiste taakuitvoering cruciaal? toedienen medicijnen opmaken bed 2. Komt de taak frequent voor? wassen sputumkweek maken 3. Is er een ethisch risico voor de simulatiepati- nagels knippen rectaal onderzoek doen ent? 4. Is er een medisch risico voor de simulatie- mitella aanbrengen reanimeren patiënt 5. Is de rol uitvoerbaar voor de simulatiepatiënt? krampen bloeddrukschommelingen 6. Heeft de simulatie een meerwaarde? wassen bed opmaken De eerste twee criteria betreffen de vraag of de investering van tijd en geld om de taak te analyseren in verhouding staat tot het belang van de taak. De taak moet cruciaal zijn en/of frequent voorkomen. Cruciale taken zijn taken die nadelige gevolgen hebben voor de patiënt wanneer ze niet goed worden uitgevoerd. Een tweede categorie criteria heeft betrekking op de (on)mogelijkheden van de simulatiepatiënt. Deze persoon dient tijdens de simulatie beschermd te worden tegen mogelijke geestelijke en lichamelijke schade en dient de rol op een zo natuurgetrouw mogelijke manier weer te geven. Dit betekent dat de ontwerper van een patiëntsimulatie in de eerste plaats een ethische verantwoordelijkheid heeft over de simulatiepatiënt. Sommige verpleegkundige en verzorgende taken kunnen derhalve niet met simulatiepatiënten geleerd en getoetst worden, omdat uitvoering van de taken net als bij actuele (echte) patiënten te veel risico voor de gezondheid van de simulatiepatiënten met zich meebrengt. De ontwerper van een patiëntsimulatie dient ook rekening te houden met de uitvoerbaarheid van de nabootsing door de simulatiepatiënt van bepaalde symptomen van ziekten die verder geen medische of ethische risico’s met zich meebrengen. Het laatste criterium is de meerwaarde die een simulatie moet hebben boven andere instructie- of toetsvormen. Voor het toetsen van complexe vaardigheden is een patiëntsimulatie uitermate geschikt. 126
  • 131. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm Wanneer echter een geïsoleerde enkelvoudige vaardigheid aangeleerd en/of getoetst moet worden zijn er veel eenvoudiger en goedkopere instructie- en/of toetsmethoden voorhanden. De patiëntsimulatie wordt gebruikt voor het vaststellen van de beheersing van vaardigheden onder nagebootste werkomstandigheden. Hierbij gaat het om vaardigheden die gericht zijn op de tegemoetko- ming aan de behoeften van patiënten. Dit zijn doorgaans complexe vaardigheden, waarbij de interactie met de patiënt een belangrijke plaats inneemt. Afhankelijk van het stadium van de opleiding waarin de leerling zich bevindt en het doel van de toetsing (bijv. summatief of formatief) worden bij een patiëntsimulatie componenten van vaardigheid, de vaardigheid in zijn geheel, of de vaardigheid geïntegreerd met andere vaardigheden getoetst. De patiëntsimulatie die in het begin van een opleiding wordt ingezet zal zich meestal beperken tot de toetsing van relatief eenvoudige vaardigheden of componenten van een vaardigheid. Een patiëntsimulatie waarbij een eerstejaars leerling-verpleegkundige een patiënt uit bed moet helpen, kan bijvoorbeeld bedoeld zijn voor het toetsen van een aantal geselecteerde psychomotorische en interactieve componenten van de vaardigheid, die voor deze fase van de opleiding relevant worden gevonden. De toetsing kan zich in dit geval richten op uitvoering van de vaardigheid in een aantal relatief eenvoudige zorgsituaties, waarin naast ingewikkelde varianten van de psychomotorische en interactieve vaardigheid, de affectieve component (de attitude) niet wordt beoordeeld. Dit komt dan later in de opleiding aan bod. 7.8.2 De simulatiepatiënt Ter bevordering van de natuurgetrouwheid van een patiëntsimulatie is het aan te raden de rol van simulatiepatiënt te laten vervullen door personen die niet bekend zijn bij de student. Voor de werving van simulatiepatiënten vallen hierdoor medestudenten en docenten af. Wanneer de patiëntsimulatie echter voor het eerst wordt geïmplementeerd in het curriculum kan toch worden overwogen om personen uit deze groepen als simulatiepatiënt in te zetten. Het opzetten van een compleet bestand van simulatiepati- enten die uit personen van buitenaf bestaat, vergt namelijk een gedegen organisatie en kost tijd. 7.8.3 Voorbeeld Hieronder wordt een voorbeeld besproken van een patiëntsimulatie. Achtereenvolgens komen aan de orde de taak en de varianten die daarbij te onderscheiden zijn, het beoordelingsinstrument en enkele logistieke zaken. Met nadruk zij vermeld dat de agogische vaardigheden hier buiten beschouwing worden gelaten. Het accent heeft bij de taakanalyse gelegen op de instrumenteel-technische of psychomotorische vaardigheden. De psychomotorische vaardigheid bestaat uit motorische vaardigheden die waarneembaar zijn en cognitieve vaardigheden (de beslissingen) die niet waarneembaar zijn. De taak Er is een beoordelingsinstrument ontwikkeld voor de beoordeling van de taak ’Het uit en in bed helpen van een patiënt’. Deze taak kan worden onderverdeeld in vier fasen: – de taakvoorbereiding, – de taakuitvoering van ruglig bed naar zit in stoel, – de taakuitvoering van zit in stoel naar ruglig bed en – de taakafronding. Afhankelijk van de mogelijkheden van de patiënt wordt de taak op verschillende manieren uitgevoerd. Standaard bestaan er vier varianten die zich van elkaar onderscheiden doordat er verschillende tiltechnieken worden gehanteerd: 127
  • 132. Hoofdstuk 7 a Actieve tiltechnieken. Bij actieve tiltechnieken worden bewegingen die verband houden met het uit en in bed verplaatsen van de patiënt door de patiënt zelf uitgevoerd. De rol van de hulpverlener is om de bewegingen te ondersteunen met verbale aanwijzingen, ofwel instructies. b Geleid actieve tiltechnieken. Bij geleid actieve tiltechnieken ondersteunt de hulpverlener alleen daar waar de kracht van de patiënt ontbreekt. c Passieve tiltechnieken met één hulpverlener. Bij passieve tiltechnieken worden de handelingen volledig door de hulpverlener uitgevoerd. De hulpverlener geeft wel telkens aan wat er gaat gebeuren. Zodoende zal de hulpverlener minder worden tegengewerkt, wat het tillen minder zwaar maakt. d Passieve tiltechnieken met twee hulpverleners. Net als bij c worden de handelingen volledig door de hulpverlener uitgevoerd. Omdat het zelfzorgtekort van de patiënt groter is, moet een tweede hulpverlener worden ingeschakeld om de patiënt te verplaatsen. Een belangrijk criterium om een tweede hulpverlener in te schakelen is het feit dat de patiënt geen sta-moment meer kent (bijv. ten gevolge van een verlamming). In de toets worden de hierboven genoemde vier varianten getoetst. Hiervoor is het stationsmodel als organisatievorm gekozen (zie par. 7.7.1). Voor elke variant van de taak is een station gereserveerd waar de handelingen van de leerling worden geobserveerd en beoordeeld. Tijdens deze toets bezoeken de leerlingen vier stations waarbij telkens de opdracht luidt de patiënt uit en in bed te helpen. Het beoordelingsinstrument Het beoordelingsinstrument bestaat uit vier beoordelingslijsten die gerelateerd zijn aan de vier casussen. De beoordelingslijsten hebben de vorm van een checklist (zie tabel 30). Wordt een beoordelingsaspect vertoond dan kan tevens in de checklist worden aangegeven of dit correct of niet correct wordt gedaan. Achter ieder beoordelingsaspect zijn daarom de volgende scorecategorieën mogelijk: a goed, b fout en c niet. Om te bepalen of aspecten van het uitvoeringsproces goed of fout zijn is het van belang dat er criteria worden opgesteld. In enkele gevallen zijn deze criteria opgenomen in de items. – Bijvoorbeeld: [de leerling] zet bed op hoogte stoel Hierbij is het criterium (de juiste hoogte) gegeven. In bepaalde gevallen is het criterium zo triviaal voor een beoordelaar die inhoudelijk deskundig is, dat het niet wordt vermeld in het item. – Bijvoorbeeld: [de leerling] legt de arm van de patiënt over het lichaam. De deskundige weet in dit geval zelf wel wanneer dit goed of fout wordt uitgevoerd. In de beoordelingslijsten worden echter ook items beschreven die nadere uitleg behoeven wat betreft de criteria. Vanwege de hanteerbaarheid van de lijst zijn namelijk enkele items vereenvoudigd. De reden voor vereenvoudiging is dat anders 1 het aantal items te omvangrijk zou worden en 2 de omschrijvingen te uitgebreid zouden worden waardoor de aandacht te veel van de observatie zou worden afgeleid. In de beoordelaarstraining dienen zulke criteria nader besproken te worden. Deze taak bestaat uit vier fasen. De beoordelingslijsten zijn volgens deze fasen opgebouwd. De taakvoorbereiding verloopt voor de vier varianten van de taak ’Het in en uit bed helpen van een patiënt’ identiek. Iedere beoordelingslijst bevat daarom dezelfde items voor de beoordeling van deze fase. Onderdelen die daarin worden onderscheiden zijn: – Informatieverzameling. Bij de verzameling van informatie gaat het erom dat op basis van deze informatie de juiste tiltechnieken worden gekozen. – Informeren patiënt. De patiënt heeft er recht op te weten wat er gaat gebeuren. Ook voor een goede medewerking is informatieverstrekking over de interventie van belang. – Werkomgeving en patiënt in gereedheid brengen. Voor de taakafronding geldt hetzelfde als voor de taakvoorbereiding: voor iedere casus is deze hetzelfde en kent de volgende onderdelen: 128
  • 133. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm – Rondt taakuitvoering af. Hierbij wordt onder andere goed gescoord wanneer de patiënt aangeeft dat hij of zij comfortabel ligt. – Brengt werkomgeving in orde. Het bed is op juiste hoogte gebracht wanneer de patiënt in bed ligt en gemakkelijk bij het nachtkastje kan. In de checklists worden bij de formulering van de items werkwoorden gebruikt die gerelateerd zijn aan de gehanteerde tiltechnieken (actief, geleid actief, passief). In de checklist voor het uit en in bed helpen van een actieve patiënt worden items genoemd waarin het werkwoord ’instrueren’ voorkomt. Instrueren betekent hier: 1 de patiënt vragen om de handeling uit te voeren en 2 indien de vraag niet wordt begrepen, extra aanwijzingen geven. – Bijvoorbeeld: [de leerling] instrueert [de patiënt] linkerknie te buigen De leerling vraagt om de linkerknie te buigen. De patiënt die dit begrijpt en de handeling zelf kan uitvoeren zal dit doen. De patiënt die de handeling wel zou kunnen uitvoeren, maar niet weet hoe, zal extra aanwijzingen moeten krijgen, bijvoorbeeld: ’De linkervoet in de richting van je linker bil schuiven’ of ’de linkerknie naar je toe trekken’. Elk item waarbij sprake is van instrueren wordt pas goed gescoord als volgens de bovenstaande procedure is gehandeld. In de checklist voor het uit en in bed helpen van een patiënt met behulp van geleid actieve tiltechnieken worden bepaalde items waarbij de patiënt zich verplaatst of verplaatst wordt, aangeduid met het werkwoord ’ondersteunen’. Ondersteunen betekent hier: 1 de patiënt vragen om de handeling uit te voeren, 2 te observeren wat de fysieke mogelijkheden zijn van de patiënt en 3 op basis van de observatie besluiten om de beweging fysiek te ondersteunen, waarbij de patiënt in staat is zelf mee te werken tijdens de handeling – Bijvoorbeeld: [de leerling] ondersteunt de patiënt bij kantelen door lichte druk aan de buitenzijde van de linkerknie De leerling vraagt de patiënt om te kantelen door hem te vragen zich af te laten zetten met de linkerknie. De voorgaande handelingen kon de patiënt ook al zelf uitvoeren. Maar nu blijkt dat dit toch veel moeite kost. Daarom ondersteunt hij de beweging door lichtjes druk te geven aan de buitenzijde van de linkerknie: in wezen een passieve actie, echter in het kader van de voorgaande handelingen en het feit dat de patiënt zelf ook kracht zet is er sprake van een geleid actieve techniek. Bij passieve tiltechnieken worden de handelingen volledig door de hulpverlener uitgevoerd. In de formulering van de items komt dit tot uiting door gebruik te maken van duidelijk observeerbare werkwoorden. Voorbeelden van dergelijke werkwoorden zijn: ’[de leerling] buigt linkerknie van de patiënt’ of ’[de leerling] fixeert de knieën’. Het correct scoren van deze items houdt meer in dan alleen het uitvoeren van handelingen. Voorafgaand aan de acties geeft de hulpverlener geeft wel telkens aan wat er gaat gebeuren. Zodoende zal de hulpverlener minder worden tegengewerkt wat het tillen minder zwaar maakt. – Bijvoorbeeld: [de leerling] begeleidt de patiënt tot sta-houding, waarbij voeten patiënt worden gefixeerd door eigen voeten voor voeten patiënt te zetten. De leerling legt eerst kort uit wat er gaat gebeuren om vervolgens de actie uit te voeren. Om te illustreren dat voor het beoordelen van de taakuitvoering in de verschillende varianten ook verschillende beoordelingslijsten noodzakelijk zijn, zijn op de volgende bladzijden deze onderdelen van twee beoordelingslijsten opgenomen. De eerste wordt gehanteerd in het station met de actieve patiënt, de tweede bij een passieve patiënt. 129
  • 134. Hoofdstuk 7 Rolomschrijving voor de simulatiepatiënt In de rolomschrijving komen twee aspecten aan de orde: – de achtergrondinformatie: enkele persoonlijke gegevens, medische gegevens, symptomen en kenmerken van de omgeving – de rolvertolking: hierin wordt vastgelegd op welke wijze de simulatiepatiënt zich in de verschillende omstandigheden moet gedragen Voorbeelden van een uitwerking van deze twee aspecten zijn terug te vinden in tabel 41 en tabel 42. Opdracht voor de leerling De leerling krijgt bij elk station de opdracht om de patiënt uit en in bed te helpen. Een voorbeeld van de omschrijving van zo’n opdracht is te vinden in tabel 43. Vervolgens moet de leerling het dossier van de patiënt bestuderen om op basis daarvan een bepaalde tiltechniek te kiezen. Na bestudering van het dossier moet de beoordelaar aan de leerling vragen welke techniek hij het meest geschikt acht voor de desbetreffende patiënt. De (on)juistheid van het antwoord wordt op de beoordelingslijst aangetekend. Vervolgens krijgt de leerling onmiddellijk feedback op zijn keuze: bij een juiste keuze krijgt hij te horen dat de gekozen techniek mag gaan uitvoeren; is de keuze onjuist, wordt hem dit verteld en daarbij wordt aangegeven welke techniek hij wél moet hanteren. Het dossier van de geleide actieve patiënt is opgenomen in tabel 44. 130
  • 135. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 39 - Beoordeling taakuitvoering met een actieve patiënt Fase: Deeltaak: Leerdoelen: goed fout niet TAAKUITVOERING Van lig naar (rol)stoel actieve patiënt 1. Laat patiënt kantelen 1.1 gaat naast bed staan, aan kant waar patiënt uit bed gaat 1.2 instrueert linkerarm over lichaam te leggen 1.3 instrueert linkerknie te buigen 1.4 instrueert zich om te draaien door met gebogen been af te zetten 2. Laat patiënt tot zit op bedrand komen 2.1 instrueert beide knieën op te trekken en op bedrand te schuiven 2.2 instrueert tot zit te komen door benen buiten bed te laten glijden en tegelijkertijd met de linkerhand af te laten zetten 3. Vraagt hoe patiënt zich voelt 4. Besluit door te gaan met mobiliseren 5. Laat patiënt tot stand komen 5.1 stelt bedhoogte zodanig in dat voeten patiënt grond kunnen raken in geval dat patiënt op de bedrand zou zitten (indien het instelpe- daal aan de zijkant zit waar de patiënt uit bed gaat kan deze actie tussen 5.4 en 5.5 worden uitgevoerd) 5.2 gaat voor patiënt staan in spreidstand 5.3 instrueert schoeisel aan te doen 5.4 instrueert naar bedrand te ’zigzaggen’ (bil voor bil) 5.5 instrueert te gaan staan 6. Laat patiënt van sta-houding tot zit in (rol)stoel komen 6.1 begeleidt patiënt naar (rol)stoel 6.2 instrueert tot zit in (rol)stoel ((a) patiënt voelt rand stoel met achter- kant benen; (b) pakt leuningen vast; (c) beweegt romp naar voren en (d) komt langzaam tot zit) 131
  • 136. Hoofdstuk 7 tabel 40 - Beoordeling taakuitvoering passieve patiënt Fase: Deeltaak: Leerdoelen: goed fout niet TAAKUITVOERING Van lig naar (rol)stoel passieve patiënt 1. Kantelt patiënt 1.1 gaat naast bed staan, aan kant waar patiënt uit bed gaat 1.2 legt linkerarm over lichaam 1.3 buigt linkerknie patiënt 1.4 legt hand onder schouder van patiënt (deze blijft liggen t/m 2.3) 1.5 gaat in schredestand staan 1.6 kantelt door lichte druk aan buitenzijde linkerknie patiënt 1.7 verplaatst hierbij gewicht van voorste naar achterste been 1.8 brengt gewicht op voorste been, zodat geen ruimte tussen bed en zichzelf ontstaat 2. Brengt patiënt tot zit op bedrand 2.1 Buigt knieën patiënt en legt onderbenen op de bedrand 2.2 gaat in spreidstand staan 2.3 voert koppelbeweging uit door met vrije hand de onderbenen van de bedrand te verplaatsen en met de andere hand de patiënt via de schouder omhoog te duwen 2.4 verplaatst hierbij gewicht van linker- naar rechterbeen (= van hoofd- einde richting voeteneind) 3. Vraagt hoe patiënt zich voelt 4. Besluit door te gaan met mobiliseren 5. Brengt patiënt tot sta-houding 5.1 stelt bedhoogte zodanig in dat voeten patiënt grond raken in geval dat de patiënt op de bedrand zou zitten (indien het instelpedaal aan de zijkant zit waar de patiënt uit bed gaat kan deze actie tussen 5.5 en 5.6 worden uitgevoerd) 5.2 gaat voor patiënt staan in spreidstand 5.3 trekt schoeisel aan bij patiënt 5.4 pakt patiënt op de billen vast 5.5 laat patiënt bil voor bil naar de rand van het bed ’zigzaggen’ (billiften) 5.6 fixeert de knieën van de patiënt door eigen knieën voor de knieschij- ven van de patiënt te plaatsen 5.7 begeleidt patiënt tot sta-houding, waarbij voeten patiënt worden ge- fixeerd door eigen voeten voor voeten patiënt te zetten. 6. Brengt patiënt van sta-houding tot zit in (rol)stoel 6.1 draait patiënt naar (rol)stoel, waarbij patiënt onderlangs bij schouder- bladen vastgepakt wordt 6.2 fixeert knieën 6.3 ondersteunt bij tot zit komen in (rol)stoel ((a) patiënt voelt rand stoel met achterkant benen; (b) romp naar voren en (c) langzaam tot zit komen) tabel 41 - Rolomschrijving geleid actieve patiënt: achtergrondinformatie doel Het doel van de patiëntsimulatie is om de vaardigheid ’het uit en in bed helpen van een patiënt’ te toetsen bij eerstejaars leerlingen verpleegkunde (MBO-niveau, richting beroepsbegeleidend leren – voorheen de inservice opleidingen). Tijdens de toets moeten de leerlingen vier keer een casus oplossen. Elke casus is een variant 132 de vaardigheid. van De casus waarop uw rol van toepassing is, is gericht op de variant van de vaardigheid waarbij de leerling- verpleegkundige bij de taakuitvoering gebruik maakt van zogenaamde geleid actieve tiltechnieken. Dit wil zeggen dat u als patiënt in een zodanige lichamelijke en/of geestelijke conditie verkeert dat u niet al de gevraagde handelingen zelf uit kunt voeren. In gevallen waarin u zich erg moet inspannen, heeft u fysiek
  • 137. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 42 - Rolomschrijving geleid actieve patiënt: rolvertolking algemeen U speelt een bereidwillige patiënt. U volgt de instructies van de verpleegkundige op. In enkele gevallen lukt het u niet om handelingen te verrichten. In die gevallen ondersteunt de verpleegkundige u. De verpleegkundi- ge zal u bij het uit en in bed helpen allerlei informatie verschaffen. Zowel bij de instructie als bij de reactie op gestelde vragen dient deze uitleg duidelijk te zijn. Is informatie duidelijk, dan geeft u dit aan. Is informatie onduidelijk, dan geeft u dit ook aan, zodat als het goed is extra uitleg volgt. uitgangspositie U ligt op uw rug in bed. U hebt uw pyjama aan. Schoeisel ligt onder het bed. gedrag tijdens de taakvoorbereiding Tijdens de taakvoorbereiding verzamelt de verpleegkundige informatie over u. Op basis van deze informatie beslist de verpleegkundige of u als patiënt in en uit bed mag worden geholpen. Indien dit is geoorloofd, maakt de verpleegkundige een keuze welke technieken hij of zij zal gebruiken tijdens het uit en in bed helpen. Naast het verkrijgen van informatie verstrekt de verpleegkundige zelf ook informatie. Zo wordt u geïnfor- meerd over wat u te wachten staat. Vervolgens worden de werkomgeving en u als patiënt in gereedheid gebracht voor de taakuitvoering. U handelt tijdens de taakvoorbereiding als volgt: – wanneer de verpleegkundige u vraagt hoe u zich voelt, antwoordt u dat u wat benauwd en moe bent. Het gaat echter al wel weer een stuk beter dan een uur geleden toen de benauwdheid veel heviger was. Wat de reden van het bezoek van de verpleegkundige ook mag zijn, u bent bereid mee te werken; – wanneer de verpleegkundige vraagt of u de reden van het bezoek weet, antwoordt u negatief, zodat nadere uitleg volgt. – wanneer de verpleegkundige vraagt of u het doel van het in en uit bed helpen weet (de taak), antwoordt u negatief, zodat nadere uitleg volgt; – wanneer de verpleegkundige vraagt of u het verloop van de taak weet, antwoordt u negatief, zodat nadere uitleg volgt. gedrag tijdens verplaatsing van lig naar zit in stoel Nadat u bent ingelicht en de werkomgeving in orde is gebracht, wordt u allereerst van lig in bed naar zit in de stoel geholpen. Hierbij handelt u als volgt: – de eerste handelingen in bed kunt u na instructie zelf verrichten: het leggen van de linkerarm over het lichaam en het buigen van de linkerknie. Deze laatste handeling ging echter al iets moeizamer (hoestje erbij); – het kantelen gaat nog iets moeizamer. Daarom helpt (als het goed is) de verpleegkundige u enigszins door lichte druk te geven aan de buitenzijde van de linkerknie. U ligt nu op de rechterzij; – het optrekken van de knieën en het schuiven van de onderbenen naar de bedrand lukt u ook; – met het tot zit komen op de bedrand hebt u problemen. De benen kunt u wel de bedrand af laten glijden, maar het tegelijkertijd opdrukken van het lichaam door af te zetten met de linkerhand lukt niet. Daarom wordt u door de verpleegkundige verder tot zit geholpen; – u zit op de bedrand. Wanneer u wordt gevraagd hoe u zich voelt, antwoordt u dat u wat vermoeid bent. De benauwdheid is niet erger geworden (u hoest wat). U voelt zich een beetje duizelig. U hoest wat. – het schoeisel aandoen laat u doen. U laat zich ook ondersteunen bij het komen van zit op bedrand (met billen midden op matras) naar zit op bedrand (met billen op rand van matras); – u volgt vervolgens de instructies van de verpleegkundige op waardoor u uiteindelijk in de stoel belandt. gedrag tijdens verplaatsing van zit in stoel naar lig in bed Nadat u in de stoel zit, wordt u direct weer in bed geholpen. Hierbij handelt u als volgt: – u volgt de instructies op. Tijdens de handelingen waarbij u van zit in stoel naar zit op bed laat u merken dat u wat onzeker bent in de beweging. De verpleegkundige zal u hierdoor fysiek ondersteunen; – u laat zich ook fysiek ondersteunen tot lig op de zij; – de handelingen om te komen van zijlig tot ruglig voert u na instructie weer geheel zelf uit. gedrag tijdens taakafronding Tijdens de taakafronding wordt ervoor gezorgd dat de patiënt comfortabel in bed ligt, wordt de gegeven zorg geëvalueerd en wordt de werkomgeving in orde gebracht. U handelt in deze fase als volgt: * wanneer u wordt gevraagd of u comfortabel ligt antwoordt u waarheidsgetrouw: ja of nee. 133
  • 138. Hoofdstuk 7 tabel 43 - Opdracht voor de leerling Opdracht Het is middag. Het is de bedoeling dat de patiënt uit en in bed wordt geholpen. Aandachtspunten bij de opdracht: - Nadat je voldoende informatie over de patiënt hebt ingewonnen en voordat je de patiënt uit bed helpt meld je de beoordelaars welke techniek je gaat gebruiken: a actief, b geleid actief c passief met 1 hulpverlener of d passief met twee hulpverleners. - Nadat de patiënt uit bed is geholpen volgt er een korte time-out. Hierna kun je de patiënt in bed helpen. tabel 44 - Voorbeeld van een patiëntendossier Dossier Gegevens van de patiënt: 1 Personalia Naam: Dhr. J. Franssen (Joost) Leeftijd: 45 jaar Burg. staat: Getrouwd, 2 kinderen Beroep: arbeidsongeschikt (voormalig administratief medewerker bank) 2 Situatie van patiënt voor de opname Meneer Franssen is sinds een jaar arbeidsongeschikt. Daarvoor werkte meneer als administratief medewerker bij een bank. Ten gevolge van chronische bronchitis en astma heeft meneer zo’n vijf jaar een longemfyseem. Door toename van de klachten (vaak benauwd en kortademig door verminderde longfunctie) moest meneer noodzakelijkerwijs stoppen met zijn werkzaamheden. De laatste tijd nemen de klachten steeds meer toe: meneer is erg vaak kortademig en moet veelvuldig zijn hulpademhalingsspieren gebruiken om de uitademing te bevorderen. Dit is de reden dat meneer ter observatie is opgenomen in het ziekenhuis. 3 Opname-indicaties Controle hart en longen naar aanleiding van toename klachten longemfyseem. Lichte rugklachten (onderrug). 4 Behandelplan Om bedcomplicaties te voorkomen en ter ontspanning na de onderzoeken dient meneer enkele malen per dag uit en in bed te worden geholpen. 5 Informatie over vorig contact met de patiënt Na de eerste onderzoeken in de ochtend is meneer door een fysiotherapeut uit en in bed geholpen. Omdat meneer enige last heeft van zijn onderrug is meneer via zijlig uit bed geholpen. Meneer was enigszins benauwd. Bewegingen die veel kracht vergden dienden door de fysiotherapeut ondersteunt te worden. Meneer was erg humeurig. 134
  • 139. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.8.4 Kwaliteitsbeschrijving Er is onderzoek gedaan naar de kwaliteit van de beschreven patiëntsimulatie als toetsinstrument (Wopereis, 1996). Hierbij hebben vier leerlingen alle vier de stations doorlopen. Zij werden daarbij geobserveerd door steeds twee beoordelaars. Door nu de prestaties onder de verschillende condities met elkaar te vergelijken, kon een indruk worden verkregen van de betrouwbaarheid (i.c. de interbeoorde- laarsovereenstemming) en de validiteit (i.c. de mate waarin de prestaties van de leerlingen consistent zijn over de verschillende stations). In het algemeen kan worden gesteld dat de beoordelingslijsten goed hanteerbaar zijn. De lay-out is duidelijk en de detaillering wordt niet als een nadeel ervaren, mits van tevoren met de lijsten is geoefend. De betrouwbaarheid van de lijsten is redelijk. De overeenstemming in station 1 is middelmatig, de overeenstemming in station 2 en 3 is behoorlijk en de overeenstemming in station 4 is aanzienlijk. Hieruit kan worden geconcludeerd dat ten aanzien van de betrouwbaarheid verbeteringen mogelijk zijn. Een deel van de verbetering zal liggen in het reviseren en/of verwijderen van items en het verduidelijken van de scorecriteria en -categorieën tijdens de training van de beoordelaars. De lage kwaliteitsscore van sommige items heeft grotendeels te maken met het feit dat deze items te weinig discrimineerden. Een item kan dan te gemakkelijk zijn (dus triviaal), maar het kan ook zijn dat alle proefpersonen het item goed scoorden, omdat ze het aspect goed uitvoerden. In veel gevallen gold dit laatste. Volgens de docenten is de inhoudsvaliditeit redelijk. De toets dekt de leerstof die van tevoren voor de instructie is geselecteerd. Ondanks het feit dat het houdingsaspect niet tot de geselecteerde leerdoelen behoorde, wordt dit toch aangemerkt als een aspect dat in de toetsing wordt gemist. De vraag kan nu worden gesteld of het houdingsaspect in het onderwijs en dus ook in de toets aanwezig moet zijn. Voor de toetsing is de toevoeging van het houdingsaspect geen groot probleem. Men pleit zelfs vaak voor een geïntegreerde toetsing waar zoveel mogelijk aspecten van een vaardigheid aan bod komen. Wat betreft de generaliseerbaarheid kan worden gezegd dat de beoordelingssituaties gezamenlijk voldoende informatie geven over de vaardigheid. Omdat deze conclusie gebaseerd is op het oordeel van een (klein) aantal docenten, dient naar dit aspect verder onderzoek verricht te worden. Hierbij kan bijvoorbeeld worden gedacht aan een test-hertest-onderzoek, waarbij de hertest bestaat uit andere taaksituaties dan de originele test, die echter wel representatief zijn voor de vast te stellen vaardigheid. Uit het generaliseerbaarheidsonderzoek bleek echter dat de verschillende stations niet allemaal met elkaar samenhangen. Dit betekent dat ieder station dus een component van de algemene vaardigheid meet en zodoende een onderdeel van de toets moet zijn. 135
  • 140. Hoofdstuk 7 7.9 Work sample test De work sample test (praktijktoetsing op de werkplek) heeft een aantal kenmerkende voordelen: – De verpleeg- of zorgsituaties waarin toetsing plaatsvindt, zijn levensecht, waardoor niet alleen de vaardigheid op zich beoordeeld kan worden maar ook de inpassing daarvan in het volledige verpleegkundig handelen (m.n. de omgang met de patiënt, het rekening houden met het gehanteerde verpleegsysteem e.d.). Een voorwaarde is dan wel dat de leerling het niveau van een beginnend beroepsbeoefenaar heeft. De leerling moet immers niet alleen de vaardigheid op zich beheersen maar ook voldoende kennis hebben van bijvoorbeeld de aandoening van de patiënt. – De verpleeg- of zorgsituaties waarin toetsing plaatsvindt, zijn vrijwel altijd voorhanden, tenzij het om zeer zeldzame vaardigheden gaat. Het gaat immers niet om een nieuw toetsmoment, maar om het verbeteren van de huidige methode van ’observeren en aftekenen’: iedere leerling wordt op dezelfde aspecten beoordeeld, waardoor een grotere mate van standaardisatie (en daarmee van objectiviteit) in de beoordeling ontstaat. Door het vastleggen van procedures en expliciteren van voorwaarden kan de betrouwbaarheid worden bevorderd. Niet alle vaardigheden komen echter in aanmerking om op de werkplek beoordeeld te worden: sommige vaardigheden, met name de cognitieve en psychomotorische (instrumenteel-technische) vaardigheden kunnen beter (betrouwbaarder) via andere toetsvormen aan de orde komen. Andere vaardigheden (conflicthantering) kunnen niet altijd getoetst worden, omdat de vereiste situatie zich niet voordoet. Omdat er sprake is van echte patiënten, is niet elke situatie geschikt als beoordelingssituatie: soms is het immers medisch of ethisch onverantwoord om een leerling in een acute of emotionele situatie te beoordelen. Ook is het niet haalbaar om voor alle vaardigheden die in aanmerking komen, ook daadwerkelijk een beoordelingsinstrument te ontwikkelen. Er zal dus een keuze gemaakt moeten worden. Overwegingen die daarbij een rol spelen zijn het belang van de vaardigheid voor een goede beroepsuitoefening, de frequentie waarmee de vaardigheid in de praktijk voorkomt en de mate waarin soortgelijke vaardigheden al op enigerlei andere wijze beoordeeld worden. 7.9.1 De analyse van de vaardigheid in aspecten en eventuele criteria Wanneer gekozen is voor een bepaalde vaardigheid die cruciaal is, vaak voorkomt of aspecten bevat die nog niet getoetst worden, zal een nadere analyse van de gekozen vaardigheid moeten plaatsvinden. Dit kan aan de hand van geconcretiseerde eindtermen, leerstofomschrijvingen of taakanalyses. Tijdens deze fase is het belangrijk om gebruik te maken van de expertise van een groep van docenten die de verschillende tussenproducten becommentariëren en het instrument mede vormgeven. Er moet nauwkeurig omschreven worden aan welke eisen de toetssituatie moet voldoen en onder welke omstandigheden de leerling de gevraagde vaardigheid moet laten zien. Vervolgens moet besloten worden of er een gedetailleerde lijst met criteria kan worden opgesteld of dat volstaan moet worden met globale aandachtspunten. Hierbij speelt ook een rol of er bij het uitvoeren van de handeling een of meer producten ontstaan of dat vooral het proces belangrijk is. Tussen deze uitersten zijn allerlei nuances denkbaar. Het verdient aanbeveling om naast de gedragsaspecten een ruimte vrij te laten waarin tijdens het gesprek aantekeningen gemaakt kunnen worden. Dit voorkomt enerzijds dat men zaken vergeet en anderzijds dat men te snel tot uitspraken komt. De beoordelingsaspecten moeten zo mogelijk chronologisch aan het verloop van de handelingen geordend worden. Wanneer dat niet kan moet gezocht worden naar een logische ordening en clustering van aspecten. 136
  • 141. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.9.2 De beoordelaars De wijze waarop de beoordelingslijst is uitgewerkt (globaal of gedetailleerd) bepaalt of gekozen moet worden voor deskundige beoordelaars. Wanneer er sprake is van globale aandachtspunten, zal het nodig blijken te zijn dat de gebruiker van het instrument inhoudelijk deskundig is. Soms kan niet precies omschreven worden aan welke criteria de leerling moet voldoen. De praktijkvaardigheid is dan wel uiteengerafeld in deelvaardigheden of beoordelingsaspecten, maar het is vervolgens aan de beoordelaar om te beslissen of de leerling op de afzonderlijke aspecten een voldoende prestatie levert. Dit geldt met name in praktijksituaties waarin een patiënt betrokken is. Omdat de patiëntensituatie nauwelijks gestandaardiseerd kan worden, moeten bij de beoordeling allerlei situationele factoren meegewogen worden: een bepaald gedrag kan in de ene situatie adequaat zijn, terwijl hetzelfde gedrag onder andere omstandigheden inadequaat is. Het moge duidelijk zijn dat slechts een deskundige zo’n beoordeling kan uitvoeren. Dit betekent dat de inbreng van de beoordelaar groot is, hetgeen omwille van de betrouwbaarheid een onwenselijk situatie is. Het is daarom bij het ontbreken van eenduidige criteria aan te bevelen, wanneer dat organisatorisch mogelijk is, te kiezen voor een tweede beoordelaar. Zo worden de individuele beoordelaarsfouten enigszins uitgemiddeld. Bovendien moet getracht worden met elkaar tot enige mate van consensus te komen over de meer impliciete criteria. Er kan ook voor gekozen worden om de beoordeling door een leek te laten doen. In veel gevallen is dat dan de patiënt zelf. Vanzelfsprekend kan dat alleen als de patiënt daartoe bereid is. Verder dient er in dat geval sprake te zijn van een gedetailleerde lijst die minder (deskundige) interpretatie vereist. Ook moeten dergelijke beoordelaars van tevoren getraind zijn. Het blijft de vraag in hoeverre een patiënt bereid is om eerlijke beoordelingen te geven over een leerling die toch z’n best heeft gedaan. In tabel 46 is terug te vinden hoe de beoordelingen in de verschillende situaties georganiseerd kunnen zijn: tabel 45 - Organisatie van de beoordelingen in verschillende situaties twee deskundige één deskundige een leken- beoordelaars beoordelaar beoordelaar globale beoordelingsaspecten gedetailleerde criteria Het verdient in ieder geval aanbeveling om voor de beoordelaar een uitgebreide handleiding op te stellen, zodat deze zich optimaal op zijn beoordelingstaak kan voorbereiden. 7.9.3 Onderzoek Schotten en Stolk hebben in 1995 onderzoek gedaan naar de mogelijkheden van praktijktoetsing op de werkplek. Als praktijkhandeling voor dit onderzoek werd gekozen voor een (opname-)gesprek ’tussen een leerling-verpleegkundige/verzorgende en een patiënt/cliënt/bewoner in de eerste fase van het verpleeg-/zorg-proces, waarin het verzamelen van gegevens centraal staat.’ De nadere analyse van de gekozen vaardigheid vond plaats aan de hand van de geconcretiseerde eindtermen voor A, B, Z en ZV (Cito in opdracht van het Ministerie van WVC, 1991) en de tussenproducten van het project dat zich bezighield met de vergelijking van de verschillende eindtermen (in 1994 gepubliceerd). 137
  • 142. Hoofdstuk 7 Voor de structurering van de verschillende deelvaardigheden die tijdens een gesprek een rol spelen werd gebruikgemaakt van de indelingen zoals die in de literatuur gevonden kunnen worden. Tijdens de constructiefase is gebruik gemaakt van de expertise van een groep van zeven docenten uit de A, de B en de ZV. Deze docenten hebben, vaak in samenspraak met collega’s, de verschillende tussenproducten becommentarieerd en het instrument mede vormgegeven. Het uiteindelijke beoordelingsinstrument bestond uit een beoordelingslijst met 27 gedragsaspecten en een aantekenblad dat tijdens het gesprek gehanteerd zou kunnen worden. Voor de beoordelaar was er bovendien een uitgebreide handleiding voor het gebruik. In de eerste versie van de beoordelingslijst moesten alle gedragsaspecten dichotoom worden gescoord (1 = ’passend gedrag’; 0 = ’niet passend gedrag’): het gedrag van de leerling ten aanzien van een bepaald aspect is ’passend’ wanneer de beoordelaar de indruk heeft dat de leerling het betreffende gedrag bewust wél of niet vertoont. Bij de meeste instrumenten voor gedragsbeoordelingen volgt een positieve score alleen als het gevraagde gedrag wordt vertoond. In de onderhavige beoordeling kan de leerling evenwel ook een positieve score krijgen als hij het betreffende gedrag niet heeft gedemonstreerd omdat hij dit niet in het belang van de verpleegkundige situatie achtte. De gebruiker van het instrument wordt verondersteld inhoudelijk deskundig te zijn. Het is niet de bedoeling (voor zover het al mogelijk is!) dat precies omschreven wordt aan welke criteria de leerling moet voldoen. De praktijkvaardigheid wordt in het instrument uiteengerafeld in deelvaardigheden of beoordelingsaspecten, maar het is vervolgens aan de beoordelaar om te beslissen of de leerling op de afzonderlijke aspecten een voldoende prestatie levert. En juist omdat de patiëntensituatie nauwelijks gestandaardiseerd kan worden, moeten bij die beoordeling allerlei situationele factoren meegewogen worden: een bepaald gedrag kan in de ene situatie adequaat zijn, terwijl hetzelfde gedrag onder andere omstandigheden inadequaat is. Het moge duidelijk zijn dat slechts een deskundige zo’n beoordeling kan uitvoeren. Uit het onderzoek bleek dat een oordeel dat gebaseerd is op het instrument, wat betreft de betrouwbaar- heid en de validiteit, net zo goed is als het oordeel zonder instrument. Het instrument kan echter om aantal redenen toch een verbetering van de beoordeling betekenen: – De beoordeling wordt systematischer en gestructureerder uitgevoerd. – Doordat de beoordelingscriteria op papier staan kunnen de beoordelaars onderling effectiever communiceren over de gehanteerde normen bij het beoordelen; dit bewust nadenken over waarden en normen en het discussiëren hierover komt de kwaliteit ten goede. – Als de leerling vooraf op de hoogte is van de criteria waarop hij beoordeeld wordt (hetgeen idealiter het geval is) kan hij zich beter voorbereiden op de te leveren prestatie. – Voor de beoordelaar is het gemakkelijker om met de leerling de tijdens de beoordelingssituatie geleverde prestatie na te bespreken; dit maakt het tot een bruikbaar hulpmiddel in het onderwijsleer- proces. – Aan de hand van de criteria is af te meten of een geselecteerde zorgsituatie geschikt is als beoordelingssituatie. Uit een nadere evaluatie van het onderzoek leek op twee fronten nog een verbetering van de beoordeling bereikt te kunnen worden, namelijk door het instrument beter hanteerbaar te maken en door de beoordelaars te trainen. Op beide punten wordt hieronder nader ingegaan. Hanteerbaarheid van het instrument Uit de evaluatieformulieren, die door alle beoordelaars die aan het onderzoek hebben deelgenomen werden ingevuld, bleek dat het onderscheid tussen passend en niet passend gedrag, zoals dat in de experimentele lijst was aangebracht, lastig te hanteren was: men moest immers in één score aangeven 138
  • 143. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm of men het gedrag al dan niet had waargenomen en welke waardering men daaraan vervolgens gaf. Bovendien vond men het moeilijk om over alle 27 gedragsaspecten een uitspraak te doen. In de tweede versie van het beoordelingsinstrument zijn de 27 gedragsaspecten niet langer onderverdeeld volgens het verloop van het gesprek, maar samengebracht in 7 rubrieken: voorbereiding, opening, gegevensverzameling, interactie, techniek, professionaliteit en afsluiting. In plaats van per aspect moet nu per rubriek een beoordeling (voldoende/onvoldoende) worden uitgesproken. Dit oordeel richt zich op twee elementen van het leerlinggedrag: de inhoud en de uitvoering. De geconsulteerde beoordelaars waren unaniem positief over de richting van de wijzigingen en op hun voorstel zijn zelfs nog enkele verdere vereenvoudigingen aangebracht. Zo is op hun advies afgestapt van het idee dat de lijst tijdens het gesprek ingevuld moet worden. Een gelijktijdige beoordeling leidt de aandacht te veel af van het gesprek. Bovendien volgt de nieuwe lijst niet meer strikt het verloop van het gesprek. Pas na afloop is per rubriek een afgewogen oordeel te geven. Wel wordt aanbevolen om zo mogelijk tijdens het observeren aantekeningen te maken, die bij het uiteindelijke oordeel van pas kunnen komen. Het huidige beoordelingsformulier is terug te vinden op bladzijde 142 (tabel 46). Op de bladzijden daaraan voorafgaand is een toelichting op de lijst te vinden met daarbij per rubriek een korte toelichting. Training van de beoordelaars Uit de resultaten werd duidelijk dat er onvoldoende overeenstemming bij beoordelaars bestaat over het gewenste leerlinggedrag. Tijdens een sessie met een aantal beoordelaars is geprobeerd om hen, voorafgaand aan de beoordeling met het bijgestelde instrument, consensus te laten bereiken over het gewenste leerlinggedrag. Hoewel de tijd te kort was om tot echte overeenstemming te komen, onderschreven allen de noodzaak van een dergelijk overleg tussen beoordelaars: opleidingen die hun beoordeling daadwerkelijk betrouwbaarder willen maken, zullen zich eerst intern moeten beraden op de criteria die enerzijds bij het aanleren van de vaardigheden en anderzijds bij de beoordeling ervan gehanteerd worden. De leerlingen Van de leerlingen die op de werkplek beoordeeld worden, wordt verondersteld dat zij (althans voor de aspecten waarop zij beoordeeld worden) het niveau van beginnend beroepsbeoefenaar bereikt hebben en dus in staat zijn op basis van kennis en inzicht de juiste keuzen te maken en prioriteiten te stellen. In sommige gevallen zal de beoordeling om praktische redenen niet plaatsvinden aan het einde van de opleiding maar op het moment dat de leerlingen voor het laatst met dit onderwerp te maken hebben. In elk geval gelden de volgende basisvoorwaarden: – De leerlingen hebben alle theorie met betrekking tot het onderwerp ’opnamegesprek’ gehad en hebben dit ook voldoende kunnen oefenen. Ze hebben van tevoren kennis genomen van het beoordelingsinstrument zodat ze weten op welke beoordelingsaspecten gelet wordt. – Tijdens het gesprek mag door de leerlingen gebruik gemaakt worden van een anamneseformulier of een andere standaard-vragenlijst. – Eerder in de opleiding is de theorie over de problematiek van de patiënt en het te verwachten patiëntengedrag aan de orde geweest. De gekozen zorgsituatie (de problematiek en het te verwachten gedrag van de patiënt/cliënt/bewoner) waarop de beoordeling betrekking heeft, sluit aan bij het opleidingsniveau van de leerlingen. De selectie van de praktijksituatie voor de beoordeling Omdat de beoordelingssituatie zo natuurlijk mogelijk moet zijn, kan dit betekenen dat de ene situatie moeilijker is dan de andere. Om dit bezwaar te ondervangen moet elke leerling gedurende zijn opleiding 139
  • 144. Hoofdstuk 7 minimaal tweemaal een bepaalde praktijksituatie aangeboden krijgen en dus ook minimaal tweemaal op de desbetreffende praktijkvaardigheid beoordeeld worden. Verder werden de volgende richtlijnen geformuleerd ten aanzien van het selecteren van een geschikte beoordelingssituatie: – de situatie moet aansluiten bij het opleidingsniveau van de leerling (zie ook hierboven). – de situatie moet representatief zijn: extreme situaties moeten vermeden worden, dat wil zeggen de patiënt moet een gedrag vertonen dat vaak voorkomt in dergelijke situaties. Het beoordelingsinstrument In tabel 47 is alleen de beoordelingslijst opgenomen. Het volledige beoordelingsinstrument bestaat uit: – het voorblad, waarop ruimte voor administratieve gegevens; – de beoordelingslijst, waarop alle beoordelingsaspecten in rubrieken zijn ondergebracht; – een aantekenblad, dat tijdens de observatie gebruikt kan worden. Gebleken is dat het niet verstandig is om tijdens de observatie de beoordelingslijst in te vullen: men mist dan al gauw een deel van de interactie. Ook kan men over een rubriek pas een afgewogen oordeel geven na afloop van het gesprek. Om toch bepaalde observaties vast te leggen tijdens het gesprek, kan het aantekenblad gebruikt worden. Direct aansluitend aan het gesprek en gebruikmakend van de aantekeningen op het aantekenblad moet per rubriek een oordeel worden gegeven over enerzijds de inhoud en anderzijds de uitvoering. Met inhoud wordt gedoeld op de verpleegkundige en vakinhoudelijke kwaliteit van het handelen van de leerling: klopt de informatie die verstrekt wordt, zijn de vragen die gesteld worden relevant voor de doel van het gesprek etcetera. Bij de uitvoering gaat het veeleer om de wijze waarop het gesprek gevoerd wordt: wordt de gegeven informatie afgestemd op het bevattingsvermogen van de patiënt, wordt er echt contact gelegd etcetera. Het oordeel moet per rubriek en per aspect gegeven worden in de vorm van een ’+’ (voldoende) of een ’−’ (onvoldoende). Vooraf moeten afspraken gemaakt worden over het aantal onderdelen dat voldoende moet zijn om als eindoordeel een voldoende te kunnen krijgen. Hieronder worden de onderscheiden rubrieken voor zover nodig nader toegelicht: Voorbereiding – Aandacht hebben voor het gespreksklimaat: geschikte omgeving, koffie e.d., beschikbare tijd, etcetera. – Hanteren van beschikbare gegevens van de patiënt: persoonlijke gegevens, opname-indicatie, ziektegeschiedenis, eventueel eerdere opnames Of de leerling zich in voldoende mate op het gesprek heeft voorbereid, blijkt onder meer uit de mate waarin het gesprek ongestoord kan plaatsvinden: is er een rustige ruimte gereserveerd, is er voldoende tijd uitgetrokken voor het gesprek. Tijdens het gesprek wordt bovendien duidelijk of de leerling aansluit bij en gebruikmaakt van de beschikbare gegevens: de leerling vraagt geen informatie die de patiënt al eerder heeft verstrekt, brengt de beschikbare gegevens op een soepele manier in in het gesprek en vraagt daarop door voor zover dat voor het zorgproces noodzakelijk is. Opening – zich voorstellen met naam en functie; – het doel van het gesprek uitleggen; – informatie geven over de gespreksprocedure (tijdsduur, verloop, eventuele gebruik van standaardfor- mulier); – informatie geven over aard, werkwijze, regels, verpleegsysteem, hulpverleners van ziekenhuis/ instelling en de eventueel gevolgen daarvan voor de patiënt; folders aanbieden; – informatie geven over de rechten en plichten van de patiënt en daarbij uitleg geven; 140
  • 145. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm – aangeven wat de (on)mogelijkheden zijn van de afdeling (materialen, personeel, procedures). De opening van het gesprek bestaat vooral uit het verstrekken van informatie: de leerling maakt duidelijk wie hij is en wat het gesprek zal gaan inhouden. De informatie wordt vooral gedoseerd gegeven om te voorkomen dat de patiënt overvoerd wordt: welke zaken daarbij echter essentieel zijn is iets wat de beoordelaar vooraf in overleg met zijn collega’s bepaald moet hebben. Nog enkele aandachtspunten voor de beoordelaar zijn: – Wanneer de leerling de patiënt uit een wachtruimte heeft opgehaald of wanneer de patiënt al enige dagen op de afdeling verblijft, mag verondersteld worden dat het voorstellen al gebeurd is. Dit aspect telt in dat geval niet mee bij de beoordeling van deze rubriek. – Met de leerling zal vooraf een duidelijke afspraak gemaakt moeten worden over het al dan niet melding maken aan de patiënt van het feit dat het een beoordelingssituatie betreft. Gegevensverzameling – vragen naar de contactpersoon; – informeren naar de mate van zelfredzaamheid en eventuele. mantelzorg; – gericht informatie vragen over leefgewoonten en eventuele beperkingen daarin; – gericht informatie vragen over de somatische gesteldheid en eventuele beperkingen daarin; – gericht informatie vragen over de psychosociale gesteldheid en eventuele beperkingen daarin. Na het geven van informatie uit de vorige rubriek, wordt nu aan de patiënt de gelegenheid geboden om op zijn beurt informatie te verstrekken. Het is met name bij deze rubriek dat al dan niet het hanteren van een anamneseformulier een rol gaat spelen. Wanneer een dergelijk formulier wordt gebruikt, moet gelet worden op de wijze waarop de leerling daarmee omgaat: wordt de vragenlijst strikt en systematisch afgewerkt en direct ingevuld of gebruikt de leerling het formulier op soepele wijze als geheugensteun. Ook ten aanzien van dit punt zullen beoordelaars tot een uitspraak moeten komen over de beste manier om het anamneseformulier te hanteren. Wanneer geen anamneseformulier wordt gebruikt, is vooral belangrijk om na te gaan of de leerling geen relevante onderwerpen overslaat. Interactie – Observeren van en reageren op non-verbale signalen; – rekening houden met de somatische en psychosociale gesteldheid; – rekening houden met de persoonlijke achtergrond (niveau, cultuur, religie etc.); – patiënt en/of relaties gelegenheid geven vragen te stellen en wensen/gevoelens kenbaar te maken c.q. daartoe voorwaarden scheppen; – doorvragen op uitspraken en ingaan op vragen, wensen en/of emoties van patiënt en/of diens relaties. Bij deze rubriek gaat het om de vaardigheid van de leerling om het gedrag van de ander te observeren en daarop adequaat te reageren. Ziet een leerling dat de patiënt te moe is om het gesprek voort te zetten of niet? Merkt een leerling dat de patiënt met vragen of gevoelens zit of is hij te druk met zijn eigen aandeel in het gesprek? Wat hierin adequaat gedrag is, is sterk afhankelijk van de specifieke situatie. Het vastleggen van normen ten aanzien van deze rubriek zal slechts in algemene termen kunnen gebeuren. Techniek – Hanteren van de gekozen gesprekstechnieken: vragen (niet suggestief), parafraseren, reflecteren, etc.); – actief luisteren: aanmoedigen, bevestigend knikken, hummen, oogcontact, gebaren, houding, gelaatsuitdrukking, etcetera; – zich verstaanbaar maken: structuur van verhaal, zinsbouw, toonhoogte, volume, dialect, gesprekstem- po; – de tijdsduur van het gesprek bewaken. Afhankelijk van de gewenste informatie stelt de leerling open of gesloten vragen, maar stuurt daarbij niet aan op een bepaald antwoord. Hij laat in zijn houding zien dat hij luistert. Door te parafraseren en te 141
  • 146. Hoofdstuk 7 reflecteren kan hij niet alleen laten merken dat hij luistert maar ook direct controleren of hij de patiënt goed begrepen heeft. De leerling drukt zich helder en duidelijk uit. Het bewaken van de tijdsduur vindt tijdens het hele gesprek plaats: een patiënt die lang van stof is, wordt op subtiele wijze tot beknoptheid aangezet, terwijl de leerling ook zelf zijn tijd efficiënt indeelt en niet nodeloos diep op één aspect ingaat. Professionaliteit – Verstrekken van informatie over het ziektebeeld, de behandeling etcetera (voor zover dit tot de taak van de verpleegkundige hoort); – vertrouwen wekken (zowel op basis van vakdeskundigheid als op basis van houding/gedrag); – blijk geven van een professionele beroepshouding en empathisch vermogen; – prioriteiten stellen indien de omstandigheden dit noodzakelijk maken. De leerling laat in zijn optreden zien dat hij een professionele beroepsbeoefenaar is, die weet wat de grenzen van zijn beroep zijn en die zowel zijn deskundigheid als zijn mens-zijn wil inzetten ten dienste van de hulpvrager. Bij het geven van informatie over het ziektebeeld moet hij ervoor waken zich op het terrein van de arts te begeven. Verder moet hij hier laten blijken dat hij weet dat er een mens tegenover hem zit. Op basis daarvan moet de leerling de verantwoordelijkheid durven nemen om het gesprek af te breken als duidelijk wordt dat de patiënt het gesprek niet kan of wil voortzetten. Afsluiting – Regelmatig controleren of de informatie goed begrepen is (door patiënt + door leerling); – tussentijds en aan het eind een samenvatting geven van het gesprek of delen daarvan; – informatie geven over de fase na het gesprek en eventuele vervolgafspraken maken; – informeren of de patiënt nog vragen te stellen heeft; – een natuurlijk einde aan het gesprek maken. De rubriek afsluiting komt niet alleen in beeld aan het einde van het gesprek, maar ook bij de afronding van onderdelen van het gesprek. Eerder is al genoemd dat de leerling van tijd tot tijd controleert of de informatie begrepen is. Bij de afsluiting van het gesprek zorgt de leerling ervoor dat de patiënt duidelijk weet wat er verder gaat gebeuren door de relevante informatie samen te vatten en na te gaan of de patiënt nog vragen heeft. Het gesprek heeft een natuurlijk einde als beide partijen een afgeronde hoeveelheid informatie hebben uitgewisseld. 142
  • 147. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 46 - Beoordelingslijst praktijktoetsing op de werkplek Uitvoering Inhoud GESPREKSONDERDELEN Voorbereiding • aandacht hebben voor gespreksklimaat: geschikte omgeving, koffie e.d., beschikbare tijd, etc. • hanteren van beschikbare gegevens van de patiënt: persoonlijke gegevens, opname-indicatie, ziektegeschie- denis, evt. eerdere opnames Opening • zich voorstellen met naam en functie • doel van het gesprek uitleggen • informatie geven over de gespreksprocedure (tijdsduur, verloop, evt. gebruik van standaardformulier) • informatie geven over aard, werkwijze, regels, verpleegsysteem, hulpverleners van ziekenhuis/ instelling en de evt. gevolgen daarvan voor de patiënt; folders aanbieden • informatie geven over rechten en plichten van de patiënt en daarbij uitleg geven • aangeven wat de (on)mogelijkheden zijn van de afdeling (materialen, personeel, procedures) Gegevensverzameling • vragen naar contactpersoon • informeren naar de mate van zelfredzaamheid en evt. mantelzorg • gericht informatie vragen over leefgewoonten en evt. beperkingen daarin • gericht informatie vragen over de somatische gesteldheid en evt. beperkingen daarin • gericht informatie vragen over de psychosociale gesteldheid en evt. beperkingen daarin Interactie • observeren van en reageren op non-verbale signalen • rekening houden met de somatische en psychosociale gesteldheid • rekening houden met de persoonlijke achtergrond (niveau, cultuur, religie etc.) • gelegenheid geven vragen te stellen en wensen/gevoelens kenbaar te maken • doorvragen op uitspraken en ingaan op vragen, wensen en/of emoties van patiënt en/of diens relaties Techniek • hanteren van de gekozen gesprekstechnieken: vragen (niet suggestief), parafraseren, reflecteren, etc.) • actief luisteren: aanmoedigen, knikken, hummen, oogcontact, gebaren, houding, gelaatsuitdrukking, etc. • zich verstaanbaar maken: structuur van verhaal, zinsbouw, toonhoogte, volume, dialect, gesprekstempo • de tijdsduur van het gesprek bewaken Professie • verstrekken van informatie over ziektebeeld etc. (voor zover dit tot de taak van de verpleegkundige hoort) • vertrouwen wekken (zowel op basis van vakdeskundigheid als op basis van houding/gedrag) • blijk geven van professionele beroepshouding en empathisch vermogen • prioriteiten stellen indien de omstandigheden dit noodzakelijk maken Afsluiting • regelmatig controleren of de informatie goed begrepen is (door patiënt + door kandidaat) • tussentijds en aan het eind een samenvatting geven van het gesprek of delen daarvan • informatie geven over de fase na het gesprek en eventuele vervolgafspraken maken • informeren of de patiënt nog vragen te stellen heeft • een natuurlijk einde aan het gesprek maken Doorslaggevende positieve of negatieve aspecten • gedrag/houding • inhoudelijke informatie etc. 143
  • 148. Hoofdstuk 7 7.10 Beroepspraktijkvorming en de beoordeling daarvan Een belangrijk onderdeel van elke beroepsopleiding is het onderricht in de praktijk van het beroep. Zowel in de beroepsopleidende leerweg als in de beroepsbegeleidende leerweg is sprake van een praktijkcomponent. Bij de beroepsbegeleidende leerweg (’werken/leren’) heeft de leerling een arbeidsovereenkomst met de praktijkbiedende organisatie; bij de beroepsopleidende leerweg (’leren/stage’) is er sprake van een onderwijsovereenkomst tussen de leerling en opleiding. Hoewel er dus verschillen zijn in rechtspositie en ook in de omvang van de praktijkcomponent, wordt in het vervolg van deze paragraaf dit onderscheid verder niet meer gemaakt. De term ’beroepspraktijkvorming’ is voor beide situaties van toepassing. Aan de beoordeling van de beroepspraktijkvorming kunnen twee aspecten worden onderscheiden: de mate waarin de praktijkplaats aan bepaalde voorwaarden voldoet en de mate waarin de leerling erin slaagt de voor de praktijkperiode geselecteerde eindtermen te realiseren. Op beide aspecten wordt hieronder nader ingegaan. 7.10.1 Beoordeling van praktijkplaatsen Iedere praktijkplaats moet aan kwaliteitscriteria voldoen. In het hoger beroepsonderwijs is het vaststellen van deze criteria een aangelegenheid van een hogeschool en de organisatie die een praktijkplaats biedt. In de BVE-sector hebben de landelijke organen beroepsonderwijs (LOB’s) de taak om criteria op te stellen waaraan arbeidsorganisaties moeten voldoen om beroepspraktijkvorming te mogen verzorgen. Als een arbeidsorganisatie, die beroepspraktijkvorming wil verzorgen, aan deze criteria voldoet, wordt ze erkend en als zodanig opgenomen in een openbaar register. Onderwijsinstellingen kunnen dit register raadplegen wanneer zij op zoek zijn naar geschikte plaatsen voor beroepspraktijkvorming. De stichting OVDB-Landelijk Orgaan van het Beroepsonderwijs Gezondheidszorg, Dienstverlening, Welzijn en Sport heeft voor de desbetreffende sectoren de volgende criteria opgesteld: 1 Binnen het normale arbeidsproces van de organisatie kan een substantieel deel van de eindtermen van een opleiding bereikt worden. Deze eindtermen hebben betrekking op kennis-, vaardigheids- en houdingsaspecten. 2 De arbeidsorganisatie heeft ten minste één persoon, die belast wordt met de begeleiding van de leerling in de praktijk, aangewezen of aangesteld: a deze beschikt over een relevant diploma of getuigschrift dat ten minste gelijkwaardig is aan het niveau van de kwalificatie(s) waarvoor wordt opgeleid en b deze heeft tenminste twee jaar van belang zijnde praktijkervaring opgedaan na het behalen van het diploma of getuigschrift onder a of c deze kan een combinatie van opleiding en ervaring aantonen die gelijkwaardig kan worden geacht met het bepaalde onder a en b. 3 De arbeidsorganisatie kan inzichtelijk maken dat maatregelen zijn getroffen om voldoende tijd vrij te maken voor het (doen) begeleiden van de leerling. De WEB (art. 7.2.8 en 7.2.9) zegt over de beroepspraktijkvorming verder nog dat deze verzorgd wordt op grondslag van een overeenkomst, die gesloten wordt door de instelling, de leerling en het bedrijf dat of de organisatie die de beroepspraktijkvorming verzorgt. Bij de beroepsbegeleidende leerweg wordt deze overeenkomst mede ondertekend door het bestuur van het desbetreffende landelijk orgaan. De praktijkovereenkomst omvat ten minste bepalingen over – de duur van de overeenkomst en de omvang van de periode van de beroepspraktijkvorming; – de begeleiding van de leerling; – dat deel van de eindtermen dat de leerling tijdens de praktijkperiode moet realiseren en de beoordeling daarvan; – de gevallen waarin en de wijze waarop de overeenkomst voortijdig kan worden ontbonden. 144
  • 149. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm De rollen en taken van de drie partijen, die bij de beroepspraktijkvorming betrokken zijn, moeten goed op elkaar afgestemd zijn om de beroepspraktijkvorming effectief te laten verlopen. Vanuit de opleiding zal de begeleiding en beoordeling van de leerling gebeuren door een functionaris die hier voorlopig de praktijkdocent wordt genoemd; binnen de arbeidsorganisatie zal deze rol vervult worden door de praktijkbegeleider1. De leerling is vanzelfsprekend degene om wie het allemaal draait: hij doet werkervaring op aan de hand van opdrachten, die voortvloeien uit de praktijkdoelen. Doordat hij met allerlei voorkomende zaken wordt geconfronteerd, leert hij nadenken over datgene wat hij meemaakt tijdens de praktijkperiode en daarmee ook over zijn eigen sterke en zwakke kanten voor het beroep. Het is van belang de leerling actief te betrekken in zijn eigen beoordeling. Dit gebeurt al vaak door hem een praktijkverslag te laten maken waarin hij zijn leerervaringen gedurende de praktijkperiode bijhoudt. Daarnaast kan bijvoorbeeld ook aan de leerling gevraagd worden om zichzelf te beoordelen aan de hand van een voorgestructureerde observatielijst. Door de begeleider dezelfde lijst te laten invullen, ontstaat er een bruikbaar hulpmiddel voor een tussentijds beoordelingsgesprek. De praktijkdocent, als begeleider vanuit de onderwijsinstelling, heeft tot taak alle betrokkenen hun rol tijdens en na de praktijkperiode duidelijk te maken: voorafgaand aan de praktijkperiode zorgt hij er onder meer voor dat de praktijkvormingsdoelen bekend zijn bij de leerling en de arbeidsorganisatie; tijdens de praktijkperiode vormt hij het contact tussen de opleiding en de arbeidsorganisatie. Tevens zorgt hij voor de registratie van gegevens zoals bezoekdatum, deelnemers gesprek, eventuele opmerkingen over begeleiding door het bedrijf of vragen om hulp of feedback van de leerling en noteert hij in de rubriek ’indruk over de voortgang’ globaal de vorderingen van de leerling. Ten slotte speelt hij zowel tijdens als aan het eind van de praktijkperiode een belangrijke rol bij de beoordeling: hij verzamelt de evaluatiegegevens en de ingevulde beoordelingsinstrumenten (zowel van de praktijkbegeleider als van de leerling als van hemzelf) en verwerkt deze gedurende het afsluitende gesprek met de betrokkenen tot een eindoordeel over de resultaten van de beroepspraktijkvorming. Op de werkplek speelt de praktijkbegeleider een belangrijke rol: hij geeft de leerling instructies en begeleidt en motiveert hem zo goed mogelijk en hij informeert de onderwijsinstelling over het verloop van de praktijkperiode en de leerresultaten van de leerling. Tevens houdt hij regelmatig tijdens de praktijkperiode informele feedbackgesprekken met de leerling over diens functioneren (zoals werktempo, omgaan met bedrijfsvoorschriften, omgang met collega’s e.d.). Het verdient de voorkeur deze feedbackgesprekken op vaste momenten te houden. Ook bij de beoordeling speelt de praktijkbegeleider een rol van betekenis. Doordat hij degene is die de leerling in het algemeen het meest direct meemaakt, legt zijn beoordeling veel gewicht in de schaal. Hij maakt bij de beoordeling gebruik van verschillende observatielijsten waarin taken en functie-eisen voor de praktijkperiode opgenomen zijn en geeft daarop aan of de leerling een taak voldoende of onvoldoende beheerst. Als maatstaf voor het beoordelen van de leerling gelden daarbij de eigen taakopvattingen van de begeleider en de normen van de arbeidsorga- nisatie. Het is gebruikelijk dat de praktijkbegeleider ook tijdens het afsluitende gesprek aanwezig is. 7.10.2 Praktijkvormingsdoelen De basis van de beoordeling van de praktijkperiode wordt gevormd door de praktijkvormingsdoelen. Deze moeten afgeleid zijn van de te realiseren eindtermen. Als doelstellingen ontbreken of vaag omschreven zijn, ontbreekt een heldere leidraad voor zinvolle praktijkopdrachten en is het voor 1 Voor deze functionarissen doen vele benamingen de ronde: praktijkcoördinator, praktijkopleider, werkbegeleider, stagedocent, stagebegeleider etcetera. Verwarrend hierbij is dat bepaalde benamingen in het MBO een andere betekenis hebben dan in het HBO. 145
  • 150. Hoofdstuk 7 betrokkenen onduidelijk wat er nu precies bereikt en beoordeeld moet worden. Ook is de leerling tijdens de praktijkperiode effectiever bezig als hij weet welke doelen hij moet realiseren en wat er dus van hem wordt verwacht. Problemen met de beoordeling zijn dan ook vaak terug te voeren op het niet helder voor ogen hebben wat men precies met de praktijkperiode wil bereiken. Het verdient aanbeveling om de arbeidsorganisatie zoveel mogelijk te betrekken bij de formulering van de praktijkvormingsdoelen om een goede afstemming tussen onderwijsinstelling en de organisatie te bewerkstelligen en de kans op het realiseren van de doelen zo groot mogelijk te maken. Aangezien in de praktijkbeoordeling een uitspraak gedaan wordt over de mate waarin de leerling geacht wordt het beroep in de toekomst te kunnen uitoefenen, kunnen er ten aanzien van de beroepspraktijkvor- ming verschillende soorten doelen worden onderscheiden: 1 doelen die betrekking hebben op het beroepsmatig functioneren, zoals het aanleren en toepassen van praktische vaardigheden die nodig zijn om de handelingen te kunnen verrichten die het beroep vereist; 2 doelen die betrekking hebben op het persoonlijk functioneren, zoals het ontwikkelen en vormen van de eigen persoonlijkheid door het beroepsmatig contact met anderen; 3 doelen die betrekking hebben op het functioneren binnen de instelling, zoals het deelnemen aan het arbeidsproces (wennen aan ritme, regels, verplichtingen etc.) Als men beoordeelt of een leerling de gestelde doelen heeft bereikt, beoordeelt men in feite vanzelfsprekend ook daadwerkelijk de praktische vaardigheden van de leerling. Dit hoeven niet alleen instrumenteel-technische vaardigheden te zijn. Het zijn ook sociale vaardigheden, communicatieve vaardigheden en dergelijke. Voor het inhoudelijk beoordelen van deze praktische vaardigheden wordt verwezen naar paragraaf 7.9 van dit handboek. 7.10.3 Een verantwoorde praktijkbeoordeling Voor zover er geen sprake is van externe legitimering beoordeelt de onderwijsinstelling of de leerling de overeengekomen eindtermen heeft gerealiseerd. Bij die beoordeling wordt het oordeel van de arbeidsorganisatie betrokken. In de onderwijs- en examenregeling kunnen echter nadere regels worden opgenomen over de wijze waarop de beroepspraktijkvorming beoordeeld wordt. Alvorens enkele instrumenten voor de beoordeling van de praktijkperiode te bespreken, is het van belang stil te staan bij de algemene eisen die gesteld worden aan een verantwoorde praktijkbeoordeling. De belangrijkste eisen zijn achtereenvolgens (zie ook hoofdstuk 3): – Een verantwoorde praktijkbeoordeling moet transparant zijn Beoordelingsprocedures moeten voor alle betrokkenen duidelijk en aanvaardbaar zijn en beslissingen over het functioneren van de leerling moeten te rechtvaardigen zijn. Om te voldoen aan dit kwaliteitscriterium moet de praktijkdocent ervoor zorgen dat zowel de leerling als de arbeidsorgani- satie voorafgaand aan de praktijkperiode op de hoogte is van het beoordelingssysteem: men weet waarop gelet wordt en op welke wijze beslissingen tot stand komen. Deze beslissingen moeten bovendien door derden natrekbaar zijn. Daarom is het van belang de gegevens waarop beslissingen genomen worden, goed te documenteren. – Een verantwoorde beoordeling moet valide zijn De beoordelaars moeten zichzelf voortdurend de vraag stellen of datgene beoordeeld wordt wat men beoogt te beoordelen. Een goed uitgewerkt praktijkleerplan vormt de basis voor een valide beoordeling omdat hierin wordt aangegeven aan welke minimale doelstellingen de leerling moet voldoen. Het beoordelingsinstrument moet een representatieve afspiegeling zijn van de omschreven 146
  • 151. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm praktijkdoelen. Concreet betekent dit dat de praktijkdoelen terug te vinden moeten zijn in de praktijkbeoordelingslijst. – Een verantwoorde beoordeling moet betrouwbaar zijn Bij validiteit gaat het om de vraag wat er beoordeeld wordt. Bij betrouwbaarheid gaat het om de vraag hoe er beoordeeld wordt. Een betrouwbaar oordeel is een noodzakelijke voorwaarde om een valide oordeel te krijgen. Informatie die tijdens de praktijkperiode verkregen wordt, moet zo ’waar’ mogelijk zijn en mag niet door toeval tot stand gekomen zijn. Het is niet gemakkelijk om een hoge betrouwbaarheid van het oordeel te realiseren omdat elke beroepspraktijkvorming uniek is en qua complexiteit kan verschillen en omdat beoordelen altijd door mensen gebeurt. Een objectieve beoordeling draagt bij tot een hogere betrouwbaarheid van de beoordeling, maar bij praktijkbeoorde- ling is een volledige objectiviteit niet te realiseren. Wel kunnen er een aantal maatregelen getroffen worden om de subjectiviteit van het beoordelen terug te dringen. Voorbeelden hiervan zijn: het vooraf specificeren van de doelen (en daarmee ook van de beoordelingsaspecten) en het formuleren van eenduidige beoordelingscriteria. Beoordelaars weten dan zowel waarop beoordeeld moet worden (beoordelingsaspecten) als ook wat de criteria zijn voor een voldoende/onvoldoende prestatie. Om de betrouwbaarheid van de beoordeling te verhogen kan men voorts gebruikmaken van verschillende beoordelingsinstrumenten die door de verschillende betrokkenen worden gehanteerd. Ook is het van belang de prestaties van de leerling in verschillende werksituaties en op verschillende momenten van de praktijkperiode te beoordelen. De kans op een ’toevallige’ niet representatieve meting vermindert hierdoor. Om een verantwoorde praktijkbeoordeling te realiseren zijn dus de volgende maatregelen te treffen: – gebruikmaken van meerdere beoordelaars: de begeleider, de praktijkdocent en de leerling zelf. Dit vermindert de kans op meetfouten; – gebruikmaken van meerdere beoordelingsinstrumenten: praktijkverslag, observatielijst, instrumenten voor zelfevaluatie. Dit doet recht aan de complexiteit van de praktijkdoelen; – op verschillende momenten tijdens de praktijkperiode beoordelen: minimaal tussentijds en aan het eind. Dit verkleint de kans op ’toevalsfouten’; – een duidelijke toelichting geven op de beoordeling: inhoudelijke uitspraken over het functioneren van de leerling zijn meer waard dan alleen het toekennen van een cijfer of een waardering. De leerling krijgt hierdoor meer inzicht in eigen functioneren. 7.10.4 Het praktijkverslag Een veel gebruikt beoordelingsinstrument is het praktijkverslag. Er zijn verschillende vormen voor zo’n verslag mogelijk: een scriptie rond een praktijkgericht thema, een dag- of weekverslag (zgn. logboekverslag) of de verwerking van praktijkopdrachten. De informatie die door middel van een praktijkverslag verkregen wordt, is moeilijk op zijn waarde te schatten. Vaak is onduidelijk wat men nu moet beoordelen (vormgeving?, inhoud?, beide?). Het is daarbij belangrijk eerst de functie van het praktijkverslag te verduidelijken. Het praktijkverslag kent in feite twee functies: 1 informatie bieden over de mate waarin de leerling de theorie kan toepassen in de praktijk. Om dit te toetsen wordt bij voorkeur gebruik gemaakt van concrete praktijkopdrachten of van de scriptie- opdracht; 2 informatie bieden over het vermogen van de leerling om praktijkervaringen te systematiseren en te verwerken. Het bijhouden van een logboek is hiervoor een geschikt hulpmiddel. De leerling beschrijft in een logboek zijn vorderingen en leerervaringen hetgeen een beeld geeft van de diverse aspecten van de beroepshouding, zoals reflectie over en inschatting van het eigen functioneren. Wellicht ter verduidelijking voorts nog enkele opmerkingen: 147
  • 152. Hoofdstuk 7 Het komt voor dat de beoordelaar met behulp van het praktijkverslag de praktische vaardigheden van de leerling beoordeelt. Dit is niet juist: het kunnen beschrijven van praktische toepassingen is vanzelfsprekend niet hetzelfde als het kunnen uitvoeren van praktijkhandelingen. Verder is het van belang te weten dat het praktijkverslag ook bij tussentijdse beoordelingen (diagnostische functie) functioneel is omdat het een goed aanknopingspunt vormt voor feedback en bijsturing. Als de beoordelaars het verslag als selectief instrument willen gebruiken, zullen er in het algemeen hogere eisen aan het gebruik van het instrument gesteld moeten worden, zoals richtlijnen voor inhoud en structuur. Pas dan beschikken de leerling en de beoordelaars over min of meer objectieve criteria voor de beoordeling van het verslag. Ten slotte: Als het praktijkverslag als enig beoordelingsinstrument gebruikt wordt, doet het onrecht aan de diversiteit van de praktijkdoelen. Het praktijkverslag is een bruikbaar instrument naast de andere beoordelingsinstrumenten. 7.10.5 De observatielijst praktisch handelen Verrichtingen van de leerling kunnen geobserveerd worden. Daarbij kan een voorgestructureerde observatielijst, zoals te zien is in tabel 47, van groot nut zijn. Het voordeel van een dergelijke lijst is dat de arbeidsorganisatie van tevoren weet op welke aspecten hij moet letten, terwijl de leerling weet waarop hij beoordeeld wordt. De observatielijst praktisch handelen bevat een aantal hoofdtaken, die uitgesplitst zijn naar deeltaken. Deze deeltaken moeten observeerbare werkzaamheden van de leerling zijn. Aan de hand van een scoreschaal (cijfer, gekoppeld aan een waardering) moet elke deeltaak worden beoordeeld. Voor een goed gebruik van de lijst is het noodzakelijk dat de praktijkbegeleider vooraf de te beoordelen taken kent en (al dan niet in de vorm van een schriftelijke instructie) op de hoogte is van een aantal zaken, zoals: – De lijst is bedoeld om informatie te krijgen over het functioneren van de leerling. Daarom is het belangrijk dat het oordeel (cijfer of waardering) steeds wordt toegelicht. Zeker bij iedere taak die de leerling volgens de begeleider nog onvoldoende beheerst moet worden aangegeven waaruit dat blijkt. Op die manier wordt een beoordeling optimaal bespreekbaar met de andere betrokkenen. – De lijst is geen beoordelingslijst maar een meetlijst: de praktijkbegeleider geeft aan welke taken de leerling wel beheerst in vergelijking met een beginnend beroepsbeoefenaar en welke niet; de praktijkdocent beslist welke waarde er wordt toegekend aan het eventuele verschil. – Opzettelijk is geen norm aangegeven wat voldoende of onvoldoende is. De praktijkbegeleider is zelf deskundig op het vakgebied waarop hij de leerling beoordeelt. Hij gebruikt zijn eigen taakopvatting en de normen van het bedrijf als maatstaf voor het beoordelen. Dezelfde observatielijst kan ook door de leerling zelf worden ingevuld, waardoor hij zichzelf in feite beoordeelt. Het invullen van de observatielijst gebeurt bij voorkeur minimaal eenmaal tussentijds en eenmaal aan het eind van de praktijkperiode. De ingevulde lijst van de praktijkbegeleider en die van de leerling worden tijdens de verschillende gesprekken met elkaar vergeleken en besproken. Dit komt niet alleen het leerproces ten goede omdat de leerling beter zicht krijgt op eigen sterke en zwakke punten, maar biedt tevens de mogelijkheid de vooruitgang van de leerling gedurende de praktijkperiode te bepalen. In sommige opleidingen gebruikt men een lijst die qua opzet vergelijkbaar is, maar waarin alle praktijkperiodes gedurende de opleiding aangegeven staan. Men heeft daardoor een overzicht van de geoefende verpleegkundige vaardigheden per praktijkplaats. Reeds geoefende vaardigheden behoeven wellicht weinig of geen begeleiding meer in de volgende praktijkperiode. Voor de vaardigheden die nog niet tijdens de praktijkperiodes geoefend zijn, maakt men dan vaak gebruik van een meer gedetailleerde observatielijst waarin per handeling de diverse beoordelingsaspecten voor, tijdens en aan het eind van de handeling gespecificeerd zijn (vergelijkbaar met het beoordelingsinstrument praktijktoetsing, zoals beschreven in paragraaf 7.9 van dit handboek). 148
  • 153. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 47 - Observatielijst praktisch handelen Observatielijst Praktisch Handelen Stagebieder: _______________ Adres: ______________ Stagedocent: _______________ Stagiair: _______________ Datum: ___ - ___ - ___ Betekenis van de scores/beheersing van dit onderdeel: 1 onvoldoende 2 voldoende 3 ruim voldoende 4 goed Hoofdtaak 1: ondersteuning bij lichamelijke verzorging Deeltaken: 1: aan- en uitkleden van een patiënt met bewegingsbeperking . . . . . 1 2 3 4 nvt 2: aan- en uitkleden van een platliggende patiënt . . . . . . . . . . . . . . . 1 2 3 4 nvt 3: wassen van een patiënt op bed . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 4: hulp bij douchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 5: mond- en gebitsverzorging, gebitsprothese . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 6: haren wassen bij een bedlegerige patiënt . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 7: baard scheren met scheermes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 8: baard scheren met elektrisch apparaat . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 9: verzorging van nagels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt etc. Motivatie/opmerkingen: Hoofdtaak 2: lichaamshouding Deeltaken: 1: bed afhalen/opmaken zonder patiënt . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 2: bed afhalen/opmaken met patiënt, die mag draaien . . . . . . . . . . . 1 2 3 4 nvt 3: gebruikmaken van hulpmiddelen in bed (dekenboog, antidecubi- tusmatras etc.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 4: plaatsen van de patiënt in voorgeschreven posities (rugligging, zijligging, Trendelenburg etc.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt 5: decubitusmaatregelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt etc. Motivatie/opmerkingen: 149
  • 154. Hoofdstuk 7 7.10.6 De functie-eisenlijst beroepsgeschiktheid Een heel andere invalshoek voor het beoordelen van een leerling in de praktijk vormen de functie-eisen, die – uitgaande van de classificatie van het Directoraat Generaal voor de Arbeidsvoorziening – gespecificeerd zijn voor een bepaald beroep. Deze functie-eisenlijst geeft een overzicht van eigenschappen die iemand moet hebben om het beroep goed te kunnen uitoefenen. Deze eigenschappen, die erg abstract zijn, worden aan de hand van enkele gedragsvoorbeelden toegelicht om de eigenschappen te concretiseren. Voorbeelden van functie-eisen zijn: organisatievermogen, vermogen tot samenwerking, zorgvuldigheid, contactuele eigenschappen en dergelijke. In de observatielijst praktisch handelen ging het om concrete taken en vaardigheden; in de functie- eisenlijst gaat het om eigenschappen. Ook deze lijst kan zowel tussentijds als aan het eind van de praktijkperiode zinvol gebruikt worden door zowel praktijkbegeleider als leerling. Het invullen van deze lijsten is voor de leerling een belangrijk instrument in de zelfevaluatie en het bespreken van de ingevulde lijsten levert zinvolle informatie op voor bijsturen van het leerproces. Een voorbeeld van een deel van zo’n functie-eisenlijst is opgenomen in tabel 48. 7.10.7 Het tussentijdse gesprek, het afsluitende gesprek en de eindbeoordeling Uit het voorafgaande blijkt dat het maken van een tussentijdse beoordeling een nuttige bijdrage kan leveren aan het verloop van de praktijkperiode: de verzamelde informatie wordt daarbij aangewend voor begeleiding van de leerling. Aan het einde van de praktijkperiode dient de informatie vooral voor het op een verantwoorde wijze kunnen beslissen of de resultaten van de leerling voldoende zijn of niet. Het gesprek dat er tussentijds met de leerling gevoerd wordt verschilt qua opzet en procedure niet of nauwelijks van het afsluitende gesprek. Het doel van het gesprek en de consequenties voor de leerling zijn uiteraard wel verschillend. De gesprekken (tussentijds- en afsluitend) Bij het gesprek zijn de drie betrokkenen (leerling, praktijkbegeleider en praktijkdocent) aanwezig: ieder licht zo nodig de verstrekte informatie toe en geeft antwoord op vragen van de andere aanwezigen. Het gesprek heeft nadrukkelijk niet de vorm van een eenrichtingsverkeer, waarin de praktijkdocent zijn oordeel uitspreekt en de leerling luistert: de leerling heeft de mogelijkheid zijn eigen standpunt toe te lichten en zijn visie te geven op het oordeel van de gesprekspartners. Naast het aspect van feedback en beoordeling biedt het gesprek ook de mogelijkheid tot advisering en motivering naar de leerling: de gesprekspartners spreken zich gemotiveerd uit over wat volgens hen belangrijke punten zijn om in de komende periode aan te werken. Dit geldt zowel voor het tussentijdse als voor het afsluitende gesprek. Het afsluitende gesprek kan bovendien nog een functie hebben bij het evalueren van de kwaliteit van de praktijkperiode en de rol van de betrokkenen daarin. De praktijkbege- leider kan bijvoorbeeld zinvolle kritiek uiten op het functioneren van de school of de praktijkdocent; de praktijkdocent op de faciliteiten van de arbeidsorganisatie en dergelijke. In het algemeen geldt dat het voor een goed verloop van het gesprek van belang is dat de betrokkenen het gesprek kunnen voeren in een rustige ruimte en niet gehinderd worden door tijdsdruk. Ook moeten betrokkenen vooraf op de hoogte zijn van doel en inhoud van het gesprek alsmede van de wijze waarop het gesprek gevoerd wordt. Om dit te realiseren is het wenselijk dat de praktijkdocent vooraf een gespreksagenda opstelt met gespreksonderwerpen die voor de beoordeelde en de beoordelaars herkenbaar zijn. Ook onderwerpen die een van de betrokkenen graag tijdens dit gesprek besproken wil zien, kunnen op deze agenda opgenomen worden. Gespreksonderwerpen, ontleend aan de ingevulde observatielijsten, kunnen zijn: 150
  • 155. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 48 - Functie-eisenlijst beroepsgeschiktheid Functie-eisenlijst Beroepsgeschiktheid Stagebieder: _______________ Adres: ______________ Stagedocent: _______________ Stagiair: _______________ Datum: ___ - ___ - ___ Betekenis van de scores/beheersing van dit onderdeel: 1 onvoldoende 2 voldoende 3 ruim voldoende 4 goed 1 Organisatievermogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt Voorbeeldgedrag: - de leerling kan oplossingen aandragen voor knelpunten in werksituaties - de leerling stelt in omgang met patiënten/collega’s eigen grenzen en die van de instelling opdat de planning goed be- waakt wordt - etc. Motivatie/opmerkingen: 2 Contactuele eigenschappen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 nvt Voorbeeldgedrag: - de leerling kan in het professionele contact op de juiste manier luisteren - de leerling kan eigen bedoelingen en handelwijze naar patiënten/collega’s motiveren - etc. Motivatie/opmerkingen: – de leerling functioneert op bepaalde onderdelen niet goed; – het beeld dat de praktijkbegeleider van de leerling geeft, verschilt van wat de leerling over zichzelf zegt of van de indruk die de docent van de leerling heeft; – de ingevulde observatielijst van de tussentijdse beoordeling van de praktijkbegeleider verschilt van die van de eindbeoordeling. Tijdens het gesprek treedt de praktijkdocent als gespreksleider op en zorgt daarbij dat er ruimte is voor ieders inbreng. Het is aan te bevelen tijdens dit gesprek een aantal aandachtspunten als leidraad te nemen, zoals: – geef opbouwende kritiek; – bied ruimte aan de leerling om zijn zegje te doen; – luister goed naar elkaar; 151
  • 156. Hoofdstuk 7 – maak heldere, specifieke en concrete opmerkingen; – besef dat slechte resultaten van de stagiair te maken kunnen hebben met uw eigen tekortkomingen als beoordelaar. De eindbeoordeling Na afloop van het gesprek zet de praktijkdocent een aantal conclusies en aanbevelingen op papier. De conclusies zijn inhoudelijke uitspraken over het functioneren van de leerling; de adviezen zijn voorzichtig geformuleerde visies op de verdere arbeids- en onderwijsloopbaan van de leerling. Daarbij kunnen verschillende aspecten onderscheiden worden: het resultaat van het werk van de leerling, de manier waarop deze zijn werk doet, de groei die hij tijdens de praktijk heeft doorgemaakt, de werkomgeving waarin de leerling wel of niet goed tot zijn recht komt etcetera. Deze conclusies en aanbevelingen zijn niet alleen gebaseerd op de resultaten van de eerder genoemde beoordelingsinstrumenten (praktijkverslag, observatielijst praktisch handelen en functie-eisenlijst beroepsgeschiktheid), maar ook op pragmatische zaken als: heeft de leerling steeds zijn opdrachten op tijd ingeleverd, heeft de leerling alle praktijkopdrachten uitgevoerd. De praktijkdocent zet de conclusies en aanbevelingen om in een eindbeoordeling. Om te komen tot een eindbeoordeling zijn verschillende procedures en beslisregels in omloop. In de praktijk blijkt het echter moeilijk om hiervoor één algemene regel te geven. Richtlijnen voor deze eindbeoordeling kunnen zijn: – de praktijkbegeleider beoordeelt de leerling op diens functioneren in de praktijk. De stem van de praktijkbegeleider is in dit geval doorslaggevend; – De praktijkdocent beoordeelt de integratie van de theorie en de praktijk en bepaalt of de leerling voldaan heeft aan de formeel gestelde eisen (zoals op tijd inleveren van materialen) – Ingeval van een onvoldoende eindbeoordeling van de leerling heeft de praktijkdocent de eindverantwoordelijkheid en bepaalt of de onvoldoende terecht of onterecht is Hieraan kunnen andere beslisregels die de school vooraf daartoe opgesteld heeft, toegevoegd worden. 152
  • 157. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm 7.11 Scriptie 7.11.1 Inleiding Ook in het beroepsonderwijs wordt schriftelijke uitdrukkingsvaardigheid belangrijk gevonden. In het gezondheidszorgonderwijs wordt deze vaardigheid getoetst aan de hand van een door de leerling te schrijven scriptie. Een scriptie is een over het algemeen getypt werkstuk van 30 tot 40 bladzijden, waarin verslag wordt gedaan van een onderzoek of een literatuurstudie naar een onderwerp dat relevant is voor onderwijs of beroep. Eventuele bijlagen worden bij de hiervoor genoemde omvang niet meegerekend. Het schrijven van een scriptie is een omvangrijke opdracht. Leerlingen moeten daarin begeleid worden en van de nodige aanwijzingen worden voorzien. Er bestaan handleidingen voor het schrijven van een scriptie, waarin stap voor stap wordt beschreven hoe je van een globaal idee tot een concreet werkstuk kunt komen. Tevens staan daarin vaak summier enkele criteria waaraan het product moet voldoen. Dat geeft de leerling houvast bij het schrijven. Voor het beoordelen van een scriptie is het echter noodzakelijk dat alle relevante criteria expliciet gemaakt worden. 7.11.2 Globale en analytische beoordelingen Al eerder zijn de voors en tegens van een gedetailleerder beoordeling aangeduid (zie blz. 81). Ook hier moet een afweging gemaakt worden. Wanneer een beoordelaar tot zijn beoordeling komt zonder daarbij expliciete criteria te hanteren (globale beoordeling) bestaat uiteraard het gevaar dat deze indruk tot stand komt door bepaalde opvallende kenmerken: de inhoud van een nette scriptie wordt relatief positiever gewaardeerd dan een vergelijkbare inhoud van een slordig werkstuk (halo-effect). Bovendien is het bij deze aanpak moeilijk aan de leerling uit te leggen wat er goed of slecht was. Tegenover de globale methode staat de analytische aanpak. Hierbij wordt gebruikgemaakt van een beoordelingsschema of een lijst met aandachtspunten. Zo mogelijk worden deze punten voorzien van criteria. Het grote voordeel is dat de beoordelaar elke scriptie op dezelfde punten moet beoordelen, geen punten kan vergeten en zijn oordeel niet te veel laat beïnvloeden door een bepaald positief of negatief punt. Hiermee wordt zowel de betrouwbaarheid als de validiteit verbeterd. Ook de leerlingen, die inzage in de lijst moeten hebben, weten vooraf en achteraf beter waar ze aan toe zijn. De beoordelingslijst moet uiteraard niet te lang en te gedetailleerd worden. Zo’n lijst wordt al snel onhanteerbaar en de stap van suboordelen naar een eindoordeel wordt ondoorzichtig. Het optimale compromis is een analytische lijst die in feite de globale beoordeling structureert zonder het zicht op het totale product te belemmeren. In tabel 49 wordt een dergelijke beoordelingslijst voorgesteld. Hieronder wordt nader ingegaan op de opbouw van deze lijst en wijze waarop deze gehanteerd moet worden. 7.11.3 De scriptie-beoordelingslijst Een scriptie kan op verschillende niveaus bekeken worden. Deze niveaus zijn in de ontwikkelde beoordelingslijst terug te vinden. De volgende drie niveaus worden onderscheiden: 1 structuur en vormgeving; 2 leesbaarheid en informatieoverdracht; 3 logica en relevantie; Uit de lijst wordt duidelijk waaraan bij elk niveau gedacht moet worden. Er wordt op elk niveau op andere zaken gelet. Op het eerste niveau spelen vooral de vormgeving en de uiterlijke structuur van de scriptie een rol. Op het tweede niveau gaat het meer om de wijze waarop de informatie via de gehanteerde taal en tabellen wordt overgebracht. Het derde niveau is geheel gericht op de inhoud van de scriptie. 153
  • 158. Hoofdstuk 7 De drie beoordelingsniveaus zouden schijnbaar eenvoudig geplaatst kunnen worden op een continuüm dat loopt van vorm naar inhoud. Het blijkt echter dat de aspecten die binnen de niveaus onderscheiden kunnen worden, breder beoordeeld moeten worden dan alleen op vorm of alleen op inhoud. Dit is in de lijst opgelost door de hokjes waarin de beoordelingen geplaatst moeten worden, in twee kolommen te verdelen. Hiermee wordt duidelijk dat aan structuur ook een inhoudsdimensie kan worden onderscheiden. Productbeoordeling tegenover procesbeoordeling Tot dusverre wijken de aanbevelingen voor het beoordelen van scripties weinig af van de aanbevelingen voor andere complexe beoordelingen, zoals die in de overige paragrafen van dit hoofdstuk worden gegeven. De uiteindelijke beoordelingslijst is gebaseerd op de dezelfde principes. Er is echter één groot verschil: hetgeen beoordeeld moet worden, is geen proces (zoals het voeren van een opnamegesprek) maar een product! Dit biedt de mogelijkheid om op een eenvoudige manier de betrouwbaarheid van de beoordeling te verhogen, namelijk door het inschakelen van een tweede beoordelaar. Onderzoek wijst uit dat dit een aanzienlijke verbetering van de betrouwbaarheid geeft. Beoordelaarseffecten worden op die manier immers uitgemiddeld. Helaas blijkt een dubbele beoordeling in veel van de eerder beschreven beoordelingssituaties om praktische of ethische redenen niet mogelijk: een tweede beoordelaar is zelden beschikbaar; video-opnamen zijn niet eenvoudig te maken of om reden van privacy ongewenst. Dan moet gekozen worden voor de op een na beste oplossing, het herhaald beoordelen door dezelfde of een andere beoordelaar. Geen twee situaties zijn echter vergelijkbaar en dus blijft de rol van toevallige effecten groot. Een scriptie verandert na afronding echter niet meer en kan dus op elk moment aan een collega worden voorgelegd. Het verdient aanbeveling om van deze mogelijkheid gebruik te maken. Wanneer de beoordelingen van een tweetal beoordelaars om niet nader te bepalen redenen sterk van elkaar verschillen, moet niet zonder meer gemiddeld worden: er zou wel eens een typische voor- of afkeur van een van beide docenten in het spel kunnen zijn. Het is in dat geval beter om een derde beoordelaar in te schakelen. De twee meest overeenstemmende oordelen kunnen vervolgens gemiddeld worden. De omvang van de scriptie Vaak wordt aan de leerlingen alleen meegedeeld dat hun scriptie een bepaalde minimale omvang moet hebben. De reden hiervoor ligt voor de hand: het voorkomt dat leerlingen zich er gemakkelijk van afmaken. Het verdient echter ook aanbeveling om aan de omvang van de scriptie ook een bovengrens te stellen. Het maakt de ingeleverde producten onderling beter vergelijkbaar en het dwingt de leerlingen om zaken kort en bondig te formuleren, zich vooral op hoofdzaken te richten en informatie te filteren. Hanteren van de beoordelingslijst Voor elke scriptie moet de volledige lijst worden ingevuld, zo mogelijk door twee onafhankelijke beoordelaars. Bij elke aspect wordt door middel van een plus, een min of een plu-minus aangegeven of aan het desbetreffende aspect is voldaan. Vervolgens kan per niveau (’structuur en vormgeving’, ’leesbaarheid en informatieoverdracht’ en tenslotte ’logica en relevantie’) een samenvattend oordeel worden gegeven. Ditzelfde kan gedaan worden voor de kolommen ’vorm’ en ’inhoud’. Vervolgens moet een eindoordeel worden geformuleerd . Het betrekken van het oordeel van een eventuele tweede of derde beoordelaar kan in principe tijdens elk van deze stappen plaatsvinden. De meest efficiënte strategie hierbij is om eerst de eindoordelen naast elkaar te leggen. Wanneer deze van elkaar afwijken, kan teruggegaan worden naar de beide lijsten om te zien op welk van de drie niveaus de grootste onenigheid bestaat. Daarover kunnen vervolgens de meningen uitgewisseld worden om zo tot een afgewogen oordeel te komen. Wanneer de stemmen staken, kan, zoals hierboven al werd aanbevolen, een derde beoordelaar worden ingeschakeld. 154
  • 159. Uitvoeringsniveau: specifieke richtlijnen per toetsvorm tabel 49 - Scriptie-beoordelingslijst vorm inhoud STRUCTUUR EN VORMGEVING De omslag is netjes vormgegeven De titelpagina vermeldt titel, auteur en datum De titel slaat op de inhoud Er is een inhoudsopgave; deze is duidelijk gecodeerd Er is een woord vooraf; hierin wordt de doelgroep genoemd De hoofdstukken en paragrafen zijn evenwichtig van lengte De indeling in hoofdstukken en paragrafen past bij het betoog De titels van de hoofdstukken en paragrafen dekken de inhoud De paragrafen zijn ingedeeld in alinea’s Er is een samenvatting; deze geeft een overzicht van de grote lijn Er is een literatuurlijst De literatuurlijst is correct vormgegeven De gebruikte literatuur is relevant, verantwoord en actueel De eventuele bijlagen zijn duidelijke genummerd De bijlagen verschaffen aanvullende informatie De omvang van de scriptie ligt binnen de vooraf bepaalde grenzen LEESBAARHEID EN INFORMATIE-OVERDRACHT Het taalgebruik is afwisselend, bondig en correct Het taalgebruik is afgestemd op de doelgroep en bevat alleen functionele vaktaal Er is door verwijzingen samenhang tussen de verschillende passages Er worden concretiseringen gegeven in de vorm van voorbeelden, schema’s e.d. Er is gebruikgemaakt van figuren, tabellen e.d. en deze zijn genummerd De titels bij de figuren en de tabellen zijn passend In de tekst zijn ordeningen aangebracht (zoals ten eerste, ten tweede e.d.) De bladspiegel is prettig; er zijn accentueringen (streepjes, cursivering e.d.) De accentueringen zijn gericht op de hoofdzaken Er is een begrippenlijst Begrippen worden eenduidig gehanteerd LOGICA EN RELEVANTIE Er is een heldere en actuele probleemstelling (aanleiding, doelstelling e.d.) Er is een heldere probleemanalyse (uitgangspunten, hypothesen, methode) Het betoog is ingepast in een bestaande theorie Het betoog is coherent (vrij van gedachtesprongen) Het betoog is consistent (vrij van tegenstrijdigheden) De argumenten zijn steekhoudend en verantwoord Er wordt onderscheid gemaakt tussen (experimentele) feiten en meningen De conclusies sluiten aan bij de probleemstelling en vloeien voort uit het betoog De gepresenteerde informatie is juist, relevant en correct geïnterpreteerd De gebruikte bronnen zijn representatief en actueel 155
  • 160. 8 Uitvoeringsniveau: afname, correctie, resultaatbeoordeling Wanneer een toets volgens de aanwijzingen in de voorafgaande paragrafen geconstrueerd is, kan de feitelijke meting plaatsvinden: leerlingen moeten onder zoveel mogelijk gestandaardiseerde afnamecondi- ties een prestatie leveren en daaraan wordt vervolgens een score toegekend. 8.1 Richtlijnen voor de afname(condities) Tijdens de afname van een toets kunnen de omstandigheden onbedoelde invloed uitoefenen op de prestatie van de leerlingen (zie par. 3.2.2). Voor de afname van toetsen moeten daarom richtlijnen opgesteld worden, die de invloed van dergelijke effecten minimaliseren. Deze richtlijnen voor standaardisatie van de afname kunnen betrekking hebben op: – de lokale omstandigheden, waaronder leerlingen de toets moeten maken. Dergelijke omstandigheden moeten voor alle leerlingen zoveel mogelijk dezelfde zijn. Vooral bij praktische toetsen, waarbij leerlingen niet allemaal tegelijk getoetst worden, is het noodzakelijk de omstandigheden te beschrijven; – het gebruik van hulpmiddelen. Hierbij moet gedacht worden aan zaken als een rekenmachine, een repertorium, een standaardverpleegplan etc. Leerlingen moeten hiervan tijdig op de hoogte worden gesteld, zodat ze daarmee bij het leren rekening kunnen houden; – het vragen van hulp. Er moet duidelijk beschreven zijn op welke vragen van de leerlingen tijdens de toetsafname wél en op welke vragen geen antwoord wordt gegeven door de docent. Bij een groepsgewijze toetsafname profiteert in principe elke leerling evenveel van een hardop gestelde vraag en het daarop gegeven antwoord, maar bij individuele afname moet elke beoordelaar terug kunnen vallen op vaste richtlijnen; – de tijd die leerlingen krijgen om de toets te maken. Bij de meeste toetsen moet ruim tijd worden gegeven. Te weinig tijd is van invloed op de prestatie. Ook de betrouwbaarheid van de toets kan eronder lijden, wanneer leerlingen niet alle opdrachten kunnen maken: je hebt dan immers minder meetgegevens. Bij sommige praktische toetsen speelt snelheid wel een rol. In dat geval moet voor iedereen duidelijk zijn hoeveel tijd een leerling krijgt om de opdracht uit te voeren. 8.2 Richtlijnen voor de gegevensverwerking en correctie Het nakijken van de gemaakte toets en de scoring daarvan levert bij gesloten vragen meestal geen problemen op. Als de omcirkelde lettercode van het gekozen antwoordalternatief overeenkomt met de sleutel, kan één scorepunt worden toegekend. In alle andere gevallen (althans als het systeem van gedwongen raden gebruikt wordt – zie par. 7.1.5) wordt score 0 toegekend. Bij open vragen moet door het treffen van speciale maatregelen voorkomen worden dat de objectiviteit wordt aangetast als gevolg van zogeheten ’beoordelaarseffecten’. Deze term verwijst naar een aantal aan de beoordelaar verbonden bronnen van ’bias’ (systematische afwijking): – Het halo-effect kan optreden als gevolg van de kennis die de beoordelaar heeft van een bepaalde, belangrijk geachte eigenschap van de beoordeelde. Zo kan de hoge intelligentie van de beoordeelde 156
  • 161. Uitvoeringsniveau: afname, correctie, resultaatbeoordeling een gunstige uitwerking op zijn beoordeling hebben als de beoordelaar van mening is dat intelligentie een voorwaarde is voor het goed kunnen maken van de vraag of de complete toets. – Er is sprake van een sequentie-effect als de beoordeling van een leerling wordt beïnvloed door de beoordelingen van andere leerlingen. Na een aantal als slecht beoordeelde toetsen is men sneller geneigd om een iets beter gemaakte toets extra positief te beoordelen en omgekeerd. – Met beoordelingstendenties wordt gedoeld op de persoonlijke neigingen van beoordelaars tot specifieke beoordelingsverdelingen. Sommige beoordelaars mijden extreme beoordelingen (neiging tot het gemiddelde). Anderen beoordelen consequent te gunstig of te ongunstig. Voor de genoemde effecten zijn in de loop der jaren diverse remedies bedacht en beproefd. Wanneer er sprake is van een schriftelijke toets, zijn de volgende suggesties bruikbaar: – Het halo-effect kan vermeden worden door beoordelaars in te schakelen die onbekend zijn met de leerlingen of door, indien mogelijk, anonieme beoordeling van de toetsprestaties. Dat laatste kan alleen als er sprake is van tastbare producten of op een of andere manier vastgelegde procesregistra- ties (videotape, audiotape, logfiles). – Het sequentie-effect kan onder controle gehouden worden door, als ten minste met twee onafhankelijke beoordelaars gewerkt wordt, processen of producten niet in dezelfde volgorde te laten beoordelen door de beoordelaars. Wanneer schriftelijke toetsen door één beoordelaar worden gecorrigeerd, verdient het aanbeveling het werk niet per leerling maar per vraag te beoordelen en daarbij de volgorde steeds te veranderen. – Beoordelingstendenties kunnen aangepakt worden door beoordelaars te confronteren met hun specifieke beoordelingsbias. Dit vereist natuurlijk wel dat men een keer de betrokken beoordelaars allemaal dezelfde toets laat beoordelen. Op grond van de uitkomsten van zo’n onderzoek kunnen specifieke aanwijzingen gegeven worden waarmee de individuele beoordelaars geholpen worden om meer in overeenstemming met alle andere beoordelaars te beoordelen. Bij het beoordelen van praktische vaardigheden zal men bij voorkeur gebruikmaken van meerdere beoordelaars die onafhankelijk van elkaar de leerlingen beoordelen en vervolgens in gezamenlijk overleg tot een beoordelingsuitspraak komen (inhoudelijke methode). Ook bij schriftelijke toetsen kan het nuttig zijn een correctieprocedure te hanteren waarbij het te beoordelen toetsmateriaal van de leerlingen verdeeld wordt over meerdere beoordelaars: de ene beoordelaar beoordeelt bijvoorbeeld vraag 1 en 3 van alle leerlingen; de tweede beoordelaar beoordeelt vraag 2 en 4 etcetera. Dit laatste is een tamelijk technische manier om het stempel dat een bepaalde beoordelaar drukt op de beoordeling te verminderen. Het inschakelen van meerdere beoordelaars is een arbeidsintensieve en daardoor kostbare zaak. Toch zal men – om aan de kwaliteitseis objectiviteit te voldoen – in ieder geval bij het toetsen van praktische vaardigheden en bij het beoordelen van schriftelijke open vragen minimaal twee beoordelaars moeten inzetten. 8.3 De beoordeling van toetsresultaten Na de afname en correctie van de toets moet de docent allereerst nagaan wat de kwaliteit (betrouwbaar- heid, validiteit) van zijn toets was. Pas als die vraag bevredigend beantwoord kan worden, beschikt hij over informatie over zijn leerlingen (en indirect ook over zichzelf). Na verloop van tijd leveren de aldus verzamelde gegevens informatie op over het curriculum. 157
  • 162. Hoofdstuk 8 8.3.1 Richtlijnen voor de beoordeling van de kwaliteit van toetsen Toetsen die geconstrueerd worden volgens een systematische procedure zullen over het algemeen van goede kwaliteit zijn. Maar er kan geen sprake zijn van gegarandeerde kwaliteit. Daarom is het noodzakelijk na afloop de kwaliteit te controleren. Dat kan globaal op twee manieren : – aan de hand van commentaar van de leerlingen (incidenteel of systematisch via een ingevuld evaluatieformulier); – aan de hand van een toets- en itemanalyse. Commentaar van leerlingen Het verdient aanbeveling om na elke toets door middel van een (standaard) evaluatieformulier de mening van de leerlingen te inventariseren over de kwaliteit van de toets. Aspecten die aan de orde kunnen komen, zijn onder andere: – de mate waarin de toets een afspiegeling was van de leerstof; – de moeilijkheid van de vragen in de toets; – de omvang van de toets; – de duidelijkheid van de vragen; – de eenduidigheid van het juiste antwoord (bij gesloten vragen); – de toegemeten tijd; – de leesbaarheid van het drukwerk. Natuurlijk zijn terloopse opmerkingen van leerlingen ook de moeite van het onthouden waard. Als veel leerlingen in de koffiepauze klagen over bijvoorbeeld de onduidelijkheid van een bepaalde vraag, is er alle aanleiding een nader onderzoek hiernaar in te stellen. Toets- en itemanalyse Alhoewel de laatste jaren de computer in snel tempo een normaal verschijnsel is geworden in het onderwijs, zullen niet alle docenten staan te trappelen om er gebruik van te maken ten behoeve van hun onderwijs- of evaluatie-activiteiten. Daarom wordt hieronder vooral aandacht besteed aan een toets- en itemanalyse die ’met de hand’ uitvoerbaar is. De belangrijkste vragen waarop een toets- en itemanalyse antwoord moet geven zijn: – Waren de vragen van het juiste niveau? – Konden de vragen onderscheid maken tussen leerlingen die de stof beheersen en leerlingen die de stof niet beheersen? – Hoe betrouwbaar was de toets? In tabel 50 wordt aan de hand van fictieve data een toets- en itemanalyse uitgevoerd voor een toets bestaande uit open vragen. Uit deze tabel valt op te maken dat de vier vragen waaruit deze toets bestond niet al te moeilijk waren. Ongeveer 70% van de maximumscore wordt steeds behaald. Of dit acceptabele uitkomsten zijn, hangt natuurlijk vooral af van de specifieke gebruikssituatie. Over het algemeen moeten de vragen wat gemakkelijker zijn als het de bedoeling is vast te stellen of de leerlingen een zeker minimaal beheersingsniveau hebben. Is het daarentegen de bedoeling goed onderscheid te kunnen maken in de beheersingsniveaus van de leerlingen, dan moeten de vragen wat moeilijker zijn. Verder kan uit de tabel worden geconcludeerd dat vraag 1 het beste onderscheid maakt tussen leerlingen die de stof wel en niet beheersen (hoe hoger de variantie des te beter is het discriminerend vermogen van een vraag). Ten slotte kan met de gegevens uit de tabel een schatting gemaakt worden van de betrouwbaarheid (in de zin van interne consistentie; zie par. 3.2) van deze toets. Coëfficiënt alpha is in dit geval 0.86 hetgeen in de literatuur als ’vrij hoog’ bestempeld wordt, zeker wanneer gelet wordt op de beperkte omvang van de toets. De volgende tabel (tabel 51) laat zien op welke wijze een toets- en itemanalyse met de hand uitgevoerd kan worden als er sprake is van gesloten vragen. Hierin kan afgelezen worden wat de moeilijkheidsgra- 158
  • 163. Uitvoeringsniveau: afname, correctie, resultaatbeoordeling tabel 50 - Handmatige toets- en itemanalyse voor open vragen leerling vraag 1 vraag 2 vraag 3 vraag 4 score max score % max score 1 6 5 5 7 23 40 57.5 2 10 8 9 10 37 40 92.5 3 7 6 5 5 23 40 57.5 4 10 7 7 8 32 40 80 5 10 8 8 7 33 40 82.5 6 4 3 6 5 18 40 45 7 8 9 6 8 31 40 77.5 8 7 6 8 6 27 40 67.5 9 7 10 9 7 33 40 82.5 10 5 6 6 4 21 40 52.5 totaal 74 68 69 67 278 400 695 max.score 100 100 100 100 400 1000 p-waarde 0.74 0.68 0.69 0.67 0.69 0.69 variantie 4.04 3.76 2.09 2.81 35.56 uit: Dousma en Horsten (1980) den van de vier in de toets opgenomen vragen waren. Of dit acceptabele waarden zijn, kan zonder nadere informatie over het aantal alternatieven (de ideale p-waarde voor een ja-/nee-vraag is 0.75, voor een driekeuzevraag 0.67 en voor een vierkeuzevraag 0.63) en over het doel van de toets (vaststellen van een minimaal beheersingsniveau of onderscheid maken tussen de leerlingen) hier niet vastgesteld worden. tabel 51 - Handmatige toets- en itemanalyse voor gesloten vragen leerling vraag 1 vraag 2 vraag 3 vraag 4 toetsscore 1 1 0 1 0 2 2 0 1 1 0 2 3 1 0 1 1 3 4 1 1 1 1 4 5 0 0 0 0 0 6 0 0 1 1 2 7 1 0 1 0 2 8 0 1 0 0 1 9 0 0 0 1 1 10 1 1 1 1 4 p-waarde 0.50 0.40 0.70 0.50 variantie 0.25 0.24 0.21 0.25 In hoeverre de vragen onderscheid kunnen maken tussen leerlingen die de stof beheersen en leerlingen die de stof niet beheersen, kan op snelle wijze worden onderzocht door het berekenen van discriminatie- index D. Dat gaat als volgt (Dousma & Horsten, 1980): 159
  • 164. Hoofdstuk 8 1 Vorm twee groepen leerlingen van ongeveer gelijke grootte, zodanig dat in de ene groep de hoogste toetsscores voorkomen en in de andere de laagste. De handigste manier om dit te doen is door van de totale groep het hoogste kwart en het laagste kwart af te splitsen. 2 Bepaal van beide groepen het aantal leerlingen dat het betreffende item juist heeft beantwoord. 3 Deel deze aantallen door de grootte van de subgroep om er proporties van te maken. 4 Bepaal de D-index door de proportie goede antwoorden bij de hoogste groep te verminderen met de proportie goede antwoorden bij de laagste groep. In tabel 52 wordt de uitvoering van deze procedure op de gegevens uit tabel 51 schematisch weergegeven. tabel 52 - Berekening van D-indices vragen vragen leerling 1 2 3 4 leerling 1 2 3 4 4 1 1 1 1 8 0 1 0 0 10 1 1 1 1 9 0 0 0 1 3 1 0 1 1 5 0 0 0 0 som 3 2 3 3 som 0 1 0 1 proportie 1.0 0.67 1.0 1.0 proportie 0.0 0.33 0.0 0.33 D-index 1.0 0.34 1.0 0.67 Een D-index kan variëren van −1 tot +1. Een D van -1 betekent dat de vraag een volstrekt verkeerd onderscheid maakt tussen goede en zwakke leerlingen (alle goede leerlingen maken de vraag fout en alle zwakke leerlingen maken de vraag goed). Een D-index van +1 geeft aan dat de vraag een perfect onderscheid kan maken tussen goede en zwakke leerlingen. Een D-index van 0 betekent dat de vraag geen onderscheid maakt tussen goede en zwakke leerlingen. De betrouwbaarheid van de toets kan worden geschat met behulp van de formule die bekendstaat als KR-21 (zie par. 3.2.1). De variantie van de toetsscores (var) bedraagt 1.66. De gemiddelde toetsscore (gem) bedraagt 2.1. Het aantal vragen is 4 (k). Ingevuld in de formule voor KR-21 levert dit een betrouwbaarheidsschatting op van 0.53. 8.3.2 Richtlijnen voor de beoordeling van toetsresultaten Meten is weten, zo wordt wel gezegd. Dit is maar tot op zekere hoogte waar: zoals dit handboek laat zien, levert meten gegevens op die nog bewerkt moeten worden tot informatie. De meet-gegevens moeten gewaardeerd worden, voordat er beslissingen op gebaseerd kunnen worden. Alle betrokkenen bij het onderwijs zullen zo hun eigen informatie genereren. In de volgende paragrafen wordt besproken welke rol deze informatie speelt voor leerlingen, docenten en management. 8.3.3 Normeren Zoals in paragraaf 2.1 is beschreven, moet aan het resultaat van een meting eerst een waardering worden gegeven, voordat er een beslissing kan worden genomen. Het toekennen van een waardeoordeel, veelal in de vorm van een cijfer, aan een meetresultaat noemt men normeren. Een belangrijk onderdeel van de 160
  • 165. Uitvoeringsniveau: afname, correctie, resultaatbeoordeling normering is het vaststellen van de cesuur: de grens tussen de twee scores waaraan resp. het cijfer 5,5 (voldoende) en het cijfer 5,4 (onvoldoende) wordt gegeven. Er kunnen twee manieren worden onderscheiden om te normeren, de relatieve methode en de absolute methode. Dit is afhankelijk van hetgeen als criterium wordt genomen: 1 Wanneer de prestaties van de andere leerlingen als uitgangspunt worden genomen is er sprake van een relatieve norm. Wanneer een dergelijk criterium gehanteerd wordt spreekt men ook wel van ’achteraf’ of ’relatief’ normeren (omdat resultaten pas na toetsing beschikbaar zijn). Dit criterium wordt gewoonlijk gehanteerd als het erom gaat de beste leerlingen te selecteren en speelt bijvoorbeeld als er minder plaatsen dan gegadigden zijn voor bijvoorbeeld een vervolgcursus. 2 Wanneer daarentegen een van tevoren vastgelegde prestatiestandaard (en dus een cesuur) het uitgangspunt is voor de waardering, spreekt men van ’vooraf’ of ’absoluut’ normeren. Dit criterium wordt meestal gehanteerd als het erom gaat zekerheid te hebben dat een leerling voldoende is toegerust voor een bepaalde vervolgsituatie (beroep of opleiding). Vaak wordt ook een compromismethode gehanteerd. Omdat van tevoren vaak moeilijk is in te schatten hoe moeilijk een bepaalde toets is, bepaalt men een onder- en een bovengrens waartussen de uiteindelijke cesuur moet komen te liggen. Wanneer de toets moeilijk uitvalt, verschuift men de cesuur naar de ondergrens. Omgekeerd trekt men de norm op, wanneer dat op grond van de goede prestaties van de leerlingen mogelijk is. Wanneer jaarlijks een nieuwe toets wordt ontwikkeld voor dezelfde leerstof, is het de bedoeling dat de eisen die aan de leerlingen worden gesteld door de jaren heen gelijk zijn. De methode van normeren wordt echter beïnvloed door het percentage onvoldoendes. Dit is in principe problematisch. Wanneer het niveau van de leerlingen van jaar tot jaar zou dalen, zou de norm mee zakken. Er wordt dus wel elk jaar genormeerd, maar er is geen zekerheid dat de norm gehandhaafd blijft. Dit probleem kan opgelost worden door in elke nieuwe toets voor een vast deel oude vragen op te nemen. Op die manier is een schatting te maken van het verschil in moeilijkheidsgraad van het oude en het nieuwe deel. Dit kan dan als gegeven worden gebruikt bij het bepalen van de cesuur. Deze oude vragen worden wel ankeritems genoemd: ze bieden houvast bij de normhandhaving. Deze methode heeft een nadeel: het niveauverschil tussen de oude en de nieuwe vragen kan worden bepaald door het feit dat de vragen zelf verschillend van niveau zijn, maar het kan ook liggen aan het feit dat met de oude vragen is geoefend. Dit nadeel weegt minder zwaar wanneer men de beschikking heeft over een opgavenbank, waarin zoveel opgaven zitten dat de complete leerstof gedekt is. Geoefendheid met alle vragen betekent dan automatisch beheersing van alle leerdoelen. Het hele probleem van normhandhaving is zelfs helemaal opgelost wanneer nieuwe toetsen in hun geheel uit de opgavenbank kunnen worden samengesteld, waarbij op grond van de verzamelde gebruiksgegevens een toets met een bepaalde gemiddelde moeilijkheidsgraad kan worden samengesteld. Meer informatie over opgavenbanken is te vinden in paragraaf 6.2. 8.3.4 Toetsresultaten en de feedbackfunctie voor de leerling In paragraaf 5.1.2 werd al gesteld dat er van toetsing een sterke sturing uitgaat naar leerlingen: via toetsing krijgen zij informatie over de effectiviteit van hun studie-inspanningen en efficiëntie van hun studiestrategie. Uit onderzoek blijkt dat door de toetsmomenten, de toetsvormen en de moeilijkheidsgraad van de toetsen op de juiste manier te kiezen, de prestatie van de leerlingen in positief zin beïnvloed kunnen worden: – door de leerstof op te delen in kleine eenheden (modulen) die met een toets worden afgesloten, worden leerlingen gedwongen om inspanningen gelijkelijk over het studiejaar te spreiden; – door in de onderwijs- en examenregeling op te nemen dat leerlingen pas met de volgende module mogen beginnen wanneer de daaraan voorafgaande module met succes is afgerond, is men er zeker van dat de basis voor het begrijpen van de nieuwe leerstof aanwezig is; 161
  • 166. Hoofdstuk 8 – zekerheid over voldoende beheersing van de leerstof bestaat alleen in voldoende mate door per module een hoge cesuur (minstens 80%) aan te leggen. Dit klinkt allemaal erg streng, maar leerlingen blijken deze duidelijkheid toch op prijs te stellen en passen hun strategie hierop aan. Het slaagpercentage blijkt uiteindelijk aanzienlijk hoger te zijn. In de praktijk levert een dergelijke aanpak echter vaak te veel praktische en organisatorische problemen op, omdat het nog niet mogelijk is modulen op elk willekeurig moment te geven of te volgen. Wanneer leerlingen in de toekomst meer zelfverantwoordelijk worden voor hun leerproces, heeft een dergelijk systeem van mastery learning meer kans van slagen. Optimale feedback krijgt een leerling overigens pas wanneer een toets een echt diagnostische functie vervuld (par. 2.3.4) en ook aan de daarvoor gestelde kwaliteitseisen voldoet (par. 5.1.2). De toets dekt dan de volledige leerstof en de toetsresultaten leveren aanwijzingen op voor remediëring. Dat betekent dat er niet alleen een globaal eindoordeel aan de leerling wordt gegeven, maar dat de leerling ook inzicht kan krijgen in de fouten die hij heeft gemaakt. Bij een toets met meerkeuzevragen kan dat wanneer de alternatieven bepaalde veelgemaakte fouten representeren, bij open vragen zal de docent bereid moeten zijn om schriftelijk of mondeling aan te geven waarom bepaalde antwoorden onjuist zijn en een observatielijst moet zo gedetailleerd zijn, dat het voor de leerling helder is welke aspecten van zijn handelen nog verbetering vragen. 8.3.5 Toetsresultaten en de feedbackfunctie voor de onderwijsleersituatie (opleider) In het begin van het handboek werden vanuit de positie van de docent de volgende vragen geformuleerd, die via verantwoord meten beantwoord zouden kunnen worden: – Hebben de leerlingen de gestelde leerdoelen bereikt? – Zijn er bepaalde leerlingen die remediërend onderwijs nodig hebben? – Voldoen de leerlingen aan de minimumeisen om aan een bepaalde cursus of module deel te nemen? Algemener gesteld: uit de toetsresultaten wordt duidelijk of de onderwijsleersituatie geschikt was voor de leerlingpopulatie. Het komt voor dat de moeilijkheidsgraad van de module verkeerd wordt ingeschat en daardoor slecht aansluit bij het niveau van de leerlingen. Dit kan twee kanten opwerken, die beide funest zijn voor de motivatie en prestatie van de leerlingen: – als het niveau te hoog is, zullen de leerlingen afhaken en zich niet meer inspannen van de toets; – als het niveau te laag is, zullen de leerlingen zich niet uitgedaagd voelen en ook daardoor onder de maat presteren (al zullen de toetsresultaten dat niet direct laten zien) Beide situaties zijn onwenselijk en daarom is het zaak om niet alleen naar de toetsresultaten te kijken, maar ook de leerlingen te vragen naar de studeerbaarheid van de module. Op die manier kunnen modulen zowel qua inhoud als qua moeilijkheidsgraad beter op elkaar aansluiten. 8.3.6 Toetsresultaten ten behoeve van selectiedoeleinden Zuiver diagnostische toetsen komen in het onderwijs nauwelijks voor; de meeste beoordelingen worden vertaald in een cijfer of een verbale waardering, waaraan consequenties voor de leerling zijn verbonden. Sommige beoordelingen tellen minder zwaar dan andere en die beoordelingen hebben dan wellicht vooral een terugkoppelingsfunctie naar leerling en docent, maar er vindt een vermenging van toetsfuncties plaats: mede op basis van diagnostische toetsen worden selectiebeslissingen genomen. Dit is wel verklaarbaar, omdat de calculerende leerling zich alleen inspant voor een toets wanneer daaraan voor hem consequenties vastzitten. De keerzijde is echter dat de dubbelrol, die de docent uit hoofde van zijn functie per definitie vervult, namelijk die van enerzijds begeleider en anderzijds beoordelaar, daardoor wel extra ondoorzichtig wordt. De uiterste consequentie hiervan is, dat leerlingen ook tijdens de instructie geen vragen durven stellen, uit angst dat ze een domme indruk maken. 162
  • 167. Uitvoeringsniveau: afname, correctie, resultaatbeoordeling Tussentijdse beoordelingen, die (al dan niet terecht) meetellen voor een eindoordeel, kunnen daarin op verschillende manieren betrokken worden, namelijk via de disjunctieve methode of via de conjunctieve methode (vergelijk ook de cesuurbepaling bij de constructie van een vaardigheidstoets, blz. 84): – Bij de disjunctieve methode moeten alle cijfers voldoende zijn om voor een voldoende eindbeoorde- ling in aanmerking te komen. Dit betekent dat er een goed systeem van herkansingen moet bestaan om alle leerlingen de gelegenheid te geven om voor alle onderdelen een voldoende te behalen. – Bij de conjunctieve methode wordt het eindcijfer bepaald door het gemiddelde van alle cijfers te nemen. Hierbij is dus compensatie mogelijk. In veel gevallen zal er bovendien een weging plaatsvinden van de cijfers voor de tussentijdse beoordelingen, om daarmee recht te doen aan de studielast. Dit kan eventueel de vorm aannemen van een systeem van studiepunten. 8.3.7 Toetsresultaten als bijdrage aan de curriculumevaluatie Wat voor de onderwijsleersituatie in het klein geldt, geldt in het groot ook voor het curriculum. Vragen die dan beantwoord moeten worden, betreffen in eerste instantie het interne rendement: – Hoe effectief is het gegeven onderwijs (onderwijsmethode, hulpmiddelen etc.)? – Sluit het onderwijs voldoende aan bij de leerdoelen en bij de beginsituatie van de leerlingen? – Met welke gegevens kan de kwaliteit van het gegeven onderwijs aangetoond worden aan bijvoorbeeld directie en bestuur? Daarnaast is er de vraag naar het externe rendement: – Voldoet het binnenschools leren aan de eisen van de zorginstellingen? De laatste vraag zou, in schakeltrajecten, ook vertaald kunnen worden in de vraag naar het succes van leerlingen in vervolgopleidingen. Om de vragen naar het interne rendement te beantwoorden, moeten de diverse toetsresultaten en de beslissingen die daarop gebaseerd zijn, worden samengenomen. Als indicator voor een evaluatie van het curriculum kan dan gelden de schoolloopbaan van een cohort leerlingen. Hiermee wordt bedoeld het slagen voor overgangs- en eindexamens, het voortijdig schoolverlaten en de tijd die leerlingen nodig hebben gehad om een diploma te halen. Over het algemeen zal het hier dus toetsen betreffen die voor selectieve doeleinden zijn afgenomen. Een overzicht van de schoolloopbaan, ziet er dan bijvoorbeeld zo uit (vsv1 betekent voortijdig schoolverlaten tijdens het eerste leerjaar): tabel 53 - Schoolloopbaan (fictief) vsv1 vsv2 vsv3 vertraagd onvertraagd N groep 1 23% 12% 5% 23% 38% 93 groep 2 24% 12% 13% 18% 33% 437 groep 3 23% 9% 8% 6% 55% 70 totaal 24% 12% 11% 17% 37% 600 Wanneer het leerstof-jaarklassensysteem vervangen is door volledige modulering, kunnen uiteraard modulegegevens gehanteerd worden. Afhankelijk van de gewenste informatie kunnen gegevens van verschillende groepen bij elkaar gebracht worden: gegevens over de afgelopen jaren, gegevens uit verschillende sectoren of vergelijking met landelijke cijfers. Het management zal met deze gegevens in de hand antwoord zoeken op de volgende vragen: – Wegen de investeringen (van geld en menskracht) op tegen de opbrengsten (kosten–batenanalyse)? – Hoe is de kwaliteit van onze instelling in vergelijking met andere opleidingen? – Met welke gegevens kan ons beleid naar buiten toe (bijvoorbeeld ministerie) verantwoord onderbouwd worden? 163
  • 168. Hoofdstuk 8 – Komt het rendement van het binnenschools leren overeen met de afspraken die met de zorginstellin- gen daarover gemaakt zijn? Hoe is de inzetbaarheid van de leerlingen in de zorginstellingen? Hierbij moet allereerst de vraag gesteld worden in hoeverre toetsresultaten gehanteerd als parameter voor de kwaliteit van het onderwijs c.q. van de onderwijsorganisatie. 8.3.8 Toetsresultaten als kwaliteitsindicatie voor het onderwijs en de onderwijsorganisatie Toetsresultaten worden grofweg door drie belangrijke variabelen bepaald: de kwaliteit van de leerlingen, de kwaliteit van het onderwijs en de kwaliteit van de meting. In het model van de didactische analyse zijn deze elementen te herkennen als respectievelijk de beginsituatie, de onderwijsleersituatie en het meten en beoordelen. Er wordt vanuit de beginsituatie toegewerkt naar de leerdoelen. Wanneer na verloop van tijd geconstateerd wordt dat de leerdoelen niet bereikt zijn, zijn er drie conclusies mogelijk: 1 de afstand tussen de beginsituatie en de leerdoelen was te groot (de kwaliteit van de leerlingen was te laag voor de beoogde doelen); 2 de onderwijsleersituatie heeft onvoldoende invloed kunnen uitoefenen op het bereiken van de beoogde leerdoelen (de kwaliteit van het onderwijs was te laag); 3 de beoordeling van de mate waarin de leerdoelen bereikt zijn, deugde niet: leerlingen zijn ten onrechte afgewezen (de kwaliteit van de meting was te laag). Uiteraard kunnen soortgelijke conclusies ook getrokken worden wanneer de leerdoelen wél bereikt zijn: 1 de afstand tussen de beginsituatie en de leerdoelen was te klein of precies goed (de kwaliteit van de leerlingen was te hoog of voldoende voor de beoogde doelen); 2 de onderwijsleersituatie heeft voldoende invloed kunnen uitoefenen op het bereiken van de beoogde leerdoelen (de kwaliteit van het onderwijs was goed); 3 de beoordeling van de mate waarin de leerdoelen bereikt zijn, deugde niet: leerlingen zijn ten onrechte geslaagd (de kwaliteit van de meting was te laag). Dit handboek heeft als belangrijkste doelstelling om conclusies van de derde soort uit te kunnen sluiten. Hoe beter de kwaliteit van de meting is, hoe kleiner de invloed van die variabele wordt en hoe groter de relatieve inbreng van de twee andere variabelen wordt. Een onderwijsorganisatie zal echter ook invloed van de leerlingen en die van het onderwijs uit elkaar willen trekken, om zo te achterhalen wat haar toegevoegde waarde is. Wanneer de leerlinginstroom van hoge kwaliteit is, zal het geen probleem zijn om de einddoelen te halen. Als opleidingsinstituut kun je dan adverteren met het behaalde hoge rendement. Het spreekt echter voor zich dat men daarmee geen genoegen mag nemen. De bedoelde groep leerlingen zou in dezelfde tijd meer kunnen bereiken of hetzelfde in een kortere tijd. Er zijn verschillende mogelijkheden om daar zicht op te krijgen, zoals het gebruik van leerlingvolgsyste- men en het gebruik van geschaalde itembanken. Leerlingvolgsysteem In een leerlingvolgsysteem worden de vorderingen van de leerlingen zodanig geregistreerd en zichtbaar gemaakt, dat de ontwikkeling goed te volgen is. Er worden aan het begin en in het verloop van het onderwijs proces regelmatig peilingen gedaan, waarbij gebruik wordt gemaakt van ofwel een absolute normering (is het doel bereikt?) of een landelijke normering (hoe verhoudt deze groep leerlingen zich tot alle andere leerlingen?). Door zulke referentiepunten te hanteren, kan zicht worden verkregen op de kwaliteit van de leerlingen op verschillende momenten in het onderwijsleerproces. Door nu die metingen in de tijd onderling te vergelijken, wordt duidelijk of de vorderingen van de leerlingen naar verwachting zijn. Gecalibreerde itembanken 164
  • 169. Uitvoeringsniveau: afname, correctie, resultaatbeoordeling Bij een toetsenbank/itembank kan men gebruikmaken van gecalibreerde itembanken. Deze ondersteunen de flexibilisering van de toetsing en afsluiting. Een gecalibreerde (of ’geschaalde’) itembank biedt namelijk de mogelijkheid de eigenschappen van leerlingen vergelijkbaar te meten onafhankelijk van de toets die zij hebben gedaan. Dat geeft dus een houvast bij het beoordelen van het niveau van de leerlingen over de jaren heen. Overigens is een goed leerlingvolgsysteem juist om die reden gestoeld op gecalibreerde itembanken. Toegevoegde waarde Hierbij dient men zich te realiseren dat uit onderzoek is gebleken dat leerresultaten voor verreweg het grootste deel bepaald worden door leerlingkenmerken en dat slechts 5 à 10% door schoolse variabelen wordt beïnvloed. Selectie bij de poort (zie par. 2.3.1) lijkt daarom het aangewezen middel om de kwaliteit (lees: effectiviteit) van de school te verhogen. Uiteraard is een zorgvuldige plaatsing van leerlingen voor zowel de opleiding als de leerlingen zeer gewenst, maar waar het hier om gaat, is de toegevoegde waarde: scholen voegen waarde toe aan wat leerlingen presteren gegeven hun geschiktheids- en omgevingsfactoren. Alleen op haar toegevoegde waarde kan een school worden aangesproken. En het blijkt dan dat er toch duidelijke kwaliteitsverschillen tussen opleidingen bestaan, die consistent zijn op de diverse kwaliteitsindicatoren: hoge slaagpercentages gaan samen met minder doublures. Ondanks de smalle marges is het dus toch belangrijk dat scholen aan hun kwaliteit blijven werken. 165
  • 170. 9 Beslissingen en voorzieningen op managementniveau Het management binnen een instelling kijkt op een andere wijze naar ’toetsing’ dan de onderwijskundige en ondersteunende medewerkers. Het management zorgt voor het uitzetten van beleidslijnen binnen de instelling en houdt daarbij rekening met veranderende externe omstandigheden. In dit hoofdstuk wordt aangegeven hoe deze veranderingen doorwerken in de toetsing en worden suggesties gedaan vanuit het streven naar ’verantwoord meten’ om het toetsingsproces in te richten. Er zijn twee belangrijke invalshoeken ten aanzien van het onderwijs in de instelling en dus ook ten aanzien van de toetsing: – de verantwoording van de toetsing extern: naar de overheid, naar de leerlingen en naar het beroepenveld; – het organiseren van het toetsingsproces intern. De specifieke verantwoordelijkheid van management ligt bij het in evenwicht brengen van deze twee invalshoeken. Omstandigheden van buiten mogen niet leiden tot het onbeheersbaar worden van interne processen. Een voorbeeld hiervan is: Er wordt een grotere individuele keuze geboden aan leerlingen (maatschappelijke vraag) in een situatie van schaalvergroting (door overheid gestimuleerd). De onderwijsinstelling kan in een dergelijke situatie het overzicht snel kwijtraken en de ’normale’ oplossingen en wijzen van organiseren (lesroosters) kunnen problemen opleveren. De interne organisatie van de toetsing hoort ondersteunend te zijn voor het beleid dat het management heeft gekozen; dat betekent dat het management zorg draagt voor het vertalen van beleid in aansturing van de organisatie en voor daarmee consistente procedures op uitvoeringsniveau. In dit hoofdstuk worden ten aanzien van de toetsing handreikingen gegeven voor het vormgeven van dit proces. 9.1 Onderwijsinstelling en omgeving: een analyse De scholen voor beroepsonderwijs bevinden zich in een krachtenveld, waarin een aantal belangrijke invloeden onderscheiden worden: de overheid, beroepenveld, de maatschappij en de technologie. Deze beïnvloeden het onderwijs met wensen en/of bieden mogelijkheden om het onderwijs anders in te richten. De overheid wordt hier apart genoemd, omdat zij de kaders stelt voor het onderwijs. Vanuit de maatschappij ontstaat ook de vraag naar onderwijs. Voor het management zijn betreffende overheidsbeleid de volgende aspecten belangrijk: – wettelijke voorschriften; – ontwikkeling van een (gezamenlijke) kwalificatiestructuur; – schaalvergroting/vorming van ROC’s (regionale opleidingencentra); – controle op afstand/deregulering/lump sum/rendementbekostiging; – kwaliteitszorg. 166
  • 171. Beslissingen en voorzieningen op managementniveau Invloeden vanuit de maatschappij worden voor de instelling belangrijk, waar zij de behoeften van het beroepenveld en de vraag naar onderwijs vanuit de leerling betreffen. De volgende ontwikkelingen en kenmerken van ontwikkelingen zijn voor het beroepsonderwijs interessant: – er bestaan hoge verwachtingen van onderwijs (kennisintensieve samenleving); – er zijn meer keuzemogelijkheden voor individuen (flexibiliteit, individualisering); – er is sprake van integratie van automatisering in verschillende beroepenvelden, hierdoor: . meer behoefte aan blijvende vaardigheden dan aan parate kennis . meer behoefte aan direct bruikbare vaardigheden (beroep) dan aan theoretische kennis; – er worden meer eisen gesteld aan de presentatie van informatie; – er worden meer eisen gesteld aan het toepassen van technologie; – de vraag naar controle/garanties neemt toe; – er sprake van meer kostenbewustzijn. De techniek aan de andere kant biedt mogelijkheden om deels aan de eisen vanuit de samenleving tegemoet te komen. Dit gaat gepaard met een soms al te nadrukkelijk presenteren van nieuwe mogelijkheden van techniek: ’technology push’. Welke mogelijkheden kan de techniek bieden aan het onderwijs? Techniek biedt hulpmiddelen voor: – de leerling om de doelstellingen van het onderwijs te bereiken; – de onderwijsgevende als ondersteuning van het onderwijsleerproces; – de presentatie van onderwijsmateriaal; – het automatiseren van de activiteiten van de organisatie zelf (administratie, roostering). Als men onderwijs beschouwt als dienstverlening, gebaseerd op kennis, kan men spreken van ’automatisering van de kennisintensieve dienstverlening’. In dit handboek wordt ervan uit gegaan dat onderwijs aansluit bij ontwikkelingen in de beroepspraktijk en in de samenleving met gebruikmaking van technische hulpmiddelen. 9.2 Een vertaling van deze invloeden naar ’toetsing’ Wanneer de invloeden van buitenaf worden vertaald naar gevolgen voor de toetsing, kunnen drie aandachtsgebieden worden onderscheiden: 1 inhoud van de toetsing 2 organisatie van de toetsing 3 hulpmiddelen bij de toetsing. 9.2.1 Inhoud van de toetsing Met inhoud van de toetsing wordt hier bedoeld: de inhouden van het onderwijs en de doelstellingen van het onderwijs. Men toetst de kennis en vaardigheden, die in de eindtermen zijn besloten. De inhoud van de toetsing verandert doordat de eisen die de samenleving en de overheid stellen, veranderen. In het handboek is al aangegeven dat er een sterkere nadruk komt te liggen op vaardigheden (zie ook par. 1.1.2). De toetsing van kennis en vaardigheden vindt niet meer plaats in het kader van één opleiding of beroep, maar in het kader van het gehele beroepsonderwijs. 167
  • 172. Hoofdstuk 9 De opleidingseisen worden bekeken in het kader van een kwalificatiestructuur voor het gehele beroepsonderwijs. Dat kan betekenen dat steeds meer relaties tussen gelijksoortige opleidingen gelegd worden en ook relaties betreffende de toetsing van een opleiding. Vanuit de gedachte van flexibilisering en het aanbieden van meer toetsmomenten aan kandidaten, wordt verwacht dat de organisatie aangepast zal moeten worden. Flexibilisering heeft echter ook gevolgen voor de inhouden van de toets. Wanneer de leerlingen per cohort allen hetzelfde centrale examen maken, kan men stellen dat zij per cohort op dezelfde inhouden en op hetzelfde niveau getoetst zijn. Dit gaat veranderen als de leerlingen van een cohort verschillende toetsen voorgelegd krijgen. De verschillen, die er mogelijk tussen toetsen van verschillend cohort bestaan, kunnen nu ook ontstaan tussen leerlingen uit eenzelfde cohort. Het werken aan gelijkwaardige toetsen qua inhoud en niveau wordt normhandhaving genoemd (zie par. 8.3.3) 9.2.2 Organisatie van de toetsing De organisatie verandert onder invloed van de vraag naar meer geïndividualiseerde leerwegen. Zowel vanuit de overheid als vanuit de school wordt ingezien dat het rendement van de opleiding vergroot kan worden door leerlingen een opleiding te bieden, die meer is afgestemd op hun beginsituatie en op hun mogelijkheden. Dit betekent flexibilisering van het onderwijs en in het verlengde daarvan flexibilisering van de toetsing. Men vraagt toetsen die aansluiten bij het onderwijs op maat, op meer momenten in het opleidingstraject. De organisatie van de toetsing binnen de school verandert omdat er veel meer garanties gevraagd worden ten aanzien van het product (de toets) en het proces (de toetsconstructie). Dit leidt tot meer aandacht voor de kwaliteit van toets en toetsconstructieproces. De eisen die aan de toetsing zelf gesteld kunnen worden, zijn uitgebreid beschreven in hoofdstuk 3. Ook aan het toetsconstructieproces kunnen eisen gesteld worden, om de kwaliteit ervan te verbeteren. Denk hierbij aan: consistentie, doorzichtige regels en feedback op alle niveaus. 9.2.3 Hulpmiddelen bij de toetsing De toenemende beschikbaarheid van informatie- en communicatietechnologie biedt allerlei mogelijkheden om de constructie en afname van toetsen flexibeler en efficiënter aan te pakken. De eisen vanuit de samenleving met betrekking tot presentatie van het lesmateriaal en het toetsmateriaal worden hoger. Men raakt gewend aan de mogelijkheden die techniek biedt in relatie tot vormgeving. Dat betekent ook voor een instelling dat les- en toetsmateriaal professioneler worden vormgegeven. Hiervoor kan de school gebruikmaken van geautomatiseerde hulpmiddelen zoals toetsen/itembanken en hulpmiddelen voor toetsing achter het beeldscherm. De school zal deze deskundigheid veelal elders moeten inhuren. Verder kan men in het kader van het gebruik van toetsen/itembanken denken aan een externe samenwerking van bepaalde opleidingen met soortgelijke opleidingen in ROC’s. Om flexibilisering naar plaats mogelijk te maken kan men een toetslokaal inrichten, waar leerlingen op meer momenten in een jaar in kleine groepen onder toezicht een toets kunnen maken. In de paragrafen 9.4, 9.5 en 9.6 zal vanuit de verschillende invalshoeken nader op deze hulpmiddelen en hun implicaties voor de totale organisatie worden ingegaan. In paragraaf 9.3 wordt eerst ingegaan op twee overkoepelende begrippen: kwaliteitszorg en procesbeheersing. 168
  • 173. Beslissingen en voorzieningen op managementniveau 9.3 Werkwijze en kwaliteitszorg Toetsing is enerzijds een middel om de kwaliteit van de opleiding te bewaken en te verbeteren, maar anderzijds moet toetsing zelf ook object van kwaliteitszorg zijn. In dit handboek worden beide kanten uitvoerig belicht. In deze paragraaf wordt vanuit de kwaliteitszorg nogmaals naar toetsing gekeken. ’Verantwoord meten’ vanuit managementniveau houdt in dat het meten van leerresultaten verantwoord geschiedt op een effectieve wijze met minimale kosten. Het management stelt in overleg met de onderwijskundige medewerkers een bepaalde te bereiken ’kwaliteit’ in het toetsproces als doel. Op basis van deze te bereiken doelen/standaarden wordt de organisatie voor de toetsing uitgewerkt. Deels worden deze doelen vastgesteld door de overheid, en spreekt men van eisen aan examinering, waaraan elke instelling moet voldoen, deels worden deze doelen bepaald naar aanleiding van vragen uit het beroepenveld en wensen en behoeften van leerlingen. Om te kunnen beoordelen of doelen bereikt worden, wordt aangeraden om het proces te organiseren op basis van principes uit de ’kwaliteitszorg’. In de volgende alinea wordt het begrip ’kwaliteitszorg’ toegelicht. afb. 24 - Integrale kwaliteitszorg (NEN-ISO 9000) Volgens de NEN-ISO-9000-systematiek zijn aan integrale kwaliteitszorg vijf elementen te onderscheiden. De elementen zijn onlosmakelijk met elkaar verbonden, komen uit elkaar voort en hebben een cyclisch karakter. In afbeelding 24 is deze samenhang tussen de verschillende elementen weergegeven als een cirkel. Binnen een onderwijsorganisatie zijn de verschillende niveaus verantwoordelijk voor verschillende aspecten van kwaliteitszorg. Deze hiërarchische betrokkenheid is te zien in afbeelding 25. De kwaliteitscirkel start met kwaliteitsbeleid. Dit is de doelstelling van een organisatie ten aanzien van kwaliteit, alsmede de wegen en middelen die leiden tot verwezenlijking van deze doelstellingen. Het is de taak van het management om deze doelstelling, dit kwaliteitsbeleid te formuleren en voor iedereen in de organisatie kenbaar te maken (zie par. 9.4). Dat brengt ons op de volgende stap, de kwaliteitszorg. Dit is het aspect van de totale managementfunctie dat bepalend is voor het vaststellen en ten uitvoer brengen van het kwaliteitsbeleid. De kwaliteitszorg moet systematisch aangepakt worden, aangezien het anders door niemand als zijn verantwoordelijkheid wordt gezien. Daarom is de volgende stap die van het kwaliteitssysteem. Dit kan worden omschreven als ’de organisatorische structuur, verantwoordelijkheden, procedures, processen en voorzieningen voor het ten uitvoer brengen van kwaliteitszorg’. Hierbij kan gedacht worden aan de onderwijs- en examenregeling die op curriculumniveau ontwikkeld wordt. Bij kwaliteitsbeheersing moet gedacht worden aan alle operationele technieken en activiteiten die worden toegepast om te bewerkstelligen dat aan de kwaliteitseisen wordt voldaan. De zorgvuldige constructie van meetinstrumenten is daarvan een voorbeeld. 169
  • 174. Hoofdstuk 9 afb. 25 - De 3 niveaus in de kwaliteitscirkel De cirkel wordt gesloten door de kwaliteitsborging, het geheel van alle geplande en systematische acties die nodig zijn om in voldoende mate het vertrouwen te geven dat aan de gestelde kwaliteitseisen wordt voldaan. Zo is bijvoorbeeld sprake van kwaliteitsborging ten aanzien van het onderwijs, wanneer er getoetst wordt en van kwaliteitsborging ten aanzien van de toetsing, wanneer de betrouwbaarheid van een toets berekend wordt. In de kwaliteitszorg speelt het begrip procesbeheersing een belangrijke rol. In de volgende paragraaf wordt dit begrip daarom nader onder de loep genomen. 9.3.1 Procesbeheersing Wat onder procesbeheersing op opleidingsniveau moet worden verstaan, wordt toegelicht aan de hand van het schema in afbeelding 26. afb. 26 - Procesbeheersing Eerst zijn er standaarden. Deze bepalen – wat we moeten nastreven; – waarop we moeten letten. In deze paragraaf worden als voorbeeld de standaarden uitgewerkt, die bestaan als doelen van het onderwijs in een instelling. Men kan ook standaarden stellen voor de toets zelf, voor de organisatie van de toetsing en standaarden voor het gebruik van hulpmiddelen bij de toetsing. Standaarden zijn zaken die we ons als norm stellen. Dit kunnen maatschappelijke verwachtingen zijn (bijv.: wat de afnemers van het onderwijs, de werkgevers, van het onderwijs verwachten, wat afgestudeerden volgens hen moeten kennen en kunnen). Standaarden kunnen ook onderwijskundige doelen zijn (wat docenten aan een opleiding menen te moeten nastreven) of gangbare studieresultaten 170
  • 175. Beslissingen en voorzieningen op managementniveau (wat geslaagden van een opleiding doorgaans weten, wat ze in de praktijk kunnen toepassen). Als men gangbare studieresultaten tot norm verheft, kan wel worden gesproken van normhandhaving. Het is duidelijk dat in het ideale geval de drie opvattingen van standaarden samenvallen: wat de maatschappij wil, streeft het onderwijs na en dit geldt tevens als norm voor afstuderen. Met een term uit de Duitse planeconomie kan men de toestand of situatie die bereikt moet worden ’Soll’, ’Wat moet’ genoemd worden. Voor procesbeheersing moeten eerst instrumenten, middelen en methoden gezocht worden om de huidige stand van zaken, de ’Ist’-situatie (’Wat is’), te bepalen. Als het gaat om studieresultaten, moet men voor gegevens zorgen die een beeld geven van wat er op dit moment bereikt wordt: wat leren de leerlingen momenteel? De volgende stap is een vergelijking van de huidige resultaten met de gewenste resultaten. Ook hier komen de standaarden in beeld: zij geven immers aan welk niveau we moeten bereiken. Als werkgevers vinden dat opgeleiden bepaalde handelingen correct moeten kunnen uitvoeren en de onderwijsinstelling 1 vindt dat ze gelijk hebben (het behoort tot de opleiding) en 2 constateert dat dit in veel gevallen niet zo is, dan is sprake van een discrepantie tussen de ’Ist’-situatie en wat wenselijk is, de ’Soll’-situatie. Er zullen maatregelen moeten worden getroffen om de discrepantie weg te werken, bijvoorbeeld het uitvaardigen van een richtlijn voor docenten om meer aandacht te besteden aan bepaalde vaardigheden. Ook hier spelen de standaarden weer een rol: deze schrijven immers de vaardigheden voor die de leerlingen moeten beheersen. Deze en andere maatregelen zullen effect hebben op de toekomstige ’Ist’- situatie: meer leerlingen zullen leren om de bedoelde handelingen correct uit te voeren. Om na te gaan of dat werkelijk zo is en in welke mate de maatregelen succesvol zijn geweest, is na verloop van tijd een nieuwe waarneming of meting noodzakelijk, waarna het proces zich herhaalt. Procesbeheersing op onderwijsinhoudelijk niveau houdt dus in: een stelselmatige waarneming en meting van lopende studieresultaten en een vergelijking daarvan met gewenste resultaten, met het oogmerk om door gerichte maatregelen de gewenste studieopbrengst te realiseren. In volgende paragrafen zal nader worden ingaan op procesbeheersing voor het bewaken van de onderwijsinhoudelijke doelstellingen/standaarden en de standaarden voor andere aspecten. In deze paragrafen wordt betoogd, dat men voor de procesbeheersing gebruik kan maken van documenten, waarin de standaarden geformuleerd zijn en waarmee men procedures kan opzetten voor het bewaken van deze standaarden. 9.3.2 Werken met ’documenten’ Procesbeheersing kan men op verschillende plaatsen in de onderwijsinstelling terugvinden: allereerst is daar het niveau van het bereiken van onderwijsdoelen. Men heeft als doel de leerlingen zo goed mogelijk voor te bereiden op een beroepspraktijk. Wanneer men de doelen ’kwantificeert’, kan men op een vrij eenvoudige wijze nagaan of de doelen zijn bereikt. Eén manier van het kwantificeren van de onderwijsdoelen is het aangeven van het percentage van leerlingen die de opleiding per jaar met goed gevolg zullen afsluiten. Een andere manier is het aangeven van het geaccepteerde maximumpercentage uitval. De streefdoelen en de wijze waarop de doelen worden gerealiseerd, worden vastgelegd in ’documenten’. Deze documenten zijn vaak het resultaat van de discussie en het overleg binnen een instelling over de doelen en fungeren dan als richtlijn voor management en overige betrokkenen. De documenten kunnen ook procedures en organisatie beschrijven en fungeren dan als een soort ’afspraken’ voor alle betrokkenen. Deze doelen en afspraken vormen de standaarden voor procesbeheer- 171
  • 176. Hoofdstuk 9 sing. In de verschillende documenten wordt voor de onderscheiden niveaus op een geëigende wijze aandacht besteed aan dezelfde aspecten van toetsing. 9.4 Document 1: Beleid en streefdoelen voor de toetsing Het document waarin men de doelen formuleert, kan dienen als basis voor kwaliteitszorg. Men kan aan de hand van dit document controleren of de doelen al dan niet zijn bereikt. 9.4.1 Aanwijzingen voor invulling In paragraaf 9.2 is beargumenteerd dat de toetsing verandert door invloeden van buitenaf. Daarbij spreekt vanzelf dat het toetsproces zelf van goede kwaliteit moet zijn, dat betekent dat vanuit toetstechnische invalshoek eisen aan toetsen en aan de constructie worden gesteld. Het grootste deel van dit handboek behandelt de eisen die vanuit de toetstechnisch oogpunt belangrijk zijn voor een ’verantwoorde meting’. Verantwoord meten Het eerste doel voor de toetsing spreekt dan ook voor zich. Men kan ernaar streven om voor het beoordelen van leerlingen instrumenten te gebruiken, die een zo verantwoord mogelijke meting mogelijk maken. Het management van een instelling kan er ook naar streven om omstandigheden te scheppen, waarin de kennis en vaardigheden van leerlingen optimaal kunnen worden getoond en waar leerlingen ’fair’ worden getoetst. Met dat laatste wordt bedoeld dat omstandigheden gecontroleerd moeten worden, zodat alle leerlingen dezelfde kansen hebben op een goed resultaat. Toetsen van vaardigheden De vraag vanuit de maatschappij om vaardigheden een sterkere nadruk te geven in de toetsing, kan vanuit de instelling beantwoord worden met het stellen van onderwijsdoelstellingen betreffende vaardigheden. Voor het toetsen van deze vaardigheden is het belangrijk dat de vaardigheden goed geformuleerd zijn. Dat betekent dat men de onderwijsdoelstellingen zo formuleert, dat verschillende personen er hetzelfde onder verstaan en dat zij zo omschreven worden, dat zij in een ’gestandaardiseerde setting’ kunnen worden getoetst. Met dit laatste wordt bedoeld dat men de omstandigheden zodanig controleert, dat de leerlingen geconfronteerd worden met gelijksoortige opdrachten van ’gelijkwaardige moeilijkheid’. De omstandigheden die bij het toetsen van vaardigheden vaak een grote rol spelen, mogen de kansen van leerlingen niet onbedoeld vergroten of verkleinen. Flexibilisering Binnenkort vervallen de centrale examens en wordt het mogelijk om de toetsing en afsluiting meer te flexibiliseren: de opleiding is voor examinering en diplomering niet meer gebonden aan een paar vaste momenten in het jaar. Een itembank kan deze flexibilisering bevorderen en niet alleen de efficiëntie, maar ook de kwaliteit van de toetsing aanmerkelijk verhogen. Bij het afnemen van tentamens en examens is de traditionele werkwijze dat een persoon of commissie een rooster opstelt. Docenten die verantwoordelijk zijn voor de opleiding zorgen voor opgaven, voeren de examinering uit en verzorgen de correctie en cijfergeving. Flexibilisering betekent dat groepen leerlingen zich niet meer op enkele vaste data aan tentamens hoeven te onderwerpen, maar kunnen worden getoetst wanneer zij zelf of de docent vinden dat zij aan een tentamen toe zijn. Er komen meer toetsmomenten, afgestemd op verschillende leertrajecten in veelal 172
  • 177. Beslissingen en voorzieningen op managementniveau modulair ingerichte onderwijssettings. Voor de docent-examinatoren betekent dit dat zij over grote aantallen gelijkwaardige toetsen moeten kunnen beschikken. Veel wordt verwacht van het hergebruik van opdrachten en vragen, die hun geschiktheid in de loop van de tijd hebben bewezen. Hergebruik van een beperkt aantal opgaven heeft na verloop van tijd tot gevolg dat de exameninhoud uitlekt. De leerlingen bereiden zich niet meer op de examenstof voor, maar op de concrete examenin- houd, of erger nog: alléén op de goede antwoorden. Daarom is het nodig om over verzamelingen van vragen te beschikken, die van voldoende omvang zijn of die regelmatig worden geactualiseerd. Het toepassen van toetsenbanken/itembanken bij de examinering kan ervoor zorgen dat de verzamelingen vragen niet onbeheersbaar worden. Het aantal toetsdata kan men geleidelijk uitbreiden, bijvoorbeeld van één tentamen met één herkansing per trimester via enkele vaste tentamendata naar een groot aantal gespreide keuzedagen. Bij het creëren van meer afnamemomenten moet niet alleen rekening worden gehouden met de capaciteit van de opgavenbank, maar ook met de organisatorische spankracht van de school. Toetsenbanken/itembanken Het grote voordeel van een professioneel itembanksysteem is dat het proces van toetsproductie is geautomatiseerd: bij een voldoende aantal opgaven kan het systeem inhoudelijk gelijkwaardige toetsen ’genereren’. Dit betekent een zeer grote flexibiliteit bij het toetsen en examineren: de opgavenbank zorgt voor een voldoende aantal verschillende en toch inhoudelijk gelijkwaardige opgaven, zodat geen problemen rond geheimhouding ontstaan. De ene leerling kan de andere geen goede antwoorden meer doorspelen, omdat de reeks opgaven per toetsdatum verschilt. Wanneer gebruik wordt gemaakt van een itembank kan men dus uit een voorraad geordende opgaven met behulp van toetsmatrijzen toetsen maken die op diverse data kunnen worden afgenomen. Indien men de vragen nader onderzoekt op basis van psychometrische analyses, kan men zelfs toetsen genereren, die dezelfde graad van moeilijkheid hebben. Men kan toetsenbanken en itembanken gebruiken bij normhandhaving, indien de vragen psychometrisch getest en geanalyseerd zijn. Computer Based Testing Met de term Computer Based Testing (CBT) wordt bedoeld dat de leerling een toets kan doen met behulp van de computer. De leerling ziet de vragen op het scherm en hij krijgt de kans de antwoorden in te typen of aan te klikken. Indien het gesloten vragen zijn, kan de computer de score automatisch berekenen. Bij open vragen is het nodig dat de docent de antwoorden (die opgeslagen zijn) beoordeelt, net als bij een schriftelijke toets. Het voordeel van CBT kan zijn dat men een programma inbouwt waarmee de moeilijkheid van de vragen wordt aangepast aan het niveau van de leerling. Men spreekt dan van adaptieve toetsing. De leerling behoeft veel minder vragen te beantwoorden voor een betrouwbare meting van de kennis en vaardigheden. Ook hier spelen psychometrische gegevens een grote rol. Alleen met behulp van een psychometrische analyse is op dit moment de moeilijkheid van een vraag verantwoord in te schatten. Toetslokaal Een toetslokaal is een voorziening die voor flexibele toetsing van grote waarde kan zijn. Men heeft een ruimte nodig waarin kleine groepen kandidaten de toetsen kunnen doen onder gecontroleerde, optimale omstandigheden. Een goed beheer van een toetslokaal kan ervoor zorgen dat de schoolorganisatie niet hoeft te lijden onder een veelheid van toetsmomenten. In ieder geval behoort tot een goed beheer dat er toezicht is in het toetslokaal. 173
  • 178. Hoofdstuk 9 Er zijn goede roosters beschikbaar, waardoor het toetslokaal regelmatig gebruikt wordt en waarbij de leerlingen gespreid over het jaar de examens kunnen doen. Ten slotte is het van belang dat leerlingen zich kunnen legitimeren. 9.4.2 Kwaliteitszorg Uiteraard is ook het toetsbeleid onderwerp van kwaliteitszorg. Naast de interne kwaliteitszorg krijgt de onderwijsinstelling ook te maken met externe controle. – Interne kwaliteitszorg. Hierbij wordt vanuit de organisatie zelf bewaakt of de te bereiken doelen ook werkelijk gehaald zijn en of het proces waarlangs men de doelen denkt te bereiken ook werkelijk verloopt volgens de afspraken. Bij ’interne’ kwaliteitszorg wordt procesbeheersing binnen de instelling uitgeoefend. – Externe kwaliteitszorg. Hieronder worden alle evaluatie-activiteiten verstaan die niet door, op initiatief van of onder auspiciën van individuele instellingen worden ondernomen. Het ’extern’ zijn hangt in dat geval af van de initiatiefnemer. Een andere interpretatie is dat commissies van externe deskundigen worden ingeschakeld. Het ’extern’ zijn wordt dus niet bepaald door de initiatiefnemer, maar door het feit dat deskundigen van buiten de instelling betrokken worden bij kwaliteitszorg. De externe kwaliteitszorg is dan geen controle van buitenaf, maar ligt in het verlengde van de interne kwaliteitszorg. Instellingen verzamelen gegevens die van belang zijn voor het beoordelen van de kwaliteit van het verzorgde onderwijs en maken deze toegankelijk voor externe deskundigen. 9.5 Document 2: Onderwijs- en examenregeling Zoals de naam al aangeeft, heeft een deel van de eisen die in een onderwijs- en examenregeling geformuleerd worden betrekking op de wijze waarop het onderwijs is ingericht en een ander deel betrekking op de toetsing en examinering. Hier wordt aangeraden om een indeling te maken in twee gedeelten. In het eerste deel vindt men een ’overzicht van de inhouden’, die geëxamineerd worden en de procedures voor examinering. In het tweede deel wordt de organisatie van de toetsing beschreven. Het eerste deel van de onderwijs- en examenregeling wordt in de volgende paragraaf aangegeven. Aanwijzingen voor het tweede deel vindt u in paragraaf 9.6, waar de ’organisatie van de toetsing’ wordt besproken. Beide delen zullen direct afgeleid worden van de streefdoelen, die in het beleidsdocument zijn geformuleerd. In het inhoudelijke deel van de onderwijs- en examenregeling zijn alle eindtermen voor de opleiding te vinden met een uitwerking daarvan in te toetsen doelstellingen. Tevens staat daarin vermeld welke toetsen de leerlingen moeten doen tijdens of aan het einde van de opleiding en welke prestaties per deelkwalificatie leiden tot een certificaat. Het behalen van alle certificaten van een opleiding geeft recht op het diploma van de opleiding. In de volgende paragraaf wordt puntsgewijs beschreven welke uitspraken er in het inhoudelijke deel behoren te staan. 9.5.1 Aanwijzingen voor invulling Een onderwijs- en examenregeling omvat ten minste de volgende zaken: – de onderwijs- en vormingsdoelen, incl. de eindtermen; – de onderwijseenheden die deel uitmaken van de opleiding; – de inhoud en inrichting van de opleiding (de leerwegen) en van de beroepspraktijkvorming; 174
  • 179. Beslissingen en voorzieningen op managementniveau – de inhoud en indeling van het examen; – de studieduur van de hele opleiding, van de onderwijseenheden en van de deelkwalificaties; – de toetsmomenten per studiejaar; – per toetsmoment een keuze voor een bepaalde toetsvorm; – een beschrijving van de wijze waarop de toetsen worden afgenomen; – de deelkwalificaties die extern gelegitimeerd worden; – mogelijke vrijstellingen; – per toets eventuele vereiste certificaten; – de wijze waarop en de termijn waarbinnen informatie beschikbaar is over opgaven, gemaakte toetsen en behaalde cijfers. In tabel 56 wordt een voorbeeld van onderwijs- en examenregeling gepresenteerd, waarbij wordt uitgegaan van certificaateenheden. Men kan een schema opstellen, waarin in één oogopslag duidelijk wordt op welke wijze certificaateenheden worden getoetst. tabel 54 - Mogelijke opzet van een onderwijs- en examenregeling Aantal Toetsvorm Bijdragende Externe legitimering toetsen Beoordelingsterm Naam CE (schriftelijk modulen of schoollegitimering per modu- (waardering, cijfer) of praktisch) le 9.5.2 Kwaliteit van de onderwijs- en examenregeling Het bewaken van de inhoudelijke kwaliteit van de examinering kan plaatsvinden door een beoordeling van de meetinstrumenten, waarmee getoetst wordt. Deze beoordeling kan intern of extern geschieden, of zowel intern als extern uitgevoerd worden. Kwaliteitszorg betreffende het meetinstrument: de toets Ook het systeem van toetsing en examinering leent zich voor evaluatie. Daarbij kan het gaan om toetsen en examens als product. Relevante evaluatievragen luiden dan: – Zijn de doelstellingen eenduidig? – Is de instructie voor de kandidaat volledig en helder? – Is de beoordelaarsinstructie duidelijk? – Is de lay-out van de opgaven overzichtelijk? – Is de vraagstelling eenduidig? – Zijn de gekozen toetsvormen geschikt voor het gestelde doel? Zulke vragen zullen in de regel gesteld zijn in het kader van zelfevaluatie en eventueel geleid moeten hebben tot verbeteringen, alvorens men zich onderwerpt aan een extern oordeel. Kwaliteitszorg door middel van externe legitimering Volgens de WEB stelt het bevoegd gezag voor elke opleiding een onderwijs- en examenregeling vast. In deze regeling staan de deelkwalificaties waarvoor externe legitimering moet plaatsvinden, de exameninstelling die de externe legitimering verzorgt en de wijze waarop dit gebeurt. De externe 175
  • 180. Hoofdstuk 9 legitimering omvat de kleinst mogelijke meerderheid van het totale aantal verplichte deelkwalificaties van een opleiding. Deze geschiedt door of vanwege exameninstellingen en houdt voorzieningen in die waarborgen dat de inhoud en het niveau van de examens ten minste zijn afgestemd op de eindtermen. Extern houdt in: niet alleen onder verantwoordelijkheid van het bevoegd gezag van een enkele instelling. Externe legitimering zou een instelling kunnen bereiken door de examencommissie op een ROC- overstijgende manier samen te stellen en niet alleen uit het eigen onderwijzend personeel te laten bestaan. De WEB opent de mogelijkheid dat elke ROC in samenwerking met een of meer bevoegde gezagsorganen van andere instellingen een examencommissie aanwijst. Door het benoemen van leden van buiten het onderwijs, bijvoorbeeld uit beroepsleven of wetenschap, zou de commissie legitimeringsstatus kunnen verwerven. De taken van zo’n examencommissie kunnen bestaan uit het goedkeuren van opgaven en opstellen van toetsmatrijzen. Men heeft de inhoud van de examinering gelegitimeerd door te putten uit opgaven die – ROC-overstijgend zijn goedgekeurd; – gebaseerd zijn op onderwerpen die de leerstof voor deelkwalificaties en eindtermen definiëren; – op een evenwichtige manier worden geselecteerd door middel van een toetsmatrijs; 9.6 Document 3: Organisatie van de toetsing De documenten waarin men de consequenties van de doelen naar de organisatie uitwerkt, kunnen dienen als uitgangspunt voor procesbeheersing, waarmee men nagaat of de werkwijze wel wordt gevolgd, zoals men dit wenst. 9.6.1 Aanwijzingen voor invulling Voor de organisatie van de toetsing is het gewenst een examencommissie in te stellen, die de organisatie en afname van de examens verzorgt. Voor het gehele proces van toetsing is echter meer nodig dan een commissie voor organisatie van de examens zoals voorheen. Het gehele proces van toetsconstructie zal gereglementeerd en bewaakt moeten worden, wil er sprake zijn van kwalitatief goede examens. Hieronder wordt eerst de algemene lijn van toetsconstructie en afname aangegeven, daarna worden voorbeelden gegeven van toepassing van de al eerder genoemde ’beleidsdoelen’ in de organisatie. De grote lijn in de toetsorganisatie bestaat uit de volgende onderdelen: – itemconstructie/vraagconstructie of casusconstructie; – het opstellen van toetsspecificaties, zoals gebruik van een toetsmatrijs, normering, e.d.; – toetsconstructie, dat wil zeggen samenstellen van de toetsen; – het opstellen van afnamecondities per toets; – het vaststellen van afnamemomenten; – plannen van toetslocaties; – planning van afnamemomenten voor leerlingen (roosters); – verwerken van antwoorden/correctie; – scoring; – analyse van leerlingresultaten; – eventueel bijstellen normering; – cijferbepaling; – bekendmaking cijfers; – administratie van leerlingresultaten (leerlingvolgsysteem). Wanneer deze algemene lijn wordt toegepast op de in paragraaf 9.4 beschreven doelen, levert dat de volgende aanwijzingen op. 176
  • 181. Beslissingen en voorzieningen op managementniveau Verantwoord meten Verantwoord meten van leerresultaten speelt in het gehele proces van toetsing. Het is de basis voor de toetsing. Bij elk onderdeel kan worden bekeken in hoeverre er sprak is van een valide toetsing, een betrouwbare toetsing en een toetsing, die eerlijk is voor alle leerlingen. Flexibilisering Flexibilisering heeft belangrijke gevolgen voor de toetsing. Er ontstaat een behoefte aan veel gelijkwaardige toetsen, die bij kleine groepen leerlingen worden afgenomen. Hierdoor neemt de druk van de itemconstructie/toetsconstructieactiviteiten bij de docenten toe. Itemconstructie/toetsconstructie kan wellicht efficiënter geschieden via samenwerking tussen opleidingen binnen en buiten de instelling. Door toename van het aantal toetsmomenten worden er eisen aan de instelling gesteld wat betreft de organisatie van alle toetsmomenten. Toetsing kan niet meer als ’bijzondere activiteit’ gepland worden, waarvoor alle andere onderwijsactiviteiten moeten wijken. De toetsing zal veel meer een deel worden van het onderwijsleerproces, tenminste wat betreft de organisatie. Inhoudelijk zal de toetsing toch een aparte status behouden, juist om de garanties te kunnen geven aan alle leerlingen, dat zij onder gelijkwaardige omstandigheden getoetst worden. Toetsenbanken/itembanken Toetsenbanken en itembanken kan men in de instelling gebruiken om toetsen samen te stellen uit elementen zoals: items, open vragen, praktijkopdrachten en casusbeschrijvingen. Als men niet de beschikking heeft over een toetsenbank, die gereed en bruikbaar is, ontstaat er echter een geheel nieuw constructieproces binnen de school: de constructie van een toetsenbank of itembank. De fasen in deze constructie zijn: – het maken van halffabrikaten (items, vragen); – het beoordelen en aanpassen van deze concept-items; – eventueel pre-testen; – constructie van een classificatiestructuur in de itembank/toetsenbank; – invoeren van items in de classificatiestructuur; – het invoeren van toetsspecificaties (zoals toetsmatrijzen); – het beheer van de itembank; – toetsconstructie met behulp van de itembank: . gelijkwaardige inhouden; . gelijkwaardige moeilijkheid. De toetsen worden waarschijnlijk onder dezelfde omstandigheden afgenomen als toetsen, die niet met de toetsenbank/itembank zijn geconstrueerd. Computer Based Testing Het inschakelen van de computer voor CBT verandert juist iets aan de afnamesituatie. De leerling kan zelfstandig op elk gewenst moment de toets maken. Er is eigenlijk alleen behoefte aan een geschikte ruimte, toezicht en een rooster. Er is nog niet veel ervaring opgedaan met deze vorm van toetsing. Men kan echter beargumenteren dat zij de organisatorische integratie van onderwijs en toetsing versterkt. Toetslokaal Voor het kiezen van een geschikte ruimte en het beheer van een toetslokaal zal een oplossing moeten worden gevonden. Belangrijk is hierbij dat er geen misverstanden zijn over: welke toetsen in een toetslokaal kunnen worden gedaan, op welke tijdstippen, en welke groepen daarvoor in aanmerking komen. Men kan zich voorstellen, dat in eerste instantie alleen herkansingen voor het toetslokaal in aanmerking komen. 177
  • 182. Hoofdstuk 9 9.6.2 Kwaliteit van de organisatie van de toetsing Het complete examen- en tentamenstelsel kan een object van evaluatie zijn (procesevaluatie). Er wordt kritisch gelet op de wijze waarop informatie over studieresultaten wordt verzameld, hoe deze wordt geïnterpreteerd en de manier waarop beslissingen over leerlingen worden genomen. – Zijn de randvoorwaarden en reglementaire aangelegenheden expliciet en volledig? (te denken valt aan constructie- en vaststellingsprocedures voor de toetsen, een beschrijving van de toegestane hulpmiddelen, afnamecondities, toezicht, maatregelen bij onregelmatigheden, beroepsprocedures, presentie- en herkansingsregels) – Is wijze waarop de normering van de toetsen tot stand komt (d.w.z. de manier waarop prestaties worden gewaardeerd en cijfers worden toegekend) adequaat geregeld? – Zijn de regels met betrekking tot de correctie duidelijk en volledig? – Wordt er door in- en externe rapportage verantwoording over de toetsen afgelegd? – Zijn de procedures voor het nemen van belangrijke beslissingen voorafgaand, tijdens en na de examinering vastgelegd? – Is er een commissie van beroep voor de examens ingesteld? 9.7 Financiële beslissingen Wat betreft de financiële beslissingen voor de toetsing staat het management voor de volgende beoordelingen: – Zal men de activiteiten met betrekking tot de toetsing zelf uitvoeren, of zal men ze uitbesteden? – Zal men de activiteiten met betrekking tot de toetsing per opleiding regelen of voor de gehele onderwijsinstelling? – Zal men de activiteiten voor toetsing per instelling uitvoeren of met andere instellingen? – Welke hulpmiddelen worden bij de toetsing gebruikt? – Bij gebruik van een toetsenbank/itembank denkt men dan aan centraal of decentraal gebruik? – Is het toepassen van een toetsenbank/itembank gewenst, of denkt men eerder aan het ontvangen van diensten van een extern toetsservicesysteem? De beslissing over deze aandachtspunten zal voor een groot deel afhangen van keuzen met betrekking tot gewenste kwaliteit en de prijs, die daarvoor intern of extern betaald moet worden. De activiteiten kunnen worden ingedeeld in de volgende vier categorieën: – constructieactiviteiten – afname-activiteiten – analyse van afnamegegevens – het beheer van itembanksystemen. 9.7.1 Constructieactiviteiten Wat betreft de constructieactiviteiten kan men stellen, dat een vraag snel geschreven is, maar dat onderschat wordt hoeveel tijd en zorg een goede beoordeling en test van een vraag kost. Zodra meer mensen in commissies (intern of extern) de vragen gaan beoordelen en op basis daarvan vragen moeten worden aangepast of geschrapt, nemen de kosten met sprongen toe. Eén vraag, die in 5 minuten wordt bedacht en in 5 minuten wordt opgeschreven, kost voor constructie slechts 1/6 van het uurloon van de constructeur. Een voorbeeld van kwaliteitsverhoging van de vraag bestaat als 3 mensen de vraag 5 minuten beoordelen en de vraag gezamenlijk 5 minuten bespreken, waarna één van de constructeurs de vraag aanpast in 5 minuten. De constructie van de vraag komt nu op 3/4 van het uurloon van een constructeur. Dit is een voorbeeld van constructie van een zeer eenvoudige vraag, die nog niet eens is uitgetest. Als er wordt 178
  • 183. Beslissingen en voorzieningen op managementniveau verwacht dat de toetsconstructeurs uitgangsmateriaal zoeken en bespreken en dat de vragen die bij dit uitgangsmateriaal behoren getest worden, dan kan men begrijpen dat constructie van toetsmateriaal een kostbare zaak wordt. Bij het streven naar een verantwoorde meting wordt de toets zeer kritisch bekeken in relatie tot de te toetsen doelen. In de loop van de tijd worden daarbij afnamegegevens geanalyseerd om de statistische kwaliteiten van het meetinstrument te onderzoeken. Het management van een instelling zal onder invloed van de vraag uit de samenleving en de eisen vanuit de overheid een beslissing moeten nemen over de mate waarin aan kwaliteitseisen bij de toetsing voldaan gaat worden. 9.7.2 Afname De onderwijsinstelling kan de gehele afname uitbesteden. Een andere mogelijkheid is een gezamenlijke regeling voor de afname met andere afdelingen binnen de onderwijsinstelling. Er kan een zelfstandige toetslocatie opgezet worden in een van de verschillende locaties. Indien de afstanden voor kandidaten overkomelijk zijn kan dit kosten besparen. Zoals al eerder gesteld, wordt de toetsing meer als onderdeel van het onderwijsleerproces ervaren, wanneer er meer toetsmomenten zijn, verspreid over de opleiding en de kandidaten meer keuze hebben in het bepalen van de tijdstippen van toetsing. Het bepalen van een plaats voor de toetslocatie kan met deze verandering van de relatie toetsing/onder- wijs rekening houden, door de toetsing niet al te zeer afgescheiden van het onderwijs plaats te laten vinden. 9.7.3 Analyse van afnamegegevens De waarde van statistische analyses neemt toe wanneer de analyse gebaseerd is op grote aantallen gegevens. Daarom kan men stellen dat het verzamelen van gegevens over meer instellingen, het liefst landelijk, de voorkeur geniet. Zeker waar kleine groepen leerlingen de toetsen maken, kunnen verzamelingen van gegevens van kleine groepen redelijke aantallen opleveren. Indien de keuze wordt gemaakt om afnamegegevens te bewaren en items ook statistisch te analyseren wordt aanbevolen om de organisatie daarvan op grote schaal aan te pakken. Daarbij kan men zowel de opzet van het onderzoek als het onderzoek zelf het beste uitbesteden aan deskundigen. 9.7.4 Beheer van een toetsenbank/itembank Men kan op elke instelling een toetsenbank neerzetten voor de toetsing van niet extern gelegitimeerde certificaateenheden. Voor de extern gelegitimeerde certificaateenheden is nog onduidelijk hoe de toetsen worden geconstrueerd en aangeleverd. Men kan ook de itembanken ergens centraal opslaan en beheren, met eventueel een netwerkverbinding tussen de verschillende afdelingen/instellingen. Hiermee wordt een meer of minder centraal systeem bewerkstelligd. Centrale systemen kunnen rendement opleveren, doordat een groot deel van beheer- en opslagkosten kunnen worden gedeeld. De eerste ervaringen van de landelijke organen lijken erop te wijzen dat het gebruik van een centraal gesitueerde itembank voordelen oplevert voor de betrokkenen. Daarnaast zijn er ook tekenen uit de praktijk, die erop wijzen dat gedistribueerde systemen uiteindelijk goedkoper zijn, omdat men met minder ’schijven’ en beslislagen te maken heeft. Dit betreft materiaal dat vaak aangepast wordt, en dat beperkt gebruikt wordt. Omdat er nog weinig ervaring is opgedaan met het toepassen van grote systemen zal de praktijk moeten uitwijzen welke werkwijze het meest kostenbewust is. Het zou kunnen zijn dat afhankelijk van de soort toetsen en het aantal instellingen dat van dezelfde toetsenbank/itembank gebruikmaakt, centrale of decentrale systemen de voorkeur genieten. 179
  • 184. Geraadpleegde literatuur Barrows, H. S. (1987). Simulated (standardized) patients and other human simulations: A comprehensive guide to their training and use in teaching and evaluation. Chapel Hill, NC: Health Sciences Consortium. Bartholomeus, P., & Graat, J. (1994). De rol van de simulatiepatient in het medisch onderwijs in Maastricht herzien: Hoe echter hoe beter (Doc: B4.FIN). Maastricht: Skillslab, Rijksuniversiteit Limburg. Bergen, J.B.A.M. van & Voeten, M.J.M. (1973) Onderwijsevaluatie met behulp van studietoetsen. Tilburg: Zwijsen, (Onderwijskundige brochurereeks 240). Berkel, H.J.M. van & Bax, A.E. (red), (1993). Beoordelen in het onderwijs: een handleiding voor het construeren van toetsen en het evalueren van leerdoelen en onderwijsvormen. Houten: Bohn Stafleu Van Loghum. Bruyne, H.C.D. de (1983). Evalueren in de klas. Amsterdam: Van Goor. Carlisle, K.E. (1986). Analyzing jobs and tasks. Series: Techniques in training and performance development. Englewood Cliffs (NJ): Educational Technology Publications. Creemers, B.P.M. & Hoeben, W.T.J.G. (red.) (1992). Indicatoren van onderwijseffectiviteit. Groningen: ICO. Dochy, F.J. & Luyk, S.J. van (1987) Handboek vaardigheidsonderwijs. Lisse: Swets & Zeitlinger bv. Dochy, F.J. (1995). Toetsen doen een beroep op een mix van componenten. Tijdschrift voor Onderwijs en Opvoeding, 54(3), 28-30. Dousma, T. & Horsten, A. (1980) Tentamineren. Groningen: Wolters-Noordhoff Drenth, P.J.D. & Sijtsma, K. (1990) Testtheorie: inleiding in de theorie van de psychologische test en zijn toepassingen. Houten: Bohn Stafleu Van Loghum. Eggen, T.J.H.M. & Sanders P.F. (red) (1993). Psychometrie in de praktijk. Arnhem: Cito Instituut voor Toetsontwikkeling. Geerligs, T. (1991). Scriptiebeoordeling. Onderzoek van onderwijs, 20(3), 35-38. Geerligs, T. (1991). Maatregelen ter verhoging van de betrouwbaarheid van scriptiebeoordelingen. Onderzoek van onderwijs, 20(4), 51-53. Gelder, L. van, Peters, J.J., Oudkerk Pool, Th. & Sixma, J. (1971). Didactische Analyse. Groningen: Wolters Noordhoff. Gramsbergen, Y. & Van der Molen, H.T. (1992). Gesprekken in organisaties. Groningen: Wolters Noordhof. Gronlund, N.E. and Linn, R.L. (1990). Measurement and evaluation in teaching. New York: Macmillan. Groot, A.D. (1975). Methodologie. ’s–Gravenhage: Mouton. Groot, A.D. de & Naerssen, R.F. van (1977). Studietoetsen: construeren, afnemen, analyseren. ’s–Gravenhage: Mouton. Gulmans, J. (1994). Leren diagnosticeren: Begripsvorming en probleemoplossen in (para-)medische opleidingen. Amsterdam: Thesis. Hollands, L. (1993). Beoordelen van stages. In: H.J.M. van Berkel & A.E. Bax (red.), Beoordelen in het onderwijs (69-75). Houten: Bohn Stafleu Van Loghum. Hoogenboom, J. & Ribot, C. (1993). Praktijk toetsen: constructie en beoordeling van praktische opdrachten. Arnhem: Cito Instituut voor Toetsontwikkeling. Houtman, I.L.D. & Schinkelshoek, D. (1988). Toetsen van praktische vaardigheden: handleiding voor docenten die opleiden voor medische en paramedische beroepen. Almere: Versluijs. Inklaar, Y. & Visser, E. (red.) (1995). Werken aan verbetering: kwaliteitsbewaking van het onderwijsproces. Amsterdam: Hogeschool Amsterdam. Kessels, J.W.M. & C.A. Smit (red) (1984-1989). Handboek opleiders in organisaties. Deventer: Kluwer. 180
  • 185. Geraadpleegde literatuur Kok, J., Krieken & R. van en Luijten, A.J.M. (1986). Het construeren van open vragen. Algemene Publicatie Nr. 45, Arnhem: Cito Instituut voor Toetsontwikkeling. Kraan, H.F. & Crijnen, A.A.M. (1987). The Maastricht History-taking and Advice Checklist. Amsterdam: Velder van den Hezelaar. Luijk, S.J. van, Vleuten, C.P.M. van der & Schelven, R.M. van (1989). Observatietoetsen praktisch getoetst. Tijdschrift voor hoger onderwijs, 7(3), 101-109. Luijk, S.J. van (1994). Al doende leert men: enkele studies naar aspecten van betrouwbaarheid en validiteit over de toetsing van vaardigheden. Maastricht: Universitaire Pers Maastricht, Proefschrift Rijksuniversiteit Limburg. Meer, K. van & Robroek, W. (red) (1987). Onderwijs in verpleegkundige vaardigheden – aspecten van het vaardigheidsonderwijs in de verpleegkundige beroepsopleidingen. Lochem-Gent: De Tijdstroom. Messick, S. (1995). Standards of validity and the validity of standards in performance assessment. Educational Measurement: Issues and Practice, (4), 5-8. Nijeboer, J.J.B. en A.M.J.L. Feryn (1990). Differentiatie in aanpak van sectorale kwaliteitszorg. In: G.W.H. Heijnen e.a. (red.) Kwaliteitszorg – waarborg voor kwaliteit in het hoger onderwijs. Groningen: COWOG, 263-72. Priestley, M. (1982) Performance assessment in education and training : alternative techniques. Englewood Cliffs: Educational Technology. Prins, H.J. (1990). Aanwijzingen voor stagebeoordeling. Arnhem: Cito Instituut voor Toetsontwikkeling. Prins, R. & Schayck, C. van (1988). Instrumenten voor stagebeoordeling: tussentijds verslag van het Citoproject Stagebeoordeling. (Interne documentatie 294). Arnhem: Cito Instituut voor Toetsontwikkeling. Reigeluth, C. M., & Schwartz, E. (1989). An instructional theory for the design of computer-based simulations. Journal of computer-based instruction, 16(1), 1-10. Robroek, W.C.L. (1993). Vademecum voor integrale kwaliteitszorg in opleidingsinstituten voor inservice onderwijs. Utrecht: VOVB Robroek, W.C.L. en Liebrand, C.G.M. (1994). Verantwoord meten van leerresultaten. Onderwijs en Gezondheidszorg, 18(9), 167-170. Romiszowski, A. J. (1981). Designining instructional systems. London: Kogan Page. Scheerens, J. (red) (1989). Evaluatie: over de kwaliteit van het onderwijs. Amsterdam: Swets & Zeitlinger. Schotten, J.G.M. & Dekker, J. (1989). Toetsing van praktische verpleegkundige vaardigheden. Interne documentatie 328. Arnhem: Cito Instituut voor Toetsontwikkeling. Schotten, J.G.M., Stolk, A.M.A., Ouborg, M. en Vermeulen, W. (1995). Praktijktoetsing op de werkplek – Een onderzoek naar de mogelijkheid van het beoordelen van praktijkvaardigheden op de werkplek: de constructie van een beoordelingsinstrument. Arnhem: Cito Instituut voor Toetsontwikkeling. Schotten, J.G.M. (1992). Casusconstructie: getoetst aan de praktijk. Onderwijs & gezondheidszorg, 16(9) p. 169-173. Schotten, J.G.M. & Stolk, A.M.A. (1995). Praktijktoetsing op de werkplek. Onderwijs en Gezondheidszorg, 19(4), 74-78. Schotten, J.G.M. (1995). Opgavenbanken gezondheidszorgonderwijs. Onderwijs en Gezondheidszorg, 19(9), 188-191. Schotten, J.G.M., Janssen. M.C. & Joore, J. (1996). De toets – de praktijk... Onderwijs en Gezondheidszorg, 20(4), 70-74. Stolk, A. en Dekker J. (1986). Het gebruik van een casus bij schriftelijke toetsing. Onderwijs en Gezondheidszorg, 10, 202-209. 181
  • 186. Geraadpleegde literatuur Straetmans, G.J.J.M. (1991). Prestatiebeoordeling door middel van work sample tests. Opleiding & Ontwikkeling, 4(5), 47-55. Straetmans, G.J.J.M. (1993). Het vaststellen van competentie met vaardigheidstoetsen. Tijdschrift voor Hoger Onderwijs, 11(3), 188-204. Straetmans, G.J.J.M. (1994). Verantwoord meten van competentie in het gezondheidszorgonderwijs. Onderwijs en Gezondheidszorg, 18(9), 171-179. Swanson, D.B. and Norcini, J.J. (1989). Factors influencing reproducibility of tests using standardized patients, Teaching and learning in medicine, Vol. 1 nr. 3, 158-166. Tarenskeen, D. (1996). Classificeren van vragen, aanwijzingen voor het ontwerpen van een classificatiestructuur voor itembanken. Arnhem: Cito Instituut voor Toetsontwikkeling. Theunissen, M.A.M en Pluimakers, M.J.H. (1989). De casustoets: een bijzonder toetsvorm, Onderwijs en Gezondheidszorg, 13(9), 267-271. Timmermans, W.G. en Van Veldhoven, G.M. (red) (1990). De kwaliteit van het inservice-onderwijs. Lochem: De Tijdstroom. Tomic, W. & Span, P. (1993). Onderwijspsychologie: beïnvloeding, verloop en resultaten van leerprocessen. Utrecht: Lemma. Verhoeven, N.G. & Beuk, C.H. (1983). Het construeren van meerkeuzevragen. Algemene Publicatie Nr. 29. Arnhem: Cito Instituut voor Toetsontwikkeling. Vermeulen, W. (1993). Toetsing van communicatieve vaardigheden. Proefschrift. Arnhem: Cito Instituut voor Toetsontwikkeling. Werkgroep Docenten Onderwijszaken DOZ (1991). Toetsen en beoordelen. Culemborg: Phaedon. Wigdor, A.K. and Green, B.F. (1991). Performance assessment for the workplace. Washington, D.C.: National Academy Press. Wijgh, I. (1990). Over en sluiten ... : de afsluiting van de basisvorming. Arnhem: Cito Instituut voor Toetsontwikkeling. Wopereis, I.G.J.H. (1996). De ontwikkeling van een (live) patiëntsimulatie ten behoeve van toetsing en instructie in het gezondheidszorgonderwijs. Doctoraalverslag. Universiteit Twente. Wopereis, I.G.J.H. & Schotten, J.G.M. (1996). Instructie en toetsing in de gesimuleerde beroepspraktijk: de (live) patiëntsimulatie. Onderwijs & gezondheidszorg 20(10), p. 197-201. Zemke, R., & Kramlinger, T. (1982). Figuring things out. A trainer’s guide to needs and task analysis. Reading (Ma): Addison-Wesley Publishing Company. 182
  • 187. Index A compensatie 59, 84, 162 aanvaardbaarheid 39, 41 computer based testing 172 absolute norm 66, 160 computersimulatie 23, 52, 110-115 adaptief, adaptieve toetsing 172 conjunctief 59, 84, 162 afleider 47, 86-93 correctie 72, 101, 155 afname 26-30, 30, 155, 178 correctie voor raden 67 afsluiting 14 correctievoorschrift 92, 100 alpha 28, 157 correlatie, correlatiecoëfficiënt 26, 39 alternatieven 47, 86-93 criteriumvaliditeit 38, 60 ankeritems 160 critical incident 77 ankers 83 curriculum 5, 162 antwoordmodel 94-103 curriculumevaluatie 162 arbeidsovereenkomst 143 curriculumniveau 5, 59 B D beeldplaat 23, 52, 110 e.v. Delphi 77 begripsvaliditeit 35, 60 diagnostisch 13, 60, 161 beoordelaarsinstructie 92, 100 dichotoom 28, 137 beoordelaarsovereenstemming, zie inter- didactisch proces 8-10 beoordelaarsbetrouwbaarheid didactische analyse 2, 9, 163 beoordelingsaspecten 78-81, 127-139 discriminatie(-index), discrimineren beoordelingscriteria 78, 124 30, 43, 65, 157 beroepsbegeleidend 143 disjunctief 59, 84, 162 beroepshouding 16, 141, 143, 146 documentstudie 77 beroepsopleidend 143 doelstellingen, zie leerdoelen beroepspraktijkvorming 143-151 doorstroming 14 beroepsprofiel 15 doorstroomkwalificatie 15 besliskunde 34 driekeuzevragen 48, 158 betrouwbaarheid 26 dubbele ontkenning 91, 92, 93, 102 betrouwbaarheid van toetsvormen 44-58 betrouwbaarheidscoëfficiënt 26 E bias 155 effectiviteitsscore 113 efficiëntie 39, 41, 49, 65, 90 C efficiëntiescore 113 calibratie 69, 163 eindtermen 15 case, casuïstiek 56 essayvragen (zie ook opstelvragen) 49 casustoetsen 23, 49, 104 evaluatie, curriculum- 162 certificaateenheden 4, 174, 178 evaluatie, proces- 74, 80, 120, 135, 153 certificaten 4, 14, 173 evaluatie, product- certificeren 14 74, 79, 80, 83, 120, 135, 153 cesuur 35, 65, 66, 67, 84, 160, 161 evaluatie, zelf- 146, 149, 174 checklist 82, 122 examenprogramma 3 cijfer 6, 32, 73, 159, 162, 174 examenvrees 31 civiel effect 3 examinator 72 classificatie, interne differentiatie 12 externe kwaliteitszorg 173 classificatie, itembankstructuur 68, 69, 176 externe legitimering 3, 59, 73, 145, 174 cognitie, cognitieve vaardigheden 16, 19, 38, 51, 63, 79 F commissie van beroep 177 false negative 34 communicatieve vaardigheden, zie interactieve false positive 34 vaardigheden fantoomkop (zie ook simulator) 54, 116, 124 183
  • 188. Index feedback 13, 14, 160, 161 KR-21 29, 159 financiële consequenties 45, 177 kwalificatie, kwalificatiestructuur 4, 15 fit 20 kwaliteit van toetsing 157 flexibel, flexibilisering 67, 164, 167, 171, 176 kwaliteit van onderwijs 163 focusgroep 77 kwaliteitseisen t.a.v. metingen 24, 39 formatief, formatieve 13, 65 kwaliteitseisen m.b.t. toetsfuncties 60 functie van toetsen 10-14 kwaliteitszorg 168-177 functie van toetsen en kwaliteitseisen 60 functie-eisen 144, 149 L lang-antwoord-vraag 95 G lay-out 40, 86, 93, 103 gedwongen raden 67, 92, 155 leerdoelen 9, 17, 20, 15-23, 35-38 geheimhouding 69, 172 leerlingvolgsysteem 163 gegevensverwerking 155 logistiek 45 generaliseerbaarheid 120 gesloten vragen (zie ook meerkeuzevragen) M 23, 47, 67, 86-93, 155-159 managementniveau 5, 165 gokken, gokkans 48, 66, 92 mastery learning 13, 161 meerkeuzevragen, zie gesloten vragen H meetfout 30-35 halo-effect 155 module, moduleren 4, 60, 160, 162 herkansing 14, 59 moeilijkheid, moeilijkheidsgraad herordeningsvraag 89 28, 65, 73, 90, 158, 172 houding(beroeps-) 16, 141, 143, 146 N I natuurgetrouwheid 21, 23, 61 identificatievragen 96 normeren 72, 159 inhoudsvaliditeit 36, 42, 47, 60, 93, 102 normhandhaving 160, 167, 172 instroom 15, 163 integratie van onderwijs en toetsing 176 O integratie van vaardigheden 23, 50 objectiviteit 24, 25, 90, 155 interactieve toetsing 53 observatie 56, 77, 139 interactieve vaardigheden 16, 19, 38, 140 omvattendheid 21, 61 interbeoordelaarsbetrouwbaarheid 25, 84, 134 onderwijs- en examenregeling 6, 59, 173 interne consistentie 26, 28, 157 onderwijsleerproces 14 interne kwaliteitszorg 173 onderwijsleersituatie 9, 161 intersubjectiviteit 24 onderwijsovereenkomst 143 interview 77 open vragen 23, 48, 49, 94-103, 155-157 invulvraag 88 opgavenbank, zie itembank inzicht (kennis/toepassing/-) 37, 106 opstelvragen (zie ook essayvragen) 95 itemanalyse (toets- en -) 157 itembank, itembanksysteem 68-73, P 163, 172, 176, 178 p-waarde (zie ook moeilijkheidsgraad) 28, 65, 158 J paper & pencil, zie potlood-en-papier ja/nee-vraag 48, 88 paralleltoets 26, 27, 73 jaarklassensysteem 6, 162 parallelvorm-methode 27 patiëntsimulatie 23, 55, 125-134 K plaatsing, plaatsingstoetsen 11 kennis (-/toepassing/inzicht) 37, 106 potlood-en-papier 23, 50, 108-109 kort-antwoord-vraag 94, 95, 100 praktijkbegeleider 144 e.v. KR-20 28, 29 praktijkdocent 144 e.v. 184
  • 189. Index praktijkovereenkomst 143 studielast 162 praktijktoetsing op de werkplek 23, 56, 135-142 studiepunten 162 praktijkverslag 144, 146 subjectiviteit 24, 84 predictieve validiteit 35, 38 summatief 14 procesbeheersing 169-171 procesevaluatie 74, 80, 120, 135, 153 T processtation 121 taakanalyse 76, 126 productscale 83 taakspecificiteit 120 productanalyse 78 taxonomie 15, 19 productevaluatie 74, 79, 80, 83, 120, 135, 153 test-hertest-methode 27 productie (vs. reproductie) 16, 37 toepassing (kennis/-/inzicht) 37, 106 productiekosten 45 toets- en itemanalyse 157 productievragen 97 toetsafname 30, 43, 155 productstation 122 toetsconstructie 42, 167, 175 psychomotorische vaardigheden 16, 38 toetsenbank 67, 68, 164, 172, 176, 178 toetsinhouden 59, 60 R toetsmatrijs 63, 68, 72 raden 48, 66, 92 toetsresultaten 156-164 raden, gedwongen - 67, 92, 155 toetsservicesysteem 68, 69 ratingscale 82, 83 toetsvormen 20-23, 44-58, 61 reactieve vaardigheden 16, 19, 38 transparantie 39 relatieve norm 66, 160 tweekeuzevraag 48, 88, 92 remediëren 13, 161 tweestellingenvraag 88 rendement 14, 162 representativiteit 21, 36, 38, 44, 79 U reproductie 16, 37 uitstroom 3 reproductievragen 96 uitvoeringsniveau 6, 63, 86, 155 ROC 165 Romiszowski 15 e.v. V vaardigheidstoetsen 74 S validiteit 35-39, 41-42 schalen, schaalvormen 77, 82 e.v. variantie 28, 157 scoringsvoorschrift 84, 101, 102 vierkeuzevraag 48, 86, 91, 92, 158 scriptie 146, 152-154 visitaties 3 selectie 11-14, 161 volgorde-effect 25 sequentie-effect 25, 156 volgorde van alternatieven 91 serievraag 96 volgorde van vragen in een toets 106 simulatie, zie patiëntsimulatie en vrije verwerkingsvraag 98 computersimulatie simulator 23, 54, 116-119 W skill sample 23, 55, 120-124 waar/onwaar 88 skillslab, zie stationsmodel ware score 30-34 slaagpercentage 161, 164 WEB 3, 59, 69, 72, 143, 174 slagen 14, 29 weging 66, 84, 162 specificiteit 39, 90 work sample 23, 56, 57, 135-142 splitsingsmethode 27 stage, zie beroepspraktijkvorming Z standaarddeviatie 29, 32 zakken 14, 29, 60, 65 standaardisatie 25, 41, 125, 155 zelfevaluatie 146, 149, 174 standaardmeetfout 30-35 stationsmodel 56, 120-124, 127 stellingvraag 88 185
  • 190. Index 186
  • 191. Voorwoord Meten vervult binnen het onderwijs een belangrijke functie. Het belang van die plaats wordt vooralsnog in sterke mate bepaald door de beslissingen die op ’meten’ worden gebaseerd. De mogelijkheden van meten reiken echter verder en het is uitermate zinvol om aan die ruimere mogelijkheden aandacht te besteden. Ook met betrekking tot het stimuleren van leerprocessen, op het gebied van hulp bieden bij studieproblemen, ten aanzien van informatie ten behoeve van het verbeteren van programma’s kunnen metingen een bijzonder nuttige functie vervullen en alleen al op die grond is een handboek zoals hier gepresenteerd van veel belang. Hierboven werd onderscheid gemaakt tussen meten zonder en ’meten’ met aanhalingstekens. Daarmee werd verwezen naar het onderscheid tussen verantwoord meten zoals dat in dit boek wordt bedoeld en ’meten’ zoals dat binnen het onderwijs nog wel eens plaatsvindt. Er is een duidelijke spanning tussen toetsen die voldoen aan de eisen die daaraan in alle redelijkheid gesteld kunnen worden en toetsen die binnen het onderwijs een plaats hebben gekregen. Men krijgt wel eens de indruk dat het maken van toetsen schromelijk wordt onderschat. Het aantal ’fouten’ dat men kan maken, is aanmerkelijk groter dan meestal wordt gedacht. Daar staat echter tegenover dat er inmiddels vele mogelijkheden beschikbaar zijn om toetsen binnen het onderwijs een gezonde basis te geven. ’Verantwoord meten in het gezondheidszorgonderwijs’ bevat een groot aantal suggesties om verbeteringen aan te brengen bij ’toetsen in het kader van het onderwijs’. Het belang van toetsen voor de toekomst van de studerenden maakt het noodzakelijk dat aan de kwaliteit de uitgangspunten van ’verantwoord meten’ ten grondslag worden gelegd. Dit handboek voor de beoordeling van leerresultaten biedt vele handreikingen. W.H.F.W. Wijnen v
  • 192. vi
  • 193. Inhoudsopgave 1 Uitgangspunten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . 1 1.1 Aansluiting bij de praktijk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . 2 1.1.1 Het model ’didactische analyse’: geen gesloten model . . . . . . . . . . . . . . ... . 2 1.1.2 De input vanuit de beroepspraktijk in het model . . . . . . . . . . . . . . . . . . ... . 2 1.1.3 De input vanuit de maatschappij in het model . . . . . . . . . . . . . . . . . . . . ... . 3 1.1.4 Aansluiting van de kwalitatieve en kwantitatieve uitstroom bij de behoefte van het werkveld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . 4 1.1.5 Aansluiting van verschillende opleidingen op elkaar: modulen en certificaateenheden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Een gezamenlijke verantwoordelijkheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Managementniveau: facilitering (procesbeheersing/procesinrichting) . . . . . . . . . 5 1.2.2 Curriculumniveau: aansturing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.3 Uitvoeringsniveau: constructie/aanschaf, afname/verwerking, beoordeling . . . . . 6 1.3 Leeswijzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 De plaats van meten en beoordelen in het didactisch proces . . . . . . . . . . . . . . . . . . . . . . . 8 2.1 Meten en beoordelen: een begripsbepaling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Het didactisch proces: de relatie tussen leerdoelen, beginsituatie, onderwijsleersituatie en toetsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 De functie van toetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1 Selectiemiddel voor plaatsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.2 Classificatie of externe differentiatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.3 Interne differentiatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.4 Feedbackfunctie voor de individuele leerling: diagnostisch . . . . . . . . . . . . . . . 13 2.3.5 Feedbackfunctie voor het onderwijsleerproces (opleider): evaluerend . . . . . . . . 14 2.3.6 Selectiemiddel voor afsluiting: certificerend . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Eisen voor de formulering c.q. de concretisering van eindtermen/leerdoelen als voorwaarde voor een verantwoorde toetsing en beoordeling . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Het ontwikkelen van eindtermen vanuit de kwalificatiestructuur . . . . . . . . . . . 15 2.4.2 Taxonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.3 Leerdoelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.4 Het toetsen van kennis en vaardigheden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.5 Ordeningsmogelijkheden voor toetsvormen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.1 Aansluiting bij de leerdoelen: de ’fit’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.2 Aansluiting bij de beroepspraktijk: de representativiteit . . . . . . . . . . . . . . . . . 21 3 Kwaliteitseisen voor de toets als meetinstrument . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.1 Objectiviteit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Betrouwbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.1 Schatting van de betrouwbaarheidscoëfficiënt . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.2 Meetfouten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.3 De standaardmeetfout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3 Validiteit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.1 Validiteitsaspecten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.2 Relatie validiteit en betrouwbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4 Overige kwaliteitseisen: efficiëntie, transparantie, aanvaardbaarheid en specificiteit . . . 39 3.5 Het spanningsveld tussen betrouwbaarheid, validiteit en efficiëntie . . . . . . . . . . . . . . . 41 3.6 Aandachtspunten ter verhoging van de kwaliteit van een meetinstrument . . . . . . . . . . . 42 vii
  • 194. Inhoudsopgave 4 Indeling en beschrijving van kenmerken van toetsvormen . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.1 Eigenschappen van toetsvormen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.1.1 Representativiteit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.1.2 Betrouwbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.1.3 Organisatie/logistiek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.4 Financiële consequenties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.5 Een schematische weergave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2 De kenmerken van de verschillende toetsvormen . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.1 Toetsen met gesloten vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2.2 Toetsen met open vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.3 Casustoetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.4 Potlood-en-papier-toetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.5 Computersimulatie, beeldplaat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2.6 Simulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2.7 Skill sample test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.8 Patiëntsimulatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.9 Work sample test / praktijktoetsing op de werkplek . . . . . . . . . . . . . . . . . . . . 56 5 Beslissingen en activiteiten op curriculumniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1 Onderwijs- en examenregeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1.1 Toetsinhouden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.1.2 Toetsmomenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.1.3 Toetsvormen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6 Uitvoeringsniveau: algemene richtlijnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 6.1 Stappenplan voor de constructie van kennistoetsen . . . . . . . . . . . . . . . . . . . . . . . . . . 63 6.2 De constructie van kennistoetsen met behulp van een toetsenbank . . . . . . . . . . . . . . . 67 6.3 Stappenplan voor de constructie van vaardigheidstoetsen . . . . . . . . . . . . . . . . . . . . . . 74 7 Uitvoeringsniveau: specifieke richtlijnen per toetsvorm . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.1 Gesloten vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.1.1 Vraagformulering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.1.2 Vraagtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1.3 Algemene eisen aan gesloten vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 7.1.4 Relevante aspecten om aandacht aan te besteden bij standaard–meerkeuzevragen 90 7.1.5 Correctievoorschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.1.6 Screening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.2 Open vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.2.1 Vraagvormen naar lengte van het antwoord . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.2.2 Indeling naar complexiteit van het antwoord . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.2.3 Indeling open vragen naar gedragscategorie . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.2.4 Eisen voor de formulering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.2.5 Correctievoorschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.2.6 Screening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.3 Casustoets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.3.1 Randvoorwaarden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.3.2 De drie pijlers van een casus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.3.3 De doelstellingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.3.4 Van doelstellingen naar beschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 7.3.5 De opbouw van een beschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 viii
  • 195. Inhoudsopgave 7.3.6 Van doelstellingen naar vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 7.3.7 De relatie tussen de beschrijving en de vragen . . . . . . . . . . . . . . . . . . . . . . . 106 7.3.8 De vragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7.4 Potlood-en-papier-toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.4.1 Ontwerpvaardigheden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.4.2 Afleesvaardigheden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.4.3 Combinatie van vaardigheden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.5 Computersimulatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 7.5.1 Doelgroep en toetsdoel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 7.5.2 Toetsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 7.5.3 Beschrijving van het scoringssysteem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.5.4 Bruikbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.5.5 Kwaliteitsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 7.5.6 Toepassingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.6 De simulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.6.1 Doelgroep en toetsdoel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.6.2 Toetsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.6.3 Beschrijving van het scoringssysteem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.6.4 Bruikbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 7.6.5 Kwaliteitsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 7.6.6 Toepassingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.7 Skill sample test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.7.1 Inleiding: stationsmodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.7.2 Toetsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.7.3 Beschrijving van het scoringssysteem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.7.4 Bruikbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.7.5 Kwaliteitsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7.8 Patiëntsimulatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.8.1 Geschiktheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.8.2 De simulatiepatiënt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 7.8.3 Voorbeeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 7.8.4 Kwaliteitsbeschrijving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.9 Work sample test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.9.1 De analyse van de vaardigheid in aspecten en eventuele criteria . . . . . . . . . . . 135 7.9.2 De beoordelaars . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.9.3 Onderzoek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.10 Beroepspraktijkvorming en de beoordeling daarvan . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.10.1 Beoordeling van praktijkplaatsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.10.2 Praktijkvormingsdoelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 7.10.3 Een verantwoorde praktijkbeoordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.10.4 Het praktijkverslag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.10.5 De observatielijst praktisch handelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.10.6 De functie-eisenlijst beroepsgeschiktheid . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.10.7 Het tussentijdse gesprek, het afsluitende gesprek en de eindbeoordeling . . . . . . 149 7.11 Scriptie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.11.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.11.2 Globale en analytische beoordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.11.3 De scriptie-beoordelingslijst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 ix
  • 196. Inhoudsopgave 8 Uitvoeringsniveau: afname, correctie, resultaatbeoordeling . . . . . . . . . . . . . . . . . . . . . . .. 155 8.1 Richtlijnen voor de afname(condities) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 155 8.2 Richtlijnen voor de gegevensverwerking en correctie . . . . . . . . . . . . . . . . . . . . . . .. 155 8.3 De beoordeling van toetsresultaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 156 8.3.1 Richtlijnen voor de beoordeling van de kwaliteit van toetsen . . . . . . . . . . . .. 157 8.3.2 Richtlijnen voor de beoordeling van toetsresultaten . . . . . . . . . . . . . . . . . . .. 159 8.3.3 Normeren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 159 8.3.4 Toetsresultaten en de feedbackfunctie voor de leerling . . . . . . . . . . . . . . . . .. 160 8.3.5 Toetsresultaten en de feedbackfunctie voor de onderwijsleersituatie (opleider) . 161 8.3.6 Toetsresultaten ten behoeve van selectiedoeleinden . . . . . . . . . . . . . . . . . . .. 161 8.3.7 Toetsresultaten als bijdrage aan de curriculumevaluatie . . . . . . . . . . . . . . . .. 162 8.3.8 Toetsresultaten als kwaliteitsindicatie voor het onderwijs en de onderwijsorganisatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 9 Beslissingen en voorzieningen op managementniveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.1 Onderwijsinstelling en omgeving: een analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.2 Een vertaling van deze invloeden naar ’toetsing’ . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 9.2.1 Inhoud van de toetsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 9.2.2 Organisatie van de toetsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 9.2.3 Hulpmiddelen bij de toetsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 9.3 Werkwijze en kwaliteitszorg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.3.1 Procesbeheersing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.3.2 Werken met ’documenten’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.4 Document 1: Beleid en streefdoelen voor de toetsing . . . . . . . . . . . . . . . . . . . . . . . . 171 9.4.1 Aanwijzingen voor invulling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.4.2 Kwaliteitszorg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.5 Document 2: Onderwijs- en examenregeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.5.1 Aanwijzingen voor invulling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.5.2 Kwaliteit van de onderwijs- en examenregeling . . . . . . . . . . . . . . . . . . . . . . . 174 9.6 Document 3: Organisatie van de toetsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 9.6.1 Aanwijzingen voor invulling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 9.6.2 Kwaliteit van de organisatie van de toetsing . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.7 Financiële beslissingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.7.1 Constructieactiviteiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.7.2 Afname . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 9.7.3 Analyse van afnamegegevens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 9.7.4 Beheer van een toetsenbank/itembank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 Geraadpleegde literatuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 x