Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Correspondentie Analyse

4,773 views

Published on

applications of correspondence analysis in market research

Published in: Business
  • Be the first to comment

  • Be the first to like this

Correspondentie Analyse

  1. 1. CORRESPONDENTIE-ANALYSE IN MARKTONDERZOEK Johan Blomme email : info@dmreview.be
  2. 2. Correspondentie-analyse in Marktonderzoek - 2 __________________________________________________________________________________________________ 1. Situering en kernbegrippen betrokken worden in een correspondentie-analyse categorische variabelen genoemd. Dit zijn variabelen Hoewel correspondentie-analyse een reeds lang die de te onderzoeken objecten sorteren in een bestaande techniek is, neemt de belangstelling betrekkelijk klein aantal groepen, welke als ervoor de laatste jaren gestadig toe. Dit houdt categorieën worden aangeduid. Er worden dus verband met de toegenomen populariteit van gegevens geanalyseerd van een aantal objecten met exploratieve gegevensanalyse, waarvoor betrekking tot een aantal variabelen. Een variabele correspondentie-analyse zich goed leent. wordt gedefinieerd door de mogelijkheid om Correspondentie-analyse kan in het algemeen objecten in te delen in onderscheiden en elkaar beschouwd worden als een techniek om de uitsluitende categorieën. samenhang tussen categorische variabelen te Een onderscheid wordt gemaakt tussen drie soorten exploreren. Traditioneel worden daartoe variabelen. In het geval van een nominale variabele kruistabellen gehanteerd. Grote kruistabellen en zijn de categorieën niet volgens een van tevoren meerdere kruistabellen maken het evenwel vlug vastgelegde volgorde ingedeeld. Bij de verwerking lastig om samenhangen op te sporen. van ordinale variabelen dient er rekening mee Correspondentie-analyse (CA) maakt het mogelijk gehouden te worden dat de categorieën in een samenhangen grafisch voor te stellen. Meestal voorafbepaalde volgorde staan. De derde wordt gekozen voor een tweedimensionele plot mogelijkheid is dat de categorieën van tevoren een waarin de categorieën van variabelen als punten bepaalde getalwaarde krijgen met de bedoeling dat voorkomen en waarbij het nulpunt (de oorsprong (anders dan bij ordinale variabelen) verschillen van het assenstelsel) staat voor de totale populatie. tussen die getallen geïnterpreteerd mogen worden De techniek zorgt ervoor dat de onderlinge als verschillen tussen objecten in die categorieën. afstanden tussen deze punten zoveel mogelijk de Zo’n variabelen noemen we numerieke variabelen samenhang in de tabel(len) reflecteren. De (bv. het verschil tussen 25 jaar en 20 jaar is even technieken en procedures die onder CA sorteren, groot als het verschil tussen 55 jaar en 50 jaar). kunnen als een deelverzameling van schaaltechnieken beschouwd worden. Zo hebben Het is van belang om in te zien dat het onderscheid de in de SPSS-module “Categories” opgenomen tussen nominale, ordinale en numerieke variabelen niet technieken zoals ANACOR, HOMALS, PRINCALS voortvloeit uit de eigenschappen van de variabelen en OVERALS (ook “ALS”-technieken genoemd zelf, maar dat het gaat om eigenschappen die door omdat ze werken overeenkomstig het principe van een onderzoeker aan deze variabelen worden “alternating least squares”)1 als gezamenlijk opgelegd. Zo kan de variabele ‘leeftijd’ door een kenmerk dat op een of andere manier onderzoeker ook als een ordinale variabele worden schaalwaarden worden berekend voor de gehanteerd. De onderzoeker gaat er dan van uit dat categorieën van de in de analyse betrokken de categorieën wel op een bepaalde volgorde staan, variabelen. Ter verduidelijking hiervan dienen een maar niet dat afstanden tussen opeenvolgende aantal kernbegrippen van naderbij beschouwd te categorieën gelijk zijn. Anderzijds kan een worden. variabele als politieke voorkeur (nominaal) door een onderzoeker ook als een ordinale variabele behandeld worden (o.m. door politieke partijen op 1.1. Niet-lineariteit een schaal van ‘links’ naar ‘rechts’ te rangordenen). Kortom, of een variabele nominaal, ordinaal of CA is een geheel van technieken die voorzien in de numeriek behandeld moet worden, wordt niet niet-lineaire analyse van categorische variabelen. voorgeschreven door intrinsieke eigenschappen Als zodanig zijn de “ALS”-technieken de van de variabele zelf, maar wordt bepaald door de tegenhangers van de klassieke multivariate lineaire eisen die de onderzoeker aan de variabele stelt. technieken zoals factoranalyse, regressie-analyse, discriminantanalyse, e.a. Niet-lineariteit heeft In tal van onderzoeken komt het voor dat gegevens betrekking op het feit dat bij CA geen voorafgaande ontbreken. De oorzaken hiervan zijn velerlei. Wat eisen aan het meetniveau van de te behandelen te doen als er ontbrekende gegevens zijn ? Er zijn variabelen worden gesteld. Dit is eveneens het drie mogelijkheden. Voor de ontbrekende gegevens geval bij log-lineaire analyse. Deze laatste techniek van een variabele voeren we één nieuwe, heeft echter als nadeel dat het vinden van een afzonderlijke categorie in. Alle objecten met spaarzaam (“parsimonious”) model moeilijk wordt ontbrekende gegevens op de variabele worden aan bij een grote steekproefomvang. CA fungeert hier de aparte categorie toegewezen. Deze aanpak als een te overwegen alternatief. Zoals dit het geval veronderstelt uiteraard, dat objecten waarvan de is bij log-lineaire analyse, worden de variabelen die gegevens ontbreken, om deze reden op elkaar lijken en dat het hierom gewettigd is de ontbrekende J. Blomme – info@dmreview.be
  3. 3. Correspondentie-analyse in Marktonderzoek - 3 __________________________________________________________________________________________________ gegevens als één categorie op te vatten. Het is kan blijken dat de resultaten in hoofdzaak hetzelfde natuurlijk de vraag of deze veronderstelling zijn, ook al werden verschillende opties gekozen. realistisch is. Deze aanpak krijgt de naam : Ook kan blijken dat de resultaten verschillend zijn, ontbrekende gegevens actief enkelvoudig behandelen. al naar gelang welke optie genomen werd. In dit ‘Enkelvoudig’ betekent : de ontbrekende gegevens laatste geval moet de onderzoeker er zich worden in één categorie ondergebracht ; ‘actief’ rekenschap van geven waar zulke verschillen betekent dat deze categorie in de verdere vandaan kunnen komen : de onderzoeker moet verwerking volwaardig meetelt. De tweede aanpak proberen te achterhalen wat er met de gegevens aan is dat aan elke variabele net zoveel nieuwe de hand is waardoor zulke verschillen kunnen categorieën worden toegevoegd als er objecten met optreden. Bij exploratieve gegevensanalyse is het ontbrekende gegevens zijn. Dit houdt in dat in elke zo dat de onderzoeker nog niet overal duidelijke nieuwe categorie slechts één object voorkomt. In vragen heeft. Vergelijking van verschillende dit geval worden ontbrekende gegevens actief analyses van dezelfde data kan ertoe bijdragen dat meervoudig behandeld. Een belangrijk nadeel van de onderzoeker ontdekt wat de zinnige vragen zijn. deze aanpak is dat de toegevoegde categorieën een In dit opzicht is CA een techniek die het verdere zeer lage marginale frequentie hebben (immers, ze analyseverloop in goede banen kan helpen leiden. bevatten slechts één object). De derde aanpak laat alle ontbrekende gegevens buiten beschouwing in de verdere analyse. Ontbrekende gegevens worden passief behandeld. 1.2. “Optimal scaling” Het begrip ‘ontbrekende gegevens’ is afhankelijk van de interpretatie door de onderzoeker. Nemen Bij klassieke multivariate analyses wordt het we als voorbeeld een enquête naar leesgewoonten meetniveau van de variabelen als gegeven van kranten. Nu kan men stellen dat respondenten beschouwd. Op basis van het meetniveau van de die niet regelmatig Het Nieuwsblad lezen in één variabelen wordt een geschikte analysetechniek categorie vallen, nl. de categorie niet-regelmatige gekozen. Bij de “ALS”-technieken wordt niet a Het Nieuwsblad-lezers (actief enkelvoudig). Het is priori een bepaald meetniveau verondersteld, maar echter de vraag of deze laatste groep respondenten worden in de analyse zogenaamde optimale op elkaar lijken, louter en alleen op grond van de schaalwaarden (optimale kwantificatie, “optimal vaststelling dat ze iets niet doen. Mensen die Het scaling”) berekend voor de categorieën van de in de Nieuwsblad wel lezen, hebben iets met elkaar analyse betrokken variabelen. Optimale gemeen, maar geldt daarom dat zij die Het schaalwaarden zijn nieuwe waarden voor de Nieuwsblad niet lezen iets met elkaar gemeen oorspronkelijke waarden van één of meer hebben ? Dit laatste kan betwijfeld worden, en om variabelen. Deze optimale schaalwaarden zijn in deze reden kan de onderzoeker besluiten om ervan een of meer opzichten ‘beter’ dan de uit te gaan dat voor de niet-lezers de gegevens oorspronkelijke waarden van de variabelen, o.m. ontbreken (passieve behandeling). Meervoudig omdat ze de correlatie tussen twee variabelen actieve behandeling houdt daarentegen in dat elke maximaliseren. Optimale schaalwaarden kunnen niet-lezer een uniek exemplaar wordt in zijn eigen dan ook dienen om de oorspronkelijke waarden categorie. Passieve behandeling houdt duidelijke van variabelen te vervangen. Omdat optimale voordelen in. Er wordt dan bij de verdere schaalwaarden worden berekend voor variabelen bewerking wel gelet op het feit dat lezers van ongeacht het a priori toegedachte meetniveau leidt eenzelfde krant iets gemeenschappelijks hebben, het gebruik van optimale schaalprocedures ertoe maar daaraan wordt niet de conclusie verbonden dat variabelen van ongelijk meetniveau in eenzelfde dat niet-lezers iets met elkaar gemeen hebben. analyse kunnen betrokken worden. Voor de praktijk van het marktonderzoek is dit een Het voorgaande leidt tot de conclusie dat er een belangrijke aanvulling op het arsenaal van element van willekeur bestaat. Het is aan de analysemogelijkheden. onderzoeker om te bepalen of een variabele nominaal, ordinaal of numeriek is terwijl er geen Relaties tussen variabelen komen slechts tot hun stricte regels bestaan over de vraag hoe recht indien de categorieën van variabelen optimaal ontbrekende gegevens behandeld moeten worden. gekwantificeerd worden. Wat ‘optimaal’ betekent, Die willekeur kan worden ingeperkt doordat de hangt af van de onderzoekscontext. De optimale onderzoeker niet slechts één keuze uit de opties kwantificatie van een variabele is daarom relatief. doet, maar een aantal analyses doet onder Dit betekent dat de kwantificatie van een variabele verschillende opties en dan de resultaten van die moet beschouwd worden in de context van andere verschillende analyses met elkaar vergelijkt. Dan variabelen die in de analyse betrokken worden. J. Blomme – info@dmreview.be
  4. 4. Correspondentie-analyse in Marktonderzoek - 4 __________________________________________________________________________________________________ Naargelang van deze laatste kan blijken dat een betekent dit hetzelfde als dat er een willekeurige a variabele anders gekwantificeerd moet worden. priori-kwantificatie is (in dit geval wordt aan de categorieën van een variabele een etiket gegeven Stel dat er een a priori-kwantificatie bestaat voor een onder de vorm van cijfers, in een of andere variabele. Er kan dan een transformatiegrafiek volgorde). Wordt de variabele vervolgens getekend worden. In dergelijke grafiek staan de a nominaal behandeld, dan speelt de getalwaarde die priori- kwantificaties op de horizontale as en op de aan de categorieën is toegekend geen enkele rol. verticale as staan de optimale kwantificaties. Elke Een transformatiegrafiek heeft in dit geval m.a.w. categorie van een variabele wordt dus afgebeeld als geen zin. een punt van de grafiek. Dit geeft de mogelijkheid opnieuw te definiëren wat we verstaan onder Om na te gaan of voldaan wordt aan de assumpties numerieke, ordinale en nominale variabelen. van multivariate analyse-technieken kan op de Numerieke behandeling eist dat de punten in de variabelen een correspondentie-analyse worden transformatiegrafiek op een rechte lijn liggen. toegepast. Met behulp van een eenvoudig voorbeeld kan dit geadstrueerd worden. In het Ordinale behandeling stelt de minder strenge eis geval van factoranalyse wordt verondersteld dat de dat de punten op een monotoon stijgende curve variabelen numeriek geschaald zijn. Stel dat liggen. Dit betekent dat als de a priori-kwantificatie uitgegaan wordt van Likert-items (5-punts items) van categorie j groter is dan die van categorie i, de waarbij de code 1 staat voor zeer oneens en de code optimale kwantificatie van categorie j niet kleiner 5 staat voor zeer eens. De veronderstelling bij dit mag zijn dan die van kategorie i (wel is toegestaan soort items is dat de afstanden tussen de dat de optimale kwantificaties gelijk aan elkaar schaalwaarden 1,2,3,4 en 5 gelijk zijn, dus dat er worden). Wordt een variabele nominaal sprake is van een intervalschaal. Het is echter goed behandeld, dan worden aan de mogelijk dat in werkelijkheid de schaalwaarden transformatiegrafiek geen eisen gesteld. De curve voor de verschillende items deze veronderstelling mag dus op meerdere plaatsen een knik vertonen. tegenspreken. Een voorbeeld ter verduidelijking. Het kan blijken dat de transformatiegrafiek toch Veronderstel dat we optimale kwantificaties monotoon stijgend is, wat er dan op wijst dat berekenen voor een reeks Likert-items. Uit tabel 1 hetzelfde resultaat gevonden zal worden als de blijkt o.m. dat voor item 1 de afstand tussen “eens” variabele ordinaal behandeld zou zijn. Terloops (code 4) en “zeer eens” (code 5) 1,25 bedraagt. Voor dient erop gewezen te worden dat als een variabele item 2 is de afstand slechts 0,10. slechts twee categorieën heeft (een binaire variabele) de transformatiegrafiek slechts twee punten bevat die altijd op een rechte lijn liggen. De Tabel 1 : Schaalwaarden voor (5 punts-) antwoordcategorieën gevolgtrekking is dat het voor een binaire variabele na optimale kwantificatie niets uitmaakt of deze numeriek, ordinaal of nominaal wordt behandeld. (1) (2) (3) (4) (5) Transformatiegrafieken hebben alleen zin als er een a priori-kwantificatie van de categorieën van een variabele bestaat. Uit de transformatiegrafiek kan Item 1 -1,30 -1,29 0,03 0,70 1,95 dan bv. blijken dat deze een logaritmisch of kwadratisch verloop kent, hetgeen inhoudt dat de a Item 2 -1,15 -1,11 -0,02 1,10 1,20 priori-kwantificatie dient vervangen te worden door algebraïsche functie van de oorspronkelijke waarden. De items in dit voorbeeld vormen dus duidelijk In klassieke multivariate analyse wordt ervan geen intervalschalen. Optimale kwantificatie kan uitgegaan dat elke variabele een a priori- derhalve leiden tot schaalwaarden die beter kwantificatie heeft en dat elke variabele numeriek voldoen dan de oorspronkelijke waarden. Dit zou moet worden behandeld. In dit geval vertonen de bv. kunnen blijken door eerst een factoranalyse toe transformatiegrafieken alle de vorm van rechte te passen op de oorspronkelijke variabelen en lijnen. Men spreekt daarom van lineaire daarna de resultaten te vergelijken met die multivariate analyse. Worden echter één of meer verkregen bij factoranalyse na optimale variabelen ordinaal of nominaal behandeld kwantificatie. (aangenomen dat er een a priori- kwantificatie is), dan geldt de lineaire restrictie niet en kan men Zelfs indien er sprake is van nominaal meetniveau, spreken van niet-lineaire multivariate analyse. kunnen optimale schaalwaarden worden berekend die toelaten de correlatie tussen variabelen te Indien er geen a priori-kwantificatie is, dan J. Blomme – info@dmreview.be
  5. 5. Correspondentie-analyse in Marktonderzoek - 5 __________________________________________________________________________________________________ maximaliseren. Wat optimaal is, hangt af van de Met betrekking tot optimale kwantificatie kan een betrokken analysetechniek en de in de analyse onderscheid gemaakt worden tussen enkelvoudige betrokken variabelen. Er is dus niet zoiets als een en meervoudige kwantificatie. Enkelvoudige soort absolute optimale schaling van categorieën kwantificatie komt er op neer dat voor elke categorie van variabelen. Voor de procedures ANACOR en van een variabele een kwantificatie wordt gezocht HOMALS wordt slechts een nominaal meetniveau die geldig blijft in alle dimensies van de analyse. van de variabelen verondersteld (cfr. infra). Door Meervoudige kwantificatie houdt in dat de de optimale schalingsresultaten uit deze analyses te kwantificatie van de categorieën voor elke dimensie vergelijken met de oorspronkelijke scores van de van de oplossing verschillend mag zijn. categorieën kan men nagaan of bv. een Aangenomen dat er een a priori-kwantificatie intervalschaal aanwezig is. In dit geval zouden de bestaat, betekent enkelvoudige kwantificatie dat er afstanden tussen opeenvolgende schaalwaarden een transformatiegrafiek is die de a priori- gelijk moeten zijn. Bij de procedures PRINCALS en kwantificatie omzet in een optimale kwantificatie. OVERALS kan het meetniveau van de variabelen Die grafiek blijft geldig voor alle dimensies van de nominaal, ordinaal of interval zijn. oplossing. Daar staat tegenover dat bij meervoudige kwantificatie elke dimensie van de oplossing een eigen transformatiegrafiek heeft. Is er geen a priori-kwantificatie, dan kunnen we 1.3. Dimensie-reductietechnieken desondanks een willekeurige a priori-kwantificatie kiezen en de variabele vervolgens nominaal behandelen. Nominale behandeling betekent De zojuist genoemde “ALS”-technieken kunnen immers : de kwantificatie van de categorieën trekt beschouwd worden als dimensie- zich niets aan van de a priori-kwantificatie. Dan reductietechnieken. Dit betekent dat de samenhang blijft het verschil bestaan dat enkelvoudige tussen de categorieën van variabelen door middel kwantificatie van zo’n variabele zal gelden voor van de berekening van optimale schaalwaarden in alle dimensies van de oplossing, terwijl beeld wordt gebracht in een zo klein mogelijk meervoudige kwantificatie voor elke dimensie aantal dimensies. De dimensies geven elk bepaalde afzonderlijk een optimale kwantificatie van de aspecten weer van de samenhang of verschillen categorieën kiest. tussen categorieën van variabelen. Een techniek die zich goed leent voor optimale kwantificatie van variabelen is PRINCALS (“PRINciple Components analysis by Alternating Least Squares”). De PRINCALS-opties berusten op 2. Transformatie en optimale kwantificatie twee uitgangspunten. Het eerste is dat de gebruiker kan kiezen of variabelen numeriek, In voorgaand punt werd er reeds op gewezen dat ordinaal of nominaal behandeld worden. Het relaties tussen variabelen beter tot hun recht komen tweede uitgangspunt is dat gekozen kan worden als de categorieën van variabelen optimaal tussen enkelvoudige of meervoudige kwantificatie. gekwantificeerd zijn. Nemen we als voorbeeld de De combinatie van deze twee uitgangspunten leidt variabele ‘leeftijd’. Uit een onderzoek naar tot de vier mogelijkheden in tabel 2. eetgewoonten kan blijken dat de optimale kwantificatie van de leeftijdscategorieën de verschillen tussen de oudere groepen kleiner neemt Tabel 2 : PRINCALS-opties dan die tussen de jongere groepen. De optimale kwantificatie zou zelfs kunnen laten zien dat de oudere groepen samengevoegd kunnen worden ; kwantificatie variabelen alleen de verschillen in leeftijd tussen jongeren enkelvoudig meervoudig enerzijds en die tussen jongeren en ouderen numeriek X niet van toepassing anderzijds spelen een rol. Een dergelijke kwantificatie is optimaal in relatieve zin, d.w.z. met ordinal X niet van toepassing betrekking tot de andere variabelen in het onderzoek. Het is best mogelijk dat in een nominaal X X onderzoek naar politiek komt vast te staan dat leeftijdscategorieën anders moeten gekwantificeerd worden. Uit tabel 2 kan afgelezen worden dat twee combinaties niet voorkomen. De eerste is die van J. Blomme – info@dmreview.be
  6. 6. Correspondentie-analyse in Marktonderzoek - 6 __________________________________________________________________________________________________ meervoudige kwantificatie van numerieke attention is focused on the interaction, (c) the user’s variabelen. De reden hiervoor is dat de numerieke curiosity is aroused during the interaction, and (d) behandeling van een variabele inhoudt dat de the user finds the interaction intrinsically kwantificatie van de variabele op verschillende interesting”. Het door Novak en Hoffman dimensies steeds een lineaire functie moet zijn van ontwikkelde conceptueel model voorziet o.m. in de a priori-kwantificatie. Dit uitgangspunt staat een verklaring van “flow” in termen van de haaks op het principe van meervoudige antecedenten ervan. In het bijzonder schrijven de kwantificatie, dat in dit geval zou inhouden dat de beide onderzoekers de ervaring van intrinsiek kwantificaties van de categorieën van een amusement toe aan het bestaan van een congruentie numerieke variabele op meerdere dimensies tussen enerzijds de (navigatie)vaardigheden van de onderling verschillen. Ook de combinatie gebruiker en de uitdagingen die uitgaan van het ordinaal/meervoudig komt niet voor, maar dit om navigeren op het World Wide Web. Meer in het een andere reden. Meervoudige ordinale bijzonder omschrijven Novak en Hofmann “flow” kwantificatie van een variabele impliceert dat de als “a cognitive state experienced during online kwantificaties op achtereenvolgende dimensies navigation that is determined by : 1) high levels of allemaal dezelfde rangorde hebben als de a priori- skill and control ; 2) high levels of challenge and kwantificatie. Ze hebben dus ook onderling een arousal ; 3) focused attention ; and is 4) enhanced rangcorrelatie van 1 zodat de meervoudig ordinale by interactivity and telepresence” (Novak & kwantificatie maar weinig zal verschillen van de Hofmann, 1999 : 6). enkelvoudig ordinale oplossing. In hetgeen volgt zullen we de constructie van de antecedente variabele ‘vaardigheden’ (“skills”) van De enkelvoudig nominale behandeling van een naderbij analyseren aan de hand van een subset van variabele houdt ook iets tegenstrijdigs in. De respondenten die participeerden aan het door behandeling veronderstelt immers dat de Novak en Hoffman uitgevoerde onderzoek. Uit onderzoeker geen rekening kan of wil houden met een aanvankelijk uitgevoerde factoranalyse op een een a priori-kwantificatie maar desondanks toch zestal items waarmee het begrip ‘vaardigheden’ verlangt dat de categoriekwantificaties op elke geïndiceerd werd, bleken twee factoren met een dimensies van de oplossing evenredig met elkaar eigenwaarde groter dan één gezamenlijk 69,1 % van zijn. Ligt het dan niet voor de hand dat de de variantie in de oorspronkelijke items te onderzoeker die enkelvoudige kwantificatie wil verklaren. In tabel 3 zijn deze items vermeld met omdat gehoopt wordt dat de categoriekwantificatie de antwoordfrequenties ervan op de 9-punten overeenkomt met een bepaalde van tevoren schalen die gebruikt werden in het onderzoek. bestaande verwachting omtrent die kwantificaties ? Zou het dan niet beter zijn om die verwachting Op de vier items is een optimale schaalanalyse meteen vast te leggen als een ordinale a priori- verricht door gebruikmaking van PRINCALS. In ordening waarmee in de oplossing rekening wordt het voorbeeld worden alle variabelen enkelvoudig gehouden ? Tegenover die redenering staat dat de ordinaal behandeld. Hiervoor zijn twee onderzoeker soms wel een a priori-verwachting argumenten. Het eerste is dat de categorieën van heeft over een aantal categorieën van een variabele, elke variabele (de getallen 1 tot 9) kennelijk in een maar dat sommige categorieën in die reeks niet bepaalde volgorde staan. Het tweede argument is goed te plaatsen zijn. dat een numerieke analyse ervan uitgaat dat de afstand tussen opeenvolgende categoriewaarden We zullen de toepassing van optimale steeds gelijk is. De juistheid van deze schaalanalyse illustreren aan de hand van een veronderstelling is erg betwistbaar. Ordinale onderzoek van Novak en Hoffman (1999) over het kwantificatie zal laten zien of er reden is de navigatiegedrag van gebruikers van het World categorieën zodanig te kwantificeren dat hun Wide Web. Bij de ontwikkeling van een onderlinge afstanden niet meer gelijk zijn. conceptueel model ter verklaring van het navigatiegedrag van WWW-gebruikers maken Uit tabel 3 kan afgeleid worden dat een Novak en Hoffman gebruik van het begrip “flow”, afzonderlijke analyse van categoriekwantificaties dat zij omschrijven als de intrinsieke amusement op zijn plaats is. De frequentieverdeling ziet er dat gebruikers ervaren. Trevino en Webster (1992 : immers niet uit als een normale verdeling. Bij elk 542) geven volgende operationele omschrijving van van de vier items is de frequentieverdeling zelfs “flow” : “Flow represents the extent to which (a) the extreem scheef te noemen. user perceives a sense of control over the computer interaction, (b) the user perceives that his or her De resultaten van de PRINCALS-analyse J. Blomme – info@dmreview.be
  7. 7. Correspondentie-analyse in Marktonderzoek - 7 __________________________________________________________________________________________________ onderschrijven in de eerste plaats de resultaten van samengevoegd (in rood weergegeven de factoranalyse. De PRINCALS-eigenwaarden categoriekwantificaties). De PRINCALS-analyse hebben een waarde van 0,558 op de eerste dimensie geeft eveneens een bevestiging voor de ordinale en 0,172 op de tweede dimensie. Als we als kwantificatie van de categorieën van de variabelen : vuistregel hanteren dat een eigenwaarde groter de getransformeerde waarden moet zijn dan (1/aantal variabelen), dan kan uit de (categoriekwantificaties) vertonen voor elk van de itemanalyse afgeleid worden dat de tweede items een monotoon stijgend verloop. dimensie (eigenwaarde 0,172 > 0,167) nog net kan weerhouden worden maar op zichzelf weinig Tabel 4 : Categoriekwantificaties voor “skills”-items toevoegt aan de eendimensionele oplossing. item 1 2 3 4 5 6 7 8 9 Tabel 3 : Antwoordfrequenties voor “skills”-items skilled -2.56 -1.93 -1.93 -1.90 -1.31 -0.82 -0.23 0.40 1.27 Item 1 2 3 4 5 6 7 8 9 Find -1.49 -1.49 -1.49 -1.49 -1.49 -1.47 -0.71 0.29 1.43 I am extremely skilled at using the Web 5 4 18 12 45 56 110 126 124 (skilled)(*) searchtech -1.62 -1.62 -1.62 -1.62 -1.41 -0.96 -0.65 0.41 1.37 I know how to find knowless -1.58 -1.58 -1.58 -1.58 -1.58 -1.58 -1.04 -0.33 0.96 what I am looking for 3 3 9 12 13 46 125 174 115 on the Web (find)(*) rate1 -7.54 -6.63 -5.65 -1.77 -0.76 -0.16 0.54 0.76 1.47 I consider myself rate2 -3.06 -3.06 -2.29 -2.29 -0.25 -0.03 0.27 0.27 1.14 knowledgeable about good search techniques 2 12 9 18 17 56 125 138 123 on the Web (searchtech)(*) I know somewhat less about the Web than 4 9 8 11 20 30 57 122 239 most users (knowless)(*)(***) 3. Werkwijze CA How would you rate Bij de klassieke multivariate analysetechnieken your skill at using the zoals factoranalyse en meervoudige regressie- Web, compared to other things you do on the 1 1 4 11 147 84 130 96 26 analyse wordt als regel de analyse uitgevoerd op computer ? een correlatiematrix. Bij de “ALS”-technieken (rate1)(**) wordt uitgegaan van een zogenaamde indicatormatrix. Zo’n indicatormatrix wordt How would you rate verkregen door de categorieën van de variabelen your skill at using the om te coderen tot dummy-variabelen. Stel dat we Web, compared to the sport or game you are 9 10 22 11 105 67 102 74 100 een datamatrix hebben met drie variabelen en vijf best at ? respondenten. De variabelen zijn geslacht (man, (rate2)(**) vrouw), opleiding (hoog, middelbaar, laag) en type krantengebruiker (light user, medium user, heavy (*) 1 = volledig akkoord ; 9 = helemaal niet akkoord user). De indicatormatrix ziet er dan uit zoals (**) 1 = veel minder goed ; 9 = veel beter voorgesteld in tabel 5. (***) omscoring itemcategorieën Intuïtief zal duidelijk zijn dat wanneer analyses worden uitgevoerd op de categorieën van Bekijken we nu de categoriekwantificaties zelf in variabelen en niet op de variabelen zelf, de tabel 4. Wat uit de tabel onmiddellijk kan resultaten ook betrekking zullen hebben op wat opgemaakt worden is dat de afstand tussen de categorieën van variabelen met elkaar gemeen verschillende categorieën voor geen van de items hebben. Terwijl in het geval van HOMALS gelijk is. Met uitzondering van één item worden vertrokken wordt van een indicatormatrix, vindt de twee of meerdere categorieën van de items analyse bij ANACOR plaats op gegevens die J. Blomme – info@dmreview.be
  8. 8. Correspondentie-analyse in Marktonderzoek - 8 __________________________________________________________________________________________________ georganiseerd zijn in kruistabelformaat. ∇ hoe moet de plot geïnterpreteerd worden ? Tabel 5 : Indicatormatrix bij correspondentie-analyse 1. Wat wordt er van de samenhang in een tabel afgebeeld geslacht opleiding user in een plot ? resp.nr M V L M H L M H Als in een kruistabel de rijpercentages en kolompercentages worden berekend, kan de 1 1 0 1 0 0 1 0 0 overeenkomst tussen rijen en kolommen onderling en met betrekking tot de randverdelingen worden 2 1 0 0 1 0 1 0 0 bepaald. Nemen we als voorbeeld het verband 3 0 1 0 0 1 0 0 1 tussen opleidingsniveau en Internetgebruik. In 4 1 0 1 0 0 0 1 0 onderstaande tabel worden deze beide variabelen tegen elkaar afgezet. 5 1 0 1 0 0 1 0 0 6 1 0 0 0 0 0 1 0 7 1 0 0 0 1 0 0 1 Tabel 6 : Internetgebruik naar opleidingsniveau (Bron : Hoffman & Novak, 1999)2 Opleidingsniveau Internet totaal 3.1. CA toegepast op gegevens georganiseerd in gebruik high school some college less than kruistabelformaat high graduate college graduate school In hetgeen voorafging werden enkele kernbegrippen van de “ALS”-technieken uiteengezet. Deze begrippen krijgen meer betekenis no access 408 701 349 172 1630 wanneer ze worden gedemonstreerd aan de hand van een voorbeeld. In hetgeen volgt worden de zojuist behandelde kernbegrippen geadstrueerd en access only 27 108 111 39 285 wordt eveneens het begrip ‘chikwadraatafstand’ toegelicht. Wat de techniek van correspondentie- Web user 201 283 453 585 1522 analyse doet kan als volgt worden samengevat : correspondentie-analyse tracht de samenhang in een of meer tabellen zo goed mogelijk grafisch weer totaal 636 1092 913 796 3437 te geven. Meestal kiest men voor een tweedimensionele plot. In de plot komen de In correspondentie-analyse wordt de proportionele categorieën van de variabelen als punten terug en verdeling binnen een rijcategorie van een tabel een staat de oorsprong (het nulpunt) voor de totale rijprofiel genoemd. In het gegeven voorbeeld populatie. De techniek zorgt ervoor, dat de zouden we kunnen spreken van het profiel van onderlinge afstanden tussen deze punten zoveel hoog opgeleiden (‘’college graduate’’), het profiel mogelijk de samenhang in de tabel(len) reflecteren. van middelbaar opgeleiden (‘’some college’’ en Een dergelijke afbeelding is evenwel meestal niet ‘’high school graduate’’) en het profiel van laag mogelijk zonder enig verlies aan informatie. Het is opgeleiden (‘’less than high school”). In plaats van aan de onderzoeker om te beoordelen of dit een rijprofielen onderling te vergelijken, kan men ze belangrijk deel vormt of tot een klein en ook relateren aan de proportionele verdeling van de verwaarloosbaar deel beperkt blijft. We zullen totale populatie, het zogenaamde gemiddelde hierop nader ingaan aan de hand van drie vragen, rijprofiel (d.i. het profiel van de marginale die voor een toepassing van correspondentie- distributie van de kolomvariabele). Gemiddelde analyse relevant zijn : rijprofielen zijn te omschrijven als het gewogen ∇ wat wordt er van de samenhang in een tabel gemiddelde van de afzonderlijke rijprofielen en afgebeeld in een plot ? worden vaak omschreven als ‘’centroids’’ omdat ze ∇ hoe is, wanneer de plot eenmaal tot stand is de totale onderzoeksgroep representeren en in het gekomen, het verlies aan tabelinformatie te centrum (de oorsprong) van het assenstelsel bepalen ? geplaatst worden. Ten slotte kunnen rijprofielen J. Blomme – info@dmreview.be
  9. 9. Correspondentie-analyse in Marktonderzoek - 9 __________________________________________________________________________________________________ vergeleken worden met de marginale rijprofielen. rijprofiel (kolomprofiel). Gemiddelde rij- en Aangezien rijprofielen onafhankelijk zijn van het kolomprofielen (‘’centroids’’) worden in aantal in elke rij, leveren marginale rijprofielen correspondentie-analyse in de oorsprong van het informatie over het aantal in elke rijcategorie. Op assenstelsel geplaatst. Het is duidelijk dat naarmate dezelfde wijze kunnen kolomprofielen berekend de samenhang in een tabel sterker is, de profielen worden, kunnen kolomprofielen onderling van de rij- en kolomcategorieën sterker zullen vergeleken worden en kunnen kolomprofielen verschillen, zowel onderling als t.o.v. het profiel vergeleken worden met het gemiddelde van de totale populatie. kolomprofiel en met de marginale kolomprofielen. Vooraleer evenwel verschillen tussen rijen (kolommen) onderling en verschillen tussen rijen Tabel 7 : Rij- en kolomprofielen voor het voorbeeld van het (kolommen) en het gemiddelde rijprofiel verband tussen opleidingsniveau en Internetgebruik (kolomprofiel) worden berekend, is het noodzakelijk na te gaan of er in de tabel sprake is van een statistisch significant verband. In het Internet Opleidingsniveau marginale voorbeeld van het verband tussen opleidingsniveau gebruik less than rij-profielen en Internetgebruik blijkt dit inderdaad het geval te high school some College high graduate college graduate zijn : de berekende chikwadraatwaarde (539,365) is school bij 6 vrijheidsgraden significant op het .001-niveau. Indien geen statistisch significant verband wordt no access 0,250 0,430 0,214 0,106 0,474 gevonden in een tabel is toepassing van correspondentie-analyse niet relevant. De access only 0,095 0,379 0,389 0,137 0,083 afwijkingen van rijen of kolommen in een kruistabel ten opzichte van elkaar en ten opzichte van het gemiddelde (rij- of kolom)profiel worden Web user 0,132 0,186 0,298 0,384 0,443 berekend met behulp van de zgn. chikwadraatafstand. De chikwadraatafstand heeft een analoge betekenis als de (dis)similariteit bij 0,185 0,318 0,266 0,232 1,000 multidimensionele schaalanalyse. Indien een rij of gem. rij- profielen kolom precies gelijk is aan de randverdeling (het gemiddelde rij- of kolomprofiel) is de chikwadraatafstand gelijk aan 0. Bijgevolg zal zo’n rij of kolom ook precies in de oorsprong van het Opleidingsniveau Internet gem. assenstelsel vallen. De oorsprong van het gebruik less than high some college kolom- assenstelsel (het nulpunt) representeert immers de high school profielen totale steekproef. Ook voor het bepalen in hoeverre college graduate school graduate rijen en kolommen onderling van elkaar verschillen wordt gebruik gemaakt van de chikwadraatafstand. no access 0,642 0,642 0,382 0,216 0,474 Hoe groter de chikwadraatafstand tussen twee rijen of kolommen, hoe meer de verdelingen van die access 0,042 0,099 0,122 0,049 0,083 twee rijen of kolommen van elkaar zullen only verschillen. Eveneens geldt hoe groter de chikwadraatafstand tussen rijen of kolommen, hoe Web user 0,316 0,259 0,496 0,735 0,443 verder die van elkaar verwijderd zijn in een grafische weergave. In tabel 8 vermelden we de chikwadraatafstanden tussen rijen en kolommen marginale voor het voorbeeld van het verband tussen 0,185 0,318 0,266 0,232 1,000 kolom- opleidingsniveau en Internetgebruik. profielen In het voorgaande is uiteengezet dat voor twee variabelen kan worden nagegaan of er al dan niet een samenhang bestaat. Bij een significante chikwadraatwaarde weten we dan dat twee Behalve de rij- en kolomprofielen en het variabelen niet onafhankelijk van elkaar zijn. Als gemiddelde rij- en kolomprofiel is in tabel 7 ook het we echter meer gedetailleerde informatie willen marginale rijprofiel en het marginale kolomprofiel hebben over die afhankelijkheid, dan kunnen we opgenomen. Zoals vermeld, kunnen verschillen nagaan in hoeverre de categorieën van de ene bepaald worden tussen rijen (kolommen) onderling variabele, bijvoorbeeld de rijen, onderling nog en tussen rijen (kolommen) en het gemiddelde J. Blomme – info@dmreview.be
  10. 10. Correspondentie-analyse in Marktonderzoek - 10 __________________________________________________________________________________________________ gelijkenis vertonen met betrekking tot de (3 categorieën) is het maximaal aantal dimensies 2. categorieën van de andere variabele, de kolommen. Er kunnen namelijk nooit meer zinvolle dimensies Om die gelijkenis (of afstand) tussen rijen of worden gevonden dan het minimum van het aantal kolommen onderling te bepalen, wordt gebruik rijen (3) en kolommen (4), verminderd met 1, dus gemaakt van de chikwadraatafstand. Met behulp min(3-1),(4-1) = 2. De samenhang tussen beide van de chikwadraatafstand kan dus worden variabelen op de eerste dimensie wordt nagegaan in hoeverre rijen van elkaar verschillen. weergegeven door de ‘’singular value’’ van de De overeenkomsten of verschillen hebben altijd eerste dimensie, nl. 0,379. De samenhang tussen betrekking op de kolomcategorieeën. Omgekeerd opleidingsniveau en Internetgebruik op de tweede kan worden nagegaan of de kolomcategorieën dimensie daalt naar 0,115. verschillen met betrekking tot de rijen. Tabel 9 : : Anacor-oplossing voor het voorbeeld van het verband Tabel 8 : Chikwadraatafstanden tussen rijen en kolommen voor tussen opleiding en beroepsstatus het voorbeeld van het verband tussen opleidingsniveau en Internetgebruik dimensie singular inertia proportie cumulatieve value verklaarde proportie chikwadraatafstanden tussen rijen variantie verklaarde variantie R1 R2 R3 1 0,37923 0,14381 0,916 0,916 R1 . 0,561 0,924 2 0,11452 0,01311 0,084 1,000 R2 0,561 . 0,764 R3 0,924 0,764 . Totaal 0,15693 1,000 Chi2 = 539,365 chikwadraatafstanden tussen kolommen Een belangrijke waarde in tabel 9 is de ‘’inertia’’- K1 K2 K3 K4 waarde die berekend wordt als het quotiënt van de deling van de totale chi2-waarde (539,365) door het K1 . 0,495 0,493 0,426 aantal onderzoekseenheden (3437). CA kan opgevat worden als een methode voor de decompositie (in K2 0,495 . 0,354 0,654 een zo gering mogelijk aantal dimensies) van de variantie (‘’inertia’’) in een tabel, waarbij de K3 0,493 0,354 . 0,417 variantie wordt aangegeven door de chi2-waarde. In dit opzicht vertoont CA een gelijkenis met K4 0,426 0,654 0,417 . factoranalyse, aangezien het ook de bedoeling is van factoranalyse om de totale variantie in een set variabelen weer te geven in een zo gering mogelijk aantal dimensies. Samenhang in een kruistabel blijkt in eerste 2. Hoe is het verlies aan tabelinformatie te bepalen ? instantie uit de mate waarin afwijkingen Wanneer uitgaande van de hiervoor besproken voorkomen tussen geobserveerde en verwachte principes, de kruistabel met de gegevens van frequenties. Als de waargenomen en verwachte opleidingsniveau en Internetgebruik wordt celfrequenties in een tabel nauwelijks van elkaar onderworpen aan een correspondentie-analyse verschillen en de rijen en kolommen derhalve worden de volgende resultaten verkregen zoals onafhankelijk van elkaar zijn, dan hebben we vermeld in tabel 9. genoeg aan de rij- en kolomprofielen om de ‘’samenhang’’ tussen variabelen te beschrijven. In de tabel worden in de eerste plaats de ‘’singular Naarmate de verschillen tussen waargenomen en value’’ vermeld van de dimensies. In het verwachte celfrequenties toenemen, stijgt ook de voorbeeld van de samenhang tussen chi2-waarde. opleidingsniveau (4 categorieën) en Internetgebruik J. Blomme – info@dmreview.be
  11. 11. Correspondentie-analyse in Marktonderzoek - 11 __________________________________________________________________________________________________ In het voorbeeld van het verband tussen Internetgebruik voor de categorie ‘’high school’’ opleidingsniveau en Internetgebruik wordt 91,6 % (99,3%). In de plot (zie pag. 12) betekent dit dat van de chikwadraat afgesplitst door de eerste deze beide categorieën, gezien als vectoren vanuit dimensie. Op grond van deze resultaten kan de oorsprong, veel meer in de richting van de eerste geconcludeerd worden dat de eerste dimensie het dan de tweede dimensie liggen. meest van de samenhang tussen opleiding en Internetgebruik in beeld brengt. Anderzijds blijkt de tweedimensionele oplossing te resulteren in een Tabel 11 : Procentuele bijdrage van dimensies aan de verklaring volledige verklaring van de variantie. van de verschillen in Interne gebruik naar opleidingsniveau De rijscores onder dimensie 1 en 2 (zie tabel 10) zijn dimensie 1 dimensie 2 optimale scores voor categorieën van rijcategorie Internetgebruik op de eerste en tweede dimensie. no access .987 .013 De kolomscores onder dimensie 1 en 2 zijn de optimale scores voor de opleidingscategorieën op access only .053 .947 de eerste en de tweede dimensie. Het marginaal Web user .996 .004 profiel bevat de relatieve frequenties. kolomcategorie Tabel 10 : Optimale scores voor rij- en kolomcategorieëen in het less than high school 0,754 0,246 voorbeeld van het verband tussen opleidingsniveau en Internetgebruik high school 0,993 0,007 some college 0,464 0,536 marginaal dimensie Dimensie profiel 1 2 college graduate 0,981 0,019 rijscores no access .474 -.607 .126 3. Hoe moet de plot geïnterpreteerd worden ? Wanneer de fit van de oplossing redelijk voldoet, access only .083 -.146 -1.123 komen we toe aan de beantwoording van de derde Web user .443 .677 .075 vraag, nl. hoe de plot geïnterpreteerd moet worden. In de praktijk zal correspondentie-analyse vaak worden aangewend vanwege de mogelijkheden tot kolomscores grafische weergave van de resultaten. Rij- en kolomcategorieëen kunnen via correspondentie- analyse grafisch worden weergegeven omdat less than high school .185 -.478 .497 coördinaten worden berekend, waarmee de plaats van een rij-of kolomcategorie vastligt. De high school .318 -.602 -.093 coördinaten hebben als eigenschap dat het zoals eerder vermeld optimale schaalwaarden zijn. Dit some college .266 .228 -.445 betekent dat de correlatie tussen de rij- en college graduate .232 .947 .241 kolomvariabele zal maximaal zijn, ongeacht het meetniveau van de rij- en kolomvariabele in de kruistabel. De kruistabel die met behulp van correspondentie-analyse wordt geanalyseerd, Het is eveneens mogelijk meer specifiek de fit van wordt zodanig getransformeerd dat de gemiddelde de oplossing te controleren. De output van een rij- en kolomproefielen in de oorsprong van de correspondentie-analyse geeft de procentuele grafische weergave vallen. Bij de interpretatie van bijdrage weer van de dimensies aan de verklaring een plot dienen de volgende vuistregels in acht van de verschillen tussen de categorieën en de genomen te worden. totale groep. In tabel 11 worden deze procentuele bijdragen weergegeven voor de rijcategorieën. Uit In de eerste plaats dient gelet te worden op de bovenstaande proporties valt o.m. af te leiden dat afstanden van de rij- en kolompunten ten opzichte verschillen in Internetgebruik tussen hoger van de oorsprong. Naarmate deze afstand groter is, opgeleiden (‘’college’’) en de totale groep voor is de afwijking van het betreffende rij- of 98,1% verklaard worden door de eerste dimensie. kolomprofiel ten opzichte van het profiel van de Dit is nog meer het geval voor verschillen in totale groep groter. Rijen of kolommen met een klein randtotaal worden verder weggeplaatst van J. Blomme – info@dmreview.be
  12. 12. Correspondentie-analyse in Marktonderzoek - 12 __________________________________________________________________________________________________ de oorsprong dan rijen of kolommen met een groot Tabel 12 : Procentuele bijdragen van rij- en kolomcateorieën randtotaal. In extremo kan een bepaalde rij of aan de decompositie van de variantie kolom zelfs de hele oplossing domineren dimensie 1 dimensie 2 (“outliers”). Het is daarom van belang niet alleen rijcategorie de plaats van een rij/kolom in de plot te bekijken maar ook de marginale frequentie ervan. Zo wordt no access .460 .066 de categorie ‘’access only’’ in het assenstelsel het access only .005 .912 verst van de oorsprong geplaatst. Dit betekent dat het profiel van deze gebruikers sterk afwijkt van het Web user .535 .022 gemiddelde. Het marginaal profiel (0,083) van ‘’access only’’-gebruikers geeft aan dat slechts een kolomcategorie minderheid van de Internetgebruikers tot deze less than high 0,112 0,399 categorie behoort. school high school 0,304 0,024 some college 0,036 0,459 college graduate 0,548 0,118 In de tweede plaats dienen de afstanden van de rijpunten en de kolompunten ten opzichte van elkaar in beschouwing genomen te worden. Naarmate deze afstand kleiner is, lijken de categorieën, die door deze punten worden voorgesteld, meer op elkaar. In het voorbeeld van het verband tussen opleidingsniveau en Internetgebruik is gekozen voor een symmetrische oplossing, waarbij de afstanden tussen de rijcategorieën en de afstanden tussen de kolomcategorieën direct interpreteerbaar zijn als verschillen tussen profielen. Afstanden tussen opleidingsniveaus kunnen geïnterpreteerd worden als verschillen in Internetgebruik. Afstanden in Internetgebruik kunnen geïnterpreteerd worden als verschillen naar opleidingsniveau. Plot van het verband tussen opleidngsniveau en Internetgebruik (leeftijdscategorieën zijn toegevoegd als supplementaire categorieën) Ten slotte dient gelet te worden op de afstanden van de rijpunten ten opzichte van de kolompunten. Anderzijds geeft de contributietabel (zie tabel 12) Ondervertegenwoordiging (dus een lagere dan aan wat de bijdrage is van een rij of kolom aan de verwachte frequentie) is een indicatie van negatieve correlatieratio op een bepaalde dimensie. Een samenhang. Oververtegenwoordiging (dus een rij/kolom met een absoluut grote optimale score en hogere dan verwachte frequentie) is een indicatie een geringe bijdrage kan als “outlier” beschouwd van een positieve samenhang tussen een bepaalde worden. rij- en kolomcategorie in een kruistabel. Wanneer in een bepaalde rijcategorie een bepaalde kolomcategorie oververtegenwoordigd is, zullen de corresponderende rij- en kolompunten in de plot dicht bij elkaar liggen. Hoe verder deze punten van de oorsprong verwijderd zijn, hoe sterker de samenhang (positieve samenhang). Is daarentegen een kolomcategorie ondervertegenwoordigd in een rijcategorie, dan liggen deze beide punten ver van elkaar verwijderd en aan verschillende kanten van de oorsprong (negatieve samenhang). Komt een kolomcategorie ongeveer even vaak voor als verwacht kan worden op basis van de marginale proportie, dan staan de betreffende rij- en J. Blomme – info@dmreview.be
  13. 13. Correspondentie-analyse in Marktonderzoek - 13 __________________________________________________________________________________________________ kolompunten, gezien als vectoren vanuit de zijn bepalender voor een groep dan categorieën die oorsprong, ongeveer loodrecht op elkaar. Rij- en meer in het middelpunt staan. Om die sterkte van kolompunten hangen dan niet samen. de verbanden meer inzichtelijk te maken kan men rondom het middelpunt een onregelmatige cirkel Wanneer de verschillen tussen geobserveerde en tekenen die de groepen (bv. rijcategorieën) in de verwachte frequenties worden gedeeld door de plot met elkaar verbindt. Op die manier ontstaat wortel uit de verwachte frequenties krijgen we een een polygoon of veelhoek (waarvan de hoeken beeld van de mate waarin tussen rijen en worden afgerond). Op basis hiervan kunnen we kolommen positieve of negatieve samenhangen stellen dat categorieën die binnen de cirkel staan, bestaan. In tabel 13 vermelden we de resultaten weinig groepsonderscheidend zijn terwijl de van deze berekening voor het voorbeeld van het categorieën die buiten de cirkel staan het meest verband tussen opleidingsniveau en groepsspecifiek en dus het meest interessant zijn. Internetgebruik. We nemen als voorbeeld de categorie ‘’less than high school’’. Voor deze opleidingscategorie is de kans op ‘’no access’’ groter dan verwacht (6.13). De kans op ‘’no access’’ voor hoog opgeleiden (‘’college’’) is veel lager dan verwacht (-14.33). De plot laat zien dat correspondentie-analyse de afstanden tussen verwachte en geobserveerde 3.2. Uitbreidingen van ANACOR frequenties in een kruistabel in beeld brengt. Bij een correspondentie-analyse is de hoek tussen De kruistabel die we in voorgaand punt de lijn middelpunt-rijcategorie en de lijn analyseerden, had als voornaamste eigenschap dat middelpunt-kolomcategorie van groot belang. Als beide randverdelingen sommeren tot het aantal die hoek nul is en een rijcategorie en een observaties. De randtotalen bevatten de verdeling kolomcategorie staan op eenzelfde lijn, dan per variabele. Beide variabelen habben betrekking betekent dit dat de kolomcategorie uniek is voor de op eigenschappen van respondenten binnen rijcategorie. Als de hoek tussen de twee lijnen eenzelfde steekproef. Elke respondent kwam maar groter wordt, neemt de samenhang af. Als de hoek in 1 rij en 1 kolom voor. De kruistabellen die hierna 90 graden is, is de correlatie afwezig en als de hoek vernoemd worden, wijken alle in meer of mindere nog groter is, wil dat zeggen dat de samenhang mate af van deze eigenschappen van een “gewone” negatief is. kruistabel. Andere soorten kruistabellen, die met behulp van correspondentie-analyse, i.c. ANACOR, Tabel 13 : De samenhang tussen rijen en kolommen voor het kunnen worden geanalyseerd, zijn bijvoorbeeld : voorbeeld van het verband tussen opleiding en Internetgebruik (geobserveerde-verwachte frequentie) /√ (verwachte frequentie) • kruistabellen, die zowel over rijen als kolommen niet sommeren tot het aantal objecten in de steekproef ; no access access Web user • tijdreeksgegevens ; only • respondenten x variabelen ; • produkten x eigenschappen ; less than • dissimilariteiten, enz. high 6.13 -3.54 -4.80 school Bij de analyse van dergelijke data, dienen een aantal high regels in acht genomen te worden. school 8.04 1.84 -9.12 graduate • In het geval van de analyse van “non- frequency”-data is het niet zinvol om some -4.04 4.07 2.42 interpretaties te verbinden aan chikwadraat- college afstanden. De toepassing van ANACOR op “non-frequency”-data heeft in eerste instantie college -14.33 -3.33 12.39 tot doel een visuele voorstelling van de . structuur van de data te bekomen3. • Indien ANACOR wordt toegepast op rangorde- data (e.g. bekomen door toepassing van de Categorieën die ver buiten het middelpunt staan, methode van de paarsgewijze vergelijking) dan J. Blomme – info@dmreview.be
  14. 14. Correspondentie-analyse in Marktonderzoek - 14 __________________________________________________________________________________________________ dient de meest geprefereerde keuze de hoogste verschillend meetniveau in eenzelfde analyse waarde te krijgen in de te analyseren matrix van kunnen betrokken worden. rangorden. Omdat HOMALS betrekking heeft op meer dan • Indien de data die met behulp van ANACOR twee variabelen zijn er ook belangrijke verschillen geanalyseerd worden, georganiseerd zijn onder in uitvoer en resultaten in vergelijking met gewone de vorm van ongelijkheden (“dissimilarities”), correspondentie-analyse. Een van de meest dan dienen alle ongelijkheden in de matrix wezenlijke verschillen is dat bij correspondentie- afgetrokken te worden van een getal groter dan analyse (ANACOR) de eta of correlatieratio de grootste ongelijkheid (meestal wordt bij dit aangeeft wat de correlatie is op een bepaalde laatste gekozen voor een getal dat 1 groter is dimensie tussen twee optimaal geschaalde dan de grootste dissimilariteit). variabelen. Bij HOMALS geeft de eta aan wat de • In het geval van de analyse van symmetrische gemiddelde bijdrage is van alle betrokken relaties dienen de diagonaalwaarden analysevariabelen aan een bepaalde dimensie. Per gelijkgesteld te worden aan de grootste waarde dimensie wordt per variabele een zogenaamde +1. discriminatiemaat berekend. Deze discriminatiemaat geeft o.m. aan hoe goed de categorieën van een variabele ruimtelijk gespreid zullen worden bij een grafische weergave. De discriminatiemaat geeft in feite dus de variantie 3.3. HOMALS : Meervoudige correspondentie- weer van een optimaal geschaalde variabele. analyse Hoe hoger de discriminatiemaat van een variabele, hoe verder de categorieën van die variabele uit Om de relatie met het voorgaande te benadrukken elkaar en van de oorsprong liggen. Als we alle zij opgemerkt dat HOMALS ook bekend staat als discriminatiematen op een bepaalde dimensie meervoudige correspondentie-analyse. Het optellen en delen door het aantal variabelen krijgen belangrijkste verschil met ANACOR is dat nu meer we een beeld van de “fit” (de gemiddelde dan twee variabelen in de analyse worden discriminatiemaat). Indien de gemiddelde betrokken. Waar bij ANACOR de datamatrix een discriminatiemaat laag is, kan dit een gevolg zijn kruistabel is, is bij HOMALS de datamatrix de van het feit dat enkele variabelen een zeer hoge eerder vermelde indicatormatrix. Dus de matrix discriminatiemaat hebben en sommige een zeer van dummy-variabelen per respondent. De lage, zodat vaak meer dimensies nodig zijn om een respondenten staan doorgaans in rijen en de compleet beeld te krijgen. Een lage gemiddelde categorieën van de variabelen in kolommen. Bij discriminatiemaat kan ook betekenen dat geen HOMALS houdt optimale schaling in dat per enkele variabele een grote bijdrage levert aan een variabele zodanige categoriekwantificaties bepaalde dimensie. (optimale scores) worden berekend dat de Bij de interpretatie van de resultaten van een categorieën van een variabele zover mogelijk uit HOMALS-analyse dient rekening te worden elkaar liggen. Naar analogie met ANACOR krijgen gehouden met een aantal “eigenaardigheden”. ook de rijen, bij HOMALS de respondenten, een score, de zogenaamde objectscores. De objectscores Net zoals bij ANACOR worden categorieën met een worden zodanig berekend dat de klein randtotaal verder van de oorsprong gelegd categoriekwantificaties het gemiddelde vormen van dan categorieën met een groot randtotaal. de objecten (respondenten) die in die categorie HOMALS rekent per dimensie aparte vallen. HOMALS tracht respondenten die in categoriekwantificaties uit per variabele. Het aantal dezelfde categorie vallen zo dicht mogelijk bij onafhankelijke kwantificaties kan nooit groter zijn elkaar te plaatsen en respondenten die in dan het aantal categorieën minus 1. Dus als bv. 10 verschillende categorieën vallen ver van elkaar te variabelen met elk drie categorieën onderworpen plaatsen. Idealiter verdelen de categorieën de worden aan een HOMALS-analyse dan zullen er respondenten in homogene groepen. Variabelen maximaal (3-1) = 2 dimensies mogelijk zijn met worden homogeen genoemd als ze de onafhankelijke kwantificaties. respondenten in nagenoeg dezelfde subgroepen opsplitsen. HOMALS kan krachtens het Indien de variabelen die aan een HOMALS-analyse voorgaande in marktonderzoektermen dan ook onderworpen worden een “goede” schaal vormen gezien worden als een techniek waarmee men (d.w.z. een ééndimensionele schaal vormen), dan segmentatie-analyses kan verrichten. Met het zal de tweede dimensie lineair afhankelijk zijn van bijkomend voordeel, dat variabelen van de eerste dimensie. Dit kan grafisch gevisualiseerd J. Blomme – info@dmreview.be
  15. 15. Correspondentie-analyse in Marktonderzoek - 15 __________________________________________________________________________________________________ worden. Indien een aantal variabelen een categorieën van variabelen aan de ééndimensionele schaal vormen, dan zal een plot discriminatiematen per dimensie te berekenen. De van de categoriekwantificaties op de eerste en bijdrage is de categoriekwantificatie in het tweede dimensie een hoefijzerpatroon te zien kwadraat vermenigvuldigd met de relatieve geven. Zo’n hoefijzerpatroon kan onder bepaalde frequentie van de desbetreffende categorie. Een voorwaarden gezien worden als een signaal dat de categorie met een geringe bijdrage kan als “outlier” dimensie alle relevante informatie bevat. beschouwd worden (mogelijke oplossingen : hercodering, categorie op “missing” zetten). Als bij een gegeven oplossing, zeg in twee dimensies, een derde dimensie wordt berekend, Zowel HOMALS als ANACOR zijn dan blijven de eerste (twee) dimensies dimensiereductietechnieken. HOMALS en onveranderd. Net zoals in het geval van ANACOR ANACOR zullen trachten de chikwadraatafstanden zijn de verschillende dimensies bij HOMALS tussen rijen en kolommen in een zo klein mogelijk “genest”. aantal dimensies weer te geven. Het weglaten van dimensies leidt tot verlies aan informatie. In een Als alle dimensies worden berekend dan zal de som aantal gevallen zal een tweedimensionele grafische van de discriminatiewaarden per variabele gelijk weergave van de HOMALS-resultaten tot een zijn aan het aantal categorieën per variabele minus verkeerd beeld van de afstand tussen categorieën 1. Dit betekent dat een variabele met veel van variabelen leiden. categorieën een potentieel hogere discriminatiemaat kan hebben dan een dichotome variabele. Een gevolgtrekking is dan ook dat indien er grote verschillen zijn in het aantal categorieën van de variabelen die aan een HOMALS-analyse worden 4. Toepassingen van correspondentie-analyse in onderworpen, dit ook de interpretatie van de marktonderzoek bekomen resultaten zal bemoeilijken. Het verdient daarom aanbeveling om na te gaan of via We zullen in hetgeen volgt de toepassing van hercodering er voor gezorgd kan worden dat de correspondentie-analyse in marktonderzoek variabelen die in een HOMALS-analyse betrokken illustreren aan de hand van een tweetal worden, zoveel mogelijk een gelijk aantal voorbeelden. In een eerste voorbeeld wordt de categorieën hebben. bruikbaarheid van correspondentie-analyse aangetoond voor het analyseren van HOMALS is gevoelig voor “outliers” : (dis)similariteitsgegevens. Voor deze toepassing respondenten met een unieke score. Het niet maken we gebruik van een onderzoek van Bouts en opmerken van “outliers” kan tot gevolg hebben dat Mackor (1991) over merkassociaties bij banken. In men oplossingen inspecteert die volledig bepaald een tweede toepassing wordt aangetoond hoe via worden door één of enkele respondenten. Het is een indicatormatrix inzicht kan verkregen worden dus van belang ook (en vooral) bij grotere databases in gebruikspatronen van frisdranken. De gegevens de objectscores te inspecteren op extreme (absolute voor deze analyse ontlenen we aan Kuylen (1990). waarde) objectscores. Indien zo’n situatie zich In beide gevallen werden de gegevens van voordoet zijn er enkele strategieën mogelijk, w.o. voornoemde auteurs door onszelf geanalyseerd • de desbetreffende respondenten elimineren ; door gebruikmaking van de ANACOR, resp. • de waarde(n) voor de desbetreffende HOMALS-procedure zoals opgenomen in de SPSS- respondenten op de betrokken variabele(n) module “Categories”. op “missing” zetten ; • hercodering ; • indien alleen de eerste en tweede dimensie enkele “outliers” bevatten deze dimensies 4.1. Merkassociaties bij banken negeren en alleen de derde en volgende dimensies gebruiken. Het beeld van de bank als merk bestaat, zoals bij alle merken, uit een veelheid van associaties. Door Indien er hoge discriminatiewaarden (bijna 1.0) deze associaties van de consument krijgt het worden gevonden, hoeft dit niet altijd een onvatbare merk voor hem/haar gestalte. Het bruikbaar resultaat op te leveren. Het is goed psychologische merk (het merk in hoofde van de mogelijk dat een hoge discriminatiemaat een gevolg consument) kan worden onderverdeeld in drie is van een categorie met een laag randtotaal. Het is categorieën : zintuiglijk, emotioneel en rationeel. daarom aan te bevelen om de bijdrage van de Zintuiglijk roepen banken weinig associaties op. J. Blomme – info@dmreview.be
  16. 16. Correspondentie-analyse in Marktonderzoek - 16 __________________________________________________________________________________________________ Dat heeft te maken met het feit dat de eigenlijke vragenlijst te zien kregen, werd gevraagd dienstverlening van een bank voor een belangrijk welke van deze banken zij niet kenden. deel onzichtbaar en ongrijpbaar is. Emotionele en Respondenten die één of meerdere banken niet vooral rationele associaties bestaan daarentegen kenden werden niet in het onderzoek opgenomen. wel bij banken. Het beeld dat mensen van een bank Respondenten die de banken wel kenden, kregen hebben, wordt echter sterk opgehangen aan de alle mogelijke (10) combinaties van deze (6) banken eigen bank. Het gevolg hiervan is dat bij imago- op het beeldscherm te zien. De vraagstelling was onderzoek naar banken heel sterk het profiel van de als volgt : Welke van deze banken vindt u het meest eigen bank wordt teruggespeeld. Dat wil echter bij elkaar passen ? Vervolgens werd gevraagd niet zeggen dat consumenten geen beeld hebben waarom ze een bepaalde combinatie van banken als van andere banken dan hun eigen bank. Dagelijks het meest bij elkaar passend vonden. Hierbij zien ze advertenties van banken en worden zij konden de respondenten kiezen uit een lijst met geconfronteerd met verhalen over de associaties. Om de bruikbaarheid van dienstverlening van banken. Alleen rijst de vraag : correspondentie-analyse aan te tonen voor het hoe krijgen we die beelden boven water ? Hoe analyseren van (dis)similariteitsgegevens, beperken brengen we die meerdimensionele beeldvorming we ons in hetgeen volgt tot de combinaties van nu tevoorschijn ? banken die door de respondenten werden naar voren geschoven als meest passend. Om de In de eerste plaats is er kwalitatief onderzoek naar ‘afstand’ tussen banken te bepalen, is in het het imago van banken. Imago-onderzoek bij onderzoek gebruik gemaakt van het aantal keren banken in een kwalitatieve opzet wordt uitgevoerd dat een combinatie van banken wordt genoemd als door middel van groepsdiscussies en diepte- meest passend. interviews. Hierbij wordt o.m. gebruik gemaakt van projectieve technieken (bv. foto-sort). In tabel 14 is voor elke combinatie tussen banken Kwalitatief onderzoek kan een heel levendig beeld aangegeven hoeveel keer deze door de van banken naar voren brengen, maar respondenten als meest passend naar voren werd kwantificering ontbreekt. Uiteindelijk willen we geschoven. Zoals eerder aangestipt, dienen “non immers te weten komen hoe banken zich frequency”-data in het geval van correspondentie- positioneren in hoofde van consumenten en welke analyse (ANACOR) behandeld te worden als dimensies die positionering kunnen verklaren. similariteiten. In het door ons gekozen voorbeeld van combinaties tussen banken , geven de In sommige kwantitatieve studies moeten frequenties waarmee banken als meest passend respondenten aangeven of een bepaalde eigenschap worden gepercipieerd een aanduiding van de al of niet past bij een bank. Deze methode geeft vrij gelijkenis of similariteit tussen banken. De vlakke beelden. Het is daarom minder aangewezen gegevens dienen derhalve niet aangepast te mensen te vragen ‘wat past bij wat’, maar ze te worden4. Aangezien we een symmetrische matrix confronteren met groepen (sets) van banken en invoeren, worden de diagonaalwaarden daartussen overeenkomsten en verschillen laten gelijkgesteld aan de grootste gelijkenis + 1 (59 +1 = aangeven. Respondenten zijn immers in staat om 60). banken in groepen in te delen en vanuit deze vergelijking associaties te formuleren. Een voorbeeld hiervan is de “natural grouping”- Tabel 14 : Aantal keren dat combinaties van banken als meest passend worden genoemd (Bouts & Mackor, 1991 : 55 ; eigen techniek die zeer geschikt is om associatieve bewerking) netwerken in kaart te brengen. Een andere methode is het gebruik van triade-technieken, POST SPAAR ABN AMRO NMB RABO waarbij de respondent bij groepjes van drie (triade) BANK BANK moet aangeven welke van de drie hij/zij het meest ABN 60 59 43 24 25 16 bij elkaar vindt passen en welke twee het minst bij AMRO 59 60 34 17 43 19 elkaar passen. In het onderzoek van Bouts en NMB 43 34 60 44 26 21 Mackor (1991) is gebruik gemaakt van deze methode. Het onderzoek is uitgevoerd met behulp POSTBANK 24 17 44 60 25 55 van een telepanel dat een representatief staal is van RABO 25 43 26 25 60 48 de Nederlandse bevolking. De leden van het SPAAR telepanel hebben thuis een homecomputer staan. BANK 16 19 21 55 48 60 Het gaat dus om computergestuurde enquêtering. Aan de respondenten werd een lijst van zes banken Hoewel de interpretatie van het begrip voorgelegd : ABN, AMRO, NMB, Postbank, RABO “chikwadraatafstand” in het geval van “non- en Spaarbank. Vooraleer de respondenten de frequency”-data met de nodige voorzichtigheid J. Blomme – info@dmreview.be

×