Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Keynote: What do ordinary humanity scholars want from CLARIAH?

430 views

Published on

Keynote van Joris van Eijnatten op de CLARIAH-dag 2016 in Amersfoort. Joris gaat in op de vraag wat CLARIAH voor hem en zijn onderzoek zou kunnen betekenen.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Keynote: What do ordinary humanity scholars want from CLARIAH?

  1. 1. Tracing conceptual change in messy data: finding stuff in bags of words © Joris van Eijnatten
  2. 2. WordSmith Tools, versie 3.00.00 (2005) 0 10 20 30 40 50 60 aantal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 preek Grafiek V. Frequentieverdeling van het woord 'ik'
  3. 3. Wat ik nodig heb • een bruikbare en inzichtelijke toolbox – om conceptuele verandering te traceren – in ± big data – van gebrekkige kwaliteit – gedurende een langere periode – in meerdere talen • comparatieve analyse in tijd en ruimte
  4. 4. Toolbox anno 2016 • over welke toegankelijke en robuste gereedschappen beschikken we? 0. nGrams (bijv. Delpher) 1. semantic text-mining tool (bijv. Texcavator) 2. corpus linguistics (bijv. Antconc) 3. topic modelling (bijv. Mallet) 4. text analytics pakket (bijv. SPSS Modeler) 5. vector-space modellen (bijv. ShiCo)
  5. 5. De casus • Welke associaties hebben twintigste-eeuwse kranten bij de term “Europa”? • Welke veranderingen in het concept “Europa” kunnen uit dergelijke associaties worden afgeleid? 3 ingangen - voortduren van idealen - belang van competitie - reikwijdte van weerberichten
  6. 6. Data: http://www.delpher.nl/nl/kranten
  7. 7. Data • “messy data” susleraJüp = <zusterschip> .üremer“ = <“Bremer”> U watcrlulng = <te waterlating> vci trautfd4* = <vertraagd is> Rotterdamsch nieuwsblad, 08-01-1930
  8. 8. Voorbereiding: “Close Reading” De Telegraaf, 20-12-1968
  9. 9. Voorbereiding: Opschonen
  10. 10. Tool 1: Texcavator search results <miss Europa>, N = 1,161 docs all newspapers, 1900-1990 Leeuwarder courant 1934-09-15
  11. 11. Tool 1: Texcavator Timeline <Miss Europa>, N = 1,161 docs all newspapers 1900-1990
  12. 12. Tool 1: Texcavator Word cloud <Miss Europa>, N = 1,161 docs all newspapers 1900-1990
  13. 13. Tool 1: Texcavator • Metadata <Miss Europa> 1900-1989
  14. 14. Tool 2: Antconc (vs 3.4.4)
  15. 15. Tool 2: Antconc (vs 3.4.4) • Collocates (“the company that words keep”) articles, collocates 5L 5R territorial Netherlands, 1980-1981 Rank Freq Freq(L) Freq(R) Stat Collocate Stopword 5241 6634 6462 172 729.984 west #N/A 5052 2747 32 2715 775.328 cup #N/A 6878 1822 1737 85 688.488 oost #N/A 10072 1034 444 590 565.704 amerika #N/A 14795 853 534 319 437.297 amerikaanse #N/A 14651 789 592 197 443.685 landen #N/A 9261 747 627 120 586.854 midden #N/A 15226 745 521 224 430.265 nieuwe #N/A 17198 694 328 366 388.853 nederland #N/A 9401 639 528 111 574.022 kernwapens #N/A 10061 598 447 151 568.202 raketten #N/A 12938 575 236 339 482.671 verenigde #N/A 13540 566 278 288 468.140 staten #N/A 22340 562 270 292 299.199 jaar #N/A 11774 499 374 125 508.097 avro #N/A
  16. 16. Tool 2: Antconc (vs 3.4.4) • Word lists (stopwords removed) articles, 1980-1981 territorial Netherlands advertisements, 1980-1981 territorial Netherlands Rank Freq Word Stopword 23 34036 europa #N/A 42 20954 bew #N/A 50 18443 jaar #N/A 69 12234 nederland #N/A 72 11198 eerste #N/A 75 10992 west #N/A 78 10748 amerikaanse #N/A 79 10721 land #N/A 85 9856 nieuwe #N/A 86 9820 twee #N/A 87 9705 grote #N/A 89 9511 landen #N/A 91 9236 onbewolkt #N/A 94 8689 gaan #N/A 95 8614 uur #N/A Rank Freq Word stopword 24 16387 telef #N/A 25 16355 tel #N/A 35 12469 ƒ #N/A 41 9657 europa #N/A 42 9401 dam #N/A 48 7913 uur #N/A 53 6393 km #N/A 54 6295 auto #N/A 58 6022 pr #N/A 59 6017 eig #N/A 66 5310 inl #N/A 67 5105 amsterdam #N/A 73 4804 jaar #N/A 77 4376 radio #N/A 78 4321 pers #N/A
  17. 17. Tool 2: Antconc (vs 3.4.4) Word lists, articles, 1930-31, 1960-61, 1980-1981: territorial Netherlands Rank Freq Word 23 34036 europa 42 20954 bew 50 18443 jaar 69 12234 nederland 72 11198 eerste 75 10992 west 78 10748 amerikaanse 79 10721 land 85 9856 nieuwe 86 9820 twee 87 9705 grote 89 9511 landen 91 9236 onbewolkt 94 8689 gaan 95 8614 uur Rank Freq Word 42 29824 europa 51 24749 bew 56 23588 ned 69 16603 dam 82 14126 jaar 87 12397 uur 91 12008 grote 95 11136 dag 97 10731 mijl 99 10624 nederland 100 10458 landen 105 9992 eerste 106 9725 land 108 9499 west 115 9129 londen Rank Freq Word 50 60720 europa 81 34690 groote 89 30331 jaar 99 26684 mei 101 26398 juli 103 25787 ƒ 110 24492 land 114 23405 nederland 116 22845 duitschland 118 20978 eerste 122 20419 tijd 123 20285 nieuwe 126 20167 frankrijk 128 19678 regeering 131 19206 maart 1930-1931 1960-1961 1980-1981
  18. 18. Tool 2: Antconc (vs 3.4.4) Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over time (duplicates in Excel, first 100 words) territorial Netherlands 1930-1931 1960-1961 1960-1961 1980-1981 Rank Freq Word Rank Freq Word Rank Freq Word Rank Freq Word 50 60720 europa 42 29824 europa 42 29824 europa 23 34036 europa 81 34690 groote 51 24749 bew 51 24749 bew 42 20954 bew 89 30331 jaar 56 23588 ned 56 23588 ned 50 18443 jaar 99 26684 mei 69 16603 dam 69 16603 dam 69 12234 nederland 101 26398 juli 82 14126 jaar 82 14126 jaar 72 11198 eerste 103 25787 ƒ 87 12397 uur 87 12397 uur 75 10992 west 110 24492 land 91 12008 grote 91 12008 grote 78 10748 amerikaanse 114 23405 nederland 95 11136 dag 95 11136 dag 79 10721 land 116 22845 duitschland 97 10731 mijl 97 10731 mijl 85 9856 nieuwe 118 20978 eerste 99 10624 nederland 99 10624 nederland 86 9820 twee 122 20419 tijd 100 10458 landen 100 10458 landen 87 9705 grote 123 20285 nieuwe 105 9992 eerste 105 9992 eerste 89 9511 landen 126 20167 frankrijk 106 9725 land 106 9725 land 91 9236 onbewolkt 128 19678 regeering 108 9499 west 108 9499 west 94 8689 gaan 131 19206 maart 115 9129 londen 115 9129 londen 95 8614 uur 135 18848 plaats 117 8812 nieuwe 117 8812 nieuwe 96 8595 zwaar 136 18843 komen 119 8692 zwaar 119 8692 zwaar 97 8566 komen 137 18205 landen 121 8448 geheel 121 8448 geheel 101 8145 nederlandse 138 18149 jan 124 8397 europese 124 8397 europese 106 7872 europese
  19. 19. Tool 3: MALLET
  20. 20. Tool 3: MALLET Topics in articles titles IF <Europa> in text, no. of tokens = 64,192 Dutch territorial newspapers, 1980-81 Id words topic 1 europa cup jan oost finale pelleboer louis kort deugd week = ???? 2 jaar moskou europese groningen madrid twee dick piet rob verlies = ???? 3 europa terug wereld wim amsterdam gesprek peter man uur eigen = ???? 4 nieuwe nederland kernwapens televisie tweede dag radio steun philips dood = ???? 5 polen miljoen winst bonn telegraaf weinig nodig russische laat frans = ???? 6 vs isra iran goed willen spelen rotterdam correspondent reportage provincie = ???? 7 ton eerste gaat werf nederlandse leven europees mensen mee maken = ???? 8 land blijft feyenoord pvda komt politiek amerikaanse rol strijd maakt = ???? 9 redactie voetbal henk buitenland az ajax kees groot geld regering = ???? 10 verslaggever hans tv praten carter russen sport zien staat poel = ???? 11 nederland landen auto vandaag eigen navo internationale japanse economische export = ???? 12 amerika westen oosten bom parijs midden bezoek olie goed beter = ???? 13 west reagan schmidt sowjet unie volk duitsland blijven start knol = ???? 14 grote vrede gaan komen kernraketten kritiek deel geeft kans defensie = ???? 15 navo raketten minder zon oorlog snel hoofdredacteur zuid mogelijk spanje = ???? code first name weather geography defence media economy sports politics
  21. 21. Tool 3: MALLET Topics in full text, 1930-31, no. of tokens = 12,248,556 Dutch territorial newspapers 1930-31 Id words topic 1 duitschland frankrijk duitsche fransche regeering engeland politiek europa itali politieke politics 2 europa hel eu ke nen beeft heelt land vnn pen =???? 3 man goed gaan vrouw dag kwam menschen paar ging komen human int. 4 europa staten landen europeesche internationale economische volkenbond commissie oostenrijk conferentie politics 5 cva nederland koloni ned holl buitenland adam dam obl bank economy 6 wereld volk leven rusland staat land oorlog eigen tijd russische politics 7 heer regeering nederland minister nederlandsche belgi leden voorzitter partij vergadering politics 8 europa uur druk zuid temperatuur wind noord land mrs ligt weather 9 groote werk oude eerste film boek kunst tijd geheel nieuwe media/art 10 werden jaar koning groote kerk jaren kwam plaats eerste stad human int. 11 jaar millioen amerika industrie productie groote ton nieuwe handel prijzen economy 12 juli mei maart jan loco sept juni april dec oct time 13 londen rott dam antwerpen nov hamburg rotterdam new japan juni locations 14 groote land plaats eerste twee aantal groot maken amerika werden =???? 15 europa dienst heer indi betrekking amsterdam klasse school verlof geplaatst advert code politics sports economy weather human int. media/art time locations advert
  22. 22. Tool 3: MALLET Wordcloud of topic “politics” IF <Europa> in text, 1950- 81, no. of docs = 48 All newspapers 1980-81 search terms europa AND amerikaanse AND unie AND west AND sowjet AND navo AND russische AND moskou AND staten AND verenigde
  23. 23. Tool 4: SPSS Modeler 17
  24. 24. Tool 4: SPSS Modeler 17 concept map of <Temperatuur> in full text (weather forecasts), N = 803 docs Dutch territorial newspapers 1980-81
  25. 25. Tool 4: SPSS Modeler 17 urban centres in weather forecasts, 1980-81 (geocoded) name global docs type coordinates1 coordinates2 aberdeen 143 143 Town 57.149.717 -2.094.278 aden 3 2 Town 12.785.496 45.018.654 ajaccio 8 8 Town 41.919.229 8.738.634 algiers 4 2 Town 36.752.887 3.042.048 almelo 4 4 Town 52.367.026 6.668.491 amsterdam 255 242 Town 52.370.215 4.895.167 arnhem 7 6 Town 51.985.103 5.898.729 assen 7 7 Town 52.992.753 6.564.228 athene 246 235 Town 37.983.917 23.729.359 bagdad 3 2 Town 33.312.805 44.361.487 bahia 1 1 Town -12.579.738 -41.700.727 bangkok 2 1 Town 13.756.330 100.501.765 barcelona 1 1 Town 41.385.063 2.173.403 batavia 2 1 Town 41.850.028 -88.312.573 bayonne 2 1 Town 43.492.949 -1.474.840 belgrado 175 174 Town 44.786.568 20.448.921 berlijn 109 106 Town 52.520.006 13.404.953 birmingham 1 1 Town 33.520.660 -86.802.489 boedapest 4 4 Town 47.497.912 19.040.234 bologna 1 1 Town 44.494.887 11.342.616 bordeaux 171 170 Town 44.837.789 -0.579179 breda 1 1 Town 51.571.914 4.768.323 bremen 5 5 Town 53.079.296 8.801.693 brest 2 2 Town 48.390.394 -4.486.076 brussel 172 172 Town 50.850.339 4.351.710 calais 1 1 Town 50.951.290 1.858.686
  26. 26. Tool 4: SPSS Modeler 17 heatmap of urban centres in weather forecasts, 1980-81
  27. 27. Tool 4: SPSS Modeler 17 Category web of <pan-Europa>, article titles, N = 42,712 docs Dutch territorial newspapers 1930-31
  28. 28. Tool 4: SPSS Modeler 17 Concept web (tekst link analysis) of <Europa, West-Europa>, full text, N = 26,880 Dutch territorial newspapers 1930-31
  29. 29. Tool 5: vector-space modellen
  30. 30. Tool 5: Tom Kenter >>> tc.trackClouds3(dModels, ['europa'], fMinDist=.65, bSumOfDistances=True, sDirection='backw 1981_1990 europa (1.00) 1980_1989 europa (1.00) 1979_1988 europa (1.00) 1978_1987 europa (1.00) 1977_1986 europa (1.00) 1976_1985 europa (1.00) 1975_1984 europa (1.00) 1974_1983 europa (1.00) kuropa (0.34) 1973_1982 kuropa (1.00) europa (1.00) 1972_1981 kuropa (1.31) europa (1.31) 1971_1980 kuropa (1.33) europa (1.33) 1970_1979 kuropa (1.32) europa (1.32) enropa (0.31) furopa 1969_1978 kuropa (1.69) furopa (1.35) europa (1.34) enropa 1968_1977 europa (1.32) kuropa (1.32) enropa (1.29) itoernooi 1967_1976 itoernooi (2.31) cefa (1.61) europa (1.35) kuropa 1966_1975 itoernooi (1.33) enropa (1.33) europa (1.28) kuropa 1965_1974 fefa (1.34) itoernooi (1.34) cupduel (1.31) cuphouder 1964_1973 cupduel (1.66) cuphouder (1.59) cupwinnaar (1.57) europa 1963_1972 europa (1.65) cuphouder (1.62) cupduel (1.34) kuropa 1962_1971 cupwinnaar (1.27) cuphouder (1.27) itoernooi (1.00) europa 1961_1970 cupwinnaar (1.35) cuphouder (1.35) europa (1.00) fefa 1960_1969 europa (1.00) fefa (1.00) cupduel (1.00) bekerwinnaar 1959_1968 bekerwinnaar (1.33) cupwinnaar (1.33) europa (1.00) fefa 1958_1967 cupwinnaar (1.33) bekerwinnaar (1.33) europa (1.00) fefa 1957_1966 bekerwinnaar (1.32) cupwinnaar (1.32) europa (1.00) cupduel 1956_1965 cupwinnaar (1.68) bekerhouder (1.63) bekerwinnaar (1.63) europa 1955_1964 bekerwinnaar (1.87) cupwinnaar (1.31) voetbalkampioen (1.30) bekerhouder 1954_1963 bekerhouder (1.29) bekerwinnaar (1.29) cupwinnaar (1.00) cefa 1953_1962 bekerwinnaar (1.62) voetbalkampioen (1.33) bekerhouder (1.29) cupwinnaar 1952_1961 cupwinnaar (1.66) bekerhouder (1.65) bekerwinnaar (1.63) cefa 1951_1960 bekerhouder (1.00) europa (1.00) topploeg (1.00) voetbalkampioen 1950_1959 bekerhouder (1.00) cupwinnaar (1.00) europa (1.00) bekerwinnaar Shifting concepts related to <Europa> in full tekst All newspapers 1950-90 code <europa> football
  31. 31. Tool 5: Carlos Martinez
  32. 32. Waar hoop ik op? • inzichtelijke tools om conceptuele veranderingen te traceren (big data + longe durée) 1. toegang tot data 2. gebruiksklaar maken van data 3. koppelen van (omvangrijke) data aan tools 4. rekencapaciteit 5. corpus linguistics, topic modelling, text analytics allemaal voorzien van tijd- en taaldimensies 6. implementatie van word vectoring 7. ???

×