Diachroon Corpus Workshop

757 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
757
On SlideShare
0
From Embeds
0
Number of Embeds
122
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Diachroon Corpus Workshop

  1. 1. Veranderend Taalgebruik in de Kamer 1 Veranderend Taalgebruik in de Kamer Voor(delen|beelden) van een diachroon corpus Maarten Marx Universiteit van Amsterdam Diachroom Corpus Workshop, ING Den Haag, 2011-03-30
  2. 2. Veranderend Taalgebruik in de Kamer 2 Inhoud• Wat is een Diachroon Corpus voor mij?• Staten Generaal Digitaal• Boodschap
  3. 3. Veranderend Taalgebruik in de Kamer 3 Diachroon Corpus = OCR + Structuurherkenning• statengeneraaldigitaal.nl• Alle Handelingen van 1814–1995.• Groot verschil tussen wens en werkelijkheid.• Structuurherkenning: link
  4. 4. Veranderend Taalgebruik in de Kamer 4 Bronnen zitten vol impliciete data en metadata• Rijk data model Link• Meeting (1 Dag) • Topic • Stage direction • Scene • Stage direction • Speech • Paragraph
  5. 5. Veranderend Taalgebruik in de Kamer 5 Zelfde gegevens: verschillend bekeken• Ruwe data in PDF• XML leesbaar voor de mens• Machine leesbaar XML formaat
  6. 6. Veranderend Taalgebruik in de Kamer 6 Lage kosten, enorme meerwaarde• Bij statengeneraaldigitaal: • verzamelen en OCR: 10M • structuurherkenning: 50K (half procent)• Voor elk woord weten we • wie het zei • wanneer • in welke hoedanigheid • in welke context (debat over . . . ) • tegen wie, en wie er aanwezig waren• Krachtige zoek en analyse technieken komen beschikbaar.
  7. 7. Veranderend Taalgebruik in de Kamer 7 Voorbeeld 1: Huisvrouwen van Els Kloek• Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf).• Methode 1 Search en Browse• Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand: • Zoek in alle Handelingen van 1814-1995 (5.G GB tekst). • Resultaten: huiswijf 0 hits wijf 57 huisvrouw 1501
  8. 8. Veranderend Taalgebruik in de Kamer 8 Wat ’hits’• Eerste hit huisvrouw: 1814 Cornelis de Haas en Anna de Boer, zuster van zijne overleden huisvrouw• Mooiste hit “wijf” . . . want de tale is een vroedwijf der zinnen, een tolck des herten ende een schilderij der ghedachten . . .• Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34
  9. 9. Veranderend Taalgebruik in de Kamer 9 Voorbeeld data opslag<speech docno="nl.19810000003-proc.pm.8.3.1" speaker="Oskamp" MPid="02724" party="PvdA" role="mp"><p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passenderdan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi"e en Nederlandte beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack vande Neder-duytsche Letterkunst?...• http://www.parlement.com/9291000/biof/02724
  10. 10. Veranderend Taalgebruik in de Kamer 10 Voorbeeld 2: grootschalige diachronische analyse• Van elke politicus hebben we alle gesproken woorden per dag geordend bij elkaar gezet.• Zie http://politicalmashup.nl/2011/03/ wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/• Toetsbare Hypotheses: • Gebruikt men simpeler taal, naarmate je langer in de kamer zit? • Gaat men wolliger spreken tijdens zware debatten?• Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende, . . . Link
  11. 11. Veranderend Taalgebruik in de Kamer 11 Boodschap
  12. 12. Veranderend Taalgebruik in de Kamer 12 Denk groot en groots• Bronnen zitten vol data en metadata.• Haal dat er automatisch uit.• Processen moeten schalen naar 10, 100, 1000 keer zoveel data.• Wees niet bang voor foutjes. Maak impliciete structuur en informatie expliciet.

×