• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Diachroon Corpus Workshop
 

Diachroon Corpus Workshop

on

  • 721 views

 

Statistics

Views

Total Views
721
Views on SlideShare
617
Embed Views
104

Actions

Likes
0
Downloads
0
Comments
0

2 Embeds 104

http://politicalmashup.nl 103
http://www.netvibes.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Diachroon Corpus Workshop Diachroon Corpus Workshop Presentation Transcript

    • Veranderend Taalgebruik in de Kamer 1 Veranderend Taalgebruik in de Kamer Voor(delen|beelden) van een diachroon corpus Maarten Marx Universiteit van Amsterdam Diachroom Corpus Workshop, ING Den Haag, 2011-03-30
    • Veranderend Taalgebruik in de Kamer 2 Inhoud• Wat is een Diachroon Corpus voor mij?• Staten Generaal Digitaal• Boodschap
    • Veranderend Taalgebruik in de Kamer 3 Diachroon Corpus = OCR + Structuurherkenning• statengeneraaldigitaal.nl• Alle Handelingen van 1814–1995.• Groot verschil tussen wens en werkelijkheid.• Structuurherkenning: link
    • Veranderend Taalgebruik in de Kamer 4 Bronnen zitten vol impliciete data en metadata• Rijk data model Link• Meeting (1 Dag) • Topic • Stage direction • Scene • Stage direction • Speech • Paragraph
    • Veranderend Taalgebruik in de Kamer 5 Zelfde gegevens: verschillend bekeken• Ruwe data in PDF• XML leesbaar voor de mens• Machine leesbaar XML formaat
    • Veranderend Taalgebruik in de Kamer 6 Lage kosten, enorme meerwaarde• Bij statengeneraaldigitaal: • verzamelen en OCR: 10M • structuurherkenning: 50K (half procent)• Voor elk woord weten we • wie het zei • wanneer • in welke hoedanigheid • in welke context (debat over . . . ) • tegen wie, en wie er aanwezig waren• Krachtige zoek en analyse technieken komen beschikbaar.
    • Veranderend Taalgebruik in de Kamer 7 Voorbeeld 1: Huisvrouwen van Els Kloek• Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf).• Methode 1 Search en Browse• Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand: • Zoek in alle Handelingen van 1814-1995 (5.G GB tekst). • Resultaten: huiswijf 0 hits wijf 57 huisvrouw 1501
    • Veranderend Taalgebruik in de Kamer 8 Wat ’hits’• Eerste hit huisvrouw: 1814 Cornelis de Haas en Anna de Boer, zuster van zijne overleden huisvrouw• Mooiste hit “wijf” . . . want de tale is een vroedwijf der zinnen, een tolck des herten ende een schilderij der ghedachten . . .• Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34
    • Veranderend Taalgebruik in de Kamer 9 Voorbeeld data opslag<speech docno="nl.19810000003-proc.pm.8.3.1" speaker="Oskamp" MPid="02724" party="PvdA" role="mp"><p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passenderdan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi"e en Nederlandte beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack vande Neder-duytsche Letterkunst?...• http://www.parlement.com/9291000/biof/02724
    • Veranderend Taalgebruik in de Kamer 10 Voorbeeld 2: grootschalige diachronische analyse• Van elke politicus hebben we alle gesproken woorden per dag geordend bij elkaar gezet.• Zie http://politicalmashup.nl/2011/03/ wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/• Toetsbare Hypotheses: • Gebruikt men simpeler taal, naarmate je langer in de kamer zit? • Gaat men wolliger spreken tijdens zware debatten?• Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende, . . . Link
    • Veranderend Taalgebruik in de Kamer 11 Boodschap
    • Veranderend Taalgebruik in de Kamer 12 Denk groot en groots• Bronnen zitten vol data en metadata.• Haal dat er automatisch uit.• Processen moeten schalen naar 10, 100, 1000 keer zoveel data.• Wees niet bang voor foutjes. Maak impliciete structuur en informatie expliciet.