Your SlideShare is downloading. ×
Concept- en Definitie Extractie
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Concept- en Definitie Extractie

636
views

Published on

Presentatie voor de Belastingdienst in het kader van een onderzoek naar de (on)mogelijkheden rond het herkennen en extraheren van concepten en hun definities, en het representeren daarvan met Semantic …

Presentatie voor de Belastingdienst in het kader van een onderzoek naar de (on)mogelijkheden rond het herkennen en extraheren van concepten en hun definities, en het representeren daarvan met Semantic Web standaarden.

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
636
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Transcript

    • 1. Concept- endefinitie extractie Rinke Hoekstra Radboud Winkels Universiteit van Amsterdam
    • 2. Regulation A Art 12 Art 14, lid 3, 2e volzin
    • 3. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    • 4. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    • 5. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    • 6. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    • 7. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin
    • 8. start State Name entry/action do/activity action State exit/action event/action(arguments) end Regulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin(01-01-2011) (04-02-2011) (11-06-2008) (01-07-2011)
    • 9. Overzicht• Basisvereisten voor semantisch verrijken• Concept extractie• Definitie extractie• Analyse• Demo
    • 10. Wat willen we kunnen?• “Deserializeren” van regelingen (e.g. topic-based browsen, verwijzingen rijgen)• Annoteren van regelingen (gereconstrueerde metadata, metadata van derden)• Annoteren met regelingen (processen, services, kennisbestanden, documenten ...)• Toegankelijk en herbruikbaar voor andere partijen (gedeelde vocabulaires, standaard API)• Analyseren van informatienetwerk
    • 11. Mise en Place• Wetten en regelingen verzamelen en representeren• Extraheren en reconstrueren van impliciete informatie• Metadata toegankelijk maken• Identificatie van alle elementen• Verwijzingen expliciet maken
    • 12. CEN MetaLex “Open XML Interchange Format for Legal and Legislative Resources”• CEN Workshop Agreement• Uitwisselingsformaat• Zeer generische XML elementen (hcontainer, block, inline)• “Content models” geven het soort inhoud weer (e.g. chapter, article, sentence)• Schema uitbreiding mogelijk• Metadata als RDFa• Naming convention http://www.metalex.eu
    • 13. MetaLex Document Server • Alle Nederlandse wet- en regelgeving in CEN MetaLex formaat 28.981 document versies • Metadata in RDF 113.333.017 triples • Elke nacht bijgewerkt vanuit BWB (wetten.nl API) • “Versiebewuste” identificatie van alle elementen • Persistente identificatie van alle elementen • Extractie van verwijzingsstructuren http://doc.metalex.eu
    • 14. Taak
    • 15. Taak
    • 16. Taak
    • 17. Taak
    • 18. Conceptextractie Artikel 10, lid 9 Het eerste lid is mede van toepassing, indien tot het vermogen van de erflater een schuld behoort, die is ontstaan als gevolg van een uiterste wil, voor zover de nominale waarde van die schuld meer bedraagt dan de waarde [...]• Voor elk artikel, ontleed elke zin afzonderlijk• Elke naamwoordzin verwijst naar een concept• Elk zelfstandig naamwoord verwijst naar een concept• Elk zelfstandig naamwoord dat binnen een naamwoordzin voorkomt, verwijst naar een algemener concept dan de naamwoordzin.
    • 19. Representatie• Simple Knowledge Organization System (SKOS)• Concepten worden gerepresenteerd als skos:Concept• Concepten hebben hiërarchische skos:broader relaties• Concepten worden gekoppeld aan de vindplaats door dcterms:subject relaties• Samen voorkomende concepten worden onderling gekoppeld met ma:cooccursWith relaties• Concepten worden gekoppeld aan een thesaurus door skos:exactMatch relaties
    • 20. Princeton Wordnet testator [...] Cornetto Wordnetvermogen vermogen weten capaciteit legator erflater (geld) (het kunnen) skos:closeMatch skos:closeMatch aanspraken vermogen erflater MetaLex Annotator ma:cooccursWith skos:relatedMatch aard skos:broader skos:broader ma:cooccursWith algemeen vermogen van de erflater ma:cooccursWith belang ma:cooccursWith [...] dcterms:subject dcterms:subject dcterms:subject Document MetaLex SW SW SW Server Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 13 Hoofdstuk III, Artikel 32
    • 21. Versiebeheer
    • 22. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01
    • 23. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01 owl:sameAs SHA1 8738ef273ea4dbc73
    • 24. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs SHA1 8738ef273ea4dbc73
    • 25. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
    • 26. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
    • 27. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
    • 28. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
    • 29. Verwijzingsniveau vermogen van de erflater
    • 30. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater
    • 31. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater SW Hoofdstuk I SW dcterms:subject vermogen van de erflater Hoofdstuk I SW Artikel 10 SW dcterms:subject vermogen van de erflater Hoofdstuk I, Artikel 10 SW SW Art. 10, zin 1 Hoofdstuk I, Artikel 10 dcterms:subject vermogen van de erflater Zin 1
    • 32. Resultaten• Herkennen van begrippen is doenbaar (nog aardig wat false positives, vnl. te lange begrippen)• Samenvoegen van enkelvoud en meervoud nog problematisch• Juiste niveau van koppelen aan bron nog te kiezen• Annotatieomgeving (?)
    • 33. Definitie Extractie • Voor elk artikel, ga op zoek naar patronen Onder verkrijging krachtens erfrecht wordt voor de toepassing van deze wet mede verstaan de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflater indien die verkrijging rechtstreeks verband houdt met de omstandigheid dat de erflater die of dergelijke vergunningen en aanspraken bezat. Begrip verkrijging krachtens erfrechtDefinitie de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflaterModifier mede Scope voor de toepassing van deze wetConditie die verkrijging rechtstreeks verband houdt met de omstandigheid ...
    • 34. • Evaluatie Successiewet • 16 correcte vondsten • 2 false positives • 20 gemiste definities • 34 gemiste ficties
    • 35. Problemen• Ficties “wordt geacht”, “worden aangemerkt als” en “wordt beschouwd als”, “wordt onder ... begrepen”, “worden vermoed te zijn”, “wordt bepaald alsof” en “worden op dezelfde wijze behandeld als”• Lijsten• Gemiste kansen (bug?) “Onder schenking wordt niet begrepen...”, “Voor de toepassing van deze wet en de daarop berustende bepalingen worden de landen van het Koninkrijk der Nederlanden aangemerkt als afzonderlijke mogendheden.”
    • 36. Resultaten• Dertig patronen voor standaardzinnen• Recall is momenteel ongeveer 50% (nare bug)• Precision is redelijk (op Successiewet)• Precision is erg slecht op breder corpus• Uitbreiden naar ficties?• Conclusie: (sc)haalbaarheid is een open vraag
    • 37. Analyse• Verwijzingen tussen artikelen • Inzicht in belang van artikelen • Inzicht in belangrijke schakel artikelen• Cooccurrence van begrippen • Identificatie van thema’s• Samenvallen verwijzingsstructuur en thema?
    • 38. Analyse Eigenschappen van een netwerk Dichtheid van het netwerk. Dichtheid van 1 = alle knopen Density zijn met elkaar verbonden Modularity Clusters van onderling sterk gerelateerde knopen Onafhankelijke clusters van onderling zeer sterk gerelateerde Small World knopen Eigenschappen van individuele knopen Degree Centrality Aantal verwijzingen In/Out Degree Aantal inkomende/uitgaande verwijzingen Belangrijkheid van knoop op ‘kortste paden’ tussen andereBetweenness Centrality knopen
    • 39. WJZ BW SW Boek 4, Art. 13WaJong IB WIA WBRV WPO WVP WLB IV AWB Art 4
    • 40. Discussie• Concepten herkennen gaat goed• Definities extraheren gaat nog moeizaam• Netwerkanalyse biedt perspectief • Impactanalyse van wijzigingen • Uitbreiden met meer soorten documenten? beleidsnotities, uitvoeringsbesluiten • TFIDF op concept co-occurrence
    • 41. DEMO