Concept- en Definitie Extractie

1,038 views

Published on

Presentatie voor de Belastingdienst in het kader van een onderzoek naar de (on)mogelijkheden rond het herkennen en extraheren van concepten en hun definities, en het representeren daarvan met Semantic Web standaarden.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,038
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Concept- en Definitie Extractie

    1. 1. Concept- endefinitie extractie Rinke Hoekstra Radboud Winkels Universiteit van Amsterdam
    2. 2. Regulation A Art 12 Art 14, lid 3, 2e volzin
    3. 3. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    4. 4. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    5. 5. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    6. 6. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
    7. 7. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin
    8. 8. start State Name entry/action do/activity action State exit/action event/action(arguments) end Regulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin(01-01-2011) (04-02-2011) (11-06-2008) (01-07-2011)
    9. 9. Overzicht• Basisvereisten voor semantisch verrijken• Concept extractie• Definitie extractie• Analyse• Demo
    10. 10. Wat willen we kunnen?• “Deserializeren” van regelingen (e.g. topic-based browsen, verwijzingen rijgen)• Annoteren van regelingen (gereconstrueerde metadata, metadata van derden)• Annoteren met regelingen (processen, services, kennisbestanden, documenten ...)• Toegankelijk en herbruikbaar voor andere partijen (gedeelde vocabulaires, standaard API)• Analyseren van informatienetwerk
    11. 11. Mise en Place• Wetten en regelingen verzamelen en representeren• Extraheren en reconstrueren van impliciete informatie• Metadata toegankelijk maken• Identificatie van alle elementen• Verwijzingen expliciet maken
    12. 12. CEN MetaLex “Open XML Interchange Format for Legal and Legislative Resources”• CEN Workshop Agreement• Uitwisselingsformaat• Zeer generische XML elementen (hcontainer, block, inline)• “Content models” geven het soort inhoud weer (e.g. chapter, article, sentence)• Schema uitbreiding mogelijk• Metadata als RDFa• Naming convention http://www.metalex.eu
    13. 13. MetaLex Document Server • Alle Nederlandse wet- en regelgeving in CEN MetaLex formaat 28.981 document versies • Metadata in RDF 113.333.017 triples • Elke nacht bijgewerkt vanuit BWB (wetten.nl API) • “Versiebewuste” identificatie van alle elementen • Persistente identificatie van alle elementen • Extractie van verwijzingsstructuren http://doc.metalex.eu
    14. 14. Taak
    15. 15. Taak
    16. 16. Taak
    17. 17. Taak
    18. 18. Conceptextractie Artikel 10, lid 9 Het eerste lid is mede van toepassing, indien tot het vermogen van de erflater een schuld behoort, die is ontstaan als gevolg van een uiterste wil, voor zover de nominale waarde van die schuld meer bedraagt dan de waarde [...]• Voor elk artikel, ontleed elke zin afzonderlijk• Elke naamwoordzin verwijst naar een concept• Elk zelfstandig naamwoord verwijst naar een concept• Elk zelfstandig naamwoord dat binnen een naamwoordzin voorkomt, verwijst naar een algemener concept dan de naamwoordzin.
    19. 19. Representatie• Simple Knowledge Organization System (SKOS)• Concepten worden gerepresenteerd als skos:Concept• Concepten hebben hiërarchische skos:broader relaties• Concepten worden gekoppeld aan de vindplaats door dcterms:subject relaties• Samen voorkomende concepten worden onderling gekoppeld met ma:cooccursWith relaties• Concepten worden gekoppeld aan een thesaurus door skos:exactMatch relaties
    20. 20. Princeton Wordnet testator [...] Cornetto Wordnetvermogen vermogen weten capaciteit legator erflater (geld) (het kunnen) skos:closeMatch skos:closeMatch aanspraken vermogen erflater MetaLex Annotator ma:cooccursWith skos:relatedMatch aard skos:broader skos:broader ma:cooccursWith algemeen vermogen van de erflater ma:cooccursWith belang ma:cooccursWith [...] dcterms:subject dcterms:subject dcterms:subject Document MetaLex SW SW SW Server Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 13 Hoofdstuk III, Artikel 32
    21. 21. Versiebeheer
    22. 22. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01
    23. 23. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01 owl:sameAs SHA1 8738ef273ea4dbc73
    24. 24. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs SHA1 8738ef273ea4dbc73
    25. 25. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
    26. 26. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
    27. 27. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
    28. 28. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
    29. 29. Verwijzingsniveau vermogen van de erflater
    30. 30. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater
    31. 31. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater SW Hoofdstuk I SW dcterms:subject vermogen van de erflater Hoofdstuk I SW Artikel 10 SW dcterms:subject vermogen van de erflater Hoofdstuk I, Artikel 10 SW SW Art. 10, zin 1 Hoofdstuk I, Artikel 10 dcterms:subject vermogen van de erflater Zin 1
    32. 32. Resultaten• Herkennen van begrippen is doenbaar (nog aardig wat false positives, vnl. te lange begrippen)• Samenvoegen van enkelvoud en meervoud nog problematisch• Juiste niveau van koppelen aan bron nog te kiezen• Annotatieomgeving (?)
    33. 33. Definitie Extractie • Voor elk artikel, ga op zoek naar patronen Onder verkrijging krachtens erfrecht wordt voor de toepassing van deze wet mede verstaan de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflater indien die verkrijging rechtstreeks verband houdt met de omstandigheid dat de erflater die of dergelijke vergunningen en aanspraken bezat. Begrip verkrijging krachtens erfrechtDefinitie de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflaterModifier mede Scope voor de toepassing van deze wetConditie die verkrijging rechtstreeks verband houdt met de omstandigheid ...
    34. 34. • Evaluatie Successiewet • 16 correcte vondsten • 2 false positives • 20 gemiste definities • 34 gemiste ficties
    35. 35. Problemen• Ficties “wordt geacht”, “worden aangemerkt als” en “wordt beschouwd als”, “wordt onder ... begrepen”, “worden vermoed te zijn”, “wordt bepaald alsof” en “worden op dezelfde wijze behandeld als”• Lijsten• Gemiste kansen (bug?) “Onder schenking wordt niet begrepen...”, “Voor de toepassing van deze wet en de daarop berustende bepalingen worden de landen van het Koninkrijk der Nederlanden aangemerkt als afzonderlijke mogendheden.”
    36. 36. Resultaten• Dertig patronen voor standaardzinnen• Recall is momenteel ongeveer 50% (nare bug)• Precision is redelijk (op Successiewet)• Precision is erg slecht op breder corpus• Uitbreiden naar ficties?• Conclusie: (sc)haalbaarheid is een open vraag
    37. 37. Analyse• Verwijzingen tussen artikelen • Inzicht in belang van artikelen • Inzicht in belangrijke schakel artikelen• Cooccurrence van begrippen • Identificatie van thema’s• Samenvallen verwijzingsstructuur en thema?
    38. 38. Analyse Eigenschappen van een netwerk Dichtheid van het netwerk. Dichtheid van 1 = alle knopen Density zijn met elkaar verbonden Modularity Clusters van onderling sterk gerelateerde knopen Onafhankelijke clusters van onderling zeer sterk gerelateerde Small World knopen Eigenschappen van individuele knopen Degree Centrality Aantal verwijzingen In/Out Degree Aantal inkomende/uitgaande verwijzingen Belangrijkheid van knoop op ‘kortste paden’ tussen andereBetweenness Centrality knopen
    39. 39. WJZ BW SW Boek 4, Art. 13WaJong IB WIA WBRV WPO WVP WLB IV AWB Art 4
    40. 40. Discussie• Concepten herkennen gaat goed• Definities extraheren gaat nog moeizaam• Netwerkanalyse biedt perspectief • Impactanalyse van wijzigingen • Uitbreiden met meer soorten documenten? beleidsnotities, uitvoeringsbesluiten • TFIDF op concept co-occurrence
    41. 41. DEMO

    ×