Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Concept- endefinitie extractie       Rinke Hoekstra      Radboud Winkels  Universiteit van Amsterdam
Regulation A   Art 12   Art 14, lid 3, 2e volzin
start                                                            State Name                                               ...
start                                                            State Name                                               ...
start                                                            State Name                                               ...
start                                                            State Name                                               ...
start                                                                                   State Name                        ...
start                                                                                      State Name                     ...
Overzicht• Basisvereisten voor semantisch verrijken• Concept extractie• Definitie extractie• Analyse• Demo
Wat willen we           kunnen?•   “Deserializeren” van regelingen    (e.g. topic-based browsen, verwijzingen rijgen)•   A...
Mise en Place• Wetten en regelingen verzamelen en representeren• Extraheren en reconstrueren van impliciete  informatie• M...
CEN MetaLex           “Open XML Interchange Format for Legal                 and Legislative Resources”• CEN Workshop Agre...
MetaLex Document Server • Alle Nederlandse wet- en regelgeving in CEN MetaLex formaat    28.981 document versies • Metadat...
Taak
Taak
Taak
Taak
Conceptextractie   Artikel 10, lid 9   Het eerste lid is mede van toepassing, indien tot het vermogen van de erflater een ...
Representatie•   Simple Knowledge Organization System (SKOS)•   Concepten worden gerepresenteerd als skos:Concept•   Conce...
Princeton                                                                                                                 ...
Versiebeheer
Versiebeheervermogen van de erflater     dcterms:subject         SW Hoofdstuk I, Artikel 10     2011-01-01
Versiebeheervermogen van de erflater     dcterms:subject         SW Hoofdstuk I, Artikel 10     2011-01-01       owl:sameAs...
Versiebeheervermogen van de erflater     dcterms:subject         SW                        SW Hoofdstuk I, Artikel 10   Hoo...
Versiebeheervermogen van de erflater     dcterms:subject         SW                                     SW Hoofdstuk I, Art...
Versiebeheervermogen van de erflater     dcterms:subject         dcterms:subject         SW                                ...
Versiebeheervermogen van de erflater     dcterms:subject         dcterms:subject         SW                                ...
Versiebeheervermogen van de erflater     dcterms:subject         SW                        SW Hoofdstuk I, Artikel 10   Hoo...
Verwijzingsniveau  vermogen van de erflater
Verwijzingsniveau  vermogen van de erflater      Successiewet                            dcterms:subject   Successiewet  ve...
Verwijzingsniveau  vermogen van de erflater      Successiewet                            dcterms:subject      Successiewet ...
Resultaten• Herkennen van begrippen is doenbaar  (nog aardig wat false positives, vnl. te lange begrippen)• Samenvoegen va...
Definitie Extractie • Voor elk artikel, ga op zoek naar patronen          Onder verkrijging krachtens erfrecht wordt voor d...
• Evaluatie Successiewet  • 16 correcte vondsten  • 2 false positives  • 20 gemiste definities  • 34 gemiste ficties
Problemen• Ficties  “wordt geacht”, “worden aangemerkt als” en “wordt beschouwd als”,  “wordt onder ... begrepen”, “worden...
Resultaten• Dertig patronen voor standaardzinnen• Recall is momenteel ongeveer 50% (nare bug)• Precision is redelijk (op S...
Analyse• Verwijzingen tussen artikelen  • Inzicht in belang van artikelen  • Inzicht in belangrijke schakel artikelen• Coo...
Analyse                   Eigenschappen van een netwerk                          Dichtheid van het netwerk. Dichtheid van ...
WJZ                                          BW                      SW                                         Boek 4, Ar...
Discussie• Concepten herkennen gaat goed• Definities extraheren gaat nog moeizaam• Netwerkanalyse biedt perspectief  • Impa...
DEMO
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Concept- en Definitie Extractie
Upcoming SlideShare
Loading in …5
×

Concept- en Definitie Extractie

1,144 views

Published on

Presentatie voor de Belastingdienst in het kader van een onderzoek naar de (on)mogelijkheden rond het herkennen en extraheren van concepten en hun definities, en het representeren daarvan met Semantic Web standaarden.

Published in: Technology
  • Be the first to comment

Concept- en Definitie Extractie

  1. 1. Concept- endefinitie extractie Rinke Hoekstra Radboud Winkels Universiteit van Amsterdam
  2. 2. Regulation A Art 12 Art 14, lid 3, 2e volzin
  3. 3. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
  4. 4. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
  5. 5. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
  6. 6. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin
  7. 7. start State Name entry/action do/activity action State exit/action event/action(arguments) endRegulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin
  8. 8. start State Name entry/action do/activity action State exit/action event/action(arguments) end Regulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin(01-01-2011) (04-02-2011) (11-06-2008) (01-07-2011)
  9. 9. Overzicht• Basisvereisten voor semantisch verrijken• Concept extractie• Definitie extractie• Analyse• Demo
  10. 10. Wat willen we kunnen?• “Deserializeren” van regelingen (e.g. topic-based browsen, verwijzingen rijgen)• Annoteren van regelingen (gereconstrueerde metadata, metadata van derden)• Annoteren met regelingen (processen, services, kennisbestanden, documenten ...)• Toegankelijk en herbruikbaar voor andere partijen (gedeelde vocabulaires, standaard API)• Analyseren van informatienetwerk
  11. 11. Mise en Place• Wetten en regelingen verzamelen en representeren• Extraheren en reconstrueren van impliciete informatie• Metadata toegankelijk maken• Identificatie van alle elementen• Verwijzingen expliciet maken
  12. 12. CEN MetaLex “Open XML Interchange Format for Legal and Legislative Resources”• CEN Workshop Agreement• Uitwisselingsformaat• Zeer generische XML elementen (hcontainer, block, inline)• “Content models” geven het soort inhoud weer (e.g. chapter, article, sentence)• Schema uitbreiding mogelijk• Metadata als RDFa• Naming convention http://www.metalex.eu
  13. 13. MetaLex Document Server • Alle Nederlandse wet- en regelgeving in CEN MetaLex formaat 28.981 document versies • Metadata in RDF 113.333.017 triples • Elke nacht bijgewerkt vanuit BWB (wetten.nl API) • “Versiebewuste” identificatie van alle elementen • Persistente identificatie van alle elementen • Extractie van verwijzingsstructuren http://doc.metalex.eu
  14. 14. Taak
  15. 15. Taak
  16. 16. Taak
  17. 17. Taak
  18. 18. Conceptextractie Artikel 10, lid 9 Het eerste lid is mede van toepassing, indien tot het vermogen van de erflater een schuld behoort, die is ontstaan als gevolg van een uiterste wil, voor zover de nominale waarde van die schuld meer bedraagt dan de waarde [...]• Voor elk artikel, ontleed elke zin afzonderlijk• Elke naamwoordzin verwijst naar een concept• Elk zelfstandig naamwoord verwijst naar een concept• Elk zelfstandig naamwoord dat binnen een naamwoordzin voorkomt, verwijst naar een algemener concept dan de naamwoordzin.
  19. 19. Representatie• Simple Knowledge Organization System (SKOS)• Concepten worden gerepresenteerd als skos:Concept• Concepten hebben hiërarchische skos:broader relaties• Concepten worden gekoppeld aan de vindplaats door dcterms:subject relaties• Samen voorkomende concepten worden onderling gekoppeld met ma:cooccursWith relaties• Concepten worden gekoppeld aan een thesaurus door skos:exactMatch relaties
  20. 20. Princeton Wordnet testator [...] Cornetto Wordnetvermogen vermogen weten capaciteit legator erflater (geld) (het kunnen) skos:closeMatch skos:closeMatch aanspraken vermogen erflater MetaLex Annotator ma:cooccursWith skos:relatedMatch aard skos:broader skos:broader ma:cooccursWith algemeen vermogen van de erflater ma:cooccursWith belang ma:cooccursWith [...] dcterms:subject dcterms:subject dcterms:subject Document MetaLex SW SW SW Server Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 13 Hoofdstuk III, Artikel 32
  21. 21. Versiebeheer
  22. 22. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01
  23. 23. Versiebeheervermogen van de erflater dcterms:subject SW Hoofdstuk I, Artikel 10 2011-01-01 owl:sameAs SHA1 8738ef273ea4dbc73
  24. 24. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs SHA1 8738ef273ea4dbc73
  25. 25. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
  26. 26. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 8738ef273ea4dbc73
  27. 27. Versiebeheervermogen van de erflater dcterms:subject dcterms:subject SW SW Hoofdstuk I, Artikel 10 owl:sameAs Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
  28. 28. Versiebeheervermogen van de erflater dcterms:subject SW SW Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 10 2011-01-01 2011-10-12 owl:sameAs owl:sameAs SHA1 SHA1 8738ef273ea4dbc73 a433f53273c78a56f2
  29. 29. Verwijzingsniveau vermogen van de erflater
  30. 30. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater
  31. 31. Verwijzingsniveau vermogen van de erflater Successiewet dcterms:subject Successiewet vermogen van de erflater SW Hoofdstuk I SW dcterms:subject vermogen van de erflater Hoofdstuk I SW Artikel 10 SW dcterms:subject vermogen van de erflater Hoofdstuk I, Artikel 10 SW SW Art. 10, zin 1 Hoofdstuk I, Artikel 10 dcterms:subject vermogen van de erflater Zin 1
  32. 32. Resultaten• Herkennen van begrippen is doenbaar (nog aardig wat false positives, vnl. te lange begrippen)• Samenvoegen van enkelvoud en meervoud nog problematisch• Juiste niveau van koppelen aan bron nog te kiezen• Annotatieomgeving (?)
  33. 33. Definitie Extractie • Voor elk artikel, ga op zoek naar patronen Onder verkrijging krachtens erfrecht wordt voor de toepassing van deze wet mede verstaan de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflater indien die verkrijging rechtstreeks verband houdt met de omstandigheid dat de erflater die of dergelijke vergunningen en aanspraken bezat. Begrip verkrijging krachtens erfrechtDefinitie de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflaterModifier mede Scope voor de toepassing van deze wetConditie die verkrijging rechtstreeks verband houdt met de omstandigheid ...
  34. 34. • Evaluatie Successiewet • 16 correcte vondsten • 2 false positives • 20 gemiste definities • 34 gemiste ficties
  35. 35. Problemen• Ficties “wordt geacht”, “worden aangemerkt als” en “wordt beschouwd als”, “wordt onder ... begrepen”, “worden vermoed te zijn”, “wordt bepaald alsof” en “worden op dezelfde wijze behandeld als”• Lijsten• Gemiste kansen (bug?) “Onder schenking wordt niet begrepen...”, “Voor de toepassing van deze wet en de daarop berustende bepalingen worden de landen van het Koninkrijk der Nederlanden aangemerkt als afzonderlijke mogendheden.”
  36. 36. Resultaten• Dertig patronen voor standaardzinnen• Recall is momenteel ongeveer 50% (nare bug)• Precision is redelijk (op Successiewet)• Precision is erg slecht op breder corpus• Uitbreiden naar ficties?• Conclusie: (sc)haalbaarheid is een open vraag
  37. 37. Analyse• Verwijzingen tussen artikelen • Inzicht in belang van artikelen • Inzicht in belangrijke schakel artikelen• Cooccurrence van begrippen • Identificatie van thema’s• Samenvallen verwijzingsstructuur en thema?
  38. 38. Analyse Eigenschappen van een netwerk Dichtheid van het netwerk. Dichtheid van 1 = alle knopen Density zijn met elkaar verbonden Modularity Clusters van onderling sterk gerelateerde knopen Onafhankelijke clusters van onderling zeer sterk gerelateerde Small World knopen Eigenschappen van individuele knopen Degree Centrality Aantal verwijzingen In/Out Degree Aantal inkomende/uitgaande verwijzingen Belangrijkheid van knoop op ‘kortste paden’ tussen andereBetweenness Centrality knopen
  39. 39. WJZ BW SW Boek 4, Art. 13WaJong IB WIA WBRV WPO WVP WLB IV AWB Art 4
  40. 40. Discussie• Concepten herkennen gaat goed• Definities extraheren gaat nog moeizaam• Netwerkanalyse biedt perspectief • Impactanalyse van wijzigingen • Uitbreiden met meer soorten documenten? beleidsnotities, uitvoeringsbesluiten • TFIDF op concept co-occurrence
  41. 41. DEMO

×