SlideShare a Scribd company logo
1 of 14
NAMED ENTITY RECOGNITION
&
CLASSIFICATION
Hoe werkt het
En wat kunnen we ermee doen?
Named Entity Recognition (NER)
2
• Zoek vooraf gedefinieerde categorieën van
entiteiten in ongestructureerde tekst:
• Eigennamen van personen / organisaties
• Locaties
• Medisch / farmacologisch / legaal jargon of
terminologie
• Tijdsuitdrukkingen
• Hoeveelheden, percentages
• Valuta en monetaire waarden
• …
• Kan gezien worden als onderdeel van “data mining”
NER: Aanpak
3
• Rule-based (regex)
• Men zoekt tekstonderdelen die
beantwoorden aan zekere regels
• Gebruikt onder meer vaste
“lijsten van termen” en specifieke
regels bv. voor datums,
telefoonnummers….
• Geen/weinig disambiguatie
(Apple: fruit / bedrijf?)
• Statistisch ( = Machine Learning)
• In een eerste stap worden manueel de
gewenste entiteiten gemarkeerd
• Vervolgens leert het systeem zelf aan om
die entiteiten te ontdekken
• Het op die wijze ontstane model kan dan
gebruikt worden voor nieuwe teksten
• Vereist duizenden tot miljoenen
geannoteerde voorbeelden
NER op EDE-bestand (RSZ jurid.)
(Bekomen door statistische method/ machine learning)
NER: KBO-nummers in een EDE-document
(rule based: kleine stukjes code herkennen het KBO-nummer)
5
6
• Match entities met ontologies
• Cross-reference in andere databases
• Creëer links naar andere nuttige resources
NER for Entity Linking
Wanneer entiteiten ontdekt worden
dan kunnen we ze verbinden met andere
data
Voorbeeld: een KBO-nummer wordt
gevonden, dan zoekt men via KBO search
het adres op van de onderneming
7
• De opdracht bestaat erin om in
een juridische tekst een wetsartikel
te herkennen
Entity Linking example: LegalTech
Entity Linking example: legal texts
8
(bron: “the matchbox”)
en zodra een wetsartikel gevonden is wordt dit
gelinkt met de inhoud ervan
NER voor Question Answering
99
NER voor Question Answering
• Herken Named Entities
• Sla links tussen Named Entities op in database (bvb. graph)
 maakt “semantic search” mogelijk:
• What did Lansky study?
• Where did Lansky live?
Beperkingen van NER
10
• Ontwikkeling is domeinspecifiek
• Vraagt finetuning aan het domain
• Transfer naar andere domeinen is moeilijk
(Behalve heel algemene concepten zoals datum/tijd/valuta/…)
• Training vereist veel manuele annotatie
• Crowdsourcing?
• Hot topic op dit moment: “semi-supervised”-methoden (bv. “prodigy”)
• Erg weinig geannoteerde data beschikbaar voor Nederlands
• Disambiguatie is nog niet opgelost:
Washington the man of Washington the city?
Documentklassificatie: Concept
• Data organiseren
• Het algoritme leert een classificatiemodel
• De klassen/categorieën worden opgelegd aan het algoritme
Documentklassificatie (Juridoc)
• Doel: categoriseer juridische documenten
• In Juridoc 305 documenten met metadata, volgens
subtype
• Model aangeleerd op 244 paren (documenten, labels) gebruikt voor training
• Model getest op 61 documenten
• De documenten werden opgedeeld in de gewenste vijf groepen met redelijke kwaliteit
Indexering juridische documenten (metadata)
• Bij ontvangst van een juridisch document
moet het geklasseerd worden in een
elektronisch dossier en dient er bepaalde
informatie opgenomen;
• We doen dit
• via NER:
• KBO-nummers, RSZ-nummers
• Datums
• Geldbedragen
• (? Verzender / ontvanger)
• (? Onderwerp)
• via document-classificatie:
• Wat is het type/subtype document?
Thank You!
Website
www.smals.be
www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

More Related Content

Similar to Named entity recognition hoe werkt het wat kunnen we er mee doen nl

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Searchhannah_ff
 
Pres idbb hoofdstuk9
Pres idbb hoofdstuk9Pres idbb hoofdstuk9
Pres idbb hoofdstuk9CVO_De_Nobel
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing voginip
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestvoginip
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingEric Sieverts
 
Workshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënWorkshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënJoyce van Aalten
 
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerk Oorlogsbronnen
 
Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatieEric Sieverts
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers
 
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beInhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beRosemie Callewaert
 
LIBISnet gebruikersdag 01062017 - Introductie tot Linked Data
LIBISnet gebruikersdag 01062017 - Introductie tot Linked DataLIBISnet gebruikersdag 01062017 - Introductie tot Linked Data
LIBISnet gebruikersdag 01062017 - Introductie tot Linked DataLIBIS
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Leiden University
 
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Joyce van Aalten
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.
 

Similar to Named entity recognition hoe werkt het wat kunnen we er mee doen nl (20)

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search
 
Pres idbb hoofdstuk9
Pres idbb hoofdstuk9Pres idbb hoofdstuk9
Pres idbb hoofdstuk9
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
Introductie Modelleren
Introductie ModellerenIntroductie Modelleren
Introductie Modelleren
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstest
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgeving
 
Workshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënWorkshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieën
 
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerkdag 2017 | Marian Hellema | Workflow digitalisering
Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
 
Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatie
 
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard PhilipsArtificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
 
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beInhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be
 
LIBISnet gebruikersdag 01062017 - Introductie tot Linked Data
LIBISnet gebruikersdag 01062017 - Introductie tot Linked DataLIBISnet gebruikersdag 01062017 - Introductie tot Linked Data
LIBISnet gebruikersdag 01062017 - Introductie tot Linked Data
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?
 
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICT
 

More from Smals

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeSmals
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlSmals
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlandsSmals
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nlSmals
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmenteeSmals
 
Internet des objets
Internet des objetsInternet des objets
Internet des objetsSmals
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertSmals
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertSmals
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionSmals
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introductionSmals
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introductionSmals
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionSmals
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textesSmals
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introductionSmals
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat hetSmals
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenSmals
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenSmals
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspirationSmals
 
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenWat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenSmals
 
Wat is natural laguage generation
Wat is natural laguage generationWat is natural laguage generation
Wat is natural laguage generationSmals
 

More from Smals (20)

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we ze
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nl
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlands
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nl
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmentee
 
Internet des objets
Internet des objetsInternet des objets
Internet des objets
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sert
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sert
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introduction
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introduction
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introduction
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introduction
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textes
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introduction
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat het
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruiken
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doen
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspiration
 
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenWat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
 
Wat is natural laguage generation
Wat is natural laguage generationWat is natural laguage generation
Wat is natural laguage generation
 

Named entity recognition hoe werkt het wat kunnen we er mee doen nl

  • 1. NAMED ENTITY RECOGNITION & CLASSIFICATION Hoe werkt het En wat kunnen we ermee doen?
  • 2. Named Entity Recognition (NER) 2 • Zoek vooraf gedefinieerde categorieën van entiteiten in ongestructureerde tekst: • Eigennamen van personen / organisaties • Locaties • Medisch / farmacologisch / legaal jargon of terminologie • Tijdsuitdrukkingen • Hoeveelheden, percentages • Valuta en monetaire waarden • … • Kan gezien worden als onderdeel van “data mining”
  • 3. NER: Aanpak 3 • Rule-based (regex) • Men zoekt tekstonderdelen die beantwoorden aan zekere regels • Gebruikt onder meer vaste “lijsten van termen” en specifieke regels bv. voor datums, telefoonnummers…. • Geen/weinig disambiguatie (Apple: fruit / bedrijf?) • Statistisch ( = Machine Learning) • In een eerste stap worden manueel de gewenste entiteiten gemarkeerd • Vervolgens leert het systeem zelf aan om die entiteiten te ontdekken • Het op die wijze ontstane model kan dan gebruikt worden voor nieuwe teksten • Vereist duizenden tot miljoenen geannoteerde voorbeelden
  • 4. NER op EDE-bestand (RSZ jurid.) (Bekomen door statistische method/ machine learning)
  • 5. NER: KBO-nummers in een EDE-document (rule based: kleine stukjes code herkennen het KBO-nummer) 5
  • 6. 6 • Match entities met ontologies • Cross-reference in andere databases • Creëer links naar andere nuttige resources NER for Entity Linking Wanneer entiteiten ontdekt worden dan kunnen we ze verbinden met andere data Voorbeeld: een KBO-nummer wordt gevonden, dan zoekt men via KBO search het adres op van de onderneming
  • 7. 7 • De opdracht bestaat erin om in een juridische tekst een wetsartikel te herkennen Entity Linking example: LegalTech
  • 8. Entity Linking example: legal texts 8 (bron: “the matchbox”) en zodra een wetsartikel gevonden is wordt dit gelinkt met de inhoud ervan
  • 9. NER voor Question Answering 99 NER voor Question Answering • Herken Named Entities • Sla links tussen Named Entities op in database (bvb. graph)  maakt “semantic search” mogelijk: • What did Lansky study? • Where did Lansky live?
  • 10. Beperkingen van NER 10 • Ontwikkeling is domeinspecifiek • Vraagt finetuning aan het domain • Transfer naar andere domeinen is moeilijk (Behalve heel algemene concepten zoals datum/tijd/valuta/…) • Training vereist veel manuele annotatie • Crowdsourcing? • Hot topic op dit moment: “semi-supervised”-methoden (bv. “prodigy”) • Erg weinig geannoteerde data beschikbaar voor Nederlands • Disambiguatie is nog niet opgelost: Washington the man of Washington the city?
  • 11. Documentklassificatie: Concept • Data organiseren • Het algoritme leert een classificatiemodel • De klassen/categorieën worden opgelegd aan het algoritme
  • 12. Documentklassificatie (Juridoc) • Doel: categoriseer juridische documenten • In Juridoc 305 documenten met metadata, volgens subtype • Model aangeleerd op 244 paren (documenten, labels) gebruikt voor training • Model getest op 61 documenten • De documenten werden opgedeeld in de gewenste vijf groepen met redelijke kwaliteit
  • 13. Indexering juridische documenten (metadata) • Bij ontvangst van een juridisch document moet het geklasseerd worden in een elektronisch dossier en dient er bepaalde informatie opgenomen; • We doen dit • via NER: • KBO-nummers, RSZ-nummers • Datums • Geldbedragen • (? Verzender / ontvanger) • (? Onderwerp) • via document-classificatie: • Wat is het type/subtype document?

Editor's Notes

  1. Rule-based: pas que basé sur des listes (lookup) on peut utiliser des règles typiquement pour les dates, numéros de telephone Grammaticaal: ik heb het zelden gezien, ik weet dat het gebruikt was voor namen bvb
  2. Methode statistique
  3. Méthode basée sur des règles
  4. Voorbeeld komt van bedrijf “the matchbox” niet van smals
  5. Le NER n’est qu’une partie de la solution, les liens entre les entités sont importants
  6. Ter info: moderne tools zoals prodigy bieden “semi-supervised” annotaties