Zoeken & Classificeren       05/10/2012      Sicco van Sas
Onderzoekmulti-label document     classificatie
Duizenden Europese documenten                                      Handmatig geclassificeerd                              ...
Document representatie●   Bekende methode:    –   tf-idf●   Methoden gebaseerd op kansen:    –   Language models (lijkt op...
Modellen (1)               tf-idf: gewichten                                                             Language models: ...
Modellen (2)    Parsimonious language models (PLM)●   Een PLM van een document geeft grote    kansen aan woorden die repre...
Classificatie●     Trainen:      –    Maak één groot document met alle teksten           gelabeld met hetzelfde trefwoord ...
Hoe vergelijk je document models?●   tf-idf: cosine similarity (voor vectoren)●   Parsimonious language model: Kullback-  ...
Resultaten (1)                           1    veterinairrechtelijke      0.0255717                           2    pluimvee...
Resultaten (2)                                               1    onderzoeksorganisme          -7.68776547255             ...
Resultaten (3)●   4166 trefwoord-document models getraind op 37.736    documenten●   Evaluatie op 4193 documenten:
Conclusie●   Information retrieval    methoden/zoektechnieken zijn bruikbaar voor    hulp bij classificatie
Vragen?
Upcoming SlideShare
Loading in …5
×

College sicco van-sas-2012_10_08

502 views
440 views

Published on

Sicco van Sas legt de basics van zijn methode en zijn resultaten uit.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
502
On SlideShare
0
From Embeds
0
Number of Embeds
179
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

College sicco van-sas-2012_10_08

  1. 1. Zoeken & Classificeren 05/10/2012 Sicco van Sas
  2. 2. Onderzoekmulti-label document classificatie
  3. 3. Duizenden Europese documenten Handmatig geclassificeerd met 6797 EuroVoc termen Pagina/document van http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
  4. 4. Document representatie● Bekende methode: – tf-idf● Methoden gebaseerd op kansen: – Language models (lijkt op tf) – Parsimonious language models (lijkt op tf-idf)
  5. 5. Modellen (1) tf-idf: gewichten Language models: kansenTabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.pptFiguur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
  6. 6. Modellen (2) Parsimonious language models (PLM)● Een PLM van een document geeft grote kansen aan woorden die representatief zijn voor dat document t.o.v. alle andere documenten● Resultaat: – Onbelangrijke (stop)woorden krijgen lage kansen – Belangrijke woorden krijgen hoge kansen
  7. 7. Classificatie● Trainen: – Maak één groot document met alle teksten gelabeld met hetzelfde trefwoord (de train set) – Maak PLMs voor de train set → Doc. models● Classificeren: – Maak PLM van de query (= nieuw ongeclassificeerd document) → Query model – Vergelijk het Query model met alle Doc. Models en rank de trefwoorden op basis van de uitkomsten → (c) Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html
  8. 8. Hoe vergelijk je document models?● tf-idf: cosine similarity (voor vectoren)● Parsimonious language model: Kullback- Leibler divergence (voor kansverdelingen)
  9. 9. Resultaten (1) 1 veterinairrechtelijke 0.0255717 2 pluimvee 0.0207526● PLM document model 3 paardachtigen 0.0169556 van trefwoord: 4 5 varkens vers 0.0155939 0.0145746 Gezondheidsinspectie 6 gezondheidsvoorschriften 0.0140261 7 aviaire 0.012024 8 tweekleppige 0.0118974 9 influenza 0.011844 10 weekdieren 0.0107946 11 gezondheidscertificaat 0.0106238 12 varkenspest 0.0100314 13 sperma 0.00935072 14 vhs 0.00913481 15 bijproducten 0.00903562 16 inrichtingen 0.00898603 17 tse 0.00814386 18 ihn 0.00758783 19 dierenarts 0.00742968 20 uitbraak 0.00684976
  10. 10. Resultaten (2) 1 onderzoeksorganisme -7.68776547255 2 gezondheid van dieren -7.68776547255 3 voederen van dieren -9.04806562605 4 financiële hulp -9.19973589586 5 ongeslacht dier -9.25318528525 6 dierenziekte -9.33555641504 7 Keuringsdienst van waren -9.37130385138 8 institutionele bevoegdheid -9.47657512926 9 diergeneeskunde -9.52245856492 10 hondsdolheid -9.60911754795 11 vaccin -9.65839296249 12 proef -9.67811120989 13 gezondheidsinspectie -9.71556344516 .. .. ..● Doc. geclassificeerd met 8 trefwoorden 18 veterinaire inspectie -9.88886184799 .. .. .. ● Mean Average Precision (MAP): 0.6342 39 welzijn van dieren -11.0388821786 ● R-precision: 0.5000
  11. 11. Resultaten (3)● 4166 trefwoord-document models getraind op 37.736 documenten● Evaluatie op 4193 documenten:
  12. 12. Conclusie● Information retrieval methoden/zoektechnieken zijn bruikbaar voor hulp bij classificatie
  13. 13. Vragen?

×