Your SlideShare is downloading. ×
College sicco van-sas-2012_10_08
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

College sicco van-sas-2012_10_08

305
views

Published on

Sicco van Sas legt de basics van zijn methode en zijn resultaten uit.

Sicco van Sas legt de basics van zijn methode en zijn resultaten uit.

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
305
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Zoeken & Classificeren 05/10/2012 Sicco van Sas
  • 2. Onderzoekmulti-label document classificatie
  • 3. Duizenden Europese documenten Handmatig geclassificeerd met 6797 EuroVoc termen Pagina/document van http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
  • 4. Document representatie● Bekende methode: – tf-idf● Methoden gebaseerd op kansen: – Language models (lijkt op tf) – Parsimonious language models (lijkt op tf-idf)
  • 5. Modellen (1) tf-idf: gewichten Language models: kansenTabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.pptFiguur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
  • 6. Modellen (2) Parsimonious language models (PLM)● Een PLM van een document geeft grote kansen aan woorden die representatief zijn voor dat document t.o.v. alle andere documenten● Resultaat: – Onbelangrijke (stop)woorden krijgen lage kansen – Belangrijke woorden krijgen hoge kansen
  • 7. Classificatie● Trainen: – Maak één groot document met alle teksten gelabeld met hetzelfde trefwoord (de train set) – Maak PLMs voor de train set → Doc. models● Classificeren: – Maak PLM van de query (= nieuw ongeclassificeerd document) → Query model – Vergelijk het Query model met alle Doc. Models en rank de trefwoorden op basis van de uitkomsten → (c) Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html
  • 8. Hoe vergelijk je document models?● tf-idf: cosine similarity (voor vectoren)● Parsimonious language model: Kullback- Leibler divergence (voor kansverdelingen)
  • 9. Resultaten (1) 1 veterinairrechtelijke 0.0255717 2 pluimvee 0.0207526● PLM document model 3 paardachtigen 0.0169556 van trefwoord: 4 5 varkens vers 0.0155939 0.0145746 Gezondheidsinspectie 6 gezondheidsvoorschriften 0.0140261 7 aviaire 0.012024 8 tweekleppige 0.0118974 9 influenza 0.011844 10 weekdieren 0.0107946 11 gezondheidscertificaat 0.0106238 12 varkenspest 0.0100314 13 sperma 0.00935072 14 vhs 0.00913481 15 bijproducten 0.00903562 16 inrichtingen 0.00898603 17 tse 0.00814386 18 ihn 0.00758783 19 dierenarts 0.00742968 20 uitbraak 0.00684976
  • 10. Resultaten (2) 1 onderzoeksorganisme -7.68776547255 2 gezondheid van dieren -7.68776547255 3 voederen van dieren -9.04806562605 4 financiële hulp -9.19973589586 5 ongeslacht dier -9.25318528525 6 dierenziekte -9.33555641504 7 Keuringsdienst van waren -9.37130385138 8 institutionele bevoegdheid -9.47657512926 9 diergeneeskunde -9.52245856492 10 hondsdolheid -9.60911754795 11 vaccin -9.65839296249 12 proef -9.67811120989 13 gezondheidsinspectie -9.71556344516 .. .. ..● Doc. geclassificeerd met 8 trefwoorden 18 veterinaire inspectie -9.88886184799 .. .. .. ● Mean Average Precision (MAP): 0.6342 39 welzijn van dieren -11.0388821786 ● R-precision: 0.5000
  • 11. Resultaten (3)● 4166 trefwoord-document models getraind op 37.736 documenten● Evaluatie op 4193 documenten:
  • 12. Conclusie● Information retrieval methoden/zoektechnieken zijn bruikbaar voor hulp bij classificatie
  • 13. Vragen?

×