2. [ Tartalom ]
Mi az a kiértékelés és mire jó?
Egy kiértékelés menetének vázolása Mánuel
NER rendszereivel
Célok és felfedeznivalók
Feladatspeciális kiértékelő mérőszámok
Korpuszméret kérdése
Újramintavételezés
Statisztikai tesztek
Stb.
3. [ Mi az a kiértékelés? ]
Az a része a fejlesztői munkának, mikor a
modell(eke)t lefuttatjuk a teszt adathalmazon,
és a kapott eredményeket számszerűsítjük,
összehasonlítjuk
Teljesítmény mérése
5. [ Miért jó, ha van kiértékelés? ]
Saját munkánk eredményességének
ellenőrzése
Ha nem megfelelőek az eredmények
változtatás (modellen, korpuszon)
kiértékelés …
Modellek közötti döntés
Viszonyítás mások eredményeihez, mások
saját eredményeinek viszonyítása a miénkhez
Eszköz megbízhatóságának biztosítása
Minőségi, professzionális munkamenet
biztosítása
6. [ Kiértékelés vázlat I. – Mánuel
NER]
Tanuló adathalmaz: hunNERwiki (19 108 597
token) 80%
Teszt adathalmaz: hunNERwiki 20%, Szeged
NER (200 000 token) 100%
Kétféle NER rendszer:
Négy névelem kategória egy modellben trénelve
Névelem kategóriák külön-külön modellekben
8. [ Célok ]
Rutin- és benyomásszerzés:
A kiértékelés menetéről
A kiértékelést befolyásoló tényezőkről (pl.
korpuszméret, modell komplexitás)
A feladatspeciális statisztikákról, eljárásokról
A jövőben minden fejlesztéshez legyen kiértékelő
riport
9. [ Kutatni- és felfedeznivalók ]
Korpuszméret kérdése
A 80-20-as felosztás összehasonlítása az
újramintavételezési módszerekkel
Feladatspeciális kiértékelő mérőszámok és
módszerek
Különböző modellek összehasonlítására
használt statisztikai tesztek
11. [ Feladatspeciális kiértékelés ]
A különböző feladatok (pl. névelem-felismerés,
szentimentelemzés, helyesírásellenőrzés- és
javítás stb.) tipikusan használt mérőszámai,
kiértékeléshez használt egységei eltérőek stb.
A különböző kiértékelő statisztikák eltérő
eredményt mutatnak a különböző
algoritmusokról
12.
13. [ Újramintavételezés ]
Keresztvalidáció, k-szoros keresztvalidáció,
leave-one-out, bootstrap stb.
Milyen esetekben lehet hasznos? pl. kis minta,
kategóriák ferde eloszlása
Mik a veszélyei? pl. függetlenség megsértése
14. [ Statisztikai tesztek ]
T-statisztika, Kruskal-Wallis teszt, Wilcoxon
teszt, ANOVA stb.
Osztályozó algoritmusok összehasonlítása
Az osztályozó valós jellemzőinek vagy a
véletlennek tudhatók be a megfigyelt
eredmények?
Hány osztályozó, hány kategória?
Paraméteres vs. nem-paraméteres eljárások
15. [ Kiértékeléshez használt
eszközök]
R statisztikai programnyelv
Kiértékelő mérőszámok könnyen
implementálhatók
Újramintavételezéshez, statisztikai tesztekhez
függvények
Vizualizációhoz: ROCR package (ROC görbe,
költséggörbe, P-R görbe stb.)
16. [ Irodalom, egyéb források ]
AN, Joohui – LEE, Seungwoo – LEE, Gary Geunbae (2003): Automatic Acquisition of
Named Entity Tagged Corpus from World WideWeb. Elérhető:
http://www.aclweb.org/anthology/P03-2031
BANKO, Michele – BRILL, Eric (2001): Mitigating the Paucity-of-Data Problem:
Exploring the Effect of Training Corpus Size on Classifier Performance for Natural
Language Processing. Elérhető:
http://research.microsoft.com/pubs/68846/hlt2001.pdf?origin=publication_detail
FU, Ruiji – QIN, Bing - LIU, Ting (2011): Generating Chinese Named Entity Data from
a Parallel Corpus. Elérhető: http://www.mt-archive.info/IJCNLP-2011-Fu.pdf
DOMINGO, Pedro (2012): A Few Useful Things to Know about Machine Learning.
Elérhető: http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf
JAPKOWICZ, Nathalie: Performance Evaluation for Learning Algorithms c. előadás
diasora. Elérhető: http://www.icmla-conference.org/icmla11/PE_Tutorial.pdf
hunNERwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html
Szeged NER: http://metashare.nytud.hu/repository/browse/szeged-named-entity-recognition-corpus/
d393c5426baa11e2aa7c68b599c26a06d1b81774ba7e40b1bc095fab480ae77e
/