SlideShare a Scribd company logo
1 of 16
MACHINE LEARNING 
ALGORITMUSOK 
KIÉRTÉKELÉSE 
BALOGH KITTI, PRECOGNOX, 2014.12.12.
[ Tartalom ] 
 Mi az a kiértékelés és mire jó? 
 Egy kiértékelés menetének vázolása Mánuel 
NER rendszereivel 
 Célok és felfedeznivalók 
 Feladatspeciális kiértékelő mérőszámok 
 Korpuszméret kérdése 
 Újramintavételezés 
 Statisztikai tesztek 
 Stb.
[ Mi az a kiértékelés? ] 
 Az a része a fejlesztői munkának, mikor a 
modell(eke)t lefuttatjuk a teszt adathalmazon, 
és a kapott eredményeket számszerűsítjük, 
összehasonlítjuk 
 Teljesítmény mérése
Teszt kategóriái 
A (pozitív) B (negatív) 
퐏퐨퐳퐢퐭í퐯 
퐥퐢퐤퐞퐥퐢퐡퐨퐨퐝 
퐡á퐧퐲퐚퐝퐨퐬 (퐋퐑+) 
= 
퐓퐏 퐚퐫á퐧퐲 
퐅퐏 퐚퐫á퐧퐲 
퐍퐞퐠퐚퐭í퐯 
퐥퐢퐤퐞퐥퐢퐡퐨퐨퐝 
퐡á퐧퐲퐚퐝퐨퐬 (퐋퐑−) 
= 
퐅퐏 퐚퐫á퐧퐲 
퐓퐏 퐚퐫á퐧퐲 
Etalon / 
valós állapot 
A (poz.) 
TP = valós 
pozitív 
FN = hamis 
negatív 
퐓퐏 퐚퐫á퐧퐲 
/ 퐒퐳퐞퐧퐳퐢퐭퐢퐯퐢퐭á퐬 
/ 퐅퐞퐥퐢퐝é퐳é퐬 
= 
퐓퐏 
퐓퐏 + 퐅퐍 
퐅퐍 퐚퐫á퐧퐲 = 
퐅퐍 
퐏 
B (neg.) 
FP = hamis 
pozitív 
TN = valós 
negatív 
퐅퐏 퐚퐫á퐧퐲/ 퐒퐞퐥퐞퐣퐭 
= 
퐅퐏 
퐍 
퐓퐍 퐚퐫á퐧퐲 
/퐒퐩퐞퐜퐢퐟퐢퐭á퐬 = 
퐓퐍 
퐍 
퐏퐫퐞퐯퐚퐥퐞퐧퐜퐢퐚 = 
퐏 
퐭퐨퐭퐚퐥 
퐏퐫퐞퐜퐢퐳퐢퐭á퐬 = 
퐓퐏 
퐏 
퐇퐚퐦퐢퐬 퐤퐢퐡퐚퐠퐲á퐬 
퐚퐫á퐧퐲 = 
퐅퐍 
퐍 
퐏퐨퐧퐭퐨퐬퐬á퐠 
= 
퐓퐏 + 퐓퐍 
퐭퐨퐭퐚퐥 
퐃퐢퐚퐠퐧퐨퐬퐳퐭퐢퐤퐚퐢 
퐞퐬é퐥퐲퐡á퐧퐲퐚퐝퐨퐬 
= 
퐋퐑 + 
퐋퐑 − 
퐇퐚퐦퐢퐬 퐟퐞퐥퐟퐞퐝퐞퐳é퐬 
퐚퐫á퐧퐲 = 
퐅퐏 
퐏 
퐍퐞퐠퐚퐭í퐯 퐩퐫퐞퐝퐢퐤퐭í퐯 
é퐫퐭é퐤 = 
퐓퐍 
퐍 
퐇퐢퐛퐚퐚퐫á퐧퐲 
= 
퐅퐏 + 퐅퐍 
퐭퐨퐭퐚퐥
[ Miért jó, ha van kiértékelés? ] 
 Saját munkánk eredményességének 
ellenőrzése 
 Ha nem megfelelőek az eredmények  
változtatás (modellen, korpuszon)  
kiértékelés  … 
 Modellek közötti döntés 
 Viszonyítás mások eredményeihez, mások 
saját eredményeinek viszonyítása a miénkhez 
 Eszköz megbízhatóságának biztosítása 
 Minőségi, professzionális munkamenet 
biztosítása
[ Kiértékelés vázlat I. – Mánuel 
NER] 
 Tanuló adathalmaz: hunNERwiki (19 108 597 
token) 80% 
 Teszt adathalmaz: hunNERwiki 20%, Szeged 
NER (200 000 token) 100% 
 Kétféle NER rendszer: 
 Négy névelem kategória egy modellben trénelve 
 Névelem kategóriák külön-külön modellekben
[ Kiértékelés vázlat II. – Mánuel 
NER]
[ Célok ] 
 Rutin- és benyomásszerzés: 
 A kiértékelés menetéről 
 A kiértékelést befolyásoló tényezőkről (pl. 
korpuszméret, modell komplexitás) 
 A feladatspeciális statisztikákról, eljárásokról 
 A jövőben minden fejlesztéshez legyen kiértékelő 
riport
[ Kutatni- és felfedeznivalók ] 
 Korpuszméret kérdése 
 A 80-20-as felosztás összehasonlítása az 
újramintavételezési módszerekkel 
 Feladatspeciális kiértékelő mérőszámok és 
módszerek 
 Különböző modellek összehasonlítására 
használt statisztikai tesztek
[ Korpusz és hatékonyság ]
[ Feladatspeciális kiértékelés ] 
 A különböző feladatok (pl. névelem-felismerés, 
szentimentelemzés, helyesírásellenőrzés- és 
javítás stb.) tipikusan használt mérőszámai, 
kiértékeléshez használt egységei eltérőek stb. 
 A különböző kiértékelő statisztikák eltérő 
eredményt mutatnak a különböző 
algoritmusokról
[ Újramintavételezés ] 
 Keresztvalidáció, k-szoros keresztvalidáció, 
leave-one-out, bootstrap stb. 
 Milyen esetekben lehet hasznos? pl. kis minta, 
kategóriák ferde eloszlása 
 Mik a veszélyei? pl. függetlenség megsértése
[ Statisztikai tesztek ] 
 T-statisztika, Kruskal-Wallis teszt, Wilcoxon 
teszt, ANOVA stb. 
 Osztályozó algoritmusok összehasonlítása 
 Az osztályozó valós jellemzőinek vagy a 
véletlennek tudhatók be a megfigyelt 
eredmények? 
 Hány osztályozó, hány kategória? 
 Paraméteres vs. nem-paraméteres eljárások
[ Kiértékeléshez használt 
eszközök] 
 R statisztikai programnyelv 
 Kiértékelő mérőszámok könnyen 
implementálhatók 
 Újramintavételezéshez, statisztikai tesztekhez 
függvények 
 Vizualizációhoz: ROCR package (ROC görbe, 
költséggörbe, P-R görbe stb.)
[ Irodalom, egyéb források ] 
 AN, Joohui – LEE, Seungwoo – LEE, Gary Geunbae (2003): Automatic Acquisition of 
Named Entity Tagged Corpus from World WideWeb. Elérhető: 
http://www.aclweb.org/anthology/P03-2031 
 BANKO, Michele – BRILL, Eric (2001): Mitigating the Paucity-of-Data Problem: 
Exploring the Effect of Training Corpus Size on Classifier Performance for Natural 
Language Processing. Elérhető: 
http://research.microsoft.com/pubs/68846/hlt2001.pdf?origin=publication_detail 
 FU, Ruiji – QIN, Bing - LIU, Ting (2011): Generating Chinese Named Entity Data from 
a Parallel Corpus. Elérhető: http://www.mt-archive.info/IJCNLP-2011-Fu.pdf 
 DOMINGO, Pedro (2012): A Few Useful Things to Know about Machine Learning. 
Elérhető: http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf 
 JAPKOWICZ, Nathalie: Performance Evaluation for Learning Algorithms c. előadás 
diasora. Elérhető: http://www.icmla-conference.org/icmla11/PE_Tutorial.pdf 
 hunNERwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html 
 Szeged NER: http://metashare.nytud.hu/repository/browse/szeged-named-entity-recognition-corpus/ 
d393c5426baa11e2aa7c68b599c26a06d1b81774ba7e40b1bc095fab480ae77e 
/

More Related Content

More from Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 

More from Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 

Balogh Kitti: Machine learning algoritmusok kiértékelése

  • 1. MACHINE LEARNING ALGORITMUSOK KIÉRTÉKELÉSE BALOGH KITTI, PRECOGNOX, 2014.12.12.
  • 2. [ Tartalom ]  Mi az a kiértékelés és mire jó?  Egy kiértékelés menetének vázolása Mánuel NER rendszereivel  Célok és felfedeznivalók  Feladatspeciális kiértékelő mérőszámok  Korpuszméret kérdése  Újramintavételezés  Statisztikai tesztek  Stb.
  • 3. [ Mi az a kiértékelés? ]  Az a része a fejlesztői munkának, mikor a modell(eke)t lefuttatjuk a teszt adathalmazon, és a kapott eredményeket számszerűsítjük, összehasonlítjuk  Teljesítmény mérése
  • 4. Teszt kategóriái A (pozitív) B (negatív) 퐏퐨퐳퐢퐭í퐯 퐥퐢퐤퐞퐥퐢퐡퐨퐨퐝 퐡á퐧퐲퐚퐝퐨퐬 (퐋퐑+) = 퐓퐏 퐚퐫á퐧퐲 퐅퐏 퐚퐫á퐧퐲 퐍퐞퐠퐚퐭í퐯 퐥퐢퐤퐞퐥퐢퐡퐨퐨퐝 퐡á퐧퐲퐚퐝퐨퐬 (퐋퐑−) = 퐅퐏 퐚퐫á퐧퐲 퐓퐏 퐚퐫á퐧퐲 Etalon / valós állapot A (poz.) TP = valós pozitív FN = hamis negatív 퐓퐏 퐚퐫á퐧퐲 / 퐒퐳퐞퐧퐳퐢퐭퐢퐯퐢퐭á퐬 / 퐅퐞퐥퐢퐝é퐳é퐬 = 퐓퐏 퐓퐏 + 퐅퐍 퐅퐍 퐚퐫á퐧퐲 = 퐅퐍 퐏 B (neg.) FP = hamis pozitív TN = valós negatív 퐅퐏 퐚퐫á퐧퐲/ 퐒퐞퐥퐞퐣퐭 = 퐅퐏 퐍 퐓퐍 퐚퐫á퐧퐲 /퐒퐩퐞퐜퐢퐟퐢퐭á퐬 = 퐓퐍 퐍 퐏퐫퐞퐯퐚퐥퐞퐧퐜퐢퐚 = 퐏 퐭퐨퐭퐚퐥 퐏퐫퐞퐜퐢퐳퐢퐭á퐬 = 퐓퐏 퐏 퐇퐚퐦퐢퐬 퐤퐢퐡퐚퐠퐲á퐬 퐚퐫á퐧퐲 = 퐅퐍 퐍 퐏퐨퐧퐭퐨퐬퐬á퐠 = 퐓퐏 + 퐓퐍 퐭퐨퐭퐚퐥 퐃퐢퐚퐠퐧퐨퐬퐳퐭퐢퐤퐚퐢 퐞퐬é퐥퐲퐡á퐧퐲퐚퐝퐨퐬 = 퐋퐑 + 퐋퐑 − 퐇퐚퐦퐢퐬 퐟퐞퐥퐟퐞퐝퐞퐳é퐬 퐚퐫á퐧퐲 = 퐅퐏 퐏 퐍퐞퐠퐚퐭í퐯 퐩퐫퐞퐝퐢퐤퐭í퐯 é퐫퐭é퐤 = 퐓퐍 퐍 퐇퐢퐛퐚퐚퐫á퐧퐲 = 퐅퐏 + 퐅퐍 퐭퐨퐭퐚퐥
  • 5. [ Miért jó, ha van kiértékelés? ]  Saját munkánk eredményességének ellenőrzése  Ha nem megfelelőek az eredmények  változtatás (modellen, korpuszon)  kiértékelés  …  Modellek közötti döntés  Viszonyítás mások eredményeihez, mások saját eredményeinek viszonyítása a miénkhez  Eszköz megbízhatóságának biztosítása  Minőségi, professzionális munkamenet biztosítása
  • 6. [ Kiértékelés vázlat I. – Mánuel NER]  Tanuló adathalmaz: hunNERwiki (19 108 597 token) 80%  Teszt adathalmaz: hunNERwiki 20%, Szeged NER (200 000 token) 100%  Kétféle NER rendszer:  Négy névelem kategória egy modellben trénelve  Névelem kategóriák külön-külön modellekben
  • 7. [ Kiértékelés vázlat II. – Mánuel NER]
  • 8. [ Célok ]  Rutin- és benyomásszerzés:  A kiértékelés menetéről  A kiértékelést befolyásoló tényezőkről (pl. korpuszméret, modell komplexitás)  A feladatspeciális statisztikákról, eljárásokról  A jövőben minden fejlesztéshez legyen kiértékelő riport
  • 9. [ Kutatni- és felfedeznivalók ]  Korpuszméret kérdése  A 80-20-as felosztás összehasonlítása az újramintavételezési módszerekkel  Feladatspeciális kiértékelő mérőszámok és módszerek  Különböző modellek összehasonlítására használt statisztikai tesztek
  • 10. [ Korpusz és hatékonyság ]
  • 11. [ Feladatspeciális kiértékelés ]  A különböző feladatok (pl. névelem-felismerés, szentimentelemzés, helyesírásellenőrzés- és javítás stb.) tipikusan használt mérőszámai, kiértékeléshez használt egységei eltérőek stb.  A különböző kiértékelő statisztikák eltérő eredményt mutatnak a különböző algoritmusokról
  • 12.
  • 13. [ Újramintavételezés ]  Keresztvalidáció, k-szoros keresztvalidáció, leave-one-out, bootstrap stb.  Milyen esetekben lehet hasznos? pl. kis minta, kategóriák ferde eloszlása  Mik a veszélyei? pl. függetlenség megsértése
  • 14. [ Statisztikai tesztek ]  T-statisztika, Kruskal-Wallis teszt, Wilcoxon teszt, ANOVA stb.  Osztályozó algoritmusok összehasonlítása  Az osztályozó valós jellemzőinek vagy a véletlennek tudhatók be a megfigyelt eredmények?  Hány osztályozó, hány kategória?  Paraméteres vs. nem-paraméteres eljárások
  • 15. [ Kiértékeléshez használt eszközök]  R statisztikai programnyelv  Kiértékelő mérőszámok könnyen implementálhatók  Újramintavételezéshez, statisztikai tesztekhez függvények  Vizualizációhoz: ROCR package (ROC görbe, költséggörbe, P-R görbe stb.)
  • 16. [ Irodalom, egyéb források ]  AN, Joohui – LEE, Seungwoo – LEE, Gary Geunbae (2003): Automatic Acquisition of Named Entity Tagged Corpus from World WideWeb. Elérhető: http://www.aclweb.org/anthology/P03-2031  BANKO, Michele – BRILL, Eric (2001): Mitigating the Paucity-of-Data Problem: Exploring the Effect of Training Corpus Size on Classifier Performance for Natural Language Processing. Elérhető: http://research.microsoft.com/pubs/68846/hlt2001.pdf?origin=publication_detail  FU, Ruiji – QIN, Bing - LIU, Ting (2011): Generating Chinese Named Entity Data from a Parallel Corpus. Elérhető: http://www.mt-archive.info/IJCNLP-2011-Fu.pdf  DOMINGO, Pedro (2012): A Few Useful Things to Know about Machine Learning. Elérhető: http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf  JAPKOWICZ, Nathalie: Performance Evaluation for Learning Algorithms c. előadás diasora. Elérhető: http://www.icmla-conference.org/icmla11/PE_Tutorial.pdf  hunNERwiki: http://hlt.sztaki.hu/resources/hunnerwiki.html  Szeged NER: http://metashare.nytud.hu/repository/browse/szeged-named-entity-recognition-corpus/ d393c5426baa11e2aa7c68b599c26a06d1b81774ba7e40b1bc095fab480ae77e /