A prezentáció témája a ShiftTree névre hallgató, egyedi, model alapú idősor-osztályozó.
A ShiftTree az idősor-osztályozás problémájának egy egyedülálló, modell alapú megközelítése. Az elképzelés alapja, hogy minden idősorhoz egy szemet (kurzort) rendelünk, ami az időtengely egy adott pontjára mutat. Dinamikus attribútumokat hozunk létre úgy, hogy a következő két kérdésre válaszolunk: (1) Hová nézzünk az időtengelyen? (2) Mit nézzünk az adott pontban? Az első kérdésre adott válasz azt mondja meg, hogy hogyan mozgassuk a szemet az időtengely mentén. A második válasz pedig azt definiálja, hogy hogyan számoljuk ki a dinamikus attribútum értékét az adott pontban. Ezeket a dinamikus attribútumokat ezután egy bináris döntési fában használjuk fel.
Ez a diasor az alap ShiftTree algoritmus továbbfejlesztéséről és kiegészítéséről szól.
A prezentáció az M.Sc. diplomatervemhez, a védésére készült.
Deep learning to the rescue - solving long standing problems of recommender ...
ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)
1. MODELL ALAPÚ IDŐSOR-
OSZTÁLYOZÓ FEJLESZTÉSE ÉS
KITERJESZTÉSE
Hidasi Balázs (hidasib@freemail.hu)
Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu)
2011. JÚNIUS 21, BUDAPEST
2. SHIFTTREE ALGORITMUS
Idősor-osztályozó algoritmus
Bináris döntési fa alap
Dinamikusan előállított attribútumok
Hol nézzük? (időtengely)
Mit nézzünk? (számítások)
Előnyök
Modell alapúság előnyei Súlyozott átlag
Értelmezhető
Szakértői tudás nélkül is pontos
Szakértői tudással pontosabbá tehető
Hátrányok
Modell alapúság hátrányai
3. MODELL ÉPÍTÉS IDEJÉNEK CSÖKKENTÉSE
Tanítás során attribútum választás
Célfüggvény minimalizálása
Célfüggvény érték
Célfüggvény tulajdonságai
Adott rendezés mellett minimumok csak az
egybefüggő intervallumok szélén lehetnek
Minimum előre meghatározható
Nem léphetünk ki minimumnál, de… 0
Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél
Jelentősen csökken a célfüggvény értékének
meghatározásának száma
Futási idő átlagosan 22,33%-kal csökkent
Pl.: FordB – 3636 tanítóminta:
214,94s 173,52s (-19,27%)
Pl.: CBF – 30 tanítóminta:
0,246s 0,145s (-41,18%)
Pl.: Beef – 30 tanítóminta
0,574s 0,517s (-9,9%)
4. FEJLESZTÉSEK A PONTOSSÁG NÖVELÉSÉRE
Operátorkészlet jelentős kibővítése
Heurisztika egyezően jó attribútum jelöltek közüli
választásra
Legyen maximális a határsáv
Eltérő nagyságrendek miatt normalizálás
100%
90%
80%
Alap algoritmus
70%
Pontosság
60%
Bővített
50% operátorkészlet
40% Heurisztikával
30%
20% DTW 1-NN
10%
0%
Átlagos Nagy adatsorokra
Nyesés
Több módszer kipróbálása
Romlott a pontosság
Más módszerekhez viszont szükség van rájuk
5. MODELLEK KOMBINÁLÁSA
Több modell építése
Címkézésnél súlyozott szavazás
Hatékony, ha a modellek önmagukban pontosak és az egyes
modellek eltérőek (más mintákat osztályoznak jól)
Boosting
Súlyok a tanítómintákhoz
Felépített modell kiértékelése a tanítómintákon
Modell súly
Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!)
Klasszikus AdaBoost követelmény: pontosság a tanítómintán
minimum 50% (és kevesebb, mint 100%)
SAMME: minimális pontosság követelmény csak 1/(osztályok
száma)
XV
Egyszerű kombinálás, keresztvalidáción alapul
Tanítóhalmaz véletlenszerű szétbontása, csak egy részén
tanul, másik részén kiértékel
Pontosság modell súlya
6. KOMBINÁLT MODELLEK EREDMÉNYEI
Boosting vagy XV?
Bizonyos esetekben a boosting leáll
„Tökéletes” modell a tanítóhalmazon
Főleg kis tanítóminták mellett
Ilyenkor az XV még segíthet
100% 93.32% 92.75% 93.65%
89.16%
90%
80%
70%
Pontosság
60% Egy modell
50% Boosting
40% XV
30% Kombinált
20%
10%
0%
7. OSZTÁLYOZÁSI KONFIDENCIA
Mennyire biztos a modellünk a kimenetben
Levél (csomópont) konfidencia
Pl. többségi osztály aránya a levélben (nyesés!)
Útvonal konfidencia
Osztályozási útvonalon a konfidenciák (súlyozott) összegzése
Egyfajta nyesési eljárás
On-line tanulás (újratanulás)
Teljes modellépítés helyett a modell kisméretű
megváltoztatása
Útvonal konfidencia, mint dinamikus nyesés
75.00% Arányok változásával változik a nyesés
74.00%
73.00%
Pontosság
72.00%
71.00%
70.00%
69.00%
68.00%
67.00%
66.00%
1 2 3 4 5 6 7 8
Iterációszám
8. ÖSSZEFOGLALÁS
Modell alapú idősor-osztályozó döntési fa alapon
Tanítás gyorsítása: -22% futási idő
Pontosság növelése
Új operátorok
Attribútum választási heurisztika
Kombinált modellek
On-line tanulás teljes modellépítés helyett
Útvonal konfidenciák használatával
Fejlesztési lehetőségek
Streamben jelfelismerés (csúszóablakos megoldás)
Az elv alapján bármilyen félig-struktúrált/struktúrált
adat osztályozására kiterjeszthető
További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon: