Advertisement

ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)

Head of Data Mining and Research at Gravity R&D
Feb. 10, 2013
Advertisement

More Related Content

Advertisement

ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)

  1. MODELL ALAPÚ IDŐSOR- OSZTÁLYOZÓ FEJLESZTÉSE ÉS KITERJESZTÉSE Hidasi Balázs (hidasib@freemail.hu) Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu) 2011. JÚNIUS 21, BUDAPEST
  2. SHIFTTREE ALGORITMUS  Idősor-osztályozó algoritmus  Bináris döntési fa alap  Dinamikusan előállított attribútumok  Hol nézzük? (időtengely)  Mit nézzünk? (számítások)  Előnyök  Modell alapúság előnyei Súlyozott átlag  Értelmezhető  Szakértői tudás nélkül is pontos  Szakértői tudással pontosabbá tehető  Hátrányok  Modell alapúság hátrányai
  3. MODELL ÉPÍTÉS IDEJÉNEK CSÖKKENTÉSE  Tanítás során attribútum választás  Célfüggvény minimalizálása Célfüggvény érték  Célfüggvény tulajdonságai  Adott rendezés mellett minimumok csak az egybefüggő intervallumok szélén lehetnek  Minimum előre meghatározható  Nem léphetünk ki minimumnál, de… 0  Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél  Jelentősen csökken a célfüggvény értékének meghatározásának száma  Futási idő átlagosan 22,33%-kal csökkent  Pl.: FordB – 3636 tanítóminta:  214,94s  173,52s (-19,27%)  Pl.: CBF – 30 tanítóminta:  0,246s  0,145s (-41,18%)  Pl.: Beef – 30 tanítóminta  0,574s  0,517s (-9,9%)
  4. FEJLESZTÉSEK A PONTOSSÁG NÖVELÉSÉRE  Operátorkészlet jelentős kibővítése  Heurisztika egyezően jó attribútum jelöltek közüli választásra  Legyen maximális a határsáv  Eltérő nagyságrendek miatt normalizálás 100% 90% 80% Alap algoritmus 70% Pontosság 60% Bővített 50% operátorkészlet 40% Heurisztikával 30% 20% DTW 1-NN 10% 0% Átlagos Nagy adatsorokra  Nyesés  Több módszer kipróbálása  Romlott a pontosság  Más módszerekhez viszont szükség van rájuk
  5. MODELLEK KOMBINÁLÁSA  Több modell építése  Címkézésnél súlyozott szavazás  Hatékony, ha a modellek önmagukban pontosak és az egyes modellek eltérőek (más mintákat osztályoznak jól)  Boosting  Súlyok a tanítómintákhoz  Felépített modell kiértékelése a tanítómintákon  Modell súly  Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!)  Klasszikus AdaBoost követelmény: pontosság a tanítómintán minimum 50% (és kevesebb, mint 100%)  SAMME: minimális pontosság követelmény csak 1/(osztályok száma)  XV  Egyszerű kombinálás, keresztvalidáción alapul  Tanítóhalmaz véletlenszerű szétbontása, csak egy részén tanul, másik részén kiértékel  Pontosság  modell súlya
  6. KOMBINÁLT MODELLEK EREDMÉNYEI  Boosting vagy XV?  Bizonyos esetekben a boosting leáll  „Tökéletes” modell a tanítóhalmazon  Főleg kis tanítóminták mellett  Ilyenkor az XV még segíthet 100% 93.32% 92.75% 93.65% 89.16% 90% 80% 70% Pontosság 60% Egy modell 50% Boosting 40% XV 30% Kombinált 20% 10% 0%
  7. OSZTÁLYOZÁSI KONFIDENCIA  Mennyire biztos a modellünk a kimenetben  Levél (csomópont) konfidencia  Pl. többségi osztály aránya a levélben (nyesés!)  Útvonal konfidencia  Osztályozási útvonalon a konfidenciák (súlyozott) összegzése  Egyfajta nyesési eljárás  On-line tanulás (újratanulás)  Teljes modellépítés helyett a modell kisméretű megváltoztatása  Útvonal konfidencia, mint dinamikus nyesés 75.00%  Arányok változásával változik a nyesés 74.00% 73.00% Pontosság 72.00% 71.00% 70.00% 69.00% 68.00% 67.00% 66.00% 1 2 3 4 5 6 7 8 Iterációszám
  8. ÖSSZEFOGLALÁS  Modell alapú idősor-osztályozó döntési fa alapon  Tanítás gyorsítása: -22% futási idő  Pontosság növelése  Új operátorok  Attribútum választási heurisztika  Kombinált modellek  On-line tanulás teljes modellépítés helyett  Útvonal konfidenciák használatával  Fejlesztési lehetőségek  Streamben jelfelismerés (csúszóablakos megoldás)  Az elv alapján bármilyen félig-struktúrált/struktúrált adat osztályozására kiterjeszthető További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon:
Advertisement