Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)

331 views

Published on

A prezentáció témája a ShiftTree névre hallgató, egyedi, model alapú idősor-osztályozó.
A ShiftTree az idősor-osztályozás problémájának egy egyedülálló, modell alapú megközelítése. Az elképzelés alapja, hogy minden idősorhoz egy szemet (kurzort) rendelünk, ami az időtengely egy adott pontjára mutat. Dinamikus attribútumokat hozunk létre úgy, hogy a következő két kérdésre válaszolunk: (1) Hová nézzünk az időtengelyen? (2) Mit nézzünk az adott pontban? Az első kérdésre adott válasz azt mondja meg, hogy hogyan mozgassuk a szemet az időtengely mentén. A második válasz pedig azt definiálja, hogy hogyan számoljuk ki a dinamikus attribútum értékét az adott pontban. Ezeket a dinamikus attribútumokat ezután egy bináris döntési fában használjuk fel.
Ez a diasor az alap ShiftTree algoritmus továbbfejlesztéséről és kiegészítéséről szól.
A prezentáció az M.Sc. diplomatervemhez, a védésére készült.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)

  1. 1. MODELL ALAPÚ IDŐSOR-OSZTÁLYOZÓ FEJLESZTÉSE ÉSKITERJESZTÉSEHidasi Balázs (hidasib@freemail.hu)Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu)2011. JÚNIUS 21, BUDAPEST
  2. 2. SHIFTTREE ALGORITMUS Idősor-osztályozó algoritmus Bináris döntési fa alap Dinamikusan előállított attribútumok  Hol nézzük? (időtengely)  Mit nézzünk? (számítások) Előnyök  Modell alapúság előnyei Súlyozott átlag  Értelmezhető  Szakértői tudás nélkül is pontos  Szakértői tudással pontosabbá tehető Hátrányok  Modell alapúság hátrányai
  3. 3. MODELL ÉPÍTÉS IDEJÉNEK CSÖKKENTÉSE Tanítás során attribútum választás  Célfüggvény minimalizálása Célfüggvény érték Célfüggvény tulajdonságai  Adott rendezés mellett minimumok csak az egybefüggő intervallumok szélén lehetnek  Minimum előre meghatározható  Nem léphetünk ki minimumnál, de… 0  Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél Jelentősen csökken a célfüggvény értékének meghatározásának száma Futási idő átlagosan 22,33%-kal csökkent  Pl.: FordB – 3636 tanítóminta:  214,94s  173,52s (-19,27%)  Pl.: CBF – 30 tanítóminta:  0,246s  0,145s (-41,18%)  Pl.: Beef – 30 tanítóminta  0,574s  0,517s (-9,9%)
  4. 4. FEJLESZTÉSEK A PONTOSSÁG NÖVELÉSÉRE Operátorkészlet jelentős kibővítése Heurisztika egyezően jó attribútum jelöltek közüli választásra  Legyen maximális a határsáv  Eltérő nagyságrendek miatt normalizálás 100% 90% 80% Alap algoritmus 70% Pontosság 60% Bővített 50% operátorkészlet 40% Heurisztikával 30% 20% DTW 1-NN 10% 0% Átlagos Nagy adatsorokra Nyesés  Több módszer kipróbálása  Romlott a pontosság  Más módszerekhez viszont szükség van rájuk
  5. 5. MODELLEK KOMBINÁLÁSA Több modell építése  Címkézésnél súlyozott szavazás  Hatékony, ha a modellek önmagukban pontosak és az egyes modellek eltérőek (más mintákat osztályoznak jól) Boosting  Súlyok a tanítómintákhoz  Felépített modell kiértékelése a tanítómintákon  Modell súly  Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!)  Klasszikus AdaBoost követelmény: pontosság a tanítómintán minimum 50% (és kevesebb, mint 100%)  SAMME: minimális pontosság követelmény csak 1/(osztályok száma) XV  Egyszerű kombinálás, keresztvalidáción alapul  Tanítóhalmaz véletlenszerű szétbontása, csak egy részén tanul, másik részén kiértékel  Pontosság  modell súlya
  6. 6. KOMBINÁLT MODELLEK EREDMÉNYEI Boosting vagy XV?  Bizonyos esetekben a boosting leáll  „Tökéletes” modell a tanítóhalmazon  Főleg kis tanítóminták mellett  Ilyenkor az XV még segíthet 100% 93.32% 92.75% 93.65% 89.16% 90% 80% 70% Pontosság 60% Egy modell 50% Boosting 40% XV 30% Kombinált 20% 10% 0%
  7. 7. OSZTÁLYOZÁSI KONFIDENCIA Mennyire biztos a modellünk a kimenetben  Levél (csomópont) konfidencia  Pl. többségi osztály aránya a levélben (nyesés!)  Útvonal konfidencia  Osztályozási útvonalon a konfidenciák (súlyozott) összegzése  Egyfajta nyesési eljárás On-line tanulás (újratanulás)  Teljes modellépítés helyett a modell kisméretű megváltoztatása  Útvonal konfidencia, mint dinamikus nyesés 75.00%  Arányok változásával változik a nyesés 74.00% 73.00%Pontosság 72.00% 71.00% 70.00% 69.00% 68.00% 67.00% 66.00% 1 2 3 4 5 6 7 8 Iterációszám
  8. 8. ÖSSZEFOGLALÁS  Modell alapú idősor-osztályozó döntési fa alapon  Tanítás gyorsítása: -22% futási idő  Pontosság növelése  Új operátorok  Attribútum választási heurisztika  Kombinált modellek  On-line tanulás teljes modellépítés helyett  Útvonal konfidenciák használatával  Fejlesztési lehetőségek  Streamben jelfelismerés (csúszóablakos megoldás)  Az elv alapján bármilyen félig-struktúrált/struktúrált adat osztályozására kiterjeszthetőTovábbi ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon:

×