SlideShare a Scribd company logo
1 of 8
MODELL ALAPÚ IDŐSOR-
OSZTÁLYOZÓ FEJLESZTÉSE ÉS
KITERJESZTÉSE

Hidasi Balázs (hidasib@freemail.hu)

Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu)

2011. JÚNIUS 21, BUDAPEST
SHIFTTREE ALGORITMUS
 Idősor-osztályozó algoritmus
 Bináris döntési fa alap
 Dinamikusan előállított attribútumok
     Hol nézzük? (időtengely)
     Mit nézzünk? (számítások)
   Előnyök
     Modell alapúság előnyei          Súlyozott átlag

     Értelmezhető
     Szakértői tudás nélkül is pontos
     Szakértői tudással pontosabbá tehető
   Hátrányok
       Modell alapúság hátrányai
MODELL ÉPÍTÉS IDEJÉNEK CSÖKKENTÉSE
   Tanítás során attribútum választás
       Célfüggvény minimalizálása




                                                            Célfüggvény érték
   Célfüggvény tulajdonságai
     Adott rendezés mellett minimumok csak az
      egybefüggő intervallumok szélén lehetnek
     Minimum előre meghatározható
           Nem léphetünk ki minimumnál, de…                    0
           Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél
   Jelentősen csökken a célfüggvény értékének
    meghatározásának száma
   Futási idő átlagosan 22,33%-kal csökkent
       Pl.: FordB – 3636 tanítóminta:
           214,94s  173,52s (-19,27%)
       Pl.: CBF – 30 tanítóminta:
           0,246s  0,145s (-41,18%)
       Pl.: Beef – 30 tanítóminta
           0,574s  0,517s (-9,9%)
FEJLESZTÉSEK A PONTOSSÁG NÖVELÉSÉRE
   Operátorkészlet jelentős kibővítése
   Heurisztika egyezően jó attribútum jelöltek közüli
    választásra
       Legyen maximális a határsáv
       Eltérő nagyságrendek miatt normalizálás
                   100%
                            90%
                            80%
                                                               Alap algoritmus
                            70%
                Pontosság




                            60%
                                                               Bővített
                            50%                                operátorkészlet
                            40%                                Heurisztikával
                            30%
                            20%                                DTW 1-NN
                            10%
                            0%
                                  Átlagos   Nagy adatsorokra


   Nyesés
       Több módszer kipróbálása
       Romlott a pontosság
       Más módszerekhez viszont szükség van rájuk
MODELLEK KOMBINÁLÁSA
   Több modell építése
     Címkézésnél súlyozott szavazás
     Hatékony, ha a modellek önmagukban pontosak és az egyes
      modellek eltérőek (más mintákat osztályoznak jól)
   Boosting
        Súlyok a tanítómintákhoz
        Felépített modell kiértékelése a tanítómintákon
            Modell súly
            Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!)
     Klasszikus AdaBoost követelmény: pontosság a tanítómintán
      minimum 50% (és kevesebb, mint 100%)
     SAMME: minimális pontosság követelmény csak 1/(osztályok
      száma)
   XV
        Egyszerű kombinálás, keresztvalidáción alapul
        Tanítóhalmaz véletlenszerű szétbontása, csak egy részén
         tanul, másik részén kiértékel
            Pontosság  modell súlya
KOMBINÁLT MODELLEK EREDMÉNYEI
   Boosting vagy XV?
         Bizonyos esetekben a boosting leáll
         „Tökéletes” modell a tanítóhalmazon
         Főleg kis tanítóminták mellett
         Ilyenkor az XV még segíthet
                100%            93.32%   92.75%   93.65%
                       89.16%
                90%
                80%
                70%
    Pontosság




                60%                                        Egy modell
                50%                                        Boosting
                40%                                        XV
                30%                                        Kombinált

                20%
                10%
                 0%
OSZTÁLYOZÁSI KONFIDENCIA
           Mennyire biztos a modellünk a kimenetben
                Levél (csomópont) konfidencia
                      Pl. többségi osztály aránya a levélben (nyesés!)
                Útvonal konfidencia
                      Osztályozási útvonalon a konfidenciák (súlyozott) összegzése
                      Egyfajta nyesési eljárás
           On-line tanulás (újratanulás)
              Teljes modellépítés helyett a modell kisméretű
               megváltoztatása
              Útvonal konfidencia, mint dinamikus nyesés
            75.00%    Arányok változásával változik a nyesés
            74.00%
            73.00%
Pontosság




            72.00%
            71.00%
            70.00%
            69.00%
            68.00%
            67.00%
            66.00%
                       1     2    3     4     5      6   7   8
                                      Iterációszám
ÖSSZEFOGLALÁS
   Modell alapú idősor-osztályozó döntési fa alapon
   Tanítás gyorsítása: -22% futási idő

   Pontosság növelése
       Új operátorok
       Attribútum választási heurisztika
       Kombinált modellek

     On-line tanulás teljes modellépítés helyett
         Útvonal konfidenciák használatával
     Fejlesztési lehetőségek
         Streamben jelfelismerés (csúszóablakos megoldás)
         Az elv alapján bármilyen félig-struktúrált/struktúrált
          adat osztályozására kiterjeszthető
További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon:

More Related Content

Viewers also liked

Approximate modeling of continuous context in factorization algorithms (CaRR1...
Approximate modeling of continuous context in factorization algorithms (CaRR1...Approximate modeling of continuous context in factorization algorithms (CaRR1...
Approximate modeling of continuous context in factorization algorithms (CaRR1...Balázs Hidasi
 
Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Balázs Hidasi
 
Context-aware similarities within the factorization framework (CaRR 2013 pres...
Context-aware similarities within the factorization framework (CaRR 2013 pres...Context-aware similarities within the factorization framework (CaRR 2013 pres...
Context-aware similarities within the factorization framework (CaRR 2013 pres...Balázs Hidasi
 
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...Balázs Hidasi
 
Deep learning: the future of recommendations
Deep learning: the future of recommendationsDeep learning: the future of recommendations
Deep learning: the future of recommendationsBalázs Hidasi
 
Deep learning to the rescue - solving long standing problems of recommender ...
Deep learning to the rescue - solving long standing problems of recommender ...Deep learning to the rescue - solving long standing problems of recommender ...
Deep learning to the rescue - solving long standing problems of recommender ...Balázs Hidasi
 

Viewers also liked (6)

Approximate modeling of continuous context in factorization algorithms (CaRR1...
Approximate modeling of continuous context in factorization algorithms (CaRR1...Approximate modeling of continuous context in factorization algorithms (CaRR1...
Approximate modeling of continuous context in factorization algorithms (CaRR1...
 
Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...Context aware factorization methods for implicit feedback based recommendatio...
Context aware factorization methods for implicit feedback based recommendatio...
 
Context-aware similarities within the factorization framework (CaRR 2013 pres...
Context-aware similarities within the factorization framework (CaRR 2013 pres...Context-aware similarities within the factorization framework (CaRR 2013 pres...
Context-aware similarities within the factorization framework (CaRR 2013 pres...
 
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...
Parallel Recurrent Neural Network Architectures for Feature-rich Session-base...
 
Deep learning: the future of recommendations
Deep learning: the future of recommendationsDeep learning: the future of recommendations
Deep learning: the future of recommendations
 
Deep learning to the rescue - solving long standing problems of recommender ...
Deep learning to the rescue - solving long standing problems of recommender ...Deep learning to the rescue - solving long standing problems of recommender ...
Deep learning to the rescue - solving long standing problems of recommender ...
 

ShiftTree fejlesztések és kiegészítések (M.Sc. diplomavédés, 2011)

  • 1. MODELL ALAPÚ IDŐSOR- OSZTÁLYOZÓ FEJLESZTÉSE ÉS KITERJESZTÉSE Hidasi Balázs (hidasib@freemail.hu) Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu) 2011. JÚNIUS 21, BUDAPEST
  • 2. SHIFTTREE ALGORITMUS  Idősor-osztályozó algoritmus  Bináris döntési fa alap  Dinamikusan előállított attribútumok  Hol nézzük? (időtengely)  Mit nézzünk? (számítások)  Előnyök  Modell alapúság előnyei Súlyozott átlag  Értelmezhető  Szakértői tudás nélkül is pontos  Szakértői tudással pontosabbá tehető  Hátrányok  Modell alapúság hátrányai
  • 3. MODELL ÉPÍTÉS IDEJÉNEK CSÖKKENTÉSE  Tanítás során attribútum választás  Célfüggvény minimalizálása Célfüggvény érték  Célfüggvény tulajdonságai  Adott rendezés mellett minimumok csak az egybefüggő intervallumok szélén lehetnek  Minimum előre meghatározható  Nem léphetünk ki minimumnál, de… 0  Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél  Jelentősen csökken a célfüggvény értékének meghatározásának száma  Futási idő átlagosan 22,33%-kal csökkent  Pl.: FordB – 3636 tanítóminta:  214,94s  173,52s (-19,27%)  Pl.: CBF – 30 tanítóminta:  0,246s  0,145s (-41,18%)  Pl.: Beef – 30 tanítóminta  0,574s  0,517s (-9,9%)
  • 4. FEJLESZTÉSEK A PONTOSSÁG NÖVELÉSÉRE  Operátorkészlet jelentős kibővítése  Heurisztika egyezően jó attribútum jelöltek közüli választásra  Legyen maximális a határsáv  Eltérő nagyságrendek miatt normalizálás 100% 90% 80% Alap algoritmus 70% Pontosság 60% Bővített 50% operátorkészlet 40% Heurisztikával 30% 20% DTW 1-NN 10% 0% Átlagos Nagy adatsorokra  Nyesés  Több módszer kipróbálása  Romlott a pontosság  Más módszerekhez viszont szükség van rájuk
  • 5. MODELLEK KOMBINÁLÁSA  Több modell építése  Címkézésnél súlyozott szavazás  Hatékony, ha a modellek önmagukban pontosak és az egyes modellek eltérőek (más mintákat osztályoznak jól)  Boosting  Súlyok a tanítómintákhoz  Felépített modell kiértékelése a tanítómintákon  Modell súly  Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!)  Klasszikus AdaBoost követelmény: pontosság a tanítómintán minimum 50% (és kevesebb, mint 100%)  SAMME: minimális pontosság követelmény csak 1/(osztályok száma)  XV  Egyszerű kombinálás, keresztvalidáción alapul  Tanítóhalmaz véletlenszerű szétbontása, csak egy részén tanul, másik részén kiértékel  Pontosság  modell súlya
  • 6. KOMBINÁLT MODELLEK EREDMÉNYEI  Boosting vagy XV?  Bizonyos esetekben a boosting leáll  „Tökéletes” modell a tanítóhalmazon  Főleg kis tanítóminták mellett  Ilyenkor az XV még segíthet 100% 93.32% 92.75% 93.65% 89.16% 90% 80% 70% Pontosság 60% Egy modell 50% Boosting 40% XV 30% Kombinált 20% 10% 0%
  • 7. OSZTÁLYOZÁSI KONFIDENCIA  Mennyire biztos a modellünk a kimenetben  Levél (csomópont) konfidencia  Pl. többségi osztály aránya a levélben (nyesés!)  Útvonal konfidencia  Osztályozási útvonalon a konfidenciák (súlyozott) összegzése  Egyfajta nyesési eljárás  On-line tanulás (újratanulás)  Teljes modellépítés helyett a modell kisméretű megváltoztatása  Útvonal konfidencia, mint dinamikus nyesés 75.00%  Arányok változásával változik a nyesés 74.00% 73.00% Pontosság 72.00% 71.00% 70.00% 69.00% 68.00% 67.00% 66.00% 1 2 3 4 5 6 7 8 Iterációszám
  • 8. ÖSSZEFOGLALÁS  Modell alapú idősor-osztályozó döntési fa alapon  Tanítás gyorsítása: -22% futási idő  Pontosság növelése  Új operátorok  Attribútum választási heurisztika  Kombinált modellek  On-line tanulás teljes modellépítés helyett  Útvonal konfidenciák használatával  Fejlesztési lehetőségek  Streamben jelfelismerés (csúszóablakos megoldás)  Az elv alapján bármilyen félig-struktúrált/struktúrált adat osztályozására kiterjeszthető További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon: