SlideShare a Scribd company logo
1 of 25
Metode rudarenja
    podataka


     Jasmin Šmit
    Monika Tukarić
    Vlatka Večerin
Sadržaj
•   Što je rudarenje podataka
•   Aktivnosti u procesu rudarenja
•   Metode rudarenja podataka
•   Zaključak
Rudarenje podataka
• tehnologija koja pretvara detaljne podatke u
  prednost poduzeće koja se može koristiti za
  predviđanje budućih trendova i ponašanja

• proces otkrivanja i interpretiranja prethodno
  nepoznatih uzoraka u podacima


• CILJ: postaviti temelje kvalitetnih podataka
  koji će predvidjeti probleme i rješiti ih
Aktivnosti u procesu rudarenja
   1   istraživanje podataka

   2   stvaranje analitičkih setova podataka

   3   izgradnju i testiranje modela

   4   integriranje rezultata u poslovne aplikacije
Pretprocesiranje
                                        Podjela
                                        populacije




Procjena        Koraci pri
pouzdanosti   odabiru modela

                            Primjena
                            algoritma

      Testiranje
Metode rudarenja podataka
•   Metode potrošačke košarice
•   Memorijski temeljeni razlučivanje
•   Klasteriranje
•   Stabla odlučivanja
•   Bayesove mreže
•   Neutralne mreže
•   Neizrazita logika
•   Genetički algoritmi i gen. programiranje
Metoda potrošačke košarice

•   Otkrivanje asocijativnih pravila koja pokazuju koji
    se parovi artikala i s kojom vjerojatnošću kupuju
    zajedno



•   Npr. da će kupac uz proizvod A, uz određenu
    vjerojatnost, kupiti i proizvod B
Metode potrošačke košarice


                     Stablo frekventnih
A priori algoritam
                          uzoraka
Memorijski temeljeno
          razlučivanje
•    Metoda pronalaženja sličnosti (udaljenosti) među
     atributima u kategorijama

4.   Modeli rada i osnovnih procesa
5.   Funkcija udaljenosti i tipa zadataka
Modeli rada i osnovnih procesa
• Računanje udaljenosti
     1. apsolutna vrijednost razlike
     2. normalizirane apsolutne vrijednosti
     3. Euklidska udaljenost
     4. Manhattan udaljenost

• Matrica udaljenosti

• Funkcija kombinacije
Funkcije udaljenosti i tipovi
           podataka

• Transformacija nenumeričke vrijednosti u
  numeričku (brojevima se dodaju atributi) radi
  lakšeg računanja udaljenosti

• Primjena – segmentacija tržišta
Klasteriranje
•   Grupiranje ili sjedinjavanje objekata sliknih
    osobina

•   Cilj: pronaći sličnost unutar populacije koristeći
    zadani skup atributa

•   2 načina :
    1. K-means klasteriranje
    2. hijerarhijsko klasteriranje
PROCES
                 Odabir K segmanta
                                        K-means
 Određivanje središta                KLASTERIRANJA
      segmenta




Pridruživanje elemenata
       na temelju       Izračun nove vrijednosti Ponavljati akcije dok
 udaljenosti središtima     središta sa novim se ne mijenja vrijednost
                              elementima              središta
Hijerarhijsko klasteriranje
•   grupiranje objekata u stablo klastera
•   nedostatak: nemogućnost ponavljanja
    klasifikacije nakon podjele na klastere

•   2 načina:

    Aglomerativno                     Divizijsko
    (BOTTOM-UP)                     (TOP-DOWN)
Stabla odlučivanja
• Klasificiranju atributa s obzirom na zadanu varijablu
• Laka interpretacija grafova – stabla

• Primjenjuju se u kombinaciji s klasteriranjem
• CILJ: određivanje varij. i njihovih vrijed. koje
  determiniraju neku pojavu ili skup pojava

• Primjena – analiza sklonosti potrošača kupnji
  nekog proizvoda s obzirom na zadane atribute
Bayesove mreže
•   Temeljena na uvjetnoj vjerojatnosti -> P(a/b)=m

•   CILJ: reduciranje stupnja neizvjesnosti

•   Bayesova formula     P(a/b)P(b)=P(a,b)


•   Primjena – poslovna inteligencija, medicina
            razvoj softvera, vojska,
            ekonomija( procjena rizika, segmentacija)
Elementi B-mreže

• Direktni neciklični grafovi u kojem je svaki čvor
  slučajna var., a svaka poveznica vjerojatnost



• Tablice uvjetnih vjerojatnosti za svaku varijablu
Neuralne mreže
•   Temeljena na saznanjima o ponašanju živčane
    stanice prilikom podražaja

•   kombinacija s drugim metodama zbog teške
    interpretacije rezultata

Primjena – prognoza trendova, robotika, treniranje
    neura-mreže na temelju povijesnih podataka
Načini učenja
    1            2              3


NADZIRANO   NENADZIRANO PRIDRUŽUJUĆE
            (klasteriranje) POJAČAVAJUĆE
                            UČENJE
Neizrazita logika
• U sustavima za podrške u odlučivanju

• Dok u klas. logici vrijed. mogu biti ili 0 ili 1, u
  neizrazitoj logici vrijednosti se kreću u intervalu od
  0 do 1

• Primjena – stvaranje neizrazitih ekspertnih sustava
Genetički algoritmi i gen.
        programiranje
•   Rješavanje problema optimizacije, a ne
    prepoznavanja uzoraka


•   Primjena – optimizacija težinskih koef. prije
    treniranja neuronske mreže, optimalno
    iskorištenje resursa uz ogranićenja
GENETIČKI                   GENETIČKO
   ALGORITMI                 PROGRAMIRANJE
                          • ulazne varijable
• kreiranje generacije,
  genoma,                 • skup funkcija
  modifikacija            • operatori
  populacije
ZAKLJUČAK
• ne postoji jasna receptura pri izboru metoda zbog
  kompleksnosti i raznih specifičnosti

• najbolji učinci izlazi iz sinergije spajanja metoda

• cilj diktira izbor metode

• za uspjeh potrebni su: pravi tim, prava
  metodologija, prava arhitektura i prva tehnologija
Literatura
• Panian, Ž., Klepac, G. Poslovna
  inteligencija. Masmedia, Zagreb, 2003.
• Zaima, A., Kashner, J. A Data Mining
  Primer for Data Warehouse
  Professional
Metode rudarenja podataka

More Related Content

What's hot

Global Open Banking Landscape
Global Open Banking LandscapeGlobal Open Banking Landscape
Global Open Banking LandscapeBiao Hao
 
智能合約結合區塊鏈簡介
智能合約結合區塊鏈簡介智能合約結合區塊鏈簡介
智能合約結合區塊鏈簡介Nicholas Lin
 
Introduction to Bitcoins and Cryptocurrency
Introduction to Bitcoins and CryptocurrencyIntroduction to Bitcoins and Cryptocurrency
Introduction to Bitcoins and CryptocurrencyUtkarsh Gupta
 
Blockchain applications in payments and fintech
Blockchain applications in payments and fintechBlockchain applications in payments and fintech
Blockchain applications in payments and fintechPenser
 
Crypto currencies presentation by Dr. Andre Gholam
Crypto currencies presentation by Dr. Andre GholamCrypto currencies presentation by Dr. Andre Gholam
Crypto currencies presentation by Dr. Andre GholamPMILebanonChapter
 
Distributed Ledger Technology
Distributed Ledger TechnologyDistributed Ledger Technology
Distributed Ledger TechnologyKriti Katyayan
 
Bitcoin, Ethereum, Smart Contract & Blockchain
Bitcoin, Ethereum, Smart Contract & BlockchainBitcoin, Ethereum, Smart Contract & Blockchain
Bitcoin, Ethereum, Smart Contract & BlockchainJitendra Chittoda
 
Blockchain in Audit
Blockchain in AuditBlockchain in Audit
Blockchain in AuditFarjad Noor
 
What is the future of cryptocurrency
What is the future of cryptocurrencyWhat is the future of cryptocurrency
What is the future of cryptocurrencyCryptoknowmics
 
Introduction to Cryptocurrency (Bitcoin)
Introduction to Cryptocurrency (Bitcoin)Introduction to Cryptocurrency (Bitcoin)
Introduction to Cryptocurrency (Bitcoin)Kashif Khans
 
Understanding Bitcoin
Understanding BitcoinUnderstanding Bitcoin
Understanding BitcoinLeslie Bayona
 
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...Edureka!
 
Seminar Report On Bitcoin
Seminar Report On BitcoinSeminar Report On Bitcoin
Seminar Report On BitcoinTouroxy
 
Polygon Encode Club_deck
Polygon Encode Club_deckPolygon Encode Club_deck
Polygon Encode Club_deckVanessa Lošić
 

What's hot (20)

Global Open Banking Landscape
Global Open Banking LandscapeGlobal Open Banking Landscape
Global Open Banking Landscape
 
智能合約結合區塊鏈簡介
智能合約結合區塊鏈簡介智能合約結合區塊鏈簡介
智能合約結合區塊鏈簡介
 
Introduction to Bitcoins and Cryptocurrency
Introduction to Bitcoins and CryptocurrencyIntroduction to Bitcoins and Cryptocurrency
Introduction to Bitcoins and Cryptocurrency
 
Blockchain applications in payments and fintech
Blockchain applications in payments and fintechBlockchain applications in payments and fintech
Blockchain applications in payments and fintech
 
Introduction Bitcoin
Introduction BitcoinIntroduction Bitcoin
Introduction Bitcoin
 
Crypto currencies presentation by Dr. Andre Gholam
Crypto currencies presentation by Dr. Andre GholamCrypto currencies presentation by Dr. Andre Gholam
Crypto currencies presentation by Dr. Andre Gholam
 
Distributed Ledger Technology
Distributed Ledger TechnologyDistributed Ledger Technology
Distributed Ledger Technology
 
Bitcoin, Ethereum, Smart Contract & Blockchain
Bitcoin, Ethereum, Smart Contract & BlockchainBitcoin, Ethereum, Smart Contract & Blockchain
Bitcoin, Ethereum, Smart Contract & Blockchain
 
El Blockchain más allá del Bitcoin
El Blockchain más allá del BitcoinEl Blockchain más allá del Bitcoin
El Blockchain más allá del Bitcoin
 
Blockchain in Audit
Blockchain in AuditBlockchain in Audit
Blockchain in Audit
 
What is the future of cryptocurrency
What is the future of cryptocurrencyWhat is the future of cryptocurrency
What is the future of cryptocurrency
 
All about Bitcoins!
All about Bitcoins!All about Bitcoins!
All about Bitcoins!
 
BitCoin, P2P, Distributed Computing
BitCoin, P2P, Distributed ComputingBitCoin, P2P, Distributed Computing
BitCoin, P2P, Distributed Computing
 
BitCoin report
BitCoin reportBitCoin report
BitCoin report
 
Introduction to Cryptocurrency (Bitcoin)
Introduction to Cryptocurrency (Bitcoin)Introduction to Cryptocurrency (Bitcoin)
Introduction to Cryptocurrency (Bitcoin)
 
Understanding Bitcoin
Understanding BitcoinUnderstanding Bitcoin
Understanding Bitcoin
 
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...
Blockchain Training | Blockchain Tutorial for Beginners | Blockchain Technolo...
 
Blockchain - blockchain
Blockchain - blockchainBlockchain - blockchain
Blockchain - blockchain
 
Seminar Report On Bitcoin
Seminar Report On BitcoinSeminar Report On Bitcoin
Seminar Report On Bitcoin
 
Polygon Encode Club_deck
Polygon Encode Club_deckPolygon Encode Club_deck
Polygon Encode Club_deck
 

More from Sunceko13

Radna mjesta u turizmu
Radna mjesta u turizmuRadna mjesta u turizmu
Radna mjesta u turizmuSunceko13
 
Ljudski kapital
Ljudski   kapitalLjudski   kapital
Ljudski kapitalSunceko13
 
Grupa Končar - Corporate entrepreneurship
Grupa Končar - Corporate entrepreneurshipGrupa Končar - Corporate entrepreneurship
Grupa Končar - Corporate entrepreneurshipSunceko13
 
Hrvatske željeznice - organizacijska struktura
Hrvatske željeznice - organizacijska strukturaHrvatske željeznice - organizacijska struktura
Hrvatske željeznice - organizacijska strukturaSunceko13
 
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)Sunceko13
 
Globalizacija
GlobalizacijaGlobalizacija
GlobalizacijaSunceko13
 
Deutsche bank
Deutsche bankDeutsche bank
Deutsche bankSunceko13
 

More from Sunceko13 (7)

Radna mjesta u turizmu
Radna mjesta u turizmuRadna mjesta u turizmu
Radna mjesta u turizmu
 
Ljudski kapital
Ljudski   kapitalLjudski   kapital
Ljudski kapital
 
Grupa Končar - Corporate entrepreneurship
Grupa Končar - Corporate entrepreneurshipGrupa Končar - Corporate entrepreneurship
Grupa Končar - Corporate entrepreneurship
 
Hrvatske željeznice - organizacijska struktura
Hrvatske željeznice - organizacijska strukturaHrvatske željeznice - organizacijska struktura
Hrvatske željeznice - organizacijska struktura
 
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)
Hrvatski telekom d.d. - Analiza financijskih izvještaja ('07,'08,'09)
 
Globalizacija
GlobalizacijaGlobalizacija
Globalizacija
 
Deutsche bank
Deutsche bankDeutsche bank
Deutsche bank
 

Metode rudarenja podataka

  • 1. Metode rudarenja podataka Jasmin Šmit Monika Tukarić Vlatka Večerin
  • 2. Sadržaj • Što je rudarenje podataka • Aktivnosti u procesu rudarenja • Metode rudarenja podataka • Zaključak
  • 3. Rudarenje podataka • tehnologija koja pretvara detaljne podatke u prednost poduzeće koja se može koristiti za predviđanje budućih trendova i ponašanja • proces otkrivanja i interpretiranja prethodno nepoznatih uzoraka u podacima • CILJ: postaviti temelje kvalitetnih podataka koji će predvidjeti probleme i rješiti ih
  • 4. Aktivnosti u procesu rudarenja 1 istraživanje podataka 2 stvaranje analitičkih setova podataka 3 izgradnju i testiranje modela 4 integriranje rezultata u poslovne aplikacije
  • 5. Pretprocesiranje Podjela populacije Procjena Koraci pri pouzdanosti odabiru modela Primjena algoritma Testiranje
  • 6. Metode rudarenja podataka • Metode potrošačke košarice • Memorijski temeljeni razlučivanje • Klasteriranje • Stabla odlučivanja • Bayesove mreže • Neutralne mreže • Neizrazita logika • Genetički algoritmi i gen. programiranje
  • 7. Metoda potrošačke košarice • Otkrivanje asocijativnih pravila koja pokazuju koji se parovi artikala i s kojom vjerojatnošću kupuju zajedno • Npr. da će kupac uz proizvod A, uz određenu vjerojatnost, kupiti i proizvod B
  • 8. Metode potrošačke košarice Stablo frekventnih A priori algoritam uzoraka
  • 9. Memorijski temeljeno razlučivanje • Metoda pronalaženja sličnosti (udaljenosti) među atributima u kategorijama 4. Modeli rada i osnovnih procesa 5. Funkcija udaljenosti i tipa zadataka
  • 10. Modeli rada i osnovnih procesa • Računanje udaljenosti 1. apsolutna vrijednost razlike 2. normalizirane apsolutne vrijednosti 3. Euklidska udaljenost 4. Manhattan udaljenost • Matrica udaljenosti • Funkcija kombinacije
  • 11. Funkcije udaljenosti i tipovi podataka • Transformacija nenumeričke vrijednosti u numeričku (brojevima se dodaju atributi) radi lakšeg računanja udaljenosti • Primjena – segmentacija tržišta
  • 12. Klasteriranje • Grupiranje ili sjedinjavanje objekata sliknih osobina • Cilj: pronaći sličnost unutar populacije koristeći zadani skup atributa • 2 načina : 1. K-means klasteriranje 2. hijerarhijsko klasteriranje
  • 13. PROCES Odabir K segmanta K-means Određivanje središta KLASTERIRANJA segmenta Pridruživanje elemenata na temelju Izračun nove vrijednosti Ponavljati akcije dok udaljenosti središtima središta sa novim se ne mijenja vrijednost elementima središta
  • 14. Hijerarhijsko klasteriranje • grupiranje objekata u stablo klastera • nedostatak: nemogućnost ponavljanja klasifikacije nakon podjele na klastere • 2 načina: Aglomerativno Divizijsko (BOTTOM-UP) (TOP-DOWN)
  • 15. Stabla odlučivanja • Klasificiranju atributa s obzirom na zadanu varijablu • Laka interpretacija grafova – stabla • Primjenjuju se u kombinaciji s klasteriranjem • CILJ: određivanje varij. i njihovih vrijed. koje determiniraju neku pojavu ili skup pojava • Primjena – analiza sklonosti potrošača kupnji nekog proizvoda s obzirom na zadane atribute
  • 16. Bayesove mreže • Temeljena na uvjetnoj vjerojatnosti -> P(a/b)=m • CILJ: reduciranje stupnja neizvjesnosti • Bayesova formula P(a/b)P(b)=P(a,b) • Primjena – poslovna inteligencija, medicina razvoj softvera, vojska, ekonomija( procjena rizika, segmentacija)
  • 17. Elementi B-mreže • Direktni neciklični grafovi u kojem je svaki čvor slučajna var., a svaka poveznica vjerojatnost • Tablice uvjetnih vjerojatnosti za svaku varijablu
  • 18. Neuralne mreže • Temeljena na saznanjima o ponašanju živčane stanice prilikom podražaja • kombinacija s drugim metodama zbog teške interpretacije rezultata Primjena – prognoza trendova, robotika, treniranje neura-mreže na temelju povijesnih podataka
  • 19. Načini učenja 1 2 3 NADZIRANO NENADZIRANO PRIDRUŽUJUĆE (klasteriranje) POJAČAVAJUĆE UČENJE
  • 20. Neizrazita logika • U sustavima za podrške u odlučivanju • Dok u klas. logici vrijed. mogu biti ili 0 ili 1, u neizrazitoj logici vrijednosti se kreću u intervalu od 0 do 1 • Primjena – stvaranje neizrazitih ekspertnih sustava
  • 21. Genetički algoritmi i gen. programiranje • Rješavanje problema optimizacije, a ne prepoznavanja uzoraka • Primjena – optimizacija težinskih koef. prije treniranja neuronske mreže, optimalno iskorištenje resursa uz ogranićenja
  • 22. GENETIČKI GENETIČKO ALGORITMI PROGRAMIRANJE • ulazne varijable • kreiranje generacije, genoma, • skup funkcija modifikacija • operatori populacije
  • 23. ZAKLJUČAK • ne postoji jasna receptura pri izboru metoda zbog kompleksnosti i raznih specifičnosti • najbolji učinci izlazi iz sinergije spajanja metoda • cilj diktira izbor metode • za uspjeh potrebni su: pravi tim, prava metodologija, prava arhitektura i prva tehnologija
  • 24. Literatura • Panian, Ž., Klepac, G. Poslovna inteligencija. Masmedia, Zagreb, 2003. • Zaima, A., Kashner, J. A Data Mining Primer for Data Warehouse Professional