[7.4.2010] The seminar work describes the concept of data mining, activities that need to be done in order to use data mining successfully and data mining methods. The work is a result of team work with Jasmin Šmit and Monika Tukarić.
1. Metode rudarenja
podataka
Jasmin Šmit
Monika Tukarić
Vlatka Večerin
2. Sadržaj
• Što je rudarenje podataka
• Aktivnosti u procesu rudarenja
• Metode rudarenja podataka
• Zaključak
3. Rudarenje podataka
• tehnologija koja pretvara detaljne podatke u
prednost poduzeće koja se može koristiti za
predviđanje budućih trendova i ponašanja
• proces otkrivanja i interpretiranja prethodno
nepoznatih uzoraka u podacima
• CILJ: postaviti temelje kvalitetnih podataka
koji će predvidjeti probleme i rješiti ih
4. Aktivnosti u procesu rudarenja
1 istraživanje podataka
2 stvaranje analitičkih setova podataka
3 izgradnju i testiranje modela
4 integriranje rezultata u poslovne aplikacije
5. Pretprocesiranje
Podjela
populacije
Procjena Koraci pri
pouzdanosti odabiru modela
Primjena
algoritma
Testiranje
6. Metode rudarenja podataka
• Metode potrošačke košarice
• Memorijski temeljeni razlučivanje
• Klasteriranje
• Stabla odlučivanja
• Bayesove mreže
• Neutralne mreže
• Neizrazita logika
• Genetički algoritmi i gen. programiranje
7. Metoda potrošačke košarice
• Otkrivanje asocijativnih pravila koja pokazuju koji
se parovi artikala i s kojom vjerojatnošću kupuju
zajedno
• Npr. da će kupac uz proizvod A, uz određenu
vjerojatnost, kupiti i proizvod B
9. Memorijski temeljeno
razlučivanje
• Metoda pronalaženja sličnosti (udaljenosti) među
atributima u kategorijama
4. Modeli rada i osnovnih procesa
5. Funkcija udaljenosti i tipa zadataka
10. Modeli rada i osnovnih procesa
• Računanje udaljenosti
1. apsolutna vrijednost razlike
2. normalizirane apsolutne vrijednosti
3. Euklidska udaljenost
4. Manhattan udaljenost
• Matrica udaljenosti
• Funkcija kombinacije
11. Funkcije udaljenosti i tipovi
podataka
• Transformacija nenumeričke vrijednosti u
numeričku (brojevima se dodaju atributi) radi
lakšeg računanja udaljenosti
• Primjena – segmentacija tržišta
12. Klasteriranje
• Grupiranje ili sjedinjavanje objekata sliknih
osobina
• Cilj: pronaći sličnost unutar populacije koristeći
zadani skup atributa
• 2 načina :
1. K-means klasteriranje
2. hijerarhijsko klasteriranje
13. PROCES
Odabir K segmanta
K-means
Određivanje središta KLASTERIRANJA
segmenta
Pridruživanje elemenata
na temelju Izračun nove vrijednosti Ponavljati akcije dok
udaljenosti središtima središta sa novim se ne mijenja vrijednost
elementima središta
14. Hijerarhijsko klasteriranje
• grupiranje objekata u stablo klastera
• nedostatak: nemogućnost ponavljanja
klasifikacije nakon podjele na klastere
• 2 načina:
Aglomerativno Divizijsko
(BOTTOM-UP) (TOP-DOWN)
15. Stabla odlučivanja
• Klasificiranju atributa s obzirom na zadanu varijablu
• Laka interpretacija grafova – stabla
• Primjenjuju se u kombinaciji s klasteriranjem
• CILJ: određivanje varij. i njihovih vrijed. koje
determiniraju neku pojavu ili skup pojava
• Primjena – analiza sklonosti potrošača kupnji
nekog proizvoda s obzirom na zadane atribute
16. Bayesove mreže
• Temeljena na uvjetnoj vjerojatnosti -> P(a/b)=m
• CILJ: reduciranje stupnja neizvjesnosti
• Bayesova formula P(a/b)P(b)=P(a,b)
• Primjena – poslovna inteligencija, medicina
razvoj softvera, vojska,
ekonomija( procjena rizika, segmentacija)
17. Elementi B-mreže
• Direktni neciklični grafovi u kojem je svaki čvor
slučajna var., a svaka poveznica vjerojatnost
• Tablice uvjetnih vjerojatnosti za svaku varijablu
18. Neuralne mreže
• Temeljena na saznanjima o ponašanju živčane
stanice prilikom podražaja
• kombinacija s drugim metodama zbog teške
interpretacije rezultata
Primjena – prognoza trendova, robotika, treniranje
neura-mreže na temelju povijesnih podataka
20. Neizrazita logika
• U sustavima za podrške u odlučivanju
• Dok u klas. logici vrijed. mogu biti ili 0 ili 1, u
neizrazitoj logici vrijednosti se kreću u intervalu od
0 do 1
• Primjena – stvaranje neizrazitih ekspertnih sustava
21. Genetički algoritmi i gen.
programiranje
• Rješavanje problema optimizacije, a ne
prepoznavanja uzoraka
• Primjena – optimizacija težinskih koef. prije
treniranja neuronske mreže, optimalno
iskorištenje resursa uz ogranićenja
22. GENETIČKI GENETIČKO
ALGORITMI PROGRAMIRANJE
• ulazne varijable
• kreiranje generacije,
genoma, • skup funkcija
modifikacija • operatori
populacije
23. ZAKLJUČAK
• ne postoji jasna receptura pri izboru metoda zbog
kompleksnosti i raznih specifičnosti
• najbolji učinci izlazi iz sinergije spajanja metoda
• cilj diktira izbor metode
• za uspjeh potrebni su: pravi tim, prava
metodologija, prava arhitektura i prva tehnologija
24. Literatura
• Panian, Ž., Klepac, G. Poslovna
inteligencija. Masmedia, Zagreb, 2003.
• Zaima, A., Kashner, J. A Data Mining
Primer for Data Warehouse
Professional