3. Mašinsko učenje (vrste)
Supervised (nadgledano)
Klasifikacija
• Spam filteri
• Detekcija defekata
• Prepoznavanje objekata
Regresija
• Predviđanje cena na tržištu
• Vremenska prognoza
Unsupervised (nenadgledano)
Klastering
• Segmentacija klijenata
• Identifikacija turističkih atrakcija
Pravila asocijacije
• Analiza potrošačke korpe
Reinforcement
(učenje sa podrškom)
4. Data mining is an analytical business process which
applies business knowledge to data in order to
achieve business goals, creating new business
knowledge and often using predictive modelling
algorithms. Predictive modelling algorithms are
also called “data mining algorithms”; most originate
in the fields of machine learning and statistics.1
- Tom Khabaza
1 http://khabaza.codimension.net/index_files/datamining.htm
5. CRoss-Industry Standard Process for
Data Mining
• Objavljen 1999.
• Opisuje tipične faze projekta i aktivnosti u
okviru svake faze
• Kao i zavisnosti odnosno tipične redoslede
faza
• Redosled međutim nije striktan i često dolazi
do povratka na prethodne faze
• Iteracije i preispitivanje
CRISP-DM
6. Business Understanding
Poslovno razumevanje
• Razumevanje trenutne situacije
• Problemi, raspoloživi resursi, trenutna rešenja u upotrebi
• Definisanje ciljeva i kriterijuma uspeha
• Usaglašavanje očekivanja
• Ograničenja
• Plan projekta
• Obično je podložan promenama
• Opis resursa neophodnih za realizaciju aktivnosti u fazama
7. Data Understanding
• Raspoloživi podaci, prikupljanje novih, eksterni podaci
• Transakcioni sistemi, kupovina podataka
• Prikupljanje i opisivanje podataka
• Broj zapisa/atributa, tipovi, distribucije vrednosti, osobine
relevantnih podskupova, granularnost i frekvencija
• Provera kvaliteta podataka
• Nedostajuće vrednosti, greške
Razumevanje podataka
8. Data Preparation
Priprema podataka
• Selekcija (izbor podataka koji će se koristiti)
• Razlozi za upotrebu/isključivanje izvora/zapisa/atributa
• Čišćenje podakta (data cleaning)
• Tretman nedostajućih/ekstremnih vrednosti, konverzija tipova
• Konstruisanje atributa
• Povezivanje iz različitih izvora, kreiranje/izvođenje,
normalizacija/standardizacija
9. Modeling
Modelovanje
• Izbor tehnika i dokumentovanje
• Posebne pretpostavke ili zahtevi?
• Plan modelovanja
• Razdvajanje podataka u trening/validacioni/test set
• Izgradnja (kreiranje) modela
• Izbor parametara
• Procena performansi i rangiranje
11. Evaluation
• Da li model zadovoljava očekivanja?
• Da li model ima neke nedostatke?
• Šta je sve otkriveno tokom prethodnih faza?
• Interesantni obrasci
• Da li treba napraviti neke izmene u prethodnim
fazama/uraditi nešto na drugačiji način?
Evaluacija
12. Deployment
Primena
• Plan primene (prediktivnog) rešenja
• Tehnički (operacionalizacija/integracija)
• Organizacioni (promene u procesima)
• Praćenje i održavanje rešenja
• Da li model i dalje dobro radi?
• Preispitivanje projekta i zaključci
• Nove prilike/potencijalna pitanja?