Wstęp do eksploracji danych (data mining) - Presentation Transcript
Python i Orange
Wstęp do eksploracji danych (data mining)
PyConPL 2009
Marcin Mierzejewski // QuantElement.com
Agenda
Eksploracja danych
Dane
Algorytmy
Orange
Przykład
Eksploracja danych (data mining)
„nietrywialne wydobywanie ukrytej, poprzednio nieznanej
i potencjalnie użytecznej informacji z danych”
W.Frawley, G.Piatetsky-Shapiro, C.Matheus - 1992
Eksploracja danych - zastosowanie
rozpoznawaniu obrazu, mowy, pisma
diagnostyka medyczna
badania genetyczne
analizie operacji bankowych
reklamy skierowane
przewidywanie właściwości cząsteczek
ocenie ryzyka kredytowego
Eksploracja danych
Dane + Algorytm reguły, wzorce, …
Dane
Ciągłe
wiek (>=0)
dochód (>=0)
Dyskretne
płeć (mężczyzna/kobieta)
wykształcenie (podstawowe, średnie, wyższe)
stanowisko (pracownik, kierownik, dyrektor)
Dane
płeć wiek miejscowość wykształcenie kupił?
d c d d d
M 28 metropolia wyższe tak
K 37 miasto średnie nie
M 18 wieś podstawowe nie
K 21 metropolia średnie nie
K 45 metropolia wyższe nie
Algorytmy
Klasteryzacja
uczenie bez nadzoru
Reguły Asocjacyjne
Klasyfikacja
uczenie z nadzorem
Regresja
Bez nadzoru
dane + algorytm klastry, reguły
Z nadzorem
dane treningowe + algorytm model
dane + model klasy
Klasteryzacja
klaster – kolekcja obiektów
1) 175cm, 75kg, tak A) 1 i 2
2) 180cm, 85kg, tak B) 3
3) 120cm, 32kg, tak C) 4 i 5
4) 160cm, 50kg, tak
5) 155cm, 45kg, tak
Reguły Asocjacyjne
odnalezienie wartości atrybutów stosunkowo często
występujących razem
1) masło, chleb masło → chleb
2) masło, chleb, dżem piwo → orzeszki
3) dżem, bułki piwo → chipsy
4) piwo, orzeszki
6) piwo, chipsy
Klasyfikacja
180cm, 85kg, tak → M
120cm, 32kg, tak → D + algorytm model
160cm, 50kg, tak → K
model(130cm, 38kg, tak) D
Orange
Wizualizacja
Eksploracja danych
Python + QT
GUI i biblioteka
http://www.ailab.si/orange/
Orange
Pliki i baza danych
Selekcja
Mergowanie
Dyskretyzacja
Uciąglanie
Reguły asocjacyjne
Klasyfikacja
Regresja
Przykład
Firma informatyczna sprzedająca aplikację webową.
Baza klientów.
Problem:
Znaleźć grupę docelową → reklama skierowana
Baza klientów
płeć wiek miejscowość wykształcenie stanowisko kupił?
M 28 metropolia wyższe dyrektor tak
K 37 miasto średnie kierownik nie
M 18 wieś podstawowe bez pracy nie
K 21 metropolia średnie biznesmen nie
K 45 metropolia wyższe dyrektor nie
M 34 miasto wyższe pracownik tak
...
Klasyfikacja
Klasyfikacja
Baza klientów
Klasyfikacja
Drzewo decyzji
Drzewo decyzji
Przykład
Firma informatyczna oferuje kilka produktów (aplikacji).
Baza produktów per klient.
Problem:
Preferencje zakupowe klientów (koszyki produktów)
Przezentacja jest podzielona na część teoretyczn more
Przezentacja jest podzielona na część teoretyczna oraz praktyczną. Część
pierwsza jest poświęcona na omówienie podstawowych pojęć dotyczących
metod eksploracji danych (data mining). W części drugiej jest
przedstawione praktyczne zastosowanie poznanych technik z wykorzystaniem
programu Orange. less
0 comments
Post a comment