Wstęp do eksploracji danych (data mining)

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Wstęp do eksploracji danych (data mining) - Presentation Transcript

    1. Python i Orange Wstęp do eksploracji danych (data mining) PyConPL 2009 Marcin Mierzejewski // QuantElement.com
    2. Agenda Eksploracja danych Dane Algorytmy Orange Przykład
    3. Eksploracja danych (data mining) „nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych” W.Frawley, G.Piatetsky-Shapiro, C.Matheus - 1992
    4. Eksploracja danych - zastosowanie rozpoznawaniu obrazu, mowy, pisma diagnostyka medyczna badania genetyczne analizie operacji bankowych reklamy skierowane przewidywanie właściwości cząsteczek ocenie ryzyka kredytowego
    5. Eksploracja danych Dane + Algorytm reguły, wzorce, …
    6. Dane Ciągłe wiek (>=0) dochód (>=0) Dyskretne płeć (mężczyzna/kobieta) wykształcenie (podstawowe, średnie, wyższe) stanowisko (pracownik, kierownik, dyrektor)
    7. Dane płeć wiek miejscowość wykształcenie kupił? d c d d d M 28 metropolia wyższe tak K 37 miasto średnie nie M 18 wieś podstawowe nie K 21 metropolia średnie nie K 45 metropolia wyższe nie
    8. Algorytmy Klasteryzacja uczenie bez nadzoru Reguły Asocjacyjne Klasyfikacja uczenie z nadzorem Regresja
    9. Bez nadzoru dane + algorytm klastry, reguły
    10. Z nadzorem dane treningowe + algorytm model dane + model klasy
    11. Klasteryzacja klaster – kolekcja obiektów 1) 175cm, 75kg, tak A) 1 i 2 2) 180cm, 85kg, tak B) 3 3) 120cm, 32kg, tak C) 4 i 5 4) 160cm, 50kg, tak 5) 155cm, 45kg, tak
    12. Reguły Asocjacyjne odnalezienie wartości atrybutów stosunkowo często występujących razem 1) masło, chleb masło → chleb 2) masło, chleb, dżem piwo → orzeszki 3) dżem, bułki piwo → chipsy 4) piwo, orzeszki 6) piwo, chipsy
    13. Klasyfikacja 180cm, 85kg, tak → M 120cm, 32kg, tak → D + algorytm model 160cm, 50kg, tak → K model(130cm, 38kg, tak) D
    14. Drzewa Decyzji
    15. Regresja M, 180, 120, 90 → 90kg D, 120, 60, 60 → 38kg + algorytm model K, 170, 90, 60 → 55kg model(200, 140, 100) 120kg
    16. Eksploracja danych
    17. Orange Wizualizacja Eksploracja danych Python + QT GUI i biblioteka http://www.ailab.si/orange/
    18. Orange Pliki i baza danych Selekcja Mergowanie Dyskretyzacja Uciąglanie Reguły asocjacyjne Klasyfikacja Regresja
    19. Przykład Firma informatyczna sprzedająca aplikację webową. Baza klientów. Problem: Znaleźć grupę docelową → reklama skierowana
    20. Baza klientów płeć wiek miejscowość wykształcenie stanowisko kupił? M 28 metropolia wyższe dyrektor tak K 37 miasto średnie kierownik nie M 18 wieś podstawowe bez pracy nie K 21 metropolia średnie biznesmen nie K 45 metropolia wyższe dyrektor nie M 34 miasto wyższe pracownik tak ...
    21. Klasyfikacja
    22. Klasyfikacja
    23. Baza klientów
    24. Klasyfikacja
    25. Drzewo decyzji
    26. Drzewo decyzji
    27. Przykład Firma informatyczna oferuje kilka produktów (aplikacji). Baza produktów per klient. Problem: Preferencje zakupowe klientów (koszyki produktów)
    28. Lista produkty per klient aplikacja 1, aplikacja 2 aplikacja 3, aplikacja 4, aplikacja 6 aplikacja 5, aplikacja 7, aplikacja 1, aplikacja 2 aplikacja 8, aplikacja 10, aplikacja 2, aplikacja 3 aplikacja 9, aplikacja 10, aplikacja 1 aplikacja 7, aplikacja 2, aplikacja 4, aplikacja 5 aplikacja 2, aplikacja 8, aplikacja 3, aplikacja 6 aplikacja 3, aplikacja 10, aplikacja 1, aplikacja 4 aplikacja 2 ...
    29. Orange
    30. Orange
    31. Reguły
    32. Reguły
    33. Python import orange, orngAssoc data = orange.ExampleTable("aplikacje.basket") rules = orange.AssociationRulesSparseInducer(data, support=0.0) orngAssoc.sort(rules, ["support", "confidence"]) orngAssoc.printRules(rules[:10], ["support", "confidence"]) supp conf rule 0.200 0.750 aplikacja 6 -> aplikacja 3 0.200 0.600 aplikacja 10 -> aplikacja 1 0.200 0.600 aplikacja 3 -> aplikacja 6 0.200 0.429 aplikacja 1 -> aplikacja 10 0.133 1.000 aplikacja 7 aplikacja 2 -> aplikacja 5 0.133 1.000 aplikacja 9 -> aplikacja 1
    34. Zasoby http://www.EksploracjaDanych.com http://www.statsoft.pl/czytelnia/czytelnia.html http://www.kdnuggets.com/
    35. Pytania... PyConPL 2009 Marcin Mierzejewski // QuantElement.com
    36. Zdjęcia: - http://www.flickr.com/photos/mcgraths/3248483447 - http://www.flickr.com/photos/generated/2585844966/ - http://www.flickr.com/photos/jutta/41768000 - http://www.flickr.com/photos/hawkexpress/328322067/ - http://www.flickr.com/photos/wili/1427012953/ - http://www.flickr.com/photos/cobalt/2128455051/ - http://www.flickr.com/photos/mscolly/145052885/
    SlideShare Zeitgeist 2009

    + Marcin MierzejewskiMarcin Mierzejewski Nominate

    custom

    342 views, 0 favs, 2 embeds more stats

    Przezentacja jest podzielona na część teoretyczn more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 342
      • 226 on SlideShare
      • 116 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 0
    Most viewed embeds
    • 84 views on http://notatnik.mekk.waw.pl
    • 32 views on http://www.zenzire.com

    more

    All embeds
    • 84 views on http://notatnik.mekk.waw.pl
    • 32 views on http://www.zenzire.com

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories