Strumenti Open Source per
          Data Mining e Business intelligence

                          Giacomo Gamberoni e Den...
Sommario
                      Data Mining
                      –   Cos'è il Data Mining
                      –   Esempi...
Cos'è il Data Mining

        The non-trivial process of identifying
          –   Valid
          –   Novel
          –  ...
Esempi di problemi
      Distinguere mail/spam
      Riconoscimento numeri scritti a mano
      Valutazione usato auto
   ...
UCI Machine Learning Repository




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraret...
UCI Machine Learning Repository




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraret...
Esempi di dataset




                                                      Market Basket
                                ...
Tecniche di Data Mining
      Pseudo-tecnica
      Alberi decisionali
      Regole associative
      Clustering




Ferrar...
Pseudo problema




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni ...
Pseudo soluzione

                                                          IF salary<k then not repaid




              ...
Alberi decisionali




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
Valutazione della classifcazione
      Si divide il dataset in due parti
        –   Training set (per esempio 90% delle i...
Clustering
      Raggruppare gli elementi con caratteristiche simili
      Attributi numerici
      Non supervisionato (no...
Regole Associative
      Scontrino   Prodotti                                        Scontrino Latte   Pane   Burro   Birr...
WEKA: il software
      Waikato Environment for Knowledge Analysis
      Collezione di algoritmi allo stato dell'arte per ...
Main Features
      49       strumenti di preprocessing
      76       algoritmi di classifcazione/regressione
      8    ...
C'era una volta...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
Oggi:




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strumen...
Classifcatori




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G,...
Alberi Decisionali




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
Knowledge fow




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G,...
Experimenter




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, ...
Progetti che sfruttano WEKA
     Rapid Miner (suite)




     Gate (NLP)
     GRB Tool Shed
     Judge (Docs)
     Pentaho...
Bibliografa Data Mining
      Data mining
        –   Data Mining: Practical Machine Learning Tools and Techniques (2ed), ...
uno scenario tipico...
      ...è quello di una grande azienda, con numerose fliali, i cui
      dirigenti desiderano quan...
uno scenario tipico...
      ...è quello di una grande azienda, con numerose fliali, i cui
      dirigenti desiderano quan...
dai dati alle informazioni
      l'informazione è un bene a valore
      crescente, necessario per pianifcare
      e cont...
la piramide della BI




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambe...
la piattaforma di BI
      Si parla di piattaforma di BI poiché per consentire ai manager
      analisi potenti e fessibil...
architettura di BI




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
le domande
      “Che incassi sono stati registrati l’anno passato per ciascuna
      regione e ciascuna categoria di prod...
esempio di aree di utilità
      Commercio
        –   analisi delle vendite e dei reclami, controllo di spedizioni e
    ...
tecniche di analisi dei dati
      Una volta che i dati sono stati ripuliti, integrati e trasformati,
      occorre capire...
strumenti: OLAP                         (On-Line Analytical Processing)

      Analisi dei dati in tempo reale mediante in...
OLAP: le gerarchie




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
OLAP: le operazioni sui cubi




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti ...
OLAP: le operazioni sui cubi

      Al manager di prodotto
      interessa la vendita di un
      prodotto in tutti i peri...
OLAP: le operazioni sui cubi
      Al manager fnanziario
      interessa la vendita dei
      prodotti in tutti i mercati
...
strumenti: REPORTISTICA e DASHBOARDING
      Possibilità di utilizzare un’unica sorgente dati integrata e
      consistent...
strumenti: DATA MINING
      Ofrono possibilità di analisi “superiori” e complementari
      rispetto a quelle ottenibili ...
PENTAHO BI Suite




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni...
PENTAHO
      Pentaho è un software open source commerciale per la
      Business Intelligence
      Pentaho sviluppato a ...
modello di sviluppo Beekeeper
   James Dixon, Pentaho Chief Technology Ofcer




      le api sono libere di andarsene: l'...
software proprietario e software open source




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux...
software commerciale open source




      rispecchia il modello dell'apicoltore
      include il modello proprietario e q...
PENTAHO architettura
      La Suite PENTAHO
        –   BI Platform
        –   Pentaho Dashboard
        –   Report Desig...
PENTAHO




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gamberoni G, Strum...
PENTAHO Dashboard
      Il servizio Dashboard di PENTAHO fornisce, all'utente business,
      le informazioni cruciali per...
PENTAHO Reporting
      Consente l'accesso semplice, la formattazione e la
      divulgazione delle informazioni.




Ferr...
PENTAHO Mondrian
      Server Open Source OLAP
      L'interfaccia web è JPivot
      Esplorazione interattiva (slice-
   ...
PENTAHO Kettle
      Consente l'accesso, la pulizia e l'integrazione dei dati aziendali
      Operazioni di estrazione, tr...
PENTAHO Weka
      ...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gam...
PENTAHO e oltre...




Ferrara, 2009-10-24   FLUG – Ferrara Linux User Group - www.ferrara.linux.it

Ferraretti D, Gambero...
GRAZIE PER L'ATTENZIONE




                                              www.i-ware.it



Ferrara, 2009-10-24   FLUG – Fe...
Upcoming SlideShare
Loading in …5
×

Linux Day 2009 - intelliWARE - Ferrara

898 views

Published on

business intelligence, pentaho, BI, linux day, 2009, Ferrara

Published in: Business, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
898
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Linux Day 2009 - intelliWARE - Ferrara

  1. 1. Strumenti Open Source per Data Mining e Business intelligence Giacomo Gamberoni e Denis Ferraretti IntelliWARE, Ferrara Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 1
  2. 2. Sommario Data Mining – Cos'è il Data Mining – Esempi e dataset – Tecniche – WEKA – Altri progetti Business Intelligence – Scenario tipico – Dai dati alle decisioni – Architettura BI – Pentaho – Beekeper Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 2
  3. 3. Cos'è il Data Mining The non-trivial process of identifying – Valid – Novel – potentially useful, and – ultimately understandable patterns in data. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 3
  4. 4. Esempi di problemi Distinguere mail/spam Riconoscimento numeri scritti a mano Valutazione usato auto Distinguere categorie di geni (fori) Analisi sondaggi elettorali Analisi scontrini della spesa Previsione abbandono clienti Segmentazione visitatori Valutazione afdabilità credito Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 4
  5. 5. UCI Machine Learning Repository Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 5
  6. 6. UCI Machine Learning Repository Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 6
  7. 7. Esempi di dataset Market Basket Customer 1: beer, pretzels, potato chips, aspirin Customer 2: diapers, baby lotion, grapefruit juice, baby food, milk Customer 3: soda, potato chips, milk Customer 4: soup, beer, milk, ice cream Customer 5: soda, cofee, milk, bread Customer 6: beer, potato chips Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 7
  8. 8. Tecniche di Data Mining Pseudo-tecnica Alberi decisionali Regole associative Clustering Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 8
  9. 9. Pseudo problema Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 9
  10. 10. Pseudo soluzione IF salary<k then not repaid k Approccio predittivo/descrittivo Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 10
  11. 11. Alberi decisionali Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 11
  12. 12. Valutazione della classifcazione Si divide il dataset in due parti – Training set (per esempio 90% delle istanze) – Test set (per esempio 10% delle istanze) Si usa il training set per apprendere l'albero e si testa il risultato usando le istanze del test set Si compila la matrice di confusione Esiste anche la 10-fold Cross Validation Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 12
  13. 13. Clustering Raggruppare gli elementi con caratteristiche simili Attributi numerici Non supervisionato (non c'è una classe defnita prima) Algoritmi – K-means – Hierarchical Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 13
  14. 14. Regole Associative Scontrino Prodotti Scontrino Latte Pane Burro Birra 1 Latte, pane 1 1 1 2 Pane, burro 2 1 1 3 Birra 3 1 4 Latte, pane, burro 4 1 1 1 5 Pane 5 1 Si basa sul concetto di itemset (insieme di prodotti) – Supporto (frequenza in percentuale) Regole tipo: x,y → z – Confdenza = supp(x,y,z)/supp(x,y) Possibili regole trovate: – Latte → Pane (supporto 40%, confdenza 100%) – Latte, pane → Burro (supporto 40%, confdenza 50%) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 14
  15. 15. WEKA: il software Waikato Environment for Knowledge Analysis Collezione di algoritmi allo stato dell'arte per Data Mining, implementato in Java – Rilasciato sotto licenza GPL Supporto per l'intero processo di Data Mining sperimentale – Preparazione dei dati di input – Valutazione Statistica dei modelli appresi – Visualizzazione degli input e dei risultati Usato per la didattica, la ricerca e le applicazioni Complemento di “Data Mining” di Witten & Frank Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 15
  16. 16. Main Features 49 strumenti di preprocessing 76 algoritmi di classifcazione/regressione 8 algoritmi di clustering 3 algoritmi per le regole associative 15 attribute/subset evaluators + 10 algoritmi di ricerca per feature selection 3 interfacce grafche – “The Explorer” (exploratory data analysis) – “The Experimenter” (experimental environment) – “The KnowledgeFlow” (new process model inspired interface) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 16
  17. 17. C'era una volta... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 17
  18. 18. Oggi: Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 18
  19. 19. Classifcatori Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 19
  20. 20. Alberi Decisionali Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 20
  21. 21. Knowledge fow Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 21
  22. 22. Experimenter Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 22
  23. 23. Progetti che sfruttano WEKA Rapid Miner (suite) Gate (NLP) GRB Tool Shed Judge (Docs) Pentaho Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 23
  24. 24. Bibliografa Data Mining Data mining – Data Mining: Practical Machine Learning Tools and Techniques (2ed), Ian H. Witten, Eibe Frank, Morgan Kaufmann, 2005 – Machine Learning, Tom Mitchell, McGraw Hill, 1997. – http://www.kdnuggets.com/ – http://www.cs.waikato.ac.nz/ml/weka/ Algoritmi – Quinlan, J. R. 1986 “Induction of Decision Trees” Mach. Learn. 1, 1 (Mar. 1986), 81-106. – Agrawal R, Imielinski T, Swami AN "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16 – MacQueen, J. B. 1967 "Some Methods for classifcation and Analysis of Multivariate Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1:281-297 Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 24
  25. 25. uno scenario tipico... ...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 25
  26. 26. uno scenario tipico... ...è quello di una grande azienda, con numerose fliali, i cui dirigenti desiderano quantifcare e valutare il contributo dato da ciascuna di esse al rendimento commerciale globale dell’impresa. la business intelligence è un insieme di strumenti e procedure che consentono a un'azienda di trasformare i propri dati di business in informazioni utili al processo decisionale, da rendere disponibili alla persona giusta e nel formato idoneo BUSINESS INTELLIGENCE Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 26
  27. 27. dai dati alle informazioni l'informazione è un bene a valore crescente, necessario per pianifcare e controllare le attività aziendali con efcacia costituisce la materia prima che viene trasformata dai sistemi informativi, come i semilavorati vengono trasformati dai sistemi di produzione DATI = INFORMAZIONI la disponibilità di troppi dati rende difcile estrapolare le informazioni veramente importanti Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 27
  28. 28. la piramide della BI Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 28
  29. 29. la piattaforma di BI Si parla di piattaforma di BI poiché per consentire ai manager analisi potenti e fessibili è necessario defnire un’apposita infrastruttura hardware e software di supporto composta da: ● Hardware dedicato ● Infrastrutture di rete ● DBMS ● Software di back-end ● Software di front-end Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 29
  30. 30. architettura di BI Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 30
  31. 31. le domande “Che incassi sono stati registrati l’anno passato per ciascuna regione e ciascuna categoria di prodotto?” “Che correlazione esiste tra l’andamento dei titoli azionari dei produttori di PC e i proftti trimestrali lungo gli ultimi 5 anni?” “Quali sono gli ordini che massimizzano gli incassi?” “Quale di due nuove terapie risulterà in una diminuzione della durata media di un ricovero?” “Che rapporto c’è tra i proftti realizzati con spedizioni di meno di 10 elementi e quelli realizzati con spedizioni di più di 10 elementi?” Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 31
  32. 32. esempio di aree di utilità Commercio – analisi delle vendite e dei reclami, controllo di spedizioni e inventari, cura del rapporto con i clienti Manifattura – controllo dei costi di produzione, supporto fornitori e ordini Servizi fnanziari – analisi del rischio e delle carte di credito, rivelazione di frodi Trasporti – gestione parco mezzi Telecomunicazioni – analisi del fusso delle chiamate e del proflo dei clienti Sanità – analisi di ricoveri e dimissioni, contabilità per centri di costo Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 32
  33. 33. tecniche di analisi dei dati Una volta che i dati sono stati ripuliti, integrati e trasformati, occorre capire come trarne il massimo vantaggio informativo Esistono in sostanza tre approcci diferenti, supportati da altrettante categorie di strumenti, all’interrogazione di un DW da parte degli utenti fnali: – OLAP: richiede all’utente di ragionare in modo multidimensionale e di conoscere l’interfaccia dello strumento grafco utilizzato – reportistica/dashboarding: non richiede conoscenze informatiche – data mining: richiede una conoscenza specifca e tecnica (consulente) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 33
  34. 34. strumenti: OLAP (On-Line Analytical Processing) Analisi dei dati in tempo reale mediante interfacce user friendly Dati organizzati in base al modello multidimensionale: i fatti di interesse sono rappresentati in cubi. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 34
  35. 35. OLAP: le gerarchie Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 35
  36. 36. OLAP: le operazioni sui cubi Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 36
  37. 37. OLAP: le operazioni sui cubi Al manager di prodotto interessa la vendita di un prodotto in tutti i periodi e in tutti i mercati Al manager regionale interessa la vendita dei prodotti in tutti i periodi nei propri mercati Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 37
  38. 38. OLAP: le operazioni sui cubi Al manager fnanziario interessa la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 38
  39. 39. strumenti: REPORTISTICA e DASHBOARDING Possibilità di utilizzare un’unica sorgente dati integrata e consistente per realizzare la reportistica/dashboarding Report sempre aggiornati Possibilità di costruire una “visione d’insieme” in tempo reale Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 39
  40. 40. strumenti: DATA MINING Ofrono possibilità di analisi “superiori” e complementari rispetto a quelle ottenibili tramite i sistemi OLAP Richiedono la presenza di “esperti” per scegliere/impostare/tarare/interpretare gli algoritmi impiegati Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 40
  41. 41. PENTAHO BI Suite Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 41
  42. 42. PENTAHO Pentaho è un software open source commerciale per la Business Intelligence Pentaho sviluppato a partire dal 2004 Pentaho comprende: reporting, OLAP analysis, dashboards, data integration (ETL), data mining e una piattaforma di BI. Software Open Source Ha una community per il supporto degli utenti Multipiattaforma (Windows, Linux, Macintosh, Solaris, Unix,...) Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 42
  43. 43. modello di sviluppo Beekeeper James Dixon, Pentaho Chief Technology Ofcer le api sono libere di andarsene: l'apicoltore deve creare un ambiente bello e confortevole i clienti non hanno niente a che fare con le api, vogliono solo il loro miele la crescita dell'allevamento dipende da quanto miele/cera viene venduto, questo dipende in parte dalle capacità del venditore e in parte dalla quantità di miele disponibile la quantità di miele dipende dal numero di api e questo dipende da quanto miele/cera viene lasciato alle api Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 43
  44. 44. software proprietario e software open source Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 44
  45. 45. software commerciale open source rispecchia il modello dell'apicoltore include il modello proprietario e quello open i clienti sono le aziende Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 45
  46. 46. PENTAHO architettura La Suite PENTAHO – BI Platform – Pentaho Dashboard – Report Designer – Mondrian (OLAP) – Kettle (ETL) – Weka (Data Mining) Tutto sviluppato su piattaforma JAVA. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 46
  47. 47. PENTAHO Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 47
  48. 48. PENTAHO Dashboard Il servizio Dashboard di PENTAHO fornisce, all'utente business, le informazioni cruciali per migliorare le performance aziendali Consente di avere un'immediata visione di insieme dei diversi aspetti aziendali attraverso la visualizzazione accattivante di metriche personalizzate Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 48
  49. 49. PENTAHO Reporting Consente l'accesso semplice, la formattazione e la divulgazione delle informazioni. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 49
  50. 50. PENTAHO Mondrian Server Open Source OLAP L'interfaccia web è JPivot Esplorazione interattiva (slice- and-dice, drill-down) delle informazioni senza la necessità di conoscere linguaggi di query Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 50
  51. 51. PENTAHO Kettle Consente l'accesso, la pulizia e l'integrazione dei dati aziendali Operazioni di estrazione, trasformazione e caricamento dei dati, attraverso un ambiente di progettazione grafco. Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 51
  52. 52. PENTAHO Weka ... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 52
  53. 53. PENTAHO e oltre... Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 53
  54. 54. GRAZIE PER L'ATTENZIONE www.i-ware.it Ferrara, 2009-10-24 FLUG – Ferrara Linux User Group - www.ferrara.linux.it Ferraretti D, Gamberoni G, Strumenti Open Source per Data Mining e Business Intelligence 54

×