Your SlideShare is downloading. ×
Open Source Data Mining - Data Mining Cup 2007
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Open Source Data Mining - Data Mining Cup 2007

2,190
views

Published on

Published in: Technology

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,190
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Open Source Data Mining Tools – Marktüberblick und Produktevaluation – Christian Schieder Data-Mining-Cup Anwendertage 2007 Leipzig 20. 06. 2007 1
  • 2. Open Source in aller Munde Open Source Data Mining Tools * * Kleijn, A. : Business Intelligence mit Open Source, Heise open / Markt, Juni 2006, http://www.heise.de/open/artikel/73725 Christian Schieder Open Source Data Mining Tools 2 DMC-Anwendertage, Leipzig 2007
  • 3. Open Source Data Mining im Gartner Hype Cycle Open Source Data Mining Tools visibility Virtual Data Federation/EII Dashboards/Scorecards Corporate Performance Management BAM/Real-Time BI SOA-Enabled BI EBISs Convergence ETL EBIS/BI Platforms Web Tools Analytics Advanced Production/ Analytics OLAP Formatted/ Collaborative BI Data Warehouse BI Platforms Web Appliance Metadata Tools Reporting Embedded Analytics Data Mining Workbenches Open Source BI ETL Embedded Visual BI Text Mining in DBMS Development Open Source DBMS ODBO/MDX and XML for Analysis Standard Tools Data Quality Cross-Enterprise Business 64-bit Analytics B2B BI Application Hardware Extranets Data Warehouses Analytical Process Controlling As of July 2005 Peak of Technology Trough of Plateau of Inflated Slope of Enlightenment Trigger Disillusionment Productivity Expectations maturity Plateau will be reached in: obsolete less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau Quelle: Gartner 2005 Christian Schieder Open Source Data Mining Tools 3 DMC-Anwendertage, Leipzig 2007
  • 4. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 4 DMC-Anwendertage, Leipzig 2007
  • 5. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 5 DMC-Anwendertage, Leipzig 2007
  • 6. Open Source: Spezifika 1. Grundlagen Lizenzierungsmodell Copy-Right vs. Copy-Left Im Data Mining Bereich häufig Dual Licensing Entwicklungsmodell Hybrides Modell: formale und agile Elemente (Cathedral vs. Bazaar)1 Paradigmen: Kollaboration, Iteration, Modularisierung “Community“-Phänomen 1 Raymond, E. (1997): The Cathedral and the Bazaar, http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/ Christian Schieder Open Source Data Mining Tools 6 DMC-Anwendertage, Leipzig 2007
  • 7. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 7 DMC-Anwendertage, Leipzig 2007
  • 8. Relevante Projekte am Markt 2. Marktüberblick WEKA [v.3.5.5] Rattle [v.2.2.58] RapidMiner [v.4.0.0] Orange [v.0.9.7] KNIME [v.1.2.1] Daneben: ca. 100+ weitere (teilw. nur rudimentäre) Projekte R-Project: R is a statistical and data mining package consisting of a programming language and a graphics system. Christian Schieder Open Source Data Mining Tools 8 DMC-Anwendertage, Leipzig 2007
  • 9. Projektsteckbrief WEKA (I) 2. Marktüberblick WEKA: Waikato Environment for Knowledge Analysis Aktuelles Release: v.3.5.6 Lizenz: GPL Entwickler: Universität Waikato, Hamilton, Neuseeland Projektbeginn: 1996 (1993) Projektseite: http://www.cs.waikato.ac.nz/~ml/weka/ http://sourceforge.net/projects/weka/ Besonderheiten: 3-teilige GUI: Explorer, Knowledge Flow, Experimenter Basis für (fast alle anderen) Open Source Data Mining Tools Christian Schieder Open Source Data Mining Tools 9 DMC-Anwendertage, Leipzig 2007
  • 10. Projektsteckbrief WEKA (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 10 DMC-Anwendertage, Leipzig 2007
  • 11. Projektsteckbrief WEKA (III): Download Impact 2. Marktüberblick Download History Weka Christian Schieder Open Source Data Mining Tools 11 DMC-Anwendertage, Leipzig 2007
  • 12. Projektsteckbrief RapidMiner (I) 2. Marktüberblick RapidMiner (Yale) Aktuelles Release: v.4.0.0 [Yale v.3.5.0] Lizenz: GPL + Kommerziell Entwickler: Universität Dortmund (Lehrstuhl für Künstliche Intelligenz) Rapid-i GbR (Spin-Off) Projektbeginn: 2001 Projektseite: http://rapid-i.com/ http://sourceforge.net/projects/yale/ Besonderheiten: WEKA-Plug-In Interaktives Online Demo Christian Schieder Open Source Data Mining Tools 12 DMC-Anwendertage, Leipzig 2007
  • 13. Projektsteckbrief RapidMiner (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 13 DMC-Anwendertage, Leipzig 2007
  • 14. Projektsteckbrief RapidMiner (III): Download Impact 2. Marktüberblick Download History RapidMiner Christian Schieder Open Source Data Mining Tools 14 DMC-Anwendertage, Leipzig 2007
  • 15. Projektsteckbrief KNIME (I) 2. Marktüberblick KNIME: KoNstanz Information MinEr [naIm] Aktuelles Release: v.1.2.1 Lizenz: LGPL ähnlich (Aladdin Free Public License) + Kommerziell Entwickler: Universität Konstanz (Chair for Bioinformatics and Information Mining) KNIME GmbH (Spin-Off) Projektbeginn: 2005 Projektseite: http://www.knime.org Besonderheiten: Eclipse Plug-In/RCP Integration in OS-Reporting-Tools (BIRT, jFreeCharts) Christian Schieder Open Source Data Mining Tools 15 DMC-Anwendertage, Leipzig 2007
  • 16. Projektsteckbrief KNIME (II): Screens 2. Marktüberblick Christian Schieder Open Source Data Mining Tools 16 DMC-Anwendertage, Leipzig 2007
  • 17. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 17 DMC-Anwendertage, Leipzig 2007
  • 18. CRISP-DM: CRoss-Industry Standard Process for Data Mining 3. Evaluation Business Data Understanding Understanding Schwerpunkte der Untersuchung Data Preparation Deployment Data Modeling Evaluation Quelle: http://www.crisp-dm.org/Process/index.htm Christian Schieder Open Source Data Mining Tools 18 DMC-Anwendertage, Leipzig 2007
  • 19. Grundzüge des Untersuchungsdesigns 3. Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Clementine als challengers leaders Referenzprodukt für die Untersuchung SAS SPSS [Microsoft] (IBM) ability to execute (Oracle) FairIsaac (Prudsys) KXEN (Bissantz) Unica Chordiant Portrait Teradata ThinkAnalytics niche players visionaries completeness of vision Quellen: Gartner 2006 (Barc 2001) Christian Schieder Open Source Data Mining Tools 19 DMC-Anwendertage, Leipzig 2007
  • 20. Grundzüge des Untersuchungsdesigns 3. Evaluation Vorauswahl der Open Source Tools (Internet-Recherchen)… SPSS Clementine als kommerzielles Referenzprodukt… Anwendung der OS-Tools auf die Beispiele und Daten von Clementine… Evaluierung von insgesamt 25 Einzelkriterien in 8 Kategorien verglichen mit Clementine Auswertung, Zusammenfassung und Vergleich der Testprotokolle… Christian Schieder Open Source Data Mining Tools 20 DMC-Anwendertage, Leipzig 2007
  • 21. Untersuchungskategorien 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA Christian Schieder Open Source Data Mining Tools 21 DMC-Anwendertage, Leipzig 2007
  • 22. Ergebnisse der Untersuchung: WEKA 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA [WEKA Version 3.5.5] Christian Schieder Open Source Data Mining Tools 22 DMC-Anwendertage, Leipzig 2007
  • 23. Ergebnisse der Untersuchung: RapidMiner 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Anm.: Die Bewertung bezieht sich auf YALE Version 3.4.0. Das im Mai Data Preparation Data Understanding 2007 erschienene Major-Relase mit der Umbennenung in RapidMiner bietet insbesondere in den schwachen Bereichen (Data Preparation, Ergonomie) RapidMiner [YALE Version 3.4.0] erhebliche Verbesserungen. Christian Schieder Open Source Data Mining Tools 23 DMC-Anwendertage, Leipzig 2007
  • 24. Ergebnisse der Untersuchung: KNIME 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding KNIME [KNIME Version 1.2.0] Christian Schieder Open Source Data Mining Tools 24 DMC-Anwendertage, Leipzig 2007
  • 25. Zusammenschau der Ergebnisse (I) 3. Evaluation Dokumentation 10 8 Auswertungen Ergonomie 6 4 2 0 Methoden Projektmanagement Data Preparation Data Understanding WEKA RapidMiner KNIME Christian Schieder Open Source Data Mining Tools 25 DMC-Anwendertage, Leipzig 2007
  • 26. Gliederung Open Source Data Mining Tools 1. Grundlagen 2. Marktüberblick 3. Evaluation 4. Fazit Christian Schieder Open Source Data Mining Tools 26 DMC-Anwendertage, Leipzig 2007
  • 27. Zusammenschau der Ergebnisse 4. Fazit Relativ hoher Reifegrad aller 3 untersuchten Produkte Im Gesamturteil liegt RapidMiner (mit dem Release vom Mai 2007) leicht vorn Aber: spezifische Stärken und Schwächen in jeden Tool Keines der Tools erreicht das Referenzprodukt in allen Kategorien Aber: In einzelnen Eigenschaften durchaus gleichwertig Insbesondere bei Offenheit, Anpassbarkeit und Interoperabilität deutliche Vorteile (Plug-Ins, XML) Christian Schieder Open Source Data Mining Tools 27 DMC-Anwendertage, Leipzig 2007
  • 28. Magic Quadrant for Open Source Data Mining Tools 4. Fazit challengers leaders Rapid Miner Fitness for Use KNIME Weka Rattle Orange RKWard niche players visionaries Future Relevance As of Q2/07 © TU Chemnitz Christian Schieder Open Source Data Mining Tools 28 DMC-Anwendertage, Leipzig 2007
  • 29. Zusammenfassung 4. Fazit Fazit: OS-Data-Mining-Tools erreichen heute (noch) nicht (in allen Belangen) die Leistungsfähigkeit kommerzieller Produkte Aber: OS-Tools entwickeln sich sehr dynamisch Frage: Reichen mir 90% der Funktionalität von Clementine? Tipp: Anforderungen genau definieren und OS-Tools im Einzelfall untersuchen Folgen: wachsender Reifegrad von Open Source Tools steigende Relevanz von OS Tools zunehmender Preisdruck für Anbieter Stärkung der Kundenposition Christian Schieder Open Source Data Mining Tools 29 DMC-Anwendertage, Leipzig 2007