Data Mining für Business Intelligence Data Mining for ...

  • 1,374 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,374
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
13
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Data Mining für Business Intelligence Data Mining for Business Intelligence Stefan Beranek Gudrunstrasse 185/1/19 A-1100 Wien, AUSTRIA Telefon: +43-676-6675640 E-Mail: Stefan.Beranek@ogre.at
  • 2. 2 Data Mining für Business Intelligence Data Mining for Business Intelligence Stichworte: Data Mining, Business Intelligence, Anwendungen, E-Marketing, Entwicklung, Wissensbasis Keywords: Data Mining, Business Intelligence, application, development, e-marketing, knowledge base Zusammenfassung Dieser Text gibt einen groben Überblick über Business Intelligence mit einigen üblichen Rahmenmodellen, anschlieÿend wird das Gebiet des Data Minings aufgearbeitet, seine Ent- wicklung und wie man Daten als Datenbasis dafür sammeln kann, sowie die verschiedenen Vorgangsweisen um mit dieser Datenbasis zu arbeiten und daraus Wissen zu gewinnen, um das Gebiet mit einigen Anwendung wie im Bereich der Universität oder des E-Marketings sowie im Bereich der Abschätzung des Wertes eines Kunden für einen Mobilfunkbetreiber abzurunden. Abstract This text gives a rough overview of basic models of Business Intelligence. After this it starts with the basis of Data Mining, especially its historical development, how to collect data to use as a data base for later knowledge deduction and how to use this data basis. Further more this article continues with a description how these technices are applied in special applications like in an university or in E-Marketing or in a mobile communications company.
  • 3. Inhaltsverzeichnis 1 Einleitung 7 2 Business Intelligence 11 2.1 Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 Rahmenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.1 Balanced Scorecard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.2 Data Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.3 Supply Chain Management (SCM) . . . . . . . . . . . . . . . . . . . . 15 2.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 Data Mining 19 3.1 Der Beginn des Data Minings . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Data Mining im speziellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3 Data Mining als Interdisziplinäres Fach . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Datenbasis und mögliche Mustervorkommen . . . . . . . . . . . . . . . . . . . 22 3.4.1 Relationale Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.2 Datawarehouses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.3 Transaktionsdatenbanken . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.4 Moderne Datenbanksysteme . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5 Verwendete Vorgangsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.5.1 Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.5.2 Wissensableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.6 Art der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.7 Vorbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.8 Anwendungen und die Zukunft des DM . . . . . . . . . . . . . . . . . . . . . . 28 3.8.1 Data Mining in der Anwendung an der Universität . . . . . . . . . . . 28 3.8.2 Data Mining in der Anwendung im E-Marketing . . . . . . . . . . . . . 28 3.9 Die praktische Anwendung und die Zukunft . . . . . . . . . . . . . . . . . . . 31 3
  • 4. 4 INHALTSVERZEICHNIS 4 Data Mining in der Business Intelligence 33 4.1 Der Wert des einzelnen Kunden für einen Mobilfunkbetreiber . . . . . . . . . . 33 4.1.1 Verweildauer des Kunden . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.1.2 Zeitwertberechnung eines Kundenvertrags . . . . . . . . . . . . . . . . 34 4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes . . . . . . . 34 4.1.4 Andere Kampagnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5 Schlussworte 37
  • 5. INHALTSVERZEICHNIS 5 Vorwort Dieser Text entstand im Rahmen des Wirtschaftsuniversitätsfaches Seminar aus Informati- onswirtschaft von o. Univ. Prof. Dr. Wolfgang Janko und Priv. Doz. Dr. Michael Hahsler im Sommersemester 2007. Mein Dank gilt im besonderen meinen beiden Freunden Mag. rer. nat. Stefan Padlesak und Mag. phil. Robert Koch die mir bei der Ausarbeitung dann und wann jeweils als Lektoren hilfreich zur Seite standen.
  • 6. 6 INHALTSVERZEICHNIS
  • 7. Kapitel 1 Einleitung Der Begri Intelligence bedeutet nicht, wie so oft von non-native speakern fälschlicherweise gedacht, Intelligenz. Jedoch ist dieser Begri in der praktischen Ausübung des Intelligence gatherings, dass heiÿt des Einsammelns von Informationen, nicht nur peripher mit diesem Wort verbunden. Denn, wie später in der Arbeit noch in ausführlicher Form dargestellt, ist es die intelligente Einholung von gewissen Informationen und dann fasst noch essentieller für den positiv zu absolvierenden Arbeitsprozess, die intelligente Herausholung der für die Aufgabe wertvollen Informationen intelligent auszuwerten. Wie sich dann noch herausstellen wird, ist es gerade dieser Punkt der besondere Beachtung nden sollte und letztendlich auch muss, damit man das Ziel der Anwendung zu einem gütlichen Ende bringen kann. So ist auch der Name einer der verschiedenen Nachrichtendienste zu verstehen, der Cen- tral intelligence Agency, kurz CIA. Diese Einheit versucht auch anhand von Informationen verwendbare Lagebilder zu erstellen. Allgemein kann man sagen, dass Nachrichtendienste In- formationen zu verschiedenen Themenbereichen sammeln (Auÿen-, Innen- und Sicherheitspo- litik stehen dabei im Mittelpunkt), welche unterstützend für die Urteilsndung der politischen Führung verwendet werden. Fehler können groÿe Auswirkungen haben, wie beispielsweise die unzureichenden Information im Vorfeld des Irakkrieges. Ähnlich verhält es sich natürlich auf einem anderen Gebiet mit der Business Intelligence. Hier legt man Hauptaugenmerk auf das Geschäft, in der Durchführung der Aufgabe lassen sich aber Gemeinsamkeiten nicht von der Hand weisen. Den auch in dieser Sphäre können Fehler ungeahnte negative Auswirkungen haben, diese auszuschliessen oder zumindest auf ein geringes Maÿ zu reduzieren ist eines der hauptsächlich verfolgten Ziele innerhalb des Data Minings bzw. der Business Intelligence. Es geht, wie so oft im Leben und vor allem auch in der Wirtschaft, vor allem um Wissen, am besten auch noch, dass man mehr als der wirtschaftliche Kontrahent weiss. Klaus North meint dazu im Buch Wissensorientierte Unternehmensführung (North, 1999): Die Bedeutung der Ressource Wissen wird in Volkswirtschaften und Un- 7
  • 8. 8 KAPITEL 1. EINLEITUNG Abbildung 1.1: Die Wissenstreppe von Klaus North zeigt die Schritte vom Zeichen als Basis- einheit der Daten bis zur gesteigerten Wettbewebsfähigkeit (In Anlehnung an North, 1999) ternehmen zunehmend erkannt. Die gesellschaftlichen und organisatorischen Rah- menbedingungen zur Generierung und eektiven Nutzung von Wissen werden in der nahen Zukunft die Wettbewerbsfähigkeit bestimmen. Ziel wissensorientierter Unternehmensführung ist es, aus Informationen Wissen zu generieren, und dieses Wissen in nachhaltige Wettbewerbsvorteile umzusetzen, die als Geschäftserfolge messbar werden. In diesem Zusammenhang entwickelte er auch die allgemein gebräuchliche Wissenstreppe (siehe Abb. 1.1), die darstellen soll, wie es gelingen kann Wissen zu generieren und eektiv nutzbar zu machen. Im Bereich der Informatik kann dabei dieser Prozess automatisiert werden, hierbei ist natürlich die richtige Wahl der Kennzahlen und Kategorisierungen im Allgemeinen notwendig. Denn wie dargestellt macht es denitiv keinen Sinn die richtigen Fragen zu stellen, aber die gesammelten Informationen nicht zu nützlichen und brauchbaren Antworten zu verarbeiten bzw. zu formen. Dies ist die Problemstellung und ich hoe, dass es mir gelingen wird bezüglich der Business Intelligence und dem damit in Zusammenhang stehenden Data Mining etwas Licht in die Sache zu werfen. Das ein Run auf diese Art der Intelligence eingesetzt hat, zeigen die zuletzt erhobenen Daten, nachdem im Jahr 2007 gemäÿ den Äusserungen von diversen Analysten und Experten der Informationstechnologie Branche ein Gesamtumsatz des Marktes von insgesamt bis zu 1,76 Milliarden Euro nicht unmöglich zu erreichen ist (Wikipedia.org, 2007a). Einige der weltweit gröÿten Firmen bieten als Teil ihres Anbotportfolios auch solche Dienste an, wie zum Beispiel Microsoft, Oracle, oder ein anderer Branchenprimus SAP. Anhand dieser Auistung und dem feststellen des Marktpotenzial wird erst so richtig klar, dass man nicht von einem Phantom innerhalb der Computergemeinschaft sprechen kann und sich genaues ansehen dieser Sphäre lohnt.
  • 9. 9 Meine Arbeit wird das Rad nicht neu ernden, dennoch hoe ich einen Einstieg in das Thema zu schaen, so dass der geneigte Leser am Schluss ein besseres Verständnis über die essentielle Bedeutung dieser Thematik hat. Die Geschwindigkeit mit der sich dieser Teilbe- reich weiterentwickelt macht es geradezu unmöglich das Feld zu hundert Prozent abzudecken, gewisse Grundaussagen möchte ich aber in meiner Arbeit nicht verschweigen. Probleme sollen aufgezeigt werden und theoretische Grundbegriichkeiten in der notwendigen Ausführlichkeit aufgezeigt werden. Natürlich kann man in der Kürze meiner Arbeit für dieses Seminar nicht alles mit der Aufmerksamkeit versehen die gewisse Teile vielleicht benötigt hätten, unterm Strich soll aber eine gewisse Klarheit über die Thematik der Business Intelligence und die des Data Minings entstehen und das ganze könnte so als Einstieg in diese Bereiche dienen. Abschlieÿend möchte ich dem Leser dieser Arbeit nur schon vorab ein letztes Mal von der Wichtigkeit diese Faches überzeugen, allein mit der Zahl 1960, da diese den Begin der Ära des Data Minings festsetzt (Wikipedia.org, 2007a). Man hat es also nicht mit einem Modegag zu tun sondern mit etwas handfestem, dass die Geschäftsbranche schon seit nunmehr fast 50 Jahre beschäftigt. Da dies so festzustellen ist sollte man dem Thema auch mit dem ihm gebührenden Respekt gegenüberstehen. Ich werde versuchen in der Arbeit meinen Teil dazu beizutragen und hoe dem Leser zu einem kurzweiligen Einstieg zu verhelfen. Viel Spaÿ!
  • 10. 10 KAPITEL 1. EINLEITUNG
  • 11. Kapitel 2 Business Intelligence Zur Einleitung in das Themengebiet hier ein Zitat des Begries Business-Intelligence aus Wikipedia (Wikipedia.org, 2007a) Der Begri Business-Intelligence (aus dem englischen Business Intelligence = Geschäftsanalyse, geschäftliche Nachforschung, geschäftliche Erkenntnisse, Abk. BI) wurde Anfang bis Mitte der 1990er Jahre populär und bezeichnet Systeme und Prozesse zur systematischen Analyse eines Unternehmens und seines kommerziellen Umfeldesmeist mit Computersystemen. Ziel ist die Gewinnung von Erkenntnissen, die in Hinsicht auf die Unternehmensziele bessere operative, taktische oder strate- gische Entscheidungen ermöglichen. Dies geschieht mit Hilfe analytischer Konzepte und IT-Systeme, die Daten über das eigene Unternehmen, die Mitbewerber oder Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn auswerten. Mit den gewonnenen Erkenntnissen können Unternehmen ihre Geschäftsabläufe, Kunden- und Lieferantenbeziehungen protabler machen, Kosten senken, Risiken minimieren und die Wertschöpfung vergröÿern. Der Begri wird dem Fachgebiet der Wirtschaftsinformatik zugerechnet. Business Intelligence (kurz BI) Anwendungen und Technologien ermöglichen Firmen besser informierte Wirtschaftsentscheidungen zu treen und geben ihnen damit einen klaren Wettbe- werbsvorteil. Damit erlauben sie es, Firmen interne und externe Informationen zu extrapolieren und dadurch Prognossen über die zukünftigen Trends ihrer Branche zu erstellen. Dem Mana- gement wird nun dadurch unter anderem erleichtert, die Position ihrer Firma im Vergleich zu ihren Konkurrenten festzustellen. BI Methoden helfen beim analysieren folgender Bereiche: Änderungen der Trends im Markt, Änderungen im Kundenverhalten und Ausgabeverhalten, eruieren der Kundenwün- sche, Möglichkeiten der Firma und Marktkonditionen im Allgemeinen. Weiters erhält das Management so Hilfestellungen welche Änderungen die Trends wie beeinussen. 11
  • 12. 12 KAPITEL 2. BUSINESS INTELLIGENCE BI Systeme ermöglichen es wirtschaftliche Entscheidungen auf eine auf Daten basieren- de Grundlage zu stellen und von intuitiven Entscheidungen Abstand zu nehmen. Zusätzlich wird die Komunikation zwischen den Abteilungen gestärkt, koordinierte Aktivitäten werden ermöglicht, und Firmen ist es möglich schneller auf Änderungen (nanzielle Änderungen, Ver- änderungen des Kundengeschmacks, Änderungen im Supply-Chain Bereich, etc.) zu reagieren. Wenn BI Systeme ein hochwertiges Design besitzen und vollständig in den Entscheidungspro- zess integriert sind, steigern sie die Performance einer Firma. Zugang zu aktuellen und aku- raten Informationen ist eine der wichtigsten Resourcen einer Firma. Zusammenfassend kann man somit sagen, dass Business Intelligence Methoden Entscheidungsprozesse erleichtern und mittelbar auch die Kundenzufriedenheit steigern. Im Dienstleistungssektor benötigen Firmen up-to-date Informationen über Kundenbedürf- nisse, sodass die Firma sich schnell den geänderten Wünschen anpassen kann. BI ermöglicht hier nun Informationen zu Trends im jeweiligen Marktsektor zu sammeln und zu analysieren und somit mit neuen inovativen Produkten oder Serviceleistungen den gegebenen Kunden- wünschen entsprechend aufzuwarten. BI hilft auch Managern sich besser über die Aktionen der Konkurrenten zu informieren. Auÿerdem ermöglicht BI eine bessere Kommunikation über ausgewählte stategische Informationen mit Geschäftspartnern, wie z.B. der Austausch von Daten über Inventarstände, Leistungskennzahlen und Daten zur eigenen Supply Chain für die jeweiligen Zulieferrmen. Des weiteren versorgen BI Systeme Manger mit Informationen über den Stand von wirt- schaftlichen Trends oder Marktgegebenheiten und mit tiefergehenden Wissen über die internen Operationen der eigenen Firma. 2.1 Voraussetzungen Um eektiv zu funktionieren benötigen BI Technologien ein sicheres Computer Sytem, wel- ches verschiedene Stufen der Zugangsberechtigungen zu einem Datawarehouse(siehe auch Kap. 3.4.2) ermöglicht, je nach Berechtigungsstufe, vom einfachen Mitarbeiter bis zum obersten Chef. Weiters besteht klarerweise die Notwendigkeit, genügend Speicherkapazität für alle ge- sammelten Daten zur Verfügung zu stellen. Damit in Zusammenhang muss auch überlegt werden, wie lange die Daten gespeichert werden (data retention time). Um hier zu instrumen- taliserbaren Auswertungsergebnissen zu kommen, muss man dazu Benchmarks für das System erstellen und benötigt jeweils passende Arbeitssziele. BI Analysten haben nun Softwarewerkzeuge zum Sammeln und Auswerten groÿer Mengen an unstrukturierter Daten, wie Produktionskennzahlen, Verkaufsstatistiken, Anwesenheitsli- sten, Kundenprole, etc., entwickelt. Jede BI-Anwendung ist dabei nun eigens für einen be- stimmten Marktsektor (allgemeiner Verkauf, Finanzsektor, etc.) entwickelt worden um diesen
  • 13. 2.2. RAHMENMODELLE 13 gegebenen Anforderungen möglichst ezient zu genügen. 2.2 Rahmenmodelle 2.2.1 Balanced Scorecard Das Balanced Scorecard Konzept wurde von Dr. Robert Kaplan und Dr. David Norton im Jahre 1992 entwickelt und wurde bereits weltweit bei vielen Firmen, Nonprot-Organisationen und Regierungen implementiert (vgl. Kirby, 2006). Die Balanced Scorcard ist: • Ein Konzept welches die Strategien einer Organisation anhand von vier Perspektiven, Finanz, Kunde, interne Prozesse sowie Lernen und Wachstum misst. • Ein Kommunikationssystem, welches die Lücke zwischen den gesetzten Zielen der Füh- rung und den Mitgliedern, die letztendlich für die Ereichung der gesetzten Ziele direkt verantwortlich sind, schlieÿt. • Ein Messsystem, welches über die Performance berichtet und Prognossen über die zu- künftige Leistungen ermöglicht. • Ein Prozess zur Implementierung und Organisation von strukturellen Änderungen. Im Balanced Scorecard System gibt die Strategy Map einen auf einer Seite zusammenge- fassten Überblick über die Strategien der Organisation. In einer protorentierten Situtation beginnt die Organisation mit dem nanziellen Ziel (da ja die Gewinnereichung als oberste Zielmaxime zählt), achtet auf Kundenwünsche und untersucht nun die Wirkung der internen Prozesse. Jedes Kreis- und jedes Blasensymbol in der Strategy Map in Abb. 2.1 präsentiert ein strategisches Ziel der Organisation. Unter jedem Ziel ist vermerkt, wie es gemessen wird (wie die Performance bezüglich des Zieles gemessen und überwacht wird), sowie die notwendigen Initiativen (Aktionsprogramme zum Erreichen der Ziele). Die meisten Organisationen folgen in der Realität einem jährlichen Operationsplan welcher zwar diesen Massnahmen, Zielen und Initiativen grob ähnelt aber sich natürlich im Detail davon unterscheidet. 2.2.2 Data Monitoring Einer der wichtigsten Aspekte im Firmenleben sind Daten und ihr Einuss. Vom Kundenser- vice bis hin zum Oberen Management werden Daten über Kundenorganisationenen, Produkte, Inventar und Angestellte generiert, welche einen wichtigen Faktor für das Verstehen der Un- ternehmenslandschaft spielen.
  • 14. 14 KAPITEL 2. BUSINESS INTELLIGENCE Abbildung 2.1: Eine Beispiel für eine Strategy Map( (Kirby, 2006)) Gute Daten sind der Schlüsselfaktor für eine gute Entscheidungsperspektive für das strate- gische Management. Sie geben den Entscheidern genügend Hintergrundinformationen um die Geschäftssituation zu verstehen und Trends auf dem Markt zu erkennen. Eine Organisation kann jedoch nicht einfach die Qualität der Daten erhöhen und diese als statische Referenz nutzen. Daten reektieren die Veränderung der Welt um uns herum. Daher sind gute Daten dynamisch und verändern sich ständig. Viele Firmen können nun die Qualität dieser Daten nicht erhalten, weil zuviel Zeit beim Datentransport bzw. der Datenverarbeitung vergeht  die Daten werden ungenau oder sind bereits komplett falsch wenn sie die Entscheidungsträger erreichen. Data Monitoring ist eine Schlüsselkomponente für die Sicherstellung der Datenqualität und Datenintegration. Auÿerdem hilft das Monitoring beim Identizieren und Korrigieren der Inezienzen bei den automatisierten Prozessabläufen.Einfach gesagt ist Data-Monitoring wichtig um Daten konsitent, genau und zuverlässig zu halten. Um diese Ziele zu erreichen gibt es fünf Phasen (Fisher, 2006): 1. Data Proling Dabei wird zuerst überprüft wie gut der vorhandene Datenbestand ist bzw. was dessen Stärken und Schwächen sind. 2. Data Quality Hierbe geht es nun um die Verbesserung des bestehenden Datenpools.
  • 15. 2.2. RAHMENMODELLE 15 Abbildung 2.2: Proling, Qualität, Integration, Enrichment und Monitoring formen die Basis einer vollständigen Data Monitoring Implementierung (Teachey, 2007) 3. Data Integration An dieser Stelle werden Informationen zum selben realen Objekt (z.B. ein bestimmter Kunde) aus verschiedenen Quellen miteinander verknüpft. 4. Data Enrichment In dieser Phase werden externen Daten zum Vervollständigen und Ergänzen der vorhan- denen Daten benutzt. 5. Data Monitoring IIm Data Monitoring geht es darum, die nun erreichten Erfolge bzw. die nun erreichte Qualität des Datenbestandes durch fortlaufende Vorgänge zu erhalten. Der Zusammenhang dieser Phasen ist in der Abbildung zu erkennen (Abb. 2.2). 2.2.3 Supply Chain Management (SCM) Supply Chain Management ist der Prozess in dem die Plannung, Implementierung und das Controlling der Operationen in der Beschaungskette durchgeführt wird, wobei hier die Kun- denanforderung und die Unternehmensziele stets im Vordergrund stehen. Das SCM verwaltet alle Bewegungen der Rohstoe bis hin zum fertigen Endprodukt.
  • 16. 16 KAPITEL 2. BUSINESS INTELLIGENCE Aktivitäten des SCM Beim SCM werden alle Bewegungen von Rohstoen in ein Unternehmen und die Bewegungen der fertiggestellten Endprodukte zu den Konsumenten gesteuert. Da viele Unternehmen sich mittelerweile auf ihr Kernkompetenzen fokusieren, haben sie das Management für die Rohmaterialienbeschaung und Vertriebskanäle ausgelagert. Dadurch entstehen für diese Firmen weniger Kosten bei mehr Ezienz. Durch diese neue Vorgehens- weise, verliert das Unternehmen an Kontrolle in diesem Segment. Doch wie bereits 1990 die Wissenschaftler Hahn und Watts sagten: "without a competent supplier network, a rm's ability to compete eectively in the market can be hampered signicantly (Ogden, 2006). Wie hier erwähnt ist es immer noch wichtig dass das Liferantennetz funktioniert. Auch wenn die Aufnahme oder die Koordination dieses Netze ausgelagert wurde. Weniger Kontrolle und mehr Supply Chain Partner führen zur Entstehung von neuen Sup- ply Chain Management Konzepten. Es gibt mittlerweile verschiedene Modelle, um die vielen Aktivitäten, die man zum Steuern der Rohstobewegung in Unternehmen und Organisationen benötigt. Diese Supply Chain Aktivitäten kann man sodann gruppieren in der strategischen, taktischen und operationalen Ebene. (vgl. Wikipedia.org, 2007c) • Strategische Aktivitäten  Strategische Netzwerk Optimierung: inkludiert die Anzahl, den Ort und die Gröÿe der Lagerhallen, Vertriebszentren und Einrichtungen  Strategische Partnerschaften: mit Liferanten, Vertrieb, und Kundenanforderung  Produkt Design Koordination: so dass neue und existierende Produkte optimal in die Beschaungskette integriert werden können  IT Infrastruktur: um die SCM Operationen zu unterstützen • Taktische Aktivitäten  Beschaungsverträge und andere Einkaufsentscheidungen  Produktionsentscheidungen  Inventarentscheidungen: bezüglich Quantität, Ort und Qualität des Inventars  Trasportstrategy: inkludiert die Häugkeit und die Routen  Benchmarking für alle Operationen gegen Konkurrenten • Operationale Aktivitäten  Tägliche Produktion und Verkaufsplannung  Produktionsplannung für jede Fabrik in der Beschaungskette
  • 17. 2.3. ZUSAMMENFASSUNG 17  Nachfrageplannung und Vorschau: um alle Kundenanforderung decken zu können  Produktionsoperationen: inkludiert den Verbauch an Materialien und die Abfuhr von Fertigprodukten 2.3 Zusammenfassung Nachdem nun das Gebiet der Business Intelligence, das sich als Hauptziel auf die Fahnen schreibt den Unternehmen den entscheidenden Wettbewerbsvorteil durch bessere Informatio- nen zu liefern und dazu einige Rahmenmodelle als praktische Ansätze zur Verfügung stellt, wird nun im nächsten Kapitel auf das Datamining und seine Anwendungen eingegangen, bei dem es auch um allgemeinere, nicht nur wirtschaftsspezische Ansätze geht.
  • 18. 18 KAPITEL 2. BUSINESS INTELLIGENCE
  • 19. Kapitel 3 Data Mining Zur Einleitung in das Themengebiet hier wieder eine Erklärung des Begries Data Mining aus Wikipedie (Wikipedia.org, 2007b): Unter Data Mining versteht man die Anwendung von (statistisch-mathemati- schen) Methoden auf einen Datenbestand mit dem Ziel der Mustererkennung. Da- bei nden insbesondere solche Methoden Anwendung, die hervorragende asympto- tische Laufzeiten haben, weshalb Data-Mining oft im Zusammenhang mit grossen Datenbeständen genannt wird. Gleichwohl ergeben sich durch den Verzicht auf Mo- dellannahmen über den Datenentstehungsprozess auch bei kleinen Datenbeständen interessante Anwendungsmöglichkeiten. Die Anwendung von Data Mining ist in der heutigen Zeit nicht zuletzt auch in den verschiedenen Sektoren der Privatwirtschaft ein immer stärker auftretendes Phänomen. Die Anwendungsgebiete sind mannigfaltig und reichen von der Auswertung von Einkaufsdaten der Supermarktkunden, gewonnen durch die Speicherung der auf ihren Stammkarten vermerkten Einkäufe, durch welche man die von ihnen gepegten Einkaufsgewohnheiten ablesen kann bis hin zu nachrichtendienstlichen Tätigkeiten wie das Echelon System, welches sich darauf spe- zialisiert nach gewissen Worten beziehungsweise Zeichenkonstrukten mögliche Gefahrenherde so schnell und früh wie möglich zu erkennen um sie baldigst unter Kontrolle zu bekommen. Nachstehend will ich nun versuchen eine Einführung über den Bereich des Data Minings zu geben, um als Abschluss den Verwendungszweck im Bereich der Business-Intelligence dar- zustellen. 3.1 Der Beginn des Data Minings Wie so oft am Anfang von Erndungen stand auch am Start des Data Minings die Notwen- digkeit. Die Menge an Daten nahm über die Zeit naturgemäÿ zu und musste verwaltet und 19
  • 20. 20 KAPITEL 3. DATA MINING zielgerichtet ausgewertet werden. Schon in den 60er Jahren des 20. Jahrhunderts begann man an geeigneten Auswertsystemen zu basteln, dazu gehören grob gesprochen (Eder, 2002): 1. Datensammlung; 2. Datenbankerstellung; 3. Datenverwaltung 4. Datenanalyse und -auswertung Ad 1.) und 2.): Dieser Prozess begann wie gesagt schon in den 60ern, als einfache Daten- verarbeitung ohne in komplexere Gelde abzudriften. Ad 3): In den 70er Jahren und Anfang der 80er-Dekade begann man Systeme zu entwickeln, welche sich um das Datenmanagement selbst kümmern sollten. Da wären zum Beispiel hier- archische und netzwerkbasierende Datenbanksysteme, User Interfaces, User Forms und User Berichte, On-Line Transaction processing (OLTP umfasst unter anderem die sofortige Antwort eines Systems auf eine Benutzeranfrage), und so weiter zu nennen. Von diesem Hauptkonstrukt traten drei groÿe Leitlinien heraus, Advanced Database Sy- stems ab Mitte der 80er Jahre, Data Warehousing (siehe auch Kap. 3.4.2) und Data Mining ab den späten 80er Jahren und zuletzt Web-Based Databases Systems (mit dem Schwerpunkt des Internets als Schnittstelle) in der letzten Dekade des 20. Jahrhunderts. Die neueste Entwicklung ist ab dem neuen Millennium eine neue Generation der integrierten Informationssysteme(IIS). Dabei werden die Geschäftsprozesse und die Prozesse der Datenerhebung/-verarbeitung an- einander angepasst, damit man die Daten während den laufenden Prozessen bereits erheben kann und vom IIS gleichzeitig miteinander vollautomatisch verknüpft. 3.2 Data Mining im speziellen Unter dem Wort Data Mining versteht man im algemeinen Kontext das nden von essentiellen und wichtigen Informationen, herausgezogen aus einem Haufen von unnnötigen und nicht zielführenden Daten. Diesen wertvollen Sto abzubauen ist das erklärte Ziel des Data Minings. Man kann Data Mining jedoch auch als einen Teil dieses allumfassenden Prozesses verste- hen und um Doppeldeutigkeiten zu vermeiden, den gesamten Ablauf dann unter dem Begri knowledge discovery in databases (KDD) führen, wovon ich hier aber absehen möchte, es sei hier nur der Volständigkeit halber erwähnt. Dieser Vorgang lässt sich wiederum in sieben Abschnitte unterteilen: (Jiawei and Kamber, 2001, S.7) 1. Data cleaning (hier geht es um das entfernen von miÿliebigen und inkonsistenten Daten)
  • 21. 3.3. DATA MINING ALS INTERDISZIPLINÄRES FACH 21 2. Data Integration (mulitple Datenquellen werden zusammengeführt) 3. Data Selection (für das Forschungsobjekt wichtige Daten werden von der bestehenden Database herausgeltert) 4. Data Transformation (Daten werden in einen bestimmten bearbeitbaren Zustand ge- bracht, zum Beispiel durch Zusammenfassen oder Aggregation dieser.) 5. Data Mining (Datenmuster sollen extrahiert werden - dies ist als das Data Mining schlechthin zu verstehen) 6. Musterbewertung (Aufgrund von verschiedenen Massnahmen wird versucht die wirklich aussagekräftigen und nutzbaren Muster zu entdecken) 7. Die Präsentation der Ergebnisse (die Visualisierung der herausgefundenen Erkenntnisse für den Anwender) 3.3 Data Mining als Interdisziplinäres Fach Im Bereich des Data Mings kann man nicht nur die Standards aus einem Bereich zu rate ziehen, sondern muss versuchen aus verschiedenen Sektoren die für die Aufgabe richtigen und wichtigen Kriterien miteinzubeziehen. Diese können aus dem Fach der Statistik, der Visua- lisierung, der Informationswissenschaft, der Datenbanktechnologie, oder anderen Disziplinen kommen. Das von mir schon erwähnte Beispiel, des zu untersuchenden Verhaltens der Käufer im Supermarkt, wird wohl auch auf Teile der Disziplin der Psychologie zurückgreifen, oder das Beispiel des Systems des Echelons, wird sich auch durch Hinweise aus der Politikwissenschaft leiten lassen, vor allem hinsichtlich der Betrachtung von wichtigen Begrien dieser Disziplin der Wissenschaft. Wichtige Punkte im Bereich die immer zu berücksichtigen sind die Methodologie und die Interaktion mit den einzelnen Anwendern, da ja nicht jeder User dasselbe Wissen aus den schon gesammelten Informationen ziehen will. Aus dem letztgenannten Grund ist es wichtig eine breite Wissensbasis aufzubauen, da- mit zumindest der Groÿteil der Anfragen der Anwender zufriedenstellend beantwortet werden kann. Han und Kamber(Jiawei and Kamber, 2001, S.30) zeigen hier die wesentlichen Aufga- ben der Wissensndung auf: data characterization, discriminiation, association, classiaction, clustering, trend and deviation analysis, and similiarity analysis.
  • 22. 22 KAPITEL 3. DATA MINING 3.4 Datenbasis und mögliche Mustervorkommen In diesem Abschnitt wird geklärt, an was für einer Datenbasis Data Mining ansetzen kann (siehe auch Jiawei and Kamber, 2001). 3.4.1 Relationale Datenbanken Ein Datenbanksystem (engl. DBMS=Data Base Managment System) besteht aus einer Samm- lung zusammenhängender Daten, der Datenbank und den Softwarewerkzeugen um diese Daten zu verwalten und zu bearbeiten. Dabei werden Mechanismen angewendet um die Struktur der Datenbank festzulegen, um Datenbanken zu speichern, auf diese parallel zugreifen zu können und um die Sicherheit und Konsistenz der darin bendlichen Daten zu gewährleisten sowohl gegenüber unerlaubtem Zugri aber auch gegen Harwarefehler und Systemabstürze. 3.4.2 Datawarehouses Ein Datawarehoue ist ein System, das seine Information aus vielen unabhängigen Datenbanken bezieht, die ihre Daten in jeweils zu einander inkompatiblem Formaten ablegen. Hier scha- te ein Datawarehouse Abhilfe indem es seine Information über eine zentrale Datenbank zur Verfügung stellt. Seine Daten erhält es durch einen Ablauf der aus Datenbereinigung, Daten- transformation, Datenintegration, Datenübertragung und periodischen Datenabgleich besteht. Es werden in einem Datawarehouse die Daten nach ihrem referenzierten Bereich aufgeteilt, zum Beispiel in die Bereiche Kunden, Lieferanten und Aktivitäten. Um nun als Entschei- dunggrundlage dienen zu können, indem man zum Beispiel Trends extrapolieren kann, werden Daten über einen längereren Zeitraum aufbewahrt (zum Beispiel über ein Jahrzent) und es werden nicht die einzelnen Geschäftstransaktionen verzeichnet sondern nur aggregierte Werte wie etwa der Gesamtumsatz des Produktes xy im Monat z. Datawarehouses unterstützen den Einsatz von Data Mining auf ihren Informationsinhalt, beim Einsatz dieser Technik ist man allerdings immer noch auf weitere Werkzeuge aus dem Data Mining angewisen, mithin kann ein Datawarehouse damit nur als Datenquelle für Data Mining dienen. 3.4.3 Transaktionsdatenbanken Im Allgemeinen besteht eine Transaktiondatenbank aus einer Datei, in der jede durchgeführte Transaktion durch einen Eintrag vermerkt ist. Als Beispiel sei hier ein Einkauf in einem Su- permarkt genannt: Hier wird ein Eintrag erstellt, der eine einzigarte Transaktionsnummer und eine Auistung der gekauften Waren enthält. Weiters werden weitere Informationen vermerkt,
  • 23. 3.4. DATENBASIS UND MÖGLICHE MUSTERVORKOMMEN 23 wie in diesem Beispiel die Kundennummer und eine Vermerk der betroenen Geschäftsnieder- lassung. 3.4.4 Moderne Datenbanksysteme Als eine der aktuelleren Entwicklungen im Datenbankbereich kann die Einbindung von nicht- textuellen Daten (Bildern, Videos, Kartenamterial, Webseiten, ..) und damit einhergehend die Weiterentwicklung der Fähigkeiten und Konzepte der Datenbanken gesehen werden: • Objektorientierte Datenbanken Hierbei setzt sich der Datenbestand aus einer Ansammlung von Objekten zusammen, von denen jedes gewisse Eigenschaften besitzt und in der Lage ist mit anderen Objekten durch das zusenden von Nachrichten zu interaggieren aber auch selbst Daten bearbeiten kann und nun unter Zuhilfenahme sogenannter Methoden (Programmteile die auf die die im Objekt abgelegten Eigenschaften auswerten) auf Nachrichten antworten kann. • Objekt-Relationale Datenbanken Hierbei handelst es sich um relationale Datenbanken die um das Konzept der Objekt- orientierung erweitert sind. • Heterogene Datenbanken und Altdatenbanken Eine heterogene oder inhomogene Datenbank besteht aus einer Gruppe von miteinander lose verbundenen Datenbanken, dies entsteht oft dadurch das Datenbanken die schon lange bestehen zu neuen Systemen miteinander verbunden werden. Da es hierbei nicht nur um das Abfragen und generieren von allgemeinen Informationen wie im Data Ware- housing geht, trit man hier in noch viel höherem Umfang auf Probleme mit der un- terschiedlichen Darstellung der gleichen Information und den Schwierigkeiten, zwischen den unterschiedlichen (Alt)Systemen Schnittstellen zu denieren. Gerade in diesem Bereich sind Neuerungen und Entwicklungen unabwendbar, einfach aus dem Grund das der Informatik als nicht mehr so neues Anwendungsgebiet in den letzten Jahrzenten viele zueinander inkompatible Datenbanksysteme entsprungen sind um anschliessend bis auf Nischen wieder vom Markt zu verschwinden. Datenbanken, oder um genau zu sein das von Ihnen abgebildete Wissen, stellen einen enormen Sachwert für ein Unternehmen dar und dieser Wert fällt und steigt natürlich mit der Fähigkeit mit den eigenen Daten nun auch das tun zu können, was man möchte.
  • 24. 24 KAPITEL 3. DATA MINING 3.5 Verwendete Vorgangsweisen Data Mining kann grundsätzlich zur Beantwortung von zwei Typen von Fragen herangezogen werden: (Perner, 2002b, S.42 ) 1. Vorhersagen aufgrund historischem, gegebenen Datenmaterials (siehe 3.5.1) • Einteilung in Klassen • Regressionsanalyse 2. Wissensableitung aus vorhandenen Daten über den IST-Zustand bzw. über Zusammen- hänge innerhalb der Datenmenge. (siehe 3.5.2) • Abweichungsanalyse • Clusterbildung • Ableitung von Zusammenhängen durch Regelndung • Visualisierung Meist beginnt man mit Typ-2 Anfragen als Basis für die nachfolgenden Anfragen des Typ-1. 3.5.1 Vorhersagen Abbildung 3.1: Erkennung der Unterschiede gegebener Klassen Bei der Einteilung in Klassen geht es darum zu erkennen wodurch sich mehrere, vom Be- nutzer im vorhinein festgelegte, Klassen von Datensätzen unterscheiden, zum Beispiel gilt es zu prüfen, was die Klasse der regelmässigen Käufer von den seltenen Käufern unterscheidet anhand der sonstigen festgestellten Merkmale wie Alter, Geschlecht, Quelle des Kundenkon- taktes etc. Bei der Regressionsanalyse geht es nun um etwas ähnliches, jedoch konzeptionell anderes: Hier möchte man die Auswirkung der Veränderung einer Variable auf eine andere erfahren. Um
  • 25. 3.5. VERWENDETE VORGANGSWEISEN 25 Abbildung 3.2: Regressionsanalyse am klassischen 2D-Beispiel der Regressionsgeraden beim Einkäuferbeispiel zu bleiben, geht es hier darum den Zusammenhang zwischen gekauften Weinaschen und gekauften Zahnpastatuben festzustellen und das ganze zum Beispiel durch einen numerischen Wert, einen Korrelationskoezienten oder dergleichen darzustellen. 3.5.2 Wissensableitung Im Bereich der Abweichungsanalyse geht es darum mit Standardmethoden der Statistik das vorhandene Datenmaterial zu bearbeiten, angefangen bei einfachen Mittelwert und Standard- abweichungsberechnungen bis zum vollen Umfang der üblichen Methoden. Abbildung 3.3: Bei der Clusterbildung ist die Erzeugung der Klassen das Endprodukt der Analyse Im Anwendungsbereich der Clusterbildung geht es darum, die vorhandenen Datensätze zu sogenanneten Clustern (Gruppen von ähnlichen Datensätzen) zusammenzufassen, wobei hier- bei a priori noch keine xen Gruppierungen feststehen sondern nach einfachen Grundformeln versucht wird, festzulegen welche Datensätze ähnlich sind und welche nicht, indem zum Bei- spiel die Ähnlichkeit zweier Datensätze über den euklidischen Abstand im n-dimensionalen Raum der Eigenschaften deniert wird mit den daraus resultierenden Schwierigkeiten, um anschliessend daraus eine Grundlage für eine Einteilung in Klassen zu gewinnen. Die hierbei
  • 26. 26 KAPITEL 3. DATA MINING angesprochenen Probleme beginnen bereits mit gar nicht so einfachen Frage wie sehr die ein- zelnen Eigenschaften zu gewichten sind. Ein 20 Jahre alter Mann mag einer 80jährigen Frau weniger ähnlich sein als einem 16jährigen Knaben im Einkaufsverhalten, aber um welchen Faktor genau? Da hier also viele Daten einzufügen sind die nicht direkt dem vorhandenen Datenpool entspringen, gibt es mithin eine groÿe Anzahl an Möglichkeiten Cluster zu bilden. Als weiterer Punkt wurde die Ableitung durch Regelndung genannt, hierunter ist das nden von (einfachen) Zusammenhängen zu verstehen, die sich nicht durch die Gruppierung der Datensätze wie im Clustering ergeben sondern bereits durch den Vergleich der Datensätze bezüglich zweier beliebiger Eigenschaften und ihres Zusammenhangs mit einfachen Wenn- Dann-Regeln. Visualisierungen sind hier als ein wichtiger Teil jeglicher Wissensinferenz zu betrachten, da ein Mensch von Natur aus verältnismässig schlecht mit einer riesigen Anzahl von Zahlen, wie sie in allen diesen Verfahren entstehen, umgehen kann, aber sehr gut ein davon abgeleitetes Bild mit einem ebenso hohen Informationsgehalt gebrauchen kann. 3.6 Art der Daten Data Mining kann nicht nur nach der Art der Herangehensweise und der Zielsetzung dieren- ziert werden sondern auch nach der Art der untersuchten Daten. Obwohl natürlich die meisten Ansätze universell anwendbar sind haben sich im Laufe der Zeit doch immer wieder neue An- sätze entwickelt wie das Text Mining, Bild Mining oder Web Mining, die ihre Bedeutung durch eine besondere Herangehensweise bei der Vorbereitung der Daten für die Untersuchung oder durch die besonderern Schwierigkeiten die durch die spezielle Arte der Datenrepräsentierung gegeben sind besitzen. Um hier ein Beispiel zu nennen: Obwohl ein Bild sich auch als eine Tabelle von Farbwerten die durch Zahlen wiedergegeben werden, darstellen lässt, ist es sinnvoller nicht das gesamte Bild als Dateneinheit zu benutzen sondern eine vereinfachte, von Störungen bereinigte Version die sich mithin auch durch eine geringere Informationsmenge auszeichnet. Auch bei Textdokumenten kann noch eine zusätzliche Besonderheit zu beachten sein, diese mögen eventuell als gedruckte Texte die erst in ein digitales Dokument umgewandelt werden müssen, vorliegen. Auch muss man für die Bedeutung unnötige Formatierungen der Texte aus diesen entfernen und last but not least gilt es sich mit der hohen Kontextsensitivität natürlicher Sprache und ähnlichem herumzuschlagen(Perner, 2002a, S.9 )).
  • 27. 3.7. VORBEREITUNG DER DATEN 27 3.7 Vorbereitung der Daten Um überhaupt mit den Werkzeugen des Data Mining auf eine Datensammlung losgehen zu können, muss diese zuerst passend vorbereitete werden, dabei gilt es folgende Schritte durch- zuführen: 1. Datenbereinigung Einträge mit Werten die ausserhalb des denierten Wertebereichs sind, sind hier zu entfernen. Um hier einen möglichst geringen Aufwand erbringen zu müssen gilt es bereits bei der Zusammenstellung der Datensammlung darauf zu achten, dass zum Beispiel keine Personen mit einem Alter unter 5 Jahren bei Autokäufen verzeichnet sind etc. Weiters sind Datensätze, deren Werte sehr stark von den anderen Werten abweichen (Ausreiÿer) zu entfernen um die Repräsentativität der auf diesem Datenmaterial erstellten Antworten zu erhöhen. 2. Behandlung von unzuverlässigen und eventuell gestörten Daten Daten die durch irgendeine Art von Messverfahren aufgenommen wurden, sind übli- cherweise durch Messfehler und alle Arten von Störungen (Fehler durch Gerätschaften, Umgebungseinüsse, die Person des Messenden..) beeinusst, um dies zu kompensieren bzw. zu reduzieren gilt es beispielsweise mit geglätteten Daten zu arbeiten, Störungen dieser Art lassen sich natürlich nur veringern, aber nicht ausschliessen. 3. Auüllen fehlender Informationen Jeder unvollständige Datensatz kann nun einfach verworfen werden, da dabei aber In- formation verloren geht, ist es meist besser fehlende Werte eines Datensatzes durch eine geeignete Schätzung, sei es der Mittelwert dieses Wertes bei den anderen Datensätzen oder der Wert den der zu diesem Datensatz ähnlichste Datensatz dort besitzt. 4. Codierung Um den Datenpool mit einer Data Mining Software bearbeiten zu können, kann es notwendig sein, textuelle Werte wie Farben (rot, grün, blau, gelb,. . . ), durch eine Zah- lenrepräsentation zu ersetzen. (rot=1, grün=2,. . . ). 5. Abstraktion Daten von hoher Komplexität werden hier bei Bedarf durch einfachere repräsentiert, als klassisches Beispiel sind hier wieder Bilder zu nennen, die man eventuell durch statisti- sche Werte ersetzt bzw. im medizinischen Bereich (vgl. Perner, 2002a, S.18) beispielsweise durch Expertenaussagen über das Bild.
  • 28. 28 KAPITEL 3. DATA MINING 3.8 Anwendungen und die Zukunft des DM Als weiteren Themenbereich wird hier zuerst auf die diversen Anwendungen des Datamining eingegangen um mit zukünftigen Entwicklungen diesen Themenkreis abzurunden. 3.8.1 Data Mining in der Anwendung an der Universität Universitäten unterstützen adminstrative und akademische Prozesse. Adminstrative Prozesse beinhalten alle Transaktionsprozesse und Entscheidungsunterstützung. Das inkludiert Prozes- se wie Verwaltung der Unterrichtsgelder, Unterstützung durch Stipendien, und Analysen der zuküngen Immatrikulierungen. Akademische Prozesse hingegen beinhalten Unterrichtsver- waltungen, Forschungsprojekte, Verwaltung der Labors, usw.. Hauptsächlich wird Date Mining und Data Warehousing in den administrativen Porzessen praktiziert. Um nur eine Zahl zu nennen hat die Firma Hyperion als einer der Platzhirschen über 90 Universitäten als Kunden. Hauptaufgaben des Datamining sind hierbei diverse Anayl- sen bezüglich der Qualität der Leistung für Studenten (LVA-Bewertungen oder Studentenan- zahl), auf Basis dieser Auswertungen werden dann weitere Untersuchungen getätigt. In den akademischen Prozessen selbst wird Data Mining und BI nur den Wirtschaftsstu- denten gelehrt, jedoch nicht den Informatikstudenten (Watson, 2006): When it comes to academic computing, BI and data warehousing are typically taught in information systems courses in business schools (rather than, say, in the computer science department). These courses teach concepts, methodologies, technologies, and applications of BI and data warehousing. Not all business schools oer these courses (often titled decision support systems), but many do. 3.8.2 Data Mining in der Anwendung im E-Marketing Für viele Kunden ist die Besonderheit des E-Commerce primär dadurch gegeben, dass man Waren und Dienstleistungen online auswählen und bestellen kann, ohne jemals die eigenenen vier Wände verlassen zu müssen (Perner, 2002b). Ganzheitlich betrachtet ist das natürlich nur ein kleiner Teilaspekt des Gesamtkonzepts des Online-Verkaufs. Genauso wie im Standardverkaufsprozess gilt es auch hier dem interessierten Kunden mit Rat und Tat zur Seite zustehen, sowohl vor dem Kauf durch ein breites Infor- mationsangebot zur gewünschten Ware bzw. Dienstleistung, aber auch ganz besonders nach einem getätigten Auftrag, da gerade durch eine gute anschliessende Betreuung des Kunden eine dauerhafte Kundenbeziehung erst geschaen und erhalten werden kann. Um jetzt diesen Dienst am Kunden erbringen zu können, muss der Inhaber eines Online- Shops die Wünsche und Verhaltensweisen seiner Kundschaft durch deren Verhalten beim Ver- kaufsprozess erforschen können. Anschlieÿend muss er genau dieses Wissen nutzen, um dem
  • 29. 3.8. ANWENDUNGEN UND DIE ZUKUNFT DES DM 29 Kunden genau die Information zur Verfügung zu stellen, die ihm zum Abschluss der Transak- tion noch fehlt; Genau an dieser Stelle kann die Disziplin des Datamining nun eine helfende Hand reichen und ihren groÿen Wert beweisen. Unterschiede zum traditionellen Oine-Marketing Um E-Marketing zu verstehen muss man sowohl die Gemeinsamkeiten als auch die Unter- schiede gegenüber dem konventionellen Verkaufsprozess im Auge behalten: Dabei gilt es alle Schritte bei der Erstellung der Website von der konzeptionellen Festlegung des Projekts bis zur Anpassung des Inhalts sowie natürlich der angepassten Werbung zu berücksichtigen  einer der schwerwiegendsten Fehler der hierbei passieren kann ist es, die Online-Repräsentanz des Unternehmens als schlichte Erweiterung der bisherigen Marketingbestrebungen der eigenen Firma zu behandeln. Wenn man sich nun mit der Materie des E-Marketing beschäftigt, ist die jeweilige Zielset- zung grob in vier Kategorien zu unterteilen (Perner, 2002b): 1. Online-Werbung Hierbei soll eine Werbebotschaft kostenezient an ein bestimmtes Kundensegment ver- mittelt werden. 2. Online-Verkauf Dies ist der Verkauf von Gütern mit Hilfe eines Webshops, das beinhaltet zumindest einen Online verfügbaren Warenkatalog und die Möglichkeit, die Ware auf eine sichere und zuverlässige Art und Weise direkt bestellen zu können. 3. Online-Dienstleistung Diese kann sowohl als kostenlose aber auch als kostenbehaftete Zur-Verfügung-Stellung von Dienstleistungen verstanden werden, mit dem Unterschied zur klassischen Dienst- leistung, dass diese jederzeit von jedem Ort der Welt genutzt werden kann. 4. Online-Zusammenarbeit Hierunter sind die Möglichkeiten subsummiert, bei denen es darum geht den Nutzer in Kontakt mit anderen Nutzern mit gleichen Interessen und Problemen zu bringen, sei es durch Online-Foren, Chaträume oder dergleichen. Um eine erfolgreiche Online-Repräsentanz zu erstellen sind nun Ansätze aus diesen Berei- chen zu vereinigen und umzusetzen. Dazu müssen die Kunden, um auf der Höhe der Zeit zu sein, interaktive und informative Inhalte mit einer möglichst intuitiven Navigation präsentiert werden. Damit so auch die Kunden eine langfristige Bindung an das Unternehmen aufbauen,
  • 30. 30 KAPITEL 3. DATA MINING gilt es laufend aktuelle Inhalte zu präsentieren und sich an die ständig wechselnden Kunden- wünsche anzupassen. Dazu sind permanent die Wünsche und Bedürfnisse des Kunden mit Techniken des Dataminings zu erfassen. Information über den Kunden Auf einer E-Commerce Webseite sind die Daten über den Kunden verteilt über die Information der gekauften Güter (Marketingdaten), die Metadaten des Servers und die Zugrisinforma- tionen der Webserver. Daraus kann nun Wissen abgeleitet werden über den Marketing- und Verkaufsprozess mit dem Kunden sowie natürlich über die Website selber. Verschiedene Datenquellen: 1. Serverlogs und Cookies Einträge in Webserver-Logles werden automatisch erstellt, wenn ein Benutzer eine URL angefordert hat, indem er sich diese auf seinem PC darstellen lässt, dabei wird die IP- Adresse des Besuchers, einige Daten über sein verwendetes System und die besuchte Seite verzeichnet und zu guter letzt natürlich die Uhrzeit. Aus diesen Informationen kann man unter einigen Grundannahmen, zum Beispiel dass ein Benutzer die Seite verlassen hat, wenn zwischen 2 Aufrufen mehr als 20 Minuten vergangen sind, nun der Weg eines Benutzers durch die Website abgeleitet werden. Um einen Benutzer der eine Seite besucht hat beim nächsten Besuch wiederzuerkennen, übermittelt der Server auf den Computer des Besuchers einen sogeannten Cookie, das ist eine kleine Datei die am Rechner des Besuchers abgelegt wird und an der der Server den Benutzer beim nächsten Besuch wiedererkennt, damit umgeht man das Problem, dass unter einer IP-Adresse der Zugri durchaus von verschiedenen Computern aus erfolgen kann. 2. Prole und vom Benutzer eingegebene Daten Meist werden Benutzerdaten gerade bei Webshops in Form von Formularen abgefragt, in denen der Benutzer auÿer kaufrelevanten Daten wie seinem Namen und seiner Adresse etc. oft auch Interessen und weitere Informationen preisgibt. 3. Metadaten Um die Besuche eines Webshops auswerten zu können, muss auch die Struktur der Website selber festgestellt werden, diese ist bei gröÿeren Projekten bereits einfacher über eine maschinelle Auswertung der Website, als durch einen menschlichen Ersteller zu generieren.
  • 31. 3.9. DIE PRAKTISCHE ANWENDUNG UND DIE ZUKUNFT 31 Ergebnis Durch die Applikation der allgemeinen Möglichkeiten und Abläufe die das Data Mining in diesem Kontext zu bieten hat, kann der Absatz erhöht werden (indem man dem Kunden zum Beispiel anhand seines bisherigen Verhaltens einer Gruppe von Kunden zuordnet und daraus ableitet, welches Angebot diesen Kunden am ehesten zum Kauf verleiten könnte) oder die Bindung des Kunden verstärkt werden (ein Kunde, der ndet was er sucht und den Dienst erhält, der ihn glücklich macht, wird zum treuen Kunden) oder Vorhersagen über Reaktionen der Kundschaft auf geplante Veränderungen abgeleitet werden (wenn man das Verhalten der Kundschaft jetzt nesser versteht, kann man daraus eher Aussagen über zukünftiges Verhalten ableiten), wodurch sich insgesamt wieder einmal enorme Nutzenpotentiale für den erfahrenen Data Miner in diesem Bereich ergeben, die sich direkt in barer Münze für die jeweilige Firma auswirken. 3.9 Die praktische Anwendung und die Zukunft Ohne Zahlen läuft in Konzernen nichts, jedoch arbeiten in groÿen Firmen normalerweise viele Menschen, von denen die meisten mit mathematischen Aufgaben überfordert sind. Das Re- sultat ist, daÿ quantitative Analysen (wie z.B. Data Mining) meist auf sehr niedrigem Niveau angesetzt werden. Die Techniken die angewandt werden sollten, sind stark abhängig von der Art und Grösse der Firma. Viele Firmen greifen dabei auf gängige Softwareprodukte (z.B.: Microsoft, SAS, ...) zurück: (Monash, 2006) But no matter what tools you use, the basic story remains the same  enter- prises have a lot of quantitative and/or objective data, and if you squeeze that data hard enough, something valuable will probably pop out. Data Mining ist zwar eine umstrittene Disziplin, doch groÿe Firmen betreiben Data Mi- ning sehr rege in vielen Industriezweigen und Anwendungsgebieten, mit durchwegs sehr guten Ergebnissen. Groÿe Softwarermen wie z.B. SAS und Oracle erweitern regelmäÿig ihre Soft- ware Produkte um neue Funktionen des Data Minings. Ein praktisches Beispiel dafür sind Anwendungen, die immer aufwendigere statistische Analysen ermöglichen. Im Bereich des Text minings sind zur Zeit groÿe Enticklungen zu verzeichnen. Auch Markt- bereiche innerhalb der Softwareentwicklung, wie etwa die Web-Suche oder Antispam Produkte verlassen sich auf Data Mining für weite Bereiche der Entwicklung und Forschung. Andere der heute üblichen Softwarelösungen für Data Mining können in den Bereich der Kundenanbots- erstellungen eingeordnet werden.
  • 32. 32 KAPITEL 3. DATA MINING Einer der zur Zeit am schnellsten wachsenden Bereiche des DM ist die Ursachenforschung bei Produktfehlern, so wird die amerikanische Automobilbranche durch das TREAD Gesetz (Transportation Recall Enhancement, Accountability and Documentation (Monash, 2006) ex- plizit verpichtet auf periodischer Basis ihre Garantieabwicklungen und andere Aufzeichnun- gen auf Anzeichen von Produktfehlern hin zu durchforschen. Auch beispielsweise im pharma- zeutischen Markt gibt es derartige Bestrebungen und Vorschriften. Einige der wichtigsten Verwendungsgebiete für das Data Mining könnten fürderhin Ge- sundheitspege und wissenschaftliche Forschung sein. Daten zu Genomen, klinische Aufzeich- nungen und allgemeine medizinische Artikel können alle mittels Data Mining aufgearbeitet, untersucht und ausgewertet werden. In der Praxis werden hierbei spezialisierte Techniken, wie Text Mining und die Analyse von netzwerkartigen Zusammenhängen, verwendet. DM trägt somit zur Aufarbeitung von Daten bei einer Vielzahl technischer Disziplinen, von Astrophysik bis Wasserqualitätforschung, bei, und wird hier in der Zukunft noch weiter an Bedeutung zu nehmen.
  • 33. Kapitel 4 Data Mining in der Business Intelligence Hier wird examplarisch als Beispiel für die manigfaltigen Anwendungen des Data Mining in der Business Intelligence ein Anwendungfall dargebracht. 4.1 Der Wert des einzelnen Kunden für einen Mobilfunk- betreiber Der Wert eines Kunden lässt sich durch die erwartete Summe der durch Ihn verursachten Einnahmen minus der für in getätigten Ausgaben über die Dauer der Kundenbeziehung mit dem Kunden denieren. Dabei muss unterschieden werden zwischen Kunden die einzelne Käufe tätigen und denen die privatrechtlich gesehen ein Dauerschuldverhältnis eingehen und laufend Einnahmen erbringen, was im Mobilfunkbereich der Regelfall ist. Hierbei geht es im besonderen darum die Wechselhäugkeit der Kundschaft bzw. ihre Treue zu untersuchen, da diese sich direkt auf den Wert des Kunden auswirkt, denn wer ewig treu bleibt zahlt auch gut. Besonders geht es bei der Berechnung dieses Wertes um die Festlegung der Rentabilitätsgrenze für etwaige Kundenbindungs und Neukundenaquisitionsprogramme. Um diese Konzepte auf ein mathematisches Fundament zu stellen benötigt man 3 Berech- nungsgrundlagen: 1. Die Dauer der Bindung, also wie lange es erwartungsgemäÿ dauern wird bis der einzelne Kunde im Schnitt seinen Vertrag beendet. 2. Den Wert eines Kunden zu einer gegeben Zeit (Cashow). 3. Und als letzten, an sich einfachsten Teil die Festlegung einer einfachen Diskontierungs- funktion, die angibt, wieviel der morgen vom Kunden eingenommene Euro heute wert ist. 33
  • 34. 34 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE 4.1.1 Verweildauer des Kunden Als einfache Berechnungsbasis kann man hier etwa annehmen, dass wenn 5% der Kunden je- den Monat wechseln, der durchschnittliche Kunde mit 95% Chance in jedem Monat noch dem Unternehmen treu bleibt. Dieses stark vereinfachte Modell ignoriert natürlich jegliches indi- vuelle Charakteristikum des einzelnen Kundem, da sich diese aber über die Berechnung einer grossen Anzahl an Kunden ausmitteln können, ist hiermit kein gänzlich unbrauchbarer Ansatz gegeben. Es werden oft weit komplexere Verfahren für die Berechnung der Wechselwilligkeit des Kunden und mithin für sein Verweildauer beim Unternehmen erstellt, beginnend bei der Auswertung der bisherigen Verweildauer mit einer Analyse der Daten hinsichtlich einzelner Faktoren mit Hilfe des Dataminings. Ein weitere Ansatz wäre die Kunden in einzelne Segmente zu unterteilen und für jedes Kundensegment unabhängige Daten zu generieren, hierfür kann man bereits die Unterstützung von Softwaretools benutzen, die den Prozess der Segmentierung nach einigen wenigen Kriterien weitgehend automatisieren (Rosset and Neumann, 2003). 4.1.2 Zeitwertberechnung eines Kundenvertrags Bei dieser Berechnung wird zumeist ein Ansatz gewählt, der die aktuellen und bisherigen Zahlungsüsse des Kundens als Referenz nimmt und das Ergebnis als für immer konstant annimmt, komplexere Berechnungsmethoden, beispielsweise auf der zuvor erwähnten Segmen- tebene, sind durchaus auch in Verwendung. Diese sind meist durch sehr individuelle Ansätze geprägt, dass heisst jede Firma wählt hier eigene geheime Verfahren. Insgesamt wird aber der meiste Aufwand auf eine Abschätzung und Vorrausberechnung der Verweildauer aufgewendet. 4.1.3 Abschätzen des Erfolgs eines Kundenbindungsprogrammes In der Abbildung (Abb. 4.1) ist ein Beispiel für eine solche Regelndung gezeigt die bei der Entwicklung einer Kampagne mit dem Ziel der längeren Kundenbindung (und der Erhöhung des Kundenwertes) entwickelt wird. Durch dieses Werkzeug in Kombination mit einer erprob- ten Formel für die Bewertung der Kundenwerte zum Beispiel auf Segmentebene kann man sehr handfeste Ergebnisse erarbeiten, wieviel eine Kampagne genau kosten darf um noch Gewinne zu erbringen, bzw. wie hoch der jeweilige Gewinn ist. So kann für jedes Segment der passende Anreiz zu längerem Verweilen bzw. zu höheren Einnahmen durch das Unternehmen gegeben werden, da verschiedene Segmente beim selben Programm unterschiedlich gut ansprechen.
  • 35. 4.1. DER WERT DES EINZELNEN KUNDEN FÜR EINEN MOBILFUNKBETREIBER35 Abbildung 4.1: Automatisch gefundene Regeln für Wechselwahrscheinlichkeit (engl. Churn) und Loyalität des Kundensegments (Rosset and Neumann, 2003) 4.1.4 Andere Kampagnen Andere Entscheidungsprobleme verhalten sich hierbei sehr ähnlich, so können haargenau die gleichen Konzepte für die Aufwertung des einzelnen Kunden durch das umsteigen auf teurere Produkte benutz werden.
  • 36. 36 KAPITEL 4. DATA MINING IN DER BUSINESS INTELLIGENCE
  • 37. Kapitel 5 Schlussworte Im Rahmen der hier vorliegenden Arbeit habe ich versucht, mich mit dem Thema des Data Minings im speziellen Kontext der Business Intelligence auseinanderzusetzen, indem ich dem Leser von einem kurzen Überblick über die Bedeutung der beiden Themen bis zu einer ansch- liessenden Behandlung von Data Mining und desen Anwendungen einen Überblick über dieses Gebiet vermittelt habe. Gerade aufgrund der enormen Wichtigkeit, in der heutigen Zeit gut informiert zu sein, sowohl im privaten aber auch ganz besonders im geschäftlichen Umfeld kann in einem so kurzen Text aber natürlich nicht mehr als ein kurzer Abriss stattnden und so muss ich den geneigten Leser zur weiteren Vertiefung dieses Bereiches auf mein Literaturverzeichnis zur weiteren Information verweisen, hoe aber doch zumindest einen Einblick in dieses äuÿerst interessante Teilgebiet der Wirtschaftsinformatik gegeben zu haben. 37
  • 38. 38 KAPITEL 5. SCHLUSSWORTE
  • 39. Literaturverzeichnis M. Eder. Data mining - vorgehensmodell zur produktevaluation, 2002. Diplomarbeit, Betreu- ung: o. Univ.-Prof. Dr. Michael Schre, unter Anleitung von: Univ.-Ass. Dr. Günter Preuner ausgeführt an der Universität Linz, Institut für Wirtschaftsinformatik, Data And Knowledge Engineering. T. Fisher. Add controls to your data governance and compliance programs. Business Intelli- gence Journal, 11(4), 2006. H. Jiawei and M. Kamber. Datamining - Concepts and Techiques. Academic Press, United Kingdom, 2001. L. Kirby. Why you need more than a dashboard to manage your strategy. Business Intelligence Journal, 11(4), 2006. C. A. Monash. Computerworld. Business Intelligence Journal, 40(37), 2006. K. North. Wissensorientierte Unternehmensführung. Gabler Verlag, 1999. J. A. Ogden. Supply base reduction: An empirical study of critical success factors. Journal of Supply Chain Management, 42(4), 2006. P. Perner. Data Mining on Multimedia Data. Springer Verlag Berlin Heidelberg, 2002a. P. E. Perner. Advances in Data Mining - Applications in E-Commerce, Medicine, and Know- ledge Management. Springer Verlag Berlin Heidelberg, 2002b. S. Rosset and E. Neumann. Customer lifetime value models for decision support. Data Mining and Knowledge Discovery, 7(3), 2003. D. Teachey. The ve-step approach to more valuable enterprise data. What Works, 22, 2007. URL http://www.tdwi.org/Publications/WhatWorks. H. J. Watson. Bi and data warehousing in universities. Business Intelligence Journal, 11(3), 2006. 39
  • 40. 40 LITERATURVERZEICHNIS Wikipedia.org. Wikipedia die freie enzyklopädie, 2007a. URL http://de.wikipedia.org/ wiki/Business-Intelligence. Wikipedia.org. Wikipedia die freie enzyklopädie, 2007b. URL http://de.wikipedia.org/ wiki/Data_mining. Wikipedia.org. Wikipedia die freie enzyklopädie, 2007c. URL http://en.wikipedia.org/ wiki/Supply_chain_management.