• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Rough Set Theory (Grobe Logik)
 

Rough Set Theory (Grobe Logik)

on

  • 605 views

 

Statistics

Views

Total Views
605
Views on SlideShare
605
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Rough Set Theory (Grobe Logik) Rough Set Theory (Grobe Logik) Document Transcript

    • Seminar Nichtklassische Logiken Grobe Logik Eugen Petrosean WS 2012/2013 Betreuer: Roland GlückAugsburg, den 17. Januar 2013
    • ErklärungHiermit versichere ich die vorliegende Seminararbeit selbstständig und ohne fremdeHilfe verfasst und keine anderen als die angegebenen Quellen und Hilfsmittelverwendet zu haben.Augsburg, den 17. Januar 2013Eugen Petrosean
    • 1 EinleitungInhaltsverzeichnis1 Einleitung........................................................................................42 Grundlegendes................................................................................5 2.1 Überblick über die grundlegenden Mengentheorien ........................................5 2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells......................6 2.3 Beispiel – Medizinische Daten...........................................................................73 Rough Set – Theorie für Informationssysteme ............................10 3.1 Allgemeiner Ablauf der Analyse für Informationssysteme..............................10 3.2 Informationssystem..........................................................................................11 3.3 Ununterscheidbarkeitsrelation.........................................................................11 3.4 Untere und obere Annäherung.........................................................................13 3.5 Reduktion der Attribute – Redukte und Kerne................................................15 3.6 Reduktion der Attributwerte – Redukte und Kerne........................................18 3.7 Klassifikation der Objekte – Qualität und Genauigkeit ..................................204 Rough Set – Theorie für Entscheidungssysteme...........................23 4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme ...........................23 4.2 Entscheidungssystem.......................................................................................23 4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen...........24 4.4 Reduktion der Attribute – relative Redukte und relative Kerne.....................26 4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne..............28 4.6 Entscheidungsregeln........................................................................................315 Fazit..............................................................................................33Literatur..........................................................................................34 3
    • 1 Einleitung1 EinleitungIm Hinblick auf die Diagnostizierung von Krankheiten sind die Abdominalschmerzeneines Kindes ein überliche, aber gleichzeitig eine schwierige Aufgabe. Es gibt vielemögliche Ursachen für diese Schmerzen, die in den meisten Fällen nicht ernsthaft sind.Allerdings können diese Schmerzen auch ein Indikator dafür sein, dass ein Patient eineernsthafte Krankheit hat, die eine sofortige Behandlung erfordert. Erfahrene Ärztewürden eine Vielfalt von relevanten historischen Informationen und ärztlichen Beo-bachtungen heranziehen, um Kinder zu untersuchen. Diese Informationen bzw.Mekmale kommen in wieder erkennbaren Zusammenhängen vor, so dass eine schnelleund effektive Diagnostizierung möglich ist. Unerfahrene Ärzte dagegen können sichschwer tun, diese Zusammenhänge zu erkennen, da ihnen das erforderliche Wissenund die entsprechende Erfahrung fehlt. Die Rough-Set-Theorie 1 [Paw, Wam99, Orw00,Ril09] kommt also in diesem Bereich der Medizin zum Einsatz, um zu helfen,Zusammenhänge aus historischen Informationen in Form von Entscheidungsregeln zugewinnen und dabei solche unerfahrenen Ärzte zu unterstützen.In dieser Arbeit werden wir ganz genau auf die grundlegenden Ansätze der Rough-Set-Theorie eingehen und erklären, wie man anhand von ungenauen und unvollständigenDaten bzw. Informationen neue Zusammenhänge erkennen und sie in Form vonEntscheidungsregeln beschreiben kann.1 Zu Deutsch - Grobmengentheorie 4
    • 2 Grundlegendes2 Grundlegendes2.1 Überblick über die grundlegenden MengentheorienIn diesem Abschnitt werden wir die grundlegenden Unterschiede (siehe Abbildung 2.1)zwischen den existierenden Mengentheorien beschreiben und darauf eingehen, wie dieRough-Set-Theorie im Vergleich zur klassischen Mengentheorie und der Fuzzy-Set-Theorie mit ungenauen Konzepten umgeht. Abbildung 2.1: Schematische Gegenüberstellung von grundlegenden Mengentheorien (Quelle: eigene Darstellung)In der klassischen Mengentheorie wird eine Menge eindeutig durch ihre Elementedefiniert, d.h. jedes Element wird so klassifiziert, dass es entweder einer bestimmtenMenge angehört oder nicht (also in ihrem Komplement enthalten ist). Beispielsweiseist die Menge der geraden ganzen Zahlen scharf, da jede ganze Zahl entweder geradeoder ungerade sein kann. Dagegen der Versuch beispielsweise verschiedene Gemäldeals schön oder nicht schön zu klassifizieren, nicht möglich ist, da der Begriff – schön –kein exaktes Konzept darstellt, um somit alle Gemälde, die wir kennen, eindeutig inzwei Klassen – schön und nicht schön – einteilen zu können. Somit wird der Begriff –Ungenauigkeit (vagueness) – mit dem Ansatz in Verbindung gebracht, dass es Objektegibt, die nicht eindeutig einer Menge oder ihrem Komplement zugeordnet werdenkönnen.Die Fuzzy-Set-Theorie stellt einen solchen Ansatz dar, wie Ungenauigkeiten modelliertwerden können. Der Grad an Zugehörigkeit zu einer Menge wird dabei durch eineZugehörigkeitsfunktion beschrieben, die den Elementen einer Grundmenge eine reelleZahl k 0k1 zuordnet. Beispielsweise können wir mittels der klassischen Men-gentheorie festhalten, dass jemand definitiv krank oder gesund ist, während mit Hilfeder Fuzzy-Set-Theorie eine Aussage möglich ist, dass jemand zu 60 Prozent krank odergesund ist.In der Rough-Set-Theorie wird der Begriff – Ungenauigkeit – nicht durch eineZugehörigkeitsfunktion definiert, wie dies beispielsweise in der Fuzzy-Set-Theorie derFall ist, sondern, indem der Begriff einer Randmenge bzw. einer Grenzregioneingeführt wird. Ist die Grenzregion einer Menge leer, dann ist die Menge scharf(crisp), andernfalls ist die Menge grob bzw. ungenau (rough). Wenn die Grenzregion 5
    • 2 Grundlegendeseiner Menge nicht leer ist, dann können wir daraus schließen, dass das Wissen in Formvon Beispieldaten, die uns zur Verfügung stehen, nicht ausreichen, um diese Mengeexakt zu definieren (siehe Beispiel aus dem Abschnitt 2.3).Der Hauptvorteil der Rough-Set-Theorie besteht darin, dass keine vorläufigen bzw.zusätzlichen Informationen über die zu analysierenden Daten benötigt werden – wiebeispielsweise in der Fuzzy-Set-Theorie in Bezug auf den Grad an Zugehörigkeit einesElements zu einer Menge. Die Rough-Set-Theorie umfasst somit folgende Aspekte: – Einführung von effizienten Algorithmen zur Erkennung von versteckten Zusammenhängen in den zu analysierenden Daten – Bestimmung von minimalen Mengen von Daten (Reduktion der Daten) – Auswertung der Daten im Hinblick auf ihre Wichtigkeit – Bestimmung von Entscheidungsregeln – Einfache Interpretation von erzielten Ergebnissen2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten ModellsDie regelbasierte Modellierung [Orw00] ist ein Modellierungsansatz, bei dem eineMenge von Regeln verwendet wird, um das zugrundeliegende Modell als aussagen-logische Implikationen zu beschreiben. Die regelbasierte Modellierung kommt vorallem in denjenigen Fällen zur Anwendung, in denen die Regelmenge deutlicheinfacher ist als das durch die Regelmenge zu beschreibende Modell. Damit ein Modellmit Hilfe von Regeln ausgedrückt werden kann, ist eine Reihe von Schritten (sieheAbbildung 2.2) erforderlich, die im Folgenden erläutert werden. Die Rough-Set-Theoriestellt im Ablauf zur Erstellung eines regelbasierten Modells dagegen nur einenmöglichen Ansatz dar, wie Regeln generiert werden können. Abbildung 2.2: Erstellung eines regelbasierten Modells (Quelle: eigene Darstellung) 6
    • 2 Grundlegendes Schritt 1 – Diskretisierung der Daten In diesem Schritt werden nicht kategoriale Daten (Attribute) in kategoriale überführt. Da der Ansatz der Rough-Set-Theorie auf dem Prinzip der Ununterscheidbarkeit von Objekten beruht (siehe Kapitel 3), ist keine Einführung des Begriffs – Distanzmaß – zwischen einzelnen Attributwerten erforderlich, wie man diesen Begriff in vielen anderen Ansätzen des maschinellen Lernens findet. Deshalb müssen nicht kategoriale Attribute in einer Vorverarbeitungsphase der Daten diskretisiert werden. Dieser Schritt legt somit fest, wie grob einzelne Attribute (bzw. Attributwerte) betrachtet werden sollen. Für numerische Attribute bedeutet dies, dass Intervallgrenzen bestimmt werden müssen, um einzelne Attribute auf die entsprechenden Intervalle abzubilden. Beispielsweise können alle Patienten zwischen 45 und 60 Jahren je nach Situation und Bedarf als Patienten gesehen werden, die derselben Altersgruppe angehören. Schritt 2 – Herleitung der Regeln In diesem Schritt werden aussagenlogische Implikationen (If- Then-Regeln) anhand von im Schritt 1 diskretisierten Daten bestimmt. Das Verfahren zur Bestimmung von Entscheidungs- regeln mittels der Rough-Set-Theorie wird im Kapitel 3 und 4 genauer erklärt. Schritt 3 – Anwendung der hergeleiteten Regeln In diesem Schritt werden die anhand von Beispieldaten hergeleite- ten Regeln angewendet, um herauszufinden, ob sich dadurch neue Zusammenhänge zwischen einzelnen Attributen erkennen lassen, die für die weitere Datenanalyse relevant sind. Um die Qualität der Regeln einschätzen zu können, können sie auf neue Daten angewendet werden, um festzustellen, wie gut beispielsweise Untersuchungsergebnisse der neuen Patienten vorhergesagt werden. Schritt 4 – Auswertung des Modells Im letzten Schritt erfolgt eine objektive Quantifizierung der Regeln. Zwar sind sie normalerweise einfach zu interpretieren, können jedoch ein Problem im Hinblick auf ihre Wichtigkeit darstellen, d.h. wie sinnvoll und relevant sie für zu analysierende Datenbestände sind.2.3 Beispiel – Medizinische DatenIm Abschnitt 2.2 haben wir gesehen, welche Schritte erforderlich sind, um ein 7
    • 2 Grundlegendesregelbasiertes Modell anhand von zur Verfügung stehenden Beispieldaten zu erstellen.In diesem Abschnitt werden wir auf ein konkretes Beispiel (siehe Tabelle 2.1) eingehen,das auf medizinischen Daten beruht und erklären, welche Probleme bei der Analysedieser Daten auftreten können.Normalerweise werden erfasste Daten als Tabellen mit Spalten dargestellt. Jeder Spalteentspricht ein Attribut, jeder Zeile ein Objekt und jedem Tabelleneintrag ein bestimm-ter Attributwert. Der Tabelle 2.1 können wir entnehmen, dass die dargestelltenSpaltennamen Symptome beschreiben, die bei einem Patienten auftreten können. DieZeilen dagegen repräsentieren einzelne Patienten und können als konkreteInformationen über diese Personen in Bezug auf ihre Symptome aufgefasst werden. Patient Headache Muscle-pain Temperature Flu p1 no yes high yes p2 yes no high yes p3 yes yes very high yes p4 no yes normal no p5 yes no high no p6 no yes very high yes Tabelle 2.1: Beispielhaftes InformationssystemBeispielsweise wird der Patient p2 (siehe Tabelle 2.1) als Menge von (Attribut,Attributwert) – Paaren wie folgt beschrieben: (Headache, yes), (Muscle-pain, no), (Temperature, high), (Flu, yes)Der Tabelle 2.1 können wir außerdem entnehmen, dass die Patienten p2, p3 und p5 inBezug auf das Attribut – Headache – nicht unterscheidbar sind. Die Patienten p3 undp6 sind in Bezug auf die Attribute – Muscle-pain und Flu – nicht unterscheidbar unddie Patienten p2 und p5 sind in Bezug auf die Attribute – Headache, Muscle-pain undTemperature – nicht unterscheidbar. Während das Attribut – Headache – zweielementare Mengen { p2, p3, p5 } und { p1, p4, p6 } erzeugt, bilden die Attribute –Headache, Muscle-pain – drei elementare Mengen { p1, p4, p6 }, { p2, p5 } und { p3 }.Die Patienten p2 und p5 sind zwar ununterscheidbar in Bezug auf die Attribute –Headache, Muscle-pain und Temperature, weisen jedoch gegensätzliche Diagnosenauf, d.h. der Patient p2 hat die Grippe während beim Patienten p5 keine Grippediagnostiziert wurde. Folglich kann bei diesen zwei Patienten die Diagnostizierung derGrippe nicht unter Berücksichtigung von den drei Attributen (Symptomen) erfolgen.Deshalb stellen die Patienten p2 und p5 zwei Grenzfälle dar, die nicht genau mit Hilfedes zur Verfügung stehenden Wissens klassifiziert werden können. Die restlichenPatienten p1, p3 und p6 weisen nur solche Symptome auf, die ermöglichen, mitSicherheit davon auszugehen, dass diese Symptome als Folge einer Grippeinfektionaufgetreten sind. Bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden,dass sie keine Grippe haben und der Patient p4 kann als gesund in Bezug auf diefestgehaltenen Symptome gesehen werden.Somit ist die untere Annäherung an die Menge von Patienten, die krank sind, { p1, p3,p6 } und die obere Annäherung { p1, p2, p3, p5, p6 }, wobei die Patienten p2 und p5zwei Grenzfälle darstellen. Dieselbe Vorgehensweise gilt auch für die Patienten, die 8
    • 2 Grundlegendeskeine Grippeerkrankung haben. Der Patient p4 hat also keine Grippe und bei denPatienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie nicht krank sind.Deshalb ist die untere Annäherung die Menge { p4 }, während die obere Annäherungdurch die Menge { p2, p4, p5 } beschrieben wird. Die Grenzfälle, dass die Patientenkeine Grippeerkrankung haben, sind dieselben wie im vorherigen Fall, also { p2, p5 }. 9
    • 3 Rough Set – Theorie für Informationssysteme3 Rough Set – Theorie für InformationssystemeIn diesem Abschnitt werden wir die grundlegenden Konzepte der Rough-Set-Theorie[Paw, Wam99] in Bezug auf Datenanalyse vorstellen. Im Gegensatz zur klassischenMengentheorie, wird in der Grobmengentheorie davon ausgegangen, dass während derDatenanalyse mittels der Rough-Set-Konzepte einige zusätzliche Informationen –Wissen – über Elemente (Objekte) eines Diskursuniversums vorhanden sind.Elemente, die dieselben Besonderheiten aufweisen, werden als nicht unterscheidbarbetrachtet und bilden Äquivalenzklassen (Konzepte), die als elementare Granulate deszur Verfügung stehenden Wissens über das gegebene Universum verstanden werdenkönnen. Beispielsweise können Patienten, die an einer bestimmten Krankheit leidenund dieselben Symptome aufweisen, als ununterscheidbare Objekte interpretiertwerden, da sie somit einen in sich abgeschlossenen Teil des medizinischen Wissensdarstellen (siehe Beispiel aus dem Abschnitt 2.3).3.1 Allgemeiner Ablauf der Analyse für InformationssystemeDa das Ziel der Rough-Set-Theorie darin besteht, anhand von zur Verfügung stehendenBeispieldaten eine entsprechende Klassifizierung zu erhalten, um später neuentstehende Daten in Form von Objekten, die bisher unbekannt waren, richtigklassifizieren zu können, wird in Abbildung 3.1 der Zusammenhang zwischen deneinzelnen Schritten zur Durchführung der Rough-Set-Analyse für Informationssystemegenauer dargestellt. Abbildung 3.1: Ablauf der Analyse für Informationssysteme (Quelle: eigene 10
    • 3 Rough Set – Theorie für Informationssysteme Darstellung)Die eingekreisten Nummern in Abbildung 3.1 entsprechen den einzelnen Schritten derRough-Set-Analyse für Informationssysteme, die in den nachfolgenden Abschnittennäher erläutert werden.3.2 InformationssystemIm ersten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1– 1) müssen alle relevanten Informationen in Bezug auf den modellierten Kontextidentifiziert werden. Da die Rough-Set-Theorie eine formale Grundlage sowohl für dieKlassifikation von ungenauen Daten als auch für die Bestimmung von Entscheidungs-regeln anhand von diesen Daten ist, die normalerweise als Beispieldaten vorliegen,stellt die Rough-Set-Theorie ein Konzept für die Organisation von Beispieldaten inTabellenform dar, d.h. die Beispieldaten liegen in einer zweidimensionalen Tabelle vor,die bei der Anwendung der Rough-Set-Theorie eingesetzt wird. Eine solche Tabellewird als Informationssystem bezeichnet und kann mathematisch wie folgt ausgedrücktwerden.Definition (Informationssystem). Ein Informationssystem IS =U , A wird durcheine Menge U ={x 1, x 2, ... , x n } von Objekten (mit 1n∞ ), die als Universumbezeichnet wird, und durch eine Menge A={a1, a 2, ... , a m} von Attributen (mit 1m∞ ) definiert. Für jedes a ∈A wird zusätzlich eine Funktion f a :U V aspezifiziert, wobei V a die Wertemenge von a darstellt.Die Zeilen dieser Tabelle repräsentieren Objekte, über die in den Spalten dieser Tabelleverschiedene Informationen in Form von Attributen abgelegt sind. Die Tabellen-einträge entsprechen damit den Ausprägungen der Attribute in Bezug auf die betrach-teten Objekte.Beispiel 1Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann lässt sich das zugrundeliegende Informationssystem mathematisch wie folgt auffassen: U = { p1 , p2 , p3 , p4 , p5 , p6 } A = {Headache , Muscle pain ,Temperature } V Headache = {yes , no} V Muscle pain = { yes , no} V Temperature = {normal , high , very high}3.3 UnunterscheidbarkeitsrelationIm zweiten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung3.1 – 2) wird das Wissen in Form von Beispieldaten, die uns am Anfang derDatenanalyse zur Verfügung stehen, in Konzepte (elementare Mengen)zusammengefasst, so dass Objekte eines solchen Konzepts durch einen gemeinsamen 11
    • 3 Rough Set – Theorie für InformationssystemeGrundgedanken verbunden sind. Mathematisch lässt sich dieser Begriff wie folgtbeschreiben.Definition (Ununterscheidbarkeitsrelation). Sei IS =U , A ein Informations-system. Dann wird eine Ununterscheidbarkeitsrelation I  B für eine Teilmenge B⊆A durch die Äquivalenzrelation 2 I  B={ x i , x j ∈U ∣ ∀ a ∈ B f a  x i  = f a  x j } definiert.Die Familie von allen Äquivalenzklassen von I  B wird durch U / I  B  bzw. U / B ausgedrückt. Eine Äquivalenzklasse von I  B , in der x enthalten ist, wirdals B  x bezeichnet. Wenn also  x i , x j  ∈ I  B , dann sind die Objekte x i und x j ununterscheidbar (indiscernible) von jedem Attribut aus B , d.h. zwar werdendie Elemente in U als unterscheidbar erklärt, unterscheiden sich aber nicht bezüglichder Attributmenge B . Äquivalenzklassen von I  B werden auch als elementareMengen bezeichnet.Beispiel 1Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir für die Attribut-menge B = { Headache, Muscle-pain, Temperature } die folgenden Äquivalenzklassen. U/A Headache Muscle-pain Temperature { p1 } no yes high { p2, p5 } yes no high { p3 } yes yes very high { p4 } no yes normal { p6 } no yes very high Tabelle 3.1: Äquivalenzklassen in Bezug auf die Attribute Headache, Muscle-pain und TemperatureBeispiel 2Anhand der Tabelle 2.1 erhalten wir für die Attributmenge B = { Headache, Muscle-pain } die Äquivalenzklassen: U/B Headache Muscle-pain { p1, p4, p6 } no yes { p2, p5 } yes no { p3 } yes yes Tabelle 3.2: Äquivalenzklassen in Bezug auf die Attribute Headache und Muscle-pain 12
    • 3 Rough Set – Theorie für Informationssysteme3.4 Untere und obere AnnäherungIm dritten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung3.1 – 3) wird ein weiterer wichtiger Ansatz vorgestellt, der im Gegensatz zur graduellenZuordnung von Elementen zu unscharfen Mengen auf der Idee der Approximationeiner groben Menge durch zwei scharfe Mengen beruht. Die Ununterscheidbarkeits-relation induziert eine Partitionierung des Universums, so dass dadurch entstandenePartitionen genutzt werden können, um neue Untermengen des Universums zu bilden.Da das Ziel der unteren und oberen Annäherung darin besteht, dass eine solcheUntermenge X durch die Ausprägungen der in B⊆A enthaltenen Attribute zubeschreiben, nähert man sich somit der Menge X durch die untere und obereApproximation an.Die untere Annäherung B∗ X  ist die maximale Vereinigungsmenge der elemen-taren Mengen, die vollständig in der Menge X enthalten sind. Mathematisch kanndie Definition der unteren Annäherung folgendermaßen beschrieben werden.Definition (Untere Annäherung). Sei IS =U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten.Dann kann X durch B∗ X ={xi ∈U ∣ B x i⊆ X }von unten angenähert werden.Die obere Annäherung B∗ X  resultiert aus der Vereinigungsmenge all jenerelementaren Mengen, deren Schnitt mit der Menge X mindestens ein Elemententhält. Die obere Annäherung ist somit die minimale Vereinigungsmenge vonelementaren Mengen, die die Menge X enthält. Die nachfolgende Definitionverdeutlicht diesen Sachverhalt.Definition (Obere Annäherung). Sei IS =U , A ein Informationssystem, B⊆Aeine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann kann X durch ∗ B  X ={xi ∈U ∣ B x i∩ X ≠0 }von oben angenähert werden.Die Menge X wird als scharf bezeichnet, wenn die untere Annäherung B∗ X gleich der oberen Annäherung B∗ X  ist. Gilt dagegen B∗ X ≠ B∗ X  , so wirddie Menge X als grob bezeichnet. Die untere Annäherung ist somit die maximalescharfe Menge, die in der Menge X enthalten ist. Die obere Annäherung stelltdagegen die minimale scharfe Menge dar, die die Menge X enthält. Auf diese Art undWeise ermöglichen B∗ X  und B∗ X  eine Annäherung grober Mengen durchscharfe Mengen vorzunehmen.Definition (Grenzregion). Sei IS =U , A ein Informationssystem, B⊆A eineTeilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann wird dieMenge 13
    • 3 Rough Set – Theorie für Informationssysteme BN B  X =B∗ X − B∗ X als Grenzregion von X bezeichnet.Die Abbildung 3.2 verdeutlicht noch einmal diesen Zusammenhang. Dabei werden dreiRegionen einer groben Menge unterschieden. POS  B=B∗ (Sicher ja) NEG  B=U −B∗ (Sicher nein) BR B=B∗−B∗ (Ja oder nein)Die positive Region POS  B enthält also alle Objekte aus U , die – basierend aufdem sich aus der Attributmenge B ergebenden Wissen – mit Sicherheit der Menge X zugewiesen werden können. Abbildung 3.2: Schematische Darstellung der Annäherungen und deren Regionen [Ril09]Die negative Region NEG  B enthält dagegen alle Objekte aus U , die sich mitSicherheit der Menge X nicht zuordnen lassen. Die Grenzregion BR B ist eineTeilmenge der oberen Annäherung, die alle Objekte aus U enthält, die sichmöglicherweise der Menge X zuordnen lassen. Die in der unteren Annäherungenthaltenen Objekte führen somit zu sicheren Regeln, jene der oberen Annäherung zumöglichen Regeln (siehe Abschnitt 2.3, Abschnitt 4.2 und Abschnitt 4.3).Beispiel 1Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand derTabelle 3.1 für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache,Muscle-pain, Temperature } die folgenden Annäherungen. B∗ X  = { p1 , p4} 14
    • 3 Rough Set – Theorie für Informationssysteme B∗ X ={ p1 , p2 , p5 , p4 } BN B  X  = { p1 , p2 , p5 , p4} − { p1 , p4} = { p2 , p5 }Beispiel 2Anhand der Tabelle 3.2 erhalten wir für die Menge X = { p1, p3, p4 } und die Attribut-menge B = { Headache, Muscle-pain } die folgenden Annäherungen. B∗ X  = { p3} B∗ X  = { p1 , p4 , p6 , p3} BN B  X  = { p1 , p4 , p6 , p3} − { p3} = { p1 , p4 , p6 }3.5 Reduktion der Attribute – Redukte und KerneIm vierten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung3.1 – 4) wird die Möglichkeit untersucht, ob bei geringerer Attributzahl identischesWissen modelliert werden kann. Damit das zu betrachtende Informationssystemvereinfacht werden kann, müssen redundante Attribute des vorliegenden Informa-tionssystems eliminiert werden. Mathematisch lässt sich dieser Sachverhalt wie folgtbeschreiben.Definition (Redukt). Sei B⊆A und a ∈B . Dann sind folgende Aussagenmöglich: 1. a heißt verzichtbar bezüglich der Attributmenge B , falls I  B=I  B−{a } gilt. Andernfalls heißt a unverzichtbar bezüglich B . 2. B heißt unabhängig, falls alle Attribute von B unverzichtbar sind. 3. Eine Teilmenge B ⊆B ist ein Redukt von B , falls B unabhängig ist, und es gilt I  B =I  B .Ein Redukt ist somit eine Menge von Attributen, die die jeweilige Partition desUniversums aufrechterhält, denn ein Redukt umfasst eine minimale Teilmenge vonAttributen, die – wie die entsprechende Gesamtmenge von Attributen – dieselbeKlassifikation von Elementen ermöglicht. Deshalb sind solche Attribute, die keinemRedukt angehören, überflüssig bezüglich der Klassifikation von Elementen desentsprechenden Universums.Definition (Kern). Sei IS =U , A ein Informationssystem und B⊆A eineTeilmenge von Attributen. Dann wird der Kern von B durch Core  B=  Reduct  Bdefiniert, wobei Reduct  B die Menge aller Redukte von B ist.Da der Kern als Schnittmenge aller Redukte definiert ist, kommt er also in jedemRedukt vor, d.h. der Kern stellt somit die wichtigste Teilmenge von Attributen dar, so 15
    • 3 Rough Set – Theorie für Informationssystemedass sich mit der Eliminierung eines im Kern enthaltenen Attributs die Klassifikationbezüglich der restlichen Attributmenge ändert und einen Informationsverlust bewirkt.Durch die Eliminierung überflüssiger Attribute wird dagegen das Informationssystemvereinfacht und die weitere Bearbeitung und Handhabung der Daten erleichtert.Um Redukte und den zugehörigen Kern schneller und einfacher berechnen zu können,wird im Folgenden der Begriff der Unterscheidbarkeitsmatrix eingeführt.Definition (Unterscheidbarkeitsmatrix). Sei IS =U , A ein Informationssystemmit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M  B von B⊆A einesymmetrische n×n Matrix mit den Einträgen c ij , so dass gilt: c ij ={a∈ A∣ f a  x i ≠ f a  x j } für i , j=1, ... , n .Somit lässt sich der Eintrag c ij als Menge der Attribute interpretieren, in denen sichdas Objekt x i vom Objekt x j unterscheidet.Die Unterscheidbarkeitsmatrix M  B ordnet also jedem Paar von Objekten x und y eine Teilmenge von Attributen  x , y ⊆B zu, so dass folgende Eigenschaftengelten:  x , x = ∅  x , y  =   y , x   x , z  ⊆  x , y  ∪   y , z  .Anhand der Unterscheibarkeitsmatrix M  B lässt sich der Kern bestimmen, der dieMenge aller einelementigen Einträge von M  B darstellt. Core  B = {a∈B : cij = {a}} für einige i , j .Jede Unterscheidbarkeitsmatrix M  B definiert eindeutig eine Unterscheidbarkeits-funktion (boolesche Funktion) f  B , deren Definition im Folgenden erläutert wird.Definition (Unterscheidbarkeitsfunktion). Sei IS =U , A ein Informationssystemund B⊆A eine Teilmenge von Attributen. Dann ist die Unterscheidbarkeitsfunktion f  B eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den  Attributen a 1, ... , a m ∈B entsprechen, so dass gilt: f  B= ∏ {∑   x , y  :  x , y ∈U 2 ∧  x , y ≠∅} 2 ,  x , y∈Uwobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die derMenge  x , y zugeordnet sind.Diese Definition ermöglicht einen Zusammenhang zwischen der disjunktiven Normal-form der Funktion f  B und der Menge aller Redukte von B herzustellen.Beispiel 1Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der 16
    • 3 Rough Set – Theorie für InformationssystemeTabelle 3.1 für die Attributmenge B = { Headache, Muscle-pain, Temperature } diefolgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 4 Set 5 Set 1 Set 2 H, M Set 3 H, T M, T Set 4 T H, M, T H, T Set 5 T H, M, T H T Tabelle 3.3: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und TemperatureAnhand der Unterscheidbarkeitsmatrix können wir nun die zugehörige Unterscheid-barkeitsfunktion bestimmen. f  B= H M × H T ×T ×T ×M T × H M T  × H M T × H T ×H ×TNach der mehrmaligen Anwendung des Absorptionsgesetzes erhalten wir ein einzigesRedukt mit den Attributen – Headache und Temprature. f  B= H M × H T ×T ×M T × H M T ×H = H ×TDa das Attribut – Muscle-pain – im Redukt nicht enthalten ist, können wir somit aufdieses Attribut verzichten. Wir erhalten: U/R Headache Temperature { p1 } no high { p2, p5 } yes high { p3 } yes very high { p4 } no normal { p6 } no very high Tabelle 3.4: Reduziertes Informationssystem aus der Tabelle 2.1Beispiel 2Anhand der Tabelle 3.2 erhalten wir für die Attributmenge B = { Headache, Muscle-pain } die folgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 1 Set 2 H, M 17
    • 3 Rough Set – Theorie für Informationssysteme Set 3 H M Tabelle 3.5: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Muscle-painAnhand der Unterscheidbarkeitsmatrix bestimmen wir nun die Unterscheidbarkeits-funktion und stellen fest, dass das Attribut – Temperature – überflüssig ist. f  B= H M × H ×M =H ×M3.6 Reduktion der Attributwerte – Redukte und KerneIm fünften Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung3.1 – 5) kann die Vereinfachung des vorliegenden Informationssystems fortgesetztwerden, indem auf bestimmte Attributwerte verzichtet wird, die für das Informations-system unrelevant sind, was dennoch ermöglicht, alle bereits bestimmten elementarenMengen beizubehalten. Die Bestimmung von Redukten in Bezug auf Attributwerte läuftähnlich wie die Bestimmung von Redukten in Bezug auf Attribute ab. Mathematischwird dies folgendermaßen verdeutlicht.Definition (Redukt für Attributwerte). Sei B⊆A und x ∈U . Dann sind folgendeAussagen möglich: 1. Der Attributwert von a ∈B heißt verzichtbar bezüglich x , falls B  x=B a  x  gilt, wobei Ba =B−{a} . Andernfalls heißt der Attributwert von a unverzichtbar bezüglich x . 2. B heißt orthogonal bezüglich x , falls für jedes Attribut a ∈B der zugehörige Attributwert unverzichtbar bezüglich x ist. 3. Eine Teilmenge B ⊆B ist ein Redukt von B bezüglich x , falls B orthogonal bezüglich x ist, und es gilt B  x =B  x .Der Kern in Bezug auf Attributwerte wird genauso bestimmt wie der Kern in Bezug aufAttribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definitionverdeutlicht dies noch einmal.Definition (Kern für Attributwerte). Sei IS =U , A ein Informationssystem, B⊆A und x ∈U . Dann wird der Kern von B bezüglich x durch Core x  B= Reduct x  Bdefiniert, wobei Reduct x  B die Menge aller Redukte von B bezüglich x ist.Um Redukte und deren Kern bezüglich x zu bestimmen, wird dieselbe Unterscheid-barkeitsmatrix (siehe Abschnitt 3.5) verwendet. Die Definition der Unterscheidbar-keitsfunktion wird dagegen ein bisschen verändert. 18
    • 3 Rough Set – Theorie für InformationssystemeDefinition (Unterscheidbarkeitsfunktion für Attributwerte). Sei IS =U , A einInformationssystem, B⊆A eine Teilmenge von Attributen und x ∈U . Dann istdie Unterscheidbarkeitsfunktion f x  B bezüglich x eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den Attributen a 1, ... , a m ∈B entspre-  chen, so dass gilt: f x  B=∏ {∑   x , y  : y ∈U ∧  x , y ≠∅} , y∈Uwobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die derMenge  x , y zugeordnet sind.Somit wird eine Unterscheidbarkeitsfunktion für Attributwerte immer bezüglich einesObjekts oder einer elementaren Menge (Äquivalenzklasse) definiert, so dass manbeispielsweise für n elementare Mengen n Unterscheidbarkeitsfunktionen erhält.Beispiel 1Anhand der Tabelle 3.4 erhalten wir für die Attributmenge B = { Headache, Tempera-ture } die folgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 4 Set 5 Set 1 H H, T T T Set 2 H T H, T H, T Set 3 H, T T H, T H Set 4 T H, T H, T T Set 5 T H, T H T Tabelle 3.6: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und TemperatureFür jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir diejeweilige Unterscheidbarkeitsfunktion. f 1  B=H × H T ×T ×T =H ×T 2 f  B=H ×T × H T × H T =H ×T f 3  B= H T ×T × H T ×H = H ×T f 4  B=T × H T × H T ×T =T 5 f  B=T × H T ×H ×T =H ×TWährend für die Äquivalenzklassen 1, 2, 3 und 5 alle Attributwerte relevant sind, ist fürdie Beschreibung der vierten Äquivalenzklasse der Attributwert des Attributs –Headache – überflüssig und wir können somit auf diesen Attributwert verzichten.Beispiel 2 19
    • 3 Rough Set – Theorie für InformationssystemeAnhand der Tabelle 3.5 erhalten wir für die Attributmenge B = { Headache, Muscle-pain } die Unterscheidbarkeitsmatrix: Set 1 Set 2 Set 3 Set 1 H, M H Set 2 H, M M Set 3 H M Tabelle 3.7: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Muscle-painDie zugehörigen Unterscheidbarkeitsfunktionen können wie folgt bestimmt und verein-facht werden. f 1  B= H M ×H =H 2 f  B= H M ×M =M f 3  B=H ×M3.7 Klassifikation der Objekte – Qualität und GenauigkeitIm letzten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1– 6) werden verschiedene Größen herangezogen, um die vorhandene Unsicherheit bzw.die Qualität der vorgenommenen Annäherung/Klassifikation zu bewerten. Dabeiunterscheiden wir zwischen drei grundlegenden Größen, die im Folgenden erläutertwerden.Definition (Qualität der Annäherung). Sei IS =U , A ein Informationssystemund X ⊆U eine Teilmenge von Objekten. Dann wird durch card  B∗ X  B  X  = ∗ mit card  B∗ X ≠0 card  B  X die Qualität der Annäherung von X in IS definiert.Damit quantitative Größen für die Beschreibung der Qualität und Genauigkeit imHinblick auf mehrere Mengen von Objekten bestimmt werden können, muss derBegriff der Klassifikation eingeführt werden, der im Folgenden erläutert wird.Definition (Klassifikation). Sei F ={X 1 , X 2 , ... , X n } und X i ⊂U eine Familievon Teilmengen von U und B⊆A . Dann heißt F eine Klassifikation von U ,falls X i ∩ X j =∅ und ∪ X i=U , so dass gilt B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X n} B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X 2 } . 20
    • 3 Rough Set – Theorie für InformationssystemeDie Qualität einer Klassifikation wird dann wie folgt definiert.Definition (Qualität der Klassifikation). Sei IS =U , A ein Informationssystem, F eine Klassifikation von U und B⊆A . Dann wird die Qualität derBeschreibung der Klassifikation F durch n ∑ card  B∗ X i  i =1 B F  = card U definiert.Die Genauigkeit einer Klassifikation wird ähnlich wie die Qualität einer Klassifikationdefiniert, die im Folgenden verdeutlicht wird.Definition (Genauigkeit der Klassifikation). Sei IS =U , A ein Informations-system, F eine Klassifikation von U und B⊆A . Dann wird die Genauigkeit derBeschreibung der Klassifikation F durch n ∑ card  B∗ X i  i=1 B F  = n ∑ card  B∗ X i  i=1definiert.Beispiel 1Anhand des Beispiels aus dem Abschnitt 3.4 erhalten wir für die Menge X = { p1, p2, p4} und die Attributmenge B = { Headache, Muscle-pain, Temperature } das folgendeErgebnis für die Qualität der Annäherung. card  B∗ X  2 1 B  X  = = = card  B  X  4 2 ∗Beispiel 2Eine beispielhafte Klassifikation mit zwei disjunkten Mengen X1 = { p1, p3, p5 } und X2= { p2, p4, p6 }, und der Attributmenge B = { Headache, Muscle-pain, Temperature }kann wie folgt beschrieben werden. Class Number of Lower Upper Accuracy Number objects Approximation Approximation 1 3 card({p1, p3}) = 2 card({p1, p2, p3, p5}) = 4 1/2 2 3 card({p4, p6}) = 2 card({p2, p4, p5, p6}) = 4 1/2 21
    • 3 Rough Set – Theorie für Informationssysteme Tabelle 3.8: Schematische Darstellung der KlassifikationNun können wir anhand der Tabelle 3.8 die Qualität und Genauigkeit der vorliegendenKlassifikation bestimmen. Für die Qualität der Klassifikation erhalten wir: n ∑ card  B∗ X i  22 2 i=1 B F  = = = card U  6 3Für die Genauigkeit derselben Klassifikation ergibt sich: n ∑ card  B∗ X i   22 1 i =1 B F  = n = = 44 2 ∑ card  B∗ X i  i =1 22
    • 4 Rough Set – Theorie für Entscheidungssysteme4 Rough Set – Theorie für Entscheidungssysteme4.1 Allgemeiner Ablauf der Analyse für EntscheidungssystemeDa das Ziel der Rough-Set-Theorie für Entscheidungssysteme darin besteht, aus zurVerfügung stehenden Informationen über Objekte regelbasierte Modelle (sieheAbschnitt 2.2) aufzustellen, die ihrerseits wiederum durch Entscheidungsregelnbeschrieben werden, gilt es nun zu klären, welche Schritte zur Herleitung solcherEntscheidungsregeln erforderlich sind. In Abbildung 4.1 werden die wichtigstenAspekte verdeutlicht, die bei der Rough-Set-Analyse für Entscheidungssysteme vonBedeutung sind. Abbildung 4.1: Ablauf der Analyse für Entscheidungssysteme (Quelle: eigene Darstellung)Die eingekreisten Nummern in Abbildung 4.1 entsprechen dabei den einzelnenSchritten der Rough-Set-Analyse für Entscheidungssysteme, die in den nachfolgendenAbschnitten näher erläutert werden.4.2 EntscheidungssystemIm ersten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung4.1 – 1) muss die Struktur der Daten festgelegt werden, d.h. wird in einemInformationssystem zwischen zwei Arten von Attributen (Bedingungs- undEntscheidungsattributen) unterschieden, dann spricht man nicht mehr von einemInformations-, sondern von einem Entscheidungssystem. Beispielsweise können dieAttribute – Headache, Muscle-pain und Temperature – als Bedingungsattributebetrachtet werden, während das Attribut – Flu – als Entscheidungsattribut. Eine 23
    • 4 Rough Set – Theorie für Entscheidungssystememathematische Definition dafür wird wie folgt verdeutlicht.Definition (Entscheidungssystem). Sei IS =U , C  ein Informationssystem und D={d 1, d 2, ... , d n } eine Menge von Entscheidungen (mit 1n∞ ), so dass C∩ D=∅ . Dann ist S=U , C , D ein Entscheidungssystem.Jede Zeile eines solchen Entscheidungssystems beschreibt eine Entscheidungsregel, diewiederum Entscheidungen (Aktionen) festlegt, die getroffen werden müssen, wenn alleBedingungen in Form von Bedingungsattributen gelten bzw. erfüllt sind. DieBedingungen (Headache, no), (Muscle-pain, yes), (Temperature, high)aus der Tabelle 2.1 beschreiben eindeutig die Entscheidung (Flu, yes).Objekte in einem Entscheidungssystem werden als Bezeichnungen für Entscheidungs-regeln verwendet. Die Entscheidungsregeln p1 und p2 aus der Tabelle 2.1 umfassenzwar dieselben Bedingungen, enthalten aber unterschiedliche Entscheidungen. SolcheRegeln werden als inkonsistent bezeichnet, andernfalls werden sie als konsistenteRegeln betrachtet. Dasselbe gilt auch für Entscheidungssysteme. Entscheidungs-systeme mit inkonsistenten Entscheidungsregeln werden als inkonsistent bezeichnet,andernfalls gelten sie als konsistent. Entscheidungsregeln werden oft in der If-Then-Form dargestellt. Beispielsweise kann die Regel p1 aus der Tabelle 2.1 folgendermaßenausgedrückt werden if (Headache, no) and (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)Eine Menge von Entscheidungsregeln wird als Entscheidungsalgorithmus (decisonalgorithm) bezeichnet, da er alle Entscheidungsregeln umfasst, die in einemEntscheidungssystem vorkommen können. Allerdings sind Entscheidungssysteme undEntscheidungsalgorithmen keine äquivalenten Begriffe. Ein Entscheidungssystem isteine Sammlung von Daten, während ein Entscheidungsalgorithmus eine Sammlungvon logischen Ausdrücken bzw. Regeln darstellt. Wie wir bereits gesehen haben, umDaten analysieren zu können, werden unterschiedliche mathematische Ansätze heran-gezogen. Damit aber Regeln analysiert werden können, müssen logische Methoden zurAnwendung kommen. Deshalb werden wir in nachfolgenden AbschnittenEntscheidungsregeln in Form von aussagenlogischen Implikationen darstellen, um eineklare Trennung dieser Begriffe zu gewährleisten.4.3 Abhängigkeiten zwischen Bedingungs- und EntscheidungsattributenEin weiterer wichtiger Aspekt in der Datenanalyse besteht darin, dass es Abhängig-keiten zwischen einzelnen Attributen existieren können. Es lässt sich erkennen, dasseine Menge von Attributen D vollständig von einer Menge von Attributen Cabhängt ( C ⇒ D ) , wenn alle Attributwerte aus D eindeutig durch alle Attribut-werte aus C beschrieben werden. Beispielsweise sind in der Tabelle 2.1 keinevollständigen Abhängigkeiten vorhanden. Wäre der Wert des Attributs – Temperature 24
    • 4 Rough Set – Theorie für Entscheidungssysteme– für den Patienten p5 nicht „high“, sondern „no“, würde eine vollständigeAbhängigkeit {Temperature }⇒ {Flu} vorliegen, da jedem Wert des Attributs –Temperature – ein eindeutiger Wert des Attributs – Flu – zugeordnet werden würde.Das Temperature-Attribut aus der Tabelle 2.1 beschreibt jedoch eindeutig nur einigeAttributwerte des Flu- Attributs, d.h. (Temperature, very high) impliziert (Flu, yes) (Temperature, normal) impliziert (Flu, no) aber (Temperature, high) impliziert nicht immer (Flu, yes)Diese Art der Abhängigkeit ist unvollständig, da nur ein Teil der Attributwerte aus Ddurch Attributwerte aus C beschrieben werden können. Eine formale Definition bautauf der Idee auf, konsistente Regeln bei der Bestimmung der Art der Abhängigkeit zuberücksichtigen. Ein sogennanter Konsistenzfaktor wird in Bezug auf dasentsprechende Entscheidungssystem bestimmt und wird als Verhältnis von der Anzahlkonsistenter Regeln zur Gesamtzahl der konsistenten und inkonsistenten Regelnaufgefasst. Mathematisch kann dieses Verhältnis wie folgt ausgedrückt werden.Definition (Konsistenzfaktor). Sei S=U , C , D ein Entscheidungssystem. Dannwird der Konsistenzfaktor durch card  POS C  D C , D = card U  mit POS C  D = ∪ X ∈U / I  D C ∗ X definiert.Für das Entscheidungssystem aus der Tabelle 2.1 erhalten wir einen Konsistenzfaktorvon C , D=4 /6 .Basierend auf dem Wert des Konsistenzfaktors können wir eine Aussage darübertreffen, ob zwischen den Bedingungs- und Entscheidungsattributen eines Entscheid-ungssystems eine vollständige oder eine unvollständige Abhängigkeit vorliegt. Dieswird aus der nachfolgenden Definition ersichtlich.Definition (Art der Abhängigkeit). Sei C , D⊆A . Dann sind die folgendenAussagen möglich: 1. D hängt bis zu einem Grad k 0k1 von C ab, falls k =C , D . 2. D hängt vollständig von C ab, falls k =1 . 3. D hängt teilweise von C ab, falls k 1 . 25
    • 4 Rough Set – Theorie für EntscheidungssystemeFür die Abhängigkeit {Headache , Muscle− pain ,Temperature }⇒ {Flu } aus derTabelle 2.1 erhalten wir k =4/6=2/3 , da vier von sechs Patienten eindeutig alsPersonen klassifiziert werden können, bei denen unter Berücksichtigung von denAttributen – Headache, Muscle-pain und Temperature – eine Grippeerkrankungfestgestellt bzw. nicht festgestellt werden konnte. Mit Hilfe dieser Methode können wirbeispielsweise auch feststellen, wie genau Patienten diagnostiziert werden können,wenn nur ein einziges Attribut in die Analyse einbezogen wird. Für das Temperature-Attribut ergibt sich somit die Abhängigkeit {Temperature }⇒ {Flu} mit einemKonsistenzfaktor von k =3/6=1/2 , da in diesem Fall nur drei Patienten p3, p4, undp6 eindeutig klassifiziert werden können. Somit liefert das Temperature-Attribut eineschlechtere Klassifikation als das gleichzeitige Einbeziehen von den Attributen –Headache, Muscle-pain und Temperature. Außerdem kann man auf diese Art undWeise erkennen, dass weder das Headache- noch das Muscle-pain-Attribut dazuverwendet werden können, um eine Grippeerkrankung bei Patienten zu diagnostizie-ren, da die Abhängigkeiten {Headache}⇒{Flu } und {Muscle− pain}⇒ {Flu} einenKonsistenzfaktor von k =0 liefern.4.4 Reduktion der Attribute – relative Redukte und relative KerneIm dritten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung4.1 – 3) werden relative Redukte und relative Kerne bestimmt, indem das Prinzip derRedukte und Kerne für ein Informationssystem, auf ein Entscheidungssystemübertragen werden. Dabei wollen wir, wie bei Informationssystemen, herausfinden, obredundante Attribute auch in Entscheidungssystemen vorkommen, auf die verzichtetwerden kann. Für diesen Zweck wird das Konzept der Redukte für Informationssyste-me ein bisschen angepasst.Definition (D-Redukt). Sei C , D⊆A . Dann sind folgende Aussagen möglich: 1. Das Attribut a ∈C heißt D-verzichtbar bezüglich C , falls POS C  D=POS C −{a }  D gilt. Andernfalls heißt das Attribut a D-unverzichtbar bezüglich C . 2. C heißt D-unabhängig, falls alle Attribute a ∈C D-unverzichtbar bezüglich C sind. 3. Eine Teilmenge C ⊆C ist ein D-Redukt von C , falls C D-unabhängig ist, und es gilt POS C  D=POS C  D .Der relative Kern in Bezug auf Bedingungsattribute wird genauso bestimmt wie derKern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Diefolgende Definition verdeutlicht dies noch einmal.Definition (D-Kern). Sei S=U , C , D ein Entscheidungssystem. Dann wird dieMenge von allen D-unverzichtbaren Attributen in C durch Core D C= Reduct D C  26
    • 4 Rough Set – Theorie für Entscheidungssystemedefiniert, wobei Reduct D C  die Menge aller D-Redukte von C ist.Relative Redukte können ebenfalls mit Hilfe der Unterscheidbarkeitsmatrix bestimmtwerden. Allerdings muss diese so angepasst werden, dass dabei auch die Entscheid-ungsattribute berücksichtigt werden.Definition (Unterscheidbarkeitsmatrix für D-Redukte). Sei S=U , C , D einEntscheidungssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M D C  von C eine symmetrische n×n Matrix mit den Einträgen c ij , so dassgilt: c ij ={a ∈ C : f  x i ≠ f  x j ∧w  x i , x j } , wobei w  x i , x j ≡ x i ∈POS C  D∧x j ∉ POS C  D∨  x i ∉POS C  D∧ x j ∈POS C  D∨ x i , x j ∈POS C  D∧ x i , x j ∉I  Dfür i , j=1, 2, ... , n .Somit stellt der Eintrag c ij die Menge von allen Attributen dar, so dass die Objekte x i und x j in Bezug auf die Attribute aus c ij voneinander unterschieden werdenkönnen, wenn sie aber nicht derselben Äquivalenzklasse der Relation I  Dangehören. Aus jeder Unterscheidbarkeitsmatrix M D C  resultiert eine eindeutigeUnterscheidbarkeitsfunktion (boolesche Funktion) f D C  , die genauso definiertwird, wie die Unterscheidbarkeitsfunktion f  B (siehe Abschnitt 3.5).Beispiel 1Anhand der Tabelle 2.1 erhalten wir in Bezug auf das Entscheidungsattribut – Flu –zwei Äquivalenzklassen { p1, p2, p3, p6 } und { p4, p5 }. Nun können wir eineUnterscheidbarkeitsmatrix aufstellen, indem Objekte nur aus unterschiedlichenÄquivalenzklassen bezüglich der Attributmenge C = { Headache, Muscle-pain, Tempe-rature } voneinander unterschieden werden. p1 p2 p3 p4 p5 p6 p1 - p2 - - p3 - - - p4 T H, M, T H, T - p5 H, M - M, T - - p6 - - - T H, M, T - Tabelle 4.1: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und Temperature 27
    • 4 Rough Set – Theorie für EntscheidungssystemeDie zugehörige Unterscheidbarkeitsfunktion liefert also zwei Redukte: f D C =T × H M × H M T × H T  ×M T ×T × H M T = H M ×T =H ×T M ×TDie Existenz von zwei Redukten ermöglicht, dass wir das Ausgangsentscheidungs-system auf zwei vereinfachte Entscheidungssysteme reduzieren: Patient Headache Temperature Flu p1 no high yes p2 yes high yes p3 yes very high yes p4 no normal no p5 yes high no p6 no very high yes Tabelle 4.2: Reduziertes Entscheidungssystem aus der Tabelle 2.1 Patient Muscle-pain Temperature Flu p1 yes high yes p2 no high yes p3 yes very high yes p4 yes normal no p5 no high no p6 yes very high yes Tabelle 4.3: Reduziertes Entscheidungssystem aus der Tabelle 2.14.5 Reduktion der Attributwerte – relative Redukte und relative KerneIm vierten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung4.1 – 4) werden relative Redukte und relative Kerne in Bezug auf Attributwertebestimmt, um eine weitere Vereinfachung der Daten im zu analysierenden Entschei-dungssystem zu erreichen. Genauso wie bei Informationssystemen, kommt auch beiEntscheidungssystemen die Idee der Redukte und Kerne zur Anwendung, aber jedochin einer leicht modifizierten Fassung.Definition (D-Redukt für Attributwerte). Sei C ein relatives D-Redukt, C ⇒ Deine Abhängigkeit und x ∈U . Dann sind folgende Aussagen möglich: 1. Der Attributwert von a ∈C heißt D-verzichtbar bezüglich x , falls C  x ⊆D x impliziert C a  x⊆ D x  . 28
    • 4 Rough Set – Theorie für Entscheidungssysteme Andernfalls ist der Attributwert von a D-unverzichtbar bezüglich x . 2. C heißt D-unabhängig (orthogonal) bezüglich x , falls für jedes Attribut a ∈C der zugehörige Attributwert D-unverzichtbar bezüglich x ist. 3. Eine Teilmenge C ∈C ist ein D-Redukt von C bezüglich x , falls C D-unabhängig bezüglich x ist, und es gilt C  x ⊆D x impliziert C  x⊆ D x  .Auch der D-Kern für Attributwerte wird analog zur Definition des Kerns fürAttributwerte eines Informationssystems (siehe Abschnitt 3.6) definiert.Definition (D-Kern für Attributwerte). Sei S=U , C , D ein Entscheidungs-system. Dann wird die Menge von allen D-unverzichtbaren Attributwerten bezüglich x in C durch Core x C= Reduct x C  D Ddefiniert, wobei Reduct x C  die Menge aller D-Redukte von C bezüglich x ist. DUm relative Redukte und deren relativen Kern bezüglich x zu bestimmen, wird dieUnterscheidbarkeitsmatrix M D C  (siehe Abschnitt 4.4) verwendet. Die Definitionder Unterscheidbarkeitsfunktion wird dabei genauso spezifiziert, wie die Unterscheid-barkeitsfunktion f x  B für Informationssysteme.Definition (D-Unterscheidbarkeitsfunktion). Sei S=U , C , D ein Entschei-dungssystem und x ∈U . Dann ist die Unterscheidbarkeitsfunktion f x C  Dbezüglich x eine boolesche Funktion mit m booleschen Variablen c 1, ... , c m , die  den Bedingungsattributen c 1, ... , c m ∈C entsprechen, so dass gilt: f x C =∏ {∑   x , y  : y ∈U ∧ x , y ≠∅} , D y∈Uwobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die derMenge  x , y zugeordnet sind.Beispiel 1Anhand der Tabelle 4.2 stellen wir nun ausgehend von den Äquvalenzklassen { p1, p2,p3, p6 } und { p4, p5 } eine Unterscheidbarkeitsmatrix auf, um relative Redukte fürAttributwerte in Bezug auf die Attributmenge C = { Headache, Temperature } zubestimmen. p1 p2 p3 p4 p5 p6 p1 – – – T H – p2 – – – H, T – – 29
    • 4 Rough Set – Theorie für Entscheidungssysteme p3 – – – H, T T – p4 T H, T H, T – – T p5 H – T – – H, T p6 – – – T H, T – Tabelle 4.4: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und TemperatureFür jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir diejeweilige Unterscheidbarkeitsfunktion. f 1 C =T ×H D f 2 C =H T D f 3 C = H T ×T =T D f 4 C =T × H T × H T ×T =T D f 5 C =H ×T × H T =H ×T D f 6 C =T × H T =T DDas vereinfachte Entscheidungssystem kann nun wie folgt dargestellt werden. Patient Headache Temperature Flu p1 no high yes p2 yes high yes p3 – very high yes p4 – normal no p5 yes high no p6 – very high yes Tabelle 4.5: Vereinfachtes Entscheidungssystem aus der Tabelle 4.2Beispiel 2Analog zum obigen Beispiel können wir das Entscheidungssystem aus der Tabelle 4.3vereinfachen und erhalten somit die zweite vereinfachte Darstellung für das Entschei-dungssystem aus der Tabelle 2.1. Patient Muscle-pain Temperature Flu p1 yes high yes p2 no high yes p3 – very high yes p4 – normal no 30
    • 4 Rough Set – Theorie für Entscheidungssysteme p5 no high no p6 – very high yes Tabelle 4.6: Vereinfachtes Entscheidungssystem aus der Tabelle 4.34.6 EntscheidungsregelnSobald die relativen Redukte in Bezug auf das Entscheidungsattribut – Flu – anhandder Beispieldaten aus der Tabelle 2.1 bestimmt wurden, können wir aus den darausresultierenden Daten (siehe Tabelle 4.5 und 4.6) Entscheidungsregeln ablesen (sieheAbbildung 4.1 – 5). Die Tabelle 4.5 lässt sich in Form von Entscheidungsregelnfolgendermaßen beschreiben. if (Headache, no) and (Temperature, high) then (Flu, yes) if (Headache, yes) and (Temperature, high) then (Flu, yes) if (Temperature, very high) then (Flu, yes) if (Temperature, normal) then (Flu, no) if (Headache, yes) and (Temperature, high) then (Flu, no) if (Temperature, very high) then (Flu, yes)Die Tabelle 4.6 kann mit Hilfe von Entscheidungsregeln wie folgt dargestellt werden. if (Muscle-pain, yes) and (Temperature, high) then (Flu, yes) if (Muscle-pain, no) and (Temperature, high) then (Flu, yes) if (Temperature, very high) then (Flu, yes) if (Temperature, normal) then (Flu, no) if (Muscle-pain, no) and (Temperature, high) then (Flu, no) if (Temperature, very high) then (Flu, yes)Nun gilt es zu klären, wie die hergeleiteten Entscheidungsregeln angewendet werdenkönnen, um die Klassifizierung neuer Objekte zu unterstützen. Es gibt hauptsächlich 4Möglichkeiten, wie das Abgleichen eines neuen Objekts mit bereits vorhandenenEntscheidungsregeln ablaufen kann. (a) das neue Objekt entspricht genau einer deterministischen Entscheidungs- regel (b) das neue Objekt entspricht genau einer nicht-deterministischen Entscheid- ungsregel (c) das neue Objekt entspricht keiner geeigneten Entscheidungsregel (d) das neue Objekt entspricht mehreren EntscheidungsregelnDer Fall – a – sieht keine weiteren Schritte vor, da die Zuordnung des neuen Objekts 31
    • 4 Rough Set – Theorie für Entscheidungssystemezu einer deterministischen Entscheidungsregel eindeutig ist. Im Fall – b – liegt keineeindeutige Entscheidungsregel vor. Deshalb wird der sogennante Decision Makereingesetzt, d.h. ihm werden Informationen über die Anzahl der Beispiele (strength)mitgeteilt, welche die jeweilige Entscheidungsregel verstärken sollen. Falls derKoeffizient (Anzahl der Beispiele) einer Klasse größer ist als der Koeffizient andererKlassen, die ebenfalls von derselben nicht-deterministischen Entscheidungsregelumfasst werden, wird der Decision Maker für das betrachtete Objekt dieEntscheidungsregel mit dem größten Koeffizienten auswählen. Im Fall – d – werdendem Decision Maker alle passenden Entscheidungsregeln mitgeteilt. Falls dieseEntscheidungsregeln dieselbe Entscheidung beinhalten, dann liegt keineMehrdeutigkeit vor. Andernfalls wird der Koeffizient jeder einzelnen Regel bestimmt,so dass der Decision Maker genauso wie im Fall – b – vorgehen kann. Der Fall – c – istder komplizierteste Fall. In diesem Fall müssen dem Decision Maker eine Menge vonEntscheidungsregeln mitgeteilt werden, die am besten zur Beschreibung des neuenObjekts passen. Dafür wird ein Distanzmaß eingeführt, damit der Decision Maker mehrInformationen über Objekte in unmittelbarer Nähe des zu klassifizierenden Objektsgewinnen kann. Anhand von diesen Informationen kann dann das neue Objektentweder als Sonderfall der existierenden Klassen oder als Element einer neuen Klassebetrachtet werden. 32
    • 5 Fazit5 FazitIn dieser Arbeit haben wir die Rough-Set-Theorie als eine nicht statistische Methodezur Analyse von Daten kennengelernt, die ermöglicht, Objekte in Bezug auf ihreAttributwerte zu charakterisieren, vollständige und unvollständige Abhängigkeitenzwischen Attributen zu finden, überflüssige Attribute zu eliminieren, Kernattribute zubestimmen und Entscheidungsregeln zu erstellen. Diese Ansätze, die die Rough-Set-Theorie mit sich bringt, können in verschiedenen Bereichen der künstlichen Intelligenzeingesetzt werden, da der Hauptvorteil der Rough-Set-Theorie darin besteht, dassAnwendungen, die diese Ansätze implementieren, parallel auf mehreren Rechnernlaufen können, was die Laufzeit zur Bestimmung von Entscheidungsregeln deutlichverkürzen kann. Der aktuelle Stand der Forschung im Bereich der Rough-Set-Theorieäußert sich darin, dass neue Konzepte entwickelt werden, wie die Rough-Set-Theoriemit anderen Methoden wie Fuzzy-Logik [Lia01], Neuronalen Netzen [Cmm03] undExpertensystemen [Sha09] kombiniert werden kann.Zusammenfassend lässt sich sagen, dass die Rough-Set-Theorie eine erfolgreicheMethode zur Analyse von Daten darstellt, die bereits in solchen Bereichen wie Medizin,Finanzwesen, Sicherheit der Energiesysteme, Spracherkennung und Bildverarbeitungzur Anwendung kommt. 33
    • LiteraturLiteraturCmm03 Chun-Yan, Yu; Ming-hui, Wu; Ming, Wu: Combining Rough Set Theory with Neural Network Theory for Pattern Recognition. Proceedings of the 2003 IEEE - International Conference on Robotics, Intelligent Systems and Signal Processing, 2003 Kps Komorowski, Jan; Polkowski, Lech; Skowron, Andrzej: Rough Sets: A Tutorial. http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tu tor.pdf (Stand 5.11.2012) Lia01 Li, Yu-Rong; Jiang, Jing-Ping: The integrated methodology of rough sets theory, fuzzy logic and genetic algorithms for multisensor fusion. Proceedings of the American Control Conference, 2001 Lud07 Luderer, Bernd: Die Kunst des Modellierens – Mathematisch- ökonomische Modelle. Vieweg+Teubner Verlag, 2007 Orw00 Ohrn, Aleksander; Rowland, Todd: Rough Sets: A Knowledge Discovery Technique for Multifactorial Mediacal Outcomes. Am. J. Phys. Med. Rehabil. 79, 2000 Paw Pawlak, Zdzislaw: Rough Set Elements (1). http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf (Stand 3.11.2012) Ril09 Rissino, Silvia; Lambert-Torres, Germano: Rough Set Theory – Fundamental Concepts, Principals, Data Extraction, and Applications. Data Mining and Knowledge Discovery in Real Life Applications, I-Tech, 2009 Sha09 Shao, Xin-Yu; Chu, Xue-Zheng; Qiu, Hao-Bo; Gao, Liang; Yan, Jun: An expert system using rough sets theory for aided conceptual design of shipss engine room automation. Expert Systems with Application 36, 2009Wam99 Walczak, B.; Massart, D.L.: Tutorial – Rough sets theory. Chemometrics and Intelligent Laboratory Systems, 1999 34