Einführung   Test Data Generator             Data Auditing Tool   Evaluation   Literature




                       Syste...
Einführung                Test Data Generator   Data Auditing Tool   Evaluation   Literature



Überblick




         1  ...
Einführung         Test Data Generator   Data Auditing Tool   Evaluation   Literature


Einführung




        Worum geht ...
Einführung           Test Data Generator     Data Auditing Tool   Evaluation   Literature


Einführung




        Motivat...
Einführung               Test Data Generator   Data Auditing Tool    Evaluation          Literature


Data Quality




   ...
Einführung               Test Data Generator   Data Auditing Tool    Evaluation          Literature


Data Quality




   ...
Einführung             Test Data Generator     Data Auditing Tool     Evaluation       Literature


Data Auditing

       ...
Einführung             Test Data Generator     Data Auditing Tool     Evaluation       Literature


Data Auditing

       ...
Einführung             Test Data Generator     Data Auditing Tool     Evaluation       Literature


Data Auditing

       ...
Einführung    Test Data Generator   Data Auditing Tool   Evaluation   Literature


Data Auditing Tool Development Process
...
Einführung           Test Data Generator    Data Auditing Tool     Evaluation        Literature


Test Environment




   ...
Einführung               Test Data Generator   Data Auditing Tool    Evaluation   Literature


Generieren von Testdaten


...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation       Literature


Induktive Definition von ...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation       Literature


Induktive Definition von ...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation       Literature


Induktive Definition von ...
Einführung           Test Data Generator       Data Auditing Tool   Evaluation     Literature


Induktive Definition von Ru...
Einführung           Test Data Generator       Data Auditing Tool   Evaluation     Literature


Induktive Definition von Ru...
Einführung            Test Data Generator   Data Auditing Tool   Evaluation   Literature


Induktive Definition von Rule Pa...
Einführung            Test Data Generator   Data Auditing Tool   Evaluation   Literature


Induktive Definition von Rule Pa...
Einführung            Test Data Generator     Data Auditing Tool      Evaluation       Literature


Induktive Definition vo...
Einführung            Test Data Generator     Data Auditing Tool      Evaluation       Literature


Induktive Definition vo...
Einführung              Test Data Generator   Data Auditing Tool   Evaluation   Literature


Data Corruption




        V...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation   Literature


Error detection by a data au...
Einführung              Test Data Generator   Data Auditing Tool   Evaluation   Literature


Ein kleines Beispiel




    ...
Einführung            Test Data Generator              Data Auditing Tool    Evaluation   Literature


Entropy




       ...
Einführung            Test Data Generator              Data Auditing Tool    Evaluation   Literature


Entropy




       ...
Einführung            Test Data Generator              Data Auditing Tool    Evaluation   Literature


Entropy




       ...
Einführung            Test Data Generator              Data Auditing Tool    Evaluation   Literature


Entropy




       ...
Einführung            Test Data Generator                    Data Auditing Tool          Evaluation        Literature


En...
Einführung            Test Data Generator                    Data Auditing Tool          Evaluation        Literature


En...
Einführung            Test Data Generator                    Data Auditing Tool          Evaluation        Literature


En...
Einführung            Test Data Generator                    Data Auditing Tool          Evaluation        Literature


En...
Einführung           Test Data Generator   Data Auditing Tool     Evaluation      Literature


Der Basis Algorithmus - ID3...
Einführung    Test Data Generator   Data Auditing Tool   Evaluation   Literature


Der Basis Algorithmus - ID3




       ...
Einführung           Test Data Generator    Data Auditing Tool   Evaluation   Literature


Der Basis Algorithmus - ID3



...
Einführung    Test Data Generator   Data Auditing Tool   Evaluation   Literature


Problem mit Information Gain




      ...
Einführung            Test Data Generator      Data Auditing Tool             Evaluation                      Literature

...
Einführung            Test Data Generator      Data Auditing Tool             Evaluation                      Literature

...
Einführung           Test Data Generator     Data Auditing Tool         Evaluation   Literature


Verbesserung - C4.5




...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation   Literature


Error Korrektur




        ...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation   Literature


Error Korrektur




        ...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation         Literature


Anpassung an C4.5 für ...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation         Literature


Anpassung an C4.5 für ...
Einführung           Test Data Generator     Data Auditing Tool   Evaluation   Literature


Evaluation


        Anzahl de...
Einführung           Test Data Generator   Data Auditing Tool   Evaluation   Literature


Evaluation


        Anzahl der ...
Einführung            Test Data Generator   Data Auditing Tool   Evaluation   Literature


Evaluation


        Pollutionf...
Einführung            Test Data Generator    Data Auditing Tool     Evaluation         Literature


Evaluation


        A...
Einführung            Test Data Generator    Data Auditing Tool     Evaluation         Literature


Evaluation


        A...
Einführung           Test Data Generator     Data Auditing Tool     Evaluation    Literature


Referenz




        Litera...
Einführung            Test Data Generator   Data Auditing Tool   Evaluation   Literature


Ende




        :-)
          ...
Einführung            Test Data Generator   Data Auditing Tool   Evaluation   Literature


Ende




        :-)
          ...
Upcoming SlideShare
Loading in...5
×

Systematic Development of Data Mining-Based Data Quality Tools

244

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
244
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Systematic Development of Data Mining-Based Data Quality Tools"

  1. 1. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Systematic Development of Data Mining-Based Data Quality Tools Dominik Luebbers, Udo Grimmer, Matthias Jarke Seminar Data Mining Prof. Dr. Thomas Hofmann Steffen Hartmann Xu Jia 12.Jul.2005 1 / 32
  2. 2. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Überblick 1 Einführung 2 Test Data Generator 3 Data Auditing Tool 4 Evaluation 5 Literature 2 / 32
  3. 3. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Einführung Worum geht es? 3 / 32
  4. 4. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Einführung Motivation 41% der Data Warehousing Projekte fehlgeschlagen! Grund: mangelnde Data Quality (Garbage in, Garbage out) manuelle Inspektion ist fast unmöglich Grund: Daten über längere Zeit, verschiedene Generation von Datenbanktechnologie Lösung: (Semi-) automatische Data Auditing Tools. 4 / 32
  5. 5. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Quality Was ist Data Quality? Data Quality ist zielorientiert ⇒ keine formale Definition. Literature sprechen fitness for use or meeting end-user expectations Quality Dimensions accuracy or correctness completeness consistency actuality relevance 5 / 32
  6. 6. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Quality Was ist Data Quality? Data Quality ist zielorientiert ⇒ keine formale Definition. Literature sprechen fitness for use or meeting end-user expectations Quality Dimensions accuracy or correctness completeness consistency actuality relevance 5 / 32
  7. 7. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Auditing Was ist Data Auditing? application of data mining-algorithms for measuring and (possibly interactive) improving of data quality. Wichtig: data mining-algorithms muss geeignet zur Appliaction-domain sein. Idee Data mining-algorithms sucht die Regularitäten in Daten. z.B. Preis>100Euro ⇒ Versandkosten=0 Deviations (Abweichungen) als Errors. Teilaufgaben Structure induction Deviation detection Beide Teilaufgaben können asynchronisiert ausgeführt werden. Vorteil? 6 / 32
  8. 8. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Auditing Was ist Data Auditing? application of data mining-algorithms for measuring and (possibly interactive) improving of data quality. Wichtig: data mining-algorithms muss geeignet zur Appliaction-domain sein. Idee Data mining-algorithms sucht die Regularitäten in Daten. z.B. Preis>100Euro ⇒ Versandkosten=0 Deviations (Abweichungen) als Errors. Teilaufgaben Structure induction Deviation detection Beide Teilaufgaben können asynchronisiert ausgeführt werden. Vorteil? 6 / 32
  9. 9. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Auditing Was ist Data Auditing? application of data mining-algorithms for measuring and (possibly interactive) improving of data quality. Wichtig: data mining-algorithms muss geeignet zur Appliaction-domain sein. Idee Data mining-algorithms sucht die Regularitäten in Daten. z.B. Preis>100Euro ⇒ Versandkosten=0 Deviations (Abweichungen) als Errors. Teilaufgaben Structure induction Deviation detection Beide Teilaufgaben können asynchronisiert ausgeführt werden. Vorteil? 6 / 32
  10. 10. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Auditing Tool Development Process 7 / 32
  11. 11. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Test Environment Warum Test Environment? Daten generieren, um die Charakteristik der Datenbank zu simulieren. pollute die Daten ⇒ Vergleichung der clean und polluted Testdaten für die Evaluation des Data Auditing Tools. 8 / 32
  12. 12. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Generieren von Testdaten Rule-pattern-based date generation process 1 Datenbankschema feststellen (Anzahl und Typ der Attributen) 2 TDG-Rule set generieren 3 Data Records generieren 9 / 32
  13. 13. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 1 (atomic TDG-formulae) Let A and B be numerical or nominal attibutes and let a1 be a numerical or nominal domain value. Furthmore let N and M be numerical attibutes and let n be a numerical domain value. Then A = a1 , A = a1 , N < n, N > n, A isnull, A isnotnull (propositional) A = B, A = B, N < M, N > M (relational) are called atomic TDG-formulae. Definition 2 (TDG-formulae) Each atomic TDG-formulae is a TDG-formulae. Let n ∈ N and α1 , ..., αn be TDG-formulae. Then α1 ∨ ... ∨ αn and α1 ∧ ... ∧ αn are TDG-formulae Definition 3 (TDG-rule) Let α and β be TDG-formulae. Then α → β is a TDG-rule. 10 / 32
  14. 14. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 1 (atomic TDG-formulae) Let A and B be numerical or nominal attibutes and let a1 be a numerical or nominal domain value. Furthmore let N and M be numerical attibutes and let n be a numerical domain value. Then A = a1 , A = a1 , N < n, N > n, A isnull, A isnotnull (propositional) A = B, A = B, N < M, N > M (relational) are called atomic TDG-formulae. Definition 2 (TDG-formulae) Each atomic TDG-formulae is a TDG-formulae. Let n ∈ N and α1 , ..., αn be TDG-formulae. Then α1 ∨ ... ∨ αn and α1 ∧ ... ∧ αn are TDG-formulae Definition 3 (TDG-rule) Let α and β be TDG-formulae. Then α → β is a TDG-rule. 10 / 32
  15. 15. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 1 (atomic TDG-formulae) Let A and B be numerical or nominal attibutes and let a1 be a numerical or nominal domain value. Furthmore let N and M be numerical attibutes and let n be a numerical domain value. Then A = a1 , A = a1 , N < n, N > n, A isnull, A isnotnull (propositional) A = B, A = B, N < M, N > M (relational) are called atomic TDG-formulae. Definition 2 (TDG-formulae) Each atomic TDG-formulae is a TDG-formulae. Let n ∈ N and α1 , ..., αn be TDG-formulae. Then α1 ∨ ... ∨ αn and α1 ∧ ... ∧ αn are TDG-formulae Definition 3 (TDG-rule) Let α and β be TDG-formulae. Then α → β is a TDG-rule. 10 / 32
  16. 16. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns sinnlose Rules A = Val1 → A = Val2 A = Val1 ∧ A = Val2 → B = Val1 A = Val1 → A = Val2 ⇒ Diese Rules sollen vermieden werden. ⇒ Natural TDG-formulae and -rules Definition 4 (Natural TDG-formulae) Let α be a TDG-formulae. α is a natural TDG-formulae iff one of the following holds: α is an atomic TDG-formulae and α is satisfiable. α = α1 ∧ α2 ∧ ... ∧ αn and the following holds: ∀i : αi is a natural TDG-formulae, V α is satisfiable and ∀i : αi j,i=j αj für Disjunktion analog. 11 / 32
  17. 17. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns sinnlose Rules A = Val1 → A = Val2 A = Val1 ∧ A = Val2 → B = Val1 A = Val1 → A = Val2 ⇒ Diese Rules sollen vermieden werden. ⇒ Natural TDG-formulae and -rules Definition 4 (Natural TDG-formulae) Let α be a TDG-formulae. α is a natural TDG-formulae iff one of the following holds: α is an atomic TDG-formulae and α is satisfiable. α = α1 ∧ α2 ∧ ... ∧ αn and the following holds: ∀i : αi is a natural TDG-formulae, V α is satisfiable and ∀i : αi j,i=j αj für Disjunktion analog. 11 / 32
  18. 18. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 5 (Natural TDG-rule) A TDG-rule α → β is called a natural TDG-rule iff α and β are natural TDG-formulae, α ∧ β is satisfiable and α β Widerspruch und Redudant A = Val1 → B = Val1 A = Val1 → B = Val2 A = Val1 ∧ B = Val2 → C = Val1 A = Val1 → C = Val1 ⇒ to a given Rule set R the rule R = α → β should be added only if: R R R ∪ {α} is satisfiable 12 / 32
  19. 19. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 5 (Natural TDG-rule) A TDG-rule α → β is called a natural TDG-rule iff α and β are natural TDG-formulae, α ∧ β is satisfiable and α β Widerspruch und Redudant A = Val1 → B = Val1 A = Val1 → B = Val2 A = Val1 ∧ B = Val2 → C = Val1 A = Val1 → C = Val1 ⇒ to a given Rule set R the rule R = α → β should be added only if: R R R ∪ {α} is satisfiable 12 / 32
  20. 20. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 6 (Natural rule set) Let R = {α1 → β1 , α2 → β2 , ..., αn → βn } be a set of natural TDG-rules αi → βi . R is called a natural rule set iff for two different rules αi → βi and αj → βj with αj ⇒ αi the following holds: αj ∧ βi ∧ βj is satisfiable and (αj ∧ βi ) βj Idea: Satisfiability Test for TDG-formulae die TDG-formulae α in die disjunktive Form tranformieren. α ist satisfiable wenn einer diese disjunktiven Form satisfiable ist. 13 / 32
  21. 21. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Induktive Definition von Rule Patterns Definition 6 (Natural rule set) Let R = {α1 → β1 , α2 → β2 , ..., αn → βn } be a set of natural TDG-rules αi → βi . R is called a natural rule set iff for two different rules αi → βi and αj → βj with αj ⇒ αi the following holds: αj ∧ βi ∧ βj is satisfiable and (αj ∧ βi ) βj Idea: Satisfiability Test for TDG-formulae die TDG-formulae α in die disjunktive Form tranformieren. α ist satisfiable wenn einer diese disjunktiven Form satisfiable ist. 13 / 32
  22. 22. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Data Corruption Verschiedene Variante auf date pollution Wrong value polluter Null-value polluter Limiter Switcher Duplicator 14 / 32
  23. 23. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Error detection by a data auditing tool Specificity and sensitivity Specificity (True Negative Rate) := TN/(TN + FP) z.B. die Wahrscheinlichkeit dass ein Symptom NICHT existiert. Sensitivity (True Positive Rate) := TP/(TP + FN) z.B. die Wahrscheinlichkeit dass ein Sysmptom existiert. beide Werte = 1 ⇒ perfektes Data Auditing Tool False Negative: z.B. kranke Mensch als nicht krank diagnostiziert False Positive: z.B. gesunde Mensch als krank diagnostiziert 15 / 32
  24. 24. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Ein kleines Beispiel Begriffe Class Attribute Basis Attributen Training Set Test Set 16 / 32
  25. 25. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy Entropy Entropy (S) = − P p(I ) log p(I ) 2 9 9 5 5 Entropy (S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) = 0.940 Wann ist Entropy=0? Wann ist Entropy=1? 17 / 32
  26. 26. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy Entropy Entropy (S) = − P p(I ) log p(I ) 2 9 9 5 5 Entropy (S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) = 0.940 Wann ist Entropy=0? Wann ist Entropy=1? 17 / 32
  27. 27. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy Entropy Entropy (S) = − P p(I ) log p(I ) 2 9 9 5 5 Entropy (S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) = 0.940 Wann ist Entropy=0? Wann ist Entropy=1? 17 / 32
  28. 28. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy Entropy Entropy (S) = − P p(I ) log p(I ) 2 9 9 5 5 Entropy (S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) = 0.940 Wann ist Entropy=0? Wann ist Entropy=1? 17 / 32
  29. 29. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy und Gain Entropy und Gain Entropy (Outlook, S) = 5 5 4 14 Entropy (Ssunny ) + 14 Entropy (Srain ) + 14 Entropy (Sovercast ) = 0.694 Entropy (Ssunny ) = −2 5 log2 ( 2 ) 5 − 3 5 3 log2 ( 5 ) Gain(Outlook, S) = Entropy (S) − Entropy (Outlook, S) 18 / 32
  30. 30. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy und Gain Entropy und Gain Entropy (Outlook, S) = 5 5 4 14 Entropy (Ssunny ) + 14 Entropy (Srain ) + 14 Entropy (Sovercast ) = 0.694 Entropy (Ssunny ) = −2 5 log2 ( 2 ) 5 − 3 5 3 log2 ( 5 ) Gain(Outlook, S) = Entropy (S) − Entropy (Outlook, S) 18 / 32
  31. 31. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy und Gain Entropy und Gain Entropy (Outlook, S) = 5 5 4 14 Entropy (Ssunny ) + 14 Entropy (Srain ) + 14 Entropy (Sovercast ) = 0.694 Entropy (Ssunny ) = −2 5 log2 ( 2 ) 5 − 3 5 3 log2 ( 5 ) Gain(Outlook, S) = Entropy (S) − Entropy (Outlook, S) 18 / 32
  32. 32. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Entropy und Gain Entropy und Gain Entropy (Outlook, S) = 5 5 4 14 Entropy (Ssunny ) + 14 Entropy (Srain ) + 14 Entropy (Sovercast ) = 0.694 Entropy (Ssunny ) = −2 5 log2 ( 2 ) 5 − 3 5 3 log2 ( 5 ) Gain(Outlook, S) = Entropy (S) − Entropy (Outlook, S) 18 / 32
  33. 33. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Der Basis Algorithmus - ID3 Attribute wählen Gain(Outlook, S) = 0.246, Gain(Temperature, S) = 0.029 Gain(Humidity , S) = 0.151, Gain(Wind, S) = 0.048 ⇒ wähle die Attribute mit größter Gain als root des Entscheidungsbaums. 19 / 32
  34. 34. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Der Basis Algorithmus - ID3 20 / 32
  35. 35. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Der Basis Algorithmus - ID3 Decision tree ⇒ Rules outlook = sunny ∧ humidity = high → playball = no outlook = sunny ∧ humidity = normal → playball = yes outlook = overcast → playball = yes outlook = rain ∧ wind = true → playball = no outlook = rain ∧ wind = false → playball = yes 21 / 32
  36. 36. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Problem mit Information Gain 22 / 32
  37. 37. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Verbesserung - C4.5 Information Gain Ratio ID3 Information-Gain bevorzugt die Attributen, die viele Values haben. Attribute A hat nur Distinct value ⇒ Entropy(A, S)=0 ⇒ Gain(A,S) ist maximal. Verbessern durch Information gain ratio GainRatio(A, S) = Gain(A, S)/SplitInfo(A, S) 5 5 5 5 4 4 Beispiel: SplitInfo(Outlook, S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) − 14 log2 ( 14 ) Gain ratio ist groß, wenn daten ausbreiten (spread) und klein, wenn alle daten zu einem Ast gehört. Attribute mit unbekanntem Wert In building a decision tree: einfach diesen Record ignorieren In using a decision tree: die Wahrscheinlichkeit möglicher Ergebnisse schätzen 23 / 32
  38. 38. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Verbesserung - C4.5 Information Gain Ratio ID3 Information-Gain bevorzugt die Attributen, die viele Values haben. Attribute A hat nur Distinct value ⇒ Entropy(A, S)=0 ⇒ Gain(A,S) ist maximal. Verbessern durch Information gain ratio GainRatio(A, S) = Gain(A, S)/SplitInfo(A, S) 5 5 5 5 4 4 Beispiel: SplitInfo(Outlook, S) = − 14 log2 ( 14 ) − 14 log2 ( 14 ) − 14 log2 ( 14 ) Gain ratio ist groß, wenn daten ausbreiten (spread) und klein, wenn alle daten zu einem Ast gehört. Attribute mit unbekanntem Wert In building a decision tree: einfach diesen Record ignorieren In using a decision tree: die Wahrscheinlichkeit möglicher Ergebnisse schätzen 23 / 32
  39. 39. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Verbesserung - C4.5 Pruning Decision Trees (Entscheidungsbaum beschneiden) um Overfitting zu vermeiden Methode: subtree replacement - Teilbaum durch ein Blatt ersetzen Bsp: Testdaten mit 3 (blue,success) und 2 (red, failure) ⇒ Teilbaum durch Blatt mit <failure> ersetzen 24 / 32
  40. 40. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Error Korrektur Durch predicted values die predicted Werte können direkt als Korrektur benutzen. Interaktive Error Korrektur manchmal liegt Fehler an Basis-attibuten die predicted Werte helfen bei der Suche nach Fehlerquelle. 25 / 32
  41. 41. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Error Korrektur Durch predicted values die predicted Werte können direkt als Korrektur benutzen. Interaktive Error Korrektur manchmal liegt Fehler an Basis-attibuten die predicted Werte helfen bei der Suche nach Fehlerquelle. 25 / 32
  42. 42. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Anpassung an C4.5 für Data Auditing Error Confidence Wie vertrauenswürdig ist der ermittelte Error? abhängig von der Anzahl der Records niedrige Error Confidence Wert ist nutzlos ⇒ minimale Error Confidence ⇒ mininale Records Adjustments of C4.5 minimale Anzahl von Instanzen für eine Partition um unnötigen Teilbaum zu vermeiden pessimistic classification error benutzt in C4.5 pruning Kriterium wird ersetzt durch expected error confidence, wenn expected error confidence größer nach der pruning ist, dann wird das Teilbaum durch ein einzelnes Blatt ersetzt. Entscheidungsbaum in einen äquivalenten Rule Set transformieren und die Rules, die für Error Detection unrelevant sind, werden gelöscht. 26 / 32
  43. 43. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Anpassung an C4.5 für Data Auditing Error Confidence Wie vertrauenswürdig ist der ermittelte Error? abhängig von der Anzahl der Records niedrige Error Confidence Wert ist nutzlos ⇒ minimale Error Confidence ⇒ mininale Records Adjustments of C4.5 minimale Anzahl von Instanzen für eine Partition um unnötigen Teilbaum zu vermeiden pessimistic classification error benutzt in C4.5 pruning Kriterium wird ersetzt durch expected error confidence, wenn expected error confidence größer nach der pruning ist, dann wird das Teilbaum durch ein einzelnes Blatt ersetzt. Entscheidungsbaum in einen äquivalenten Rule Set transformieren und die Rules, die für Error Detection unrelevant sind, werden gelöscht. 26 / 32
  44. 44. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Evaluation Anzahl der Records vs. Sensitivity 27 / 32
  45. 45. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Evaluation Anzahl der Rules vs. Sensitivity 28 / 32
  46. 46. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Evaluation Pollutionfaktor vs. Sensitivity 29 / 32
  47. 47. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Evaluation Auditing Evaluation Database that describes all industry engines manufactured by Mercedes-Benz contains 8 attibutes and about 200,000 records running 21 minutes on Athlon 900Mhz found about 6000 suspicious records, that were ranked with their error confidence For example The following dependency between 2 attibutes BRV and GBM was inducted BRV = 404 → GBM = 901 based on 16118 records 1 record got however a value of 911 for GBM the data auditing tool give an error confidence of 99.95% to this record 30 / 32
  48. 48. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Evaluation Auditing Evaluation Database that describes all industry engines manufactured by Mercedes-Benz contains 8 attibutes and about 200,000 records running 21 minutes on Athlon 900Mhz found about 6000 suspicious records, that were ranked with their error confidence For example The following dependency between 2 attibutes BRV and GBM was inducted BRV = 404 → GBM = 901 based on 16118 records 1 record got however a value of 911 for GBM the data auditing tool give an error confidence of 99.95% to this record 30 / 32
  49. 49. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Referenz Literature und Links Building Classification Models: ID3 and C4.5 (http://www.cis.temple.edu/ ingargio/cis587/readings/id3-c45.html) The ID3 Algorithm (http://www.cise.ufl.edu/ ddd/cap6635/Fall-97/Short-papers/2.htm) Knowledge Discovery And Date Mining Techniques And Practice (http://www.netnam.vn/unescocourse/knowlegde/knowlegd.htm) Decision Trees (http://dms.irb.hr/tutorial/tut_dtrees.php) 31 / 32
  50. 50. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Ende :-) Vielen Dank für Eure Aufmerksamkeit! ?! Fragen und Diskussion... 32 / 32
  51. 51. Einführung Test Data Generator Data Auditing Tool Evaluation Literature Ende :-) Vielen Dank für Eure Aufmerksamkeit! ?! Fragen und Diskussion... 32 / 32
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×