Chap8 basic cluster_analysis

Data Mining Cluster Analysis: Basic Concepts and Algorithms Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

What is Cluster Analysis? ,[object Object],Inter-cluster distances are maximized Intra-cluster distances are minimized

Applications of Cluster Analysis ,[object Object],[object Object],[object Object],[object Object],Clustering precipitation in Australia

What is not Cluster Analysis? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Notion of a Cluster can be Ambiguous How many clusters? Four Clusters Two Clusters Six Clusters

Types of Clusterings ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Partitional Clustering Original Points A Partitional Clustering

Hierarchical Clustering Traditional Hierarchical Clustering Non-traditional Hierarchical Clustering Non-traditional Dendrogram Traditional Dendrogram

Other Distinctions Between Sets of Clusters ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Types of Clusters ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Types of Clusters: Well-Separated ,[object Object],[object Object],3 well-separated clusters

Types of Clusters: Center-Based ,[object Object],[object Object],[object Object],4 center-based clusters

Types of Clusters: Contiguity-Based ,[object Object],[object Object],8 contiguous clusters

Types of Clusters: Density-Based ,[object Object],[object Object],[object Object],6 density-based clusters

Types of Clusters: Conceptual Clusters ,[object Object],[object Object],[object Object],2 Overlapping Circles

Types of Clusters: Objective Function ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Types of Clusters: Objective Function … ,[object Object],[object Object],[object Object],[object Object]

Characteristics of the Input Data Are Important ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Clustering Algorithms ,[object Object],[object Object],[object Object]

K-means Clustering ,[object Object],[object Object],[object Object],[object Object],[object Object]

K-means Clustering – Details ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Two different K-means Clusterings Original Points Sub-optimal Clustering Optimal Clustering

Importance of Choosing Initial Centroids

Evaluating K-means Clusters ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Importance of Choosing Initial Centroids …

Problems with Selecting Initial Points ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

10 Clusters Example Starting with two initial centroids in one cluster of each pair of clusters

10 Clusters Example Starting with some pairs of clusters having three initial centroids, while other have only one.

Solutions to Initial Centroids Problem ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Handling Empty Clusters ,[object Object],[object Object],[object Object],[object Object],[object Object]

Updating Centers Incrementally ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Pre-processing and Post-processing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Bisecting K-means ,[object Object],[object Object]

Limitations of K-means ,[object Object],[object Object],[object Object],[object Object],[object Object]

Limitations of K-means: Differing Sizes Original Points K-means (3 Clusters)

Limitations of K-means: Differing Density Original Points K-means (3 Clusters)

Limitations of K-means: Non-globular Shapes Original Points K-means (2 Clusters)

Overcoming K-means Limitations Original Points K-means Clusters ,[object Object],[object Object]

Overcoming K-means Limitations Original Points K-means Clusters

Hierarchical Clustering ,[object Object],[object Object],[object Object]

Strengths of Hierarchical Clustering ,[object Object],[object Object],[object Object],[object Object]

Hierarchical Clustering ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Agglomerative Clustering Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Starting Situation ,[object Object],Proximity Matrix p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . .

Intermediate Situation ,[object Object],C1 C4 C2 C5 C3 Proximity Matrix C2 C1 C1 C3 C5 C4 C2 C3 C4 C5

After Merging ,[object Object],C1 C4 C2 U C5 C3 ? ? ? ? ? ? ? C2 U C5 C1 C1 C3 C4 C2 U C5 C3 C4 Proximity Matrix

How to Define Inter-Cluster Similarity Similarity? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Proximity Matrix p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . .

How to Define Inter-Cluster Similarity Proximity Matrix ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . .

How to Define Inter-Cluster Similarity Proximity Matrix ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],  p1 p3 p5 p4 p2 p1 p2 p3 p4 p5 . . . . . .

Cluster Similarity: MIN or Single Link ,[object Object],[object Object],1 2 3 4 5

Hierarchical Clustering: MIN Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5

Strength of MIN Original Points ,[object Object],Two Clusters

Limitations of MIN Original Points ,[object Object],Two Clusters

Cluster Similarity: MAX or Complete Linkage ,[object Object],[object Object],1 2 3 4 5

Hierarchical Clustering: MAX Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4

Strength of MAX Original Points ,[object Object],Two Clusters

Limitations of MAX Original Points ,[object Object],[object Object],Two Clusters

Cluster Similarity: Group Average ,[object Object],[object Object],1 2 3 4 5

Hierarchical Clustering: Group Average Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4

Hierarchical Clustering: Group Average ,[object Object],[object Object],[object Object],[object Object],[object Object]

Cluster Similarity: Ward’s Method ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hierarchical Clustering: Comparison Group Average Ward’s Method MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5

Hierarchical Clustering: Time and Space requirements ,[object Object],[object Object],[object Object],[object Object],[object Object]

Hierarchical Clustering: Problems and Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MST: Divisive Hierarchical Clustering ,[object Object],[object Object],[object Object],[object Object]

MST: Divisive Hierarchical Clustering ,[object Object]

DBSCAN ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

DBSCAN: Core, Border, and Noise Points

DBSCAN Algorithm ,[object Object],[object Object]

DBSCAN: Core, Border and Noise Points Original Points Point types: core , border and noise Eps = 10, MinPts = 4

When DBSCAN Works Well Original Points ,[object Object],[object Object],Clusters

When DBSCAN Does NOT Work Well Original Points (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) ,[object Object],[object Object]

DBSCAN: Determining EPS and MinPts ,[object Object],[object Object],[object Object]

Cluster Validity ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Clusters found in Random Data Random Points K-means DBSCAN Complete Link

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Different Aspects of Cluster Validation

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Measures of Cluster Validity

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Measuring Cluster Validity Via Correlation

Measuring Cluster Validity Via Correlation ,[object Object],Corr = -0.9235 Corr = -0.5810

[object Object],Using Similarity Matrix for Cluster Validation

Using Similarity Matrix for Cluster Validation ,[object Object],DBSCAN

Using Similarity Matrix for Cluster Validation ,[object Object],K-means

Using Similarity Matrix for Cluster Validation ,[object Object],Complete Link

Using Similarity Matrix for Cluster Validation DBSCAN

[object Object],[object Object],[object Object],[object Object],[object Object],Internal Measures: SSE

Internal Measures: SSE ,[object Object],SSE of clusters found using K-means

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Framework for Cluster Validity

[object Object],[object Object],[object Object],Statistical Framework for SSE

[object Object],Statistical Framework for Correlation Corr = -0.9235 Corr = -0.5810

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Internal Measures: Cohesion and Separation

Internal Measures: Cohesion and Separation ,[object Object],[object Object],1 2 3 4 5    m 1 m 2 m K=2 clusters: K=1 cluster:

[object Object],[object Object],[object Object],Internal Measures: Cohesion and Separation cohesion separation

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Internal Measures: Silhouette Coefficient

External Measures of Cluster Validity: Entropy and Purity

[object Object],[object Object],[object Object],Final Comment on Cluster Validity

Chap8 basic cluster_analysis

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to Chap8 basic cluster_analysis

Similar to Chap8 basic cluster_analysis (20)

Recently uploaded

Recently uploaded (20)

Chap8 basic cluster_analysis