SlideShare a Scribd company logo
1 of 29
Clustering
‫فهرست‬
 ‫؟‬ ‫چیست‬ ‫کالسترینگ‬
 ‫؟‬ ‫چیست‬ ‫در‬ ‫بندی‬ ‫طبقه‬ ‫با‬ ‫کالسترینگ‬ ‫تفاوت‬
 ‫کردن‬ ‫کالستر‬ ‫در‬ ‫موجود‬ ‫مشکالت‬(‫بندی‬ ‫خوشه‬)
 ‫بندی‬ ‫خوشه‬ ‫های‬ ‫روش‬ ‫انواع‬
 ‫الگوریتم‬ ‫شرح‬ k-means
 ‫الگوریتم‬ ‫شرح‬ k-nearest
 ‫کاربردی‬ ‫مثال‬ ‫چند‬
‫چیست‬ ‫بندی‬ ‫خوشه‬‫؟‬
‫باشند‬ ‫داشته‬ ‫شباهت‬ ‫هم‬ ‫به‬ ‫که‬ ‫شود‬‫مي‬ ‫گفته‬ ‫ها‬‫داده‬ ‫از‬ ‫اي‬‫مجموعه‬ ‫به‬ ‫خوشه‬.
‫بندي‬‫طبقه‬ ‫مقابل‬ ‫در‬ ‫بندي‬‫خوشه‬
‫از‬ ‫کالس‬ ‫سری‬ ‫یک‬ ‫بندی‬ ‫طبقه‬ ‫در‬‫داریم‬ ‫شده‬ ‫تعیین‬ ‫پیش‬.
‫داده‬ ‫در‬ ‫موجود‬ ‫های‬ ‫کالس‬ ‫از‬ ‫اطالعی‬ ‫هیچ‬ ‫بندی‬ ‫خوشه‬ ‫در‬
‫نداریم‬ ‫ها‬.
‫بندي‬‫خوشه‬ ‫هاي‬‫روش‬
‫بندي‬‫خوشه‬‫انحصاري‬(Exclusive or Hard Clustering)‫مقابل‬ ‫در‬
‫بندي‬‫خوشه‬‫پوشي‬‫هم‬ ‫با‬(Overlapping or Soft Clustering)
‫سلسله‬ ‫بندي‬‫خوشه‬‫مراتبي‬(Hierarchical)‫مقابل‬ ‫در‬
‫مسطح‬ ‫بندي‬‫خوشه‬(Flat)
‫مراتبي‬ ‫سلسله‬ ‫بندي‬‫خوشه‬ ‫روشهاي‬
‫به‬ ‫باال‬‫پايین‬(Top-Down)
‫تقسیم‬ ‫يا‬‫کننده‬(Divisive: )
‫به‬ ‫پايین‬‫باال‬(Bottom-Up)
‫يا‬‫متراکم‬‫شونده‬(Agglomerative: )
‌‫‌بندي‌با‌روش‬‫ه‬‫خوش‬Single-Link
dAB= min dij
𝒊 ∈ A
j ∈ B
‫خوش‬ ‫دو‬ ‫بین‬ ‫شباهت‬ ‫محاسبه‬ ‫براي‬ ‫روش‬ ‫اين‬ ‫در‬‫ه‬‫شود‬‫مي‬ ‫استفاده‬ ‫زير‬ ‫معیار‬ ‫از‬:
‫برای‬ ‫مثال‬single-link
‫داشتن‬ ‫فرض‬ ‫با‬6‫ماتريس‬ ‫و‬ ‫داده‬ ‫نمونه‬‫فاصل‬‫ه‬‫جدول‬ ‫در‬ ‫که‬ ‫آنها‬ ‫بین‬1، ‫داده‬‫نشان‬
‫الگوریتم‬ ‫عملکرد‬ ‫نحوه‬single-link‫دهیم‬ ‫می‬ ‫نشان‬ ‫را‬:
‫روش‬ ‫با‬ ‫بندي‬‫خوشه‬Complete-Link
•‫خالف‬ ‫بر‬ ‫الگوریتم‬ ‫این‬ ‫در‬single-link‫کنیم‬ ‫می‬ ‫استفاده‬ ‫زیر‬ ‫شباهت‬ ‫معیار‬ ‫از‬:
‫روش‬ ‫با‬ ‫بندي‬‫خوشه‬Average-Link
‫کاهش‬ ‫برای‬noise‫میکنیم‬ ‫استفاده‬ ‫زیر‬ ‫معیار‬ ‫از‬ ‫که‬ ‫شود‬ ‫می‬ ‫استفاده‬ ‫روش‬ ‫این‬ ‫از‬:
‫الگوریتم‬k-means
‫محسوب‬ ‫مسطح‬ ‫و‬ ‫انحصاري‬ ‫روشي‬ ‫روش‬ ‫اين‬‫شود‬‫مي‬.
‫عملکرد‬ ‫نحوه‬:
1-‫دهی‬ ‫مقدار‬‫اولیه‬:
k‫می‬ ‫نظر‬ ‫در‬ ‫اولیه‬ ‫مراکز‬ ‫عنوان‬ ‫به‬ ‫را‬ ‫نقطه‬‫گیرد‬.
2-K‫دهد‬ ‫می‬ ‫تشکیل‬ ‫مرکز‬ ‫ترین‬ ‫نزدیک‬ ‫به‬ ‫نقاط‬ ‫تمام‬ ‫تخصیص‬ ‫با‬ ‫را‬ ‫خوشه‬.
3-‫شوند‬ ‫می‬ ‫محاسبه‬ ‫دوباره‬ ‫خوشه‬ ‫هر‬ ‫مراکز‬.
4-‫نکنند‬ ‫تغییر‬ ‫مراکز‬ ‫که‬ ‫زمانی‬ ‫تا‬ ‫تکرار‬.
‫الگوریتم‬k-nearest
‫موجود‬ ‫های‬ ‫خوشه‬ ‫در‬ ‫جدید‬ ‫عضو‬ ‫یک‬ ‫بندی‬ ‫خوشه‬ ‫برای‬ ‫است‬ ‫الگوریتمی‬.
tell me who your neighbors are, and I’ll tell you who you are
K=3
2، ‫آال‬ ‫قزل‬ ‫تا‬1‫کپور‬
‫میشود‬ ‫محسوب‬ ‫آال‬ ‫قزل‬ ‫ماهی‬ ‫نتیجه‬ ‫در‬.
‫به‬ ‫ماهی‬ ‫های‬ ‫گونه‬ ‫تعداد‬ ‫اگر‬ ‫قبل‬ ‫مثال‬ ‫در‬3‫و‬ ‫یابد‬ ‫تغییر‬
k‫برابر‬ ‫نیز‬5‫؟؟‬ ‫افتد‬ ‫می‬ ‫اتفاقی‬ ‫چه‬ ‫گردد‬
k=5
3، ‫آال‬ ‫قزل‬ ‫تا‬1، ‫کپور‬1‫مارماهی‬
‫باشد‬ ‫می‬ ‫آال‬ ‫قزل‬ ‫جدید‬ ‫نمونه‬ ‫نتیجه‬ ‫در‬.
‫مقدار‬ ‫تاثیر‬k‫الگوریتم‬ ‫در‬:
‫چقدر‬ ‫هر‬ ‫نامحدود‬ ‫ی‬ ‫مجموعه‬ ‫در‬ ‫تئوری‬ ‫در‬k‫شود‬ ‫می‬ ‫حاصل‬ ‫بهتری‬ ‫نتیجه‬ ‫باشد‬ ‫بزرگتر‬.
‫ولی‬k‫شود‬ ‫رعایت‬ ‫محلیت‬ ‫اصل‬ ‫که‬ ‫گردد‬ ‫انتخاب‬ ‫طوری‬ ‫باید‬
‫زیرا‬k‫شود‬ ‫می‬ ‫محلیت‬ ‫رفتن‬ ‫بین‬ ‫از‬ ‫باعث‬ ‫بزرگ‬.
‫مقدار‬ ‫بهترین‬k
‫برای‬ ‫مقدار‬ ‫بهترین‬k‫باشد‬ ‫می‬ ‫موجود‬ ‫های‬ ‫نمونه‬ ‫کل‬ ‫تعداد‬ ‫جذر‬ ‫غالبا‬.
𝒌 < 𝒏
K=1‫افزایش‬ ‫باعث‬ ‫ولی‬ ‫دهد‬ ‫افزایش‬ ‫را‬ ‫کارایی‬ ‫تواند‬ ‫می‬ ‫کمتر‬ ‫محاسبات‬ ‫دلیل‬ ‫به‬noise‫میگردد‬
.
‫مختلف‬ ‫مقادیر‬ ‫مقایسه‬k
‫کاربردی‬ ‫های‬ ‫مثال‬:
‫بازاريابي‬ ‫در‬:(marketing)‫بندي‬‫دسته‬‫و‬ ‫رفتارها‬ ‫حسب‬ ‫بر‬ ‫هايي‬‫دسته‬ ‫به‬ ‫ها‬‫مشتري‬
‫نیازهاي‬‫آنها‬‫آنها‬ ‫هاي‬‫خريد‬ ‫آخرين‬ ‫و‬ ‫ها‬‫ويژگي‬ ‫از‬ ‫زيادي‬ ‫مجموعه‬ ‫طريق‬ ‫از‬.
‫شناسي‬‫زيست‬( :biology)‫بندي‬‫دسته‬‫هاي‬‫ويژگي‬ ‫روي‬ ‫از‬ ‫گیاهان‬ ‫و‬ ‫حیوانات‬‫آنها‬
‫کتابداري‬:‫بندي‬‫دسته‬‫کتابها‬
‫مطالعات‬‫نگاري‬‫زلزله‬:(earth quake studies)‫تشخیص‬‫اساس‬ ‫بر‬ ‫خیز‬‫حادثه‬ ‫مناطق‬
‫مشاهدات‬‫قبلي‬
‫کاوي‬ ‫داده‬:(data mininig)‫کشف‬‫موجود‬ ‫هاي‬‫داده‬ ‫از‬ ‫جديد‬ ‫ساختار‬ ‫و‬ ‫اطالعات‬
‫منابع‬:
 The k-means algorithm ,Tan, Steinbach, Kumar + Ghosh
 K-means and Hierarchical Clustering Andrew W. Moore Professor School of
Computer Science Carnegie Mellon University

More Related Content

Similar to Clusterin k means

نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفه
نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفهنگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفه
نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفهMojtaba Hasanlu
 
یادگیری درخت تصمیم
یادگیری درخت تصمیمیادگیری درخت تصمیم
یادگیری درخت تصمیمavissco
 
Classification of Iris flower data
Classification of Iris flower dataClassification of Iris flower data
Classification of Iris flower datasahar zare
 

Similar to Clusterin k means (6)

نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفه
نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفهنگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفه
نگار پژوه :: آموزش کاربردی بهینه سازی الگوریتم ازدحام ذرات چند هدفه
 
یادگیری درخت تصمیم
یادگیری درخت تصمیمیادگیری درخت تصمیم
یادگیری درخت تصمیم
 
Classification of Iris flower data
Classification of Iris flower dataClassification of Iris flower data
Classification of Iris flower data
 
Genetic Algoritm
Genetic AlgoritmGenetic Algoritm
Genetic Algoritm
 
Genetic
GeneticGenetic
Genetic
 
Neural networks
Neural networksNeural networks
Neural networks
 

Clusterin k means

  • 2. ‫فهرست‬  ‫؟‬ ‫چیست‬ ‫کالسترینگ‬  ‫؟‬ ‫چیست‬ ‫در‬ ‫بندی‬ ‫طبقه‬ ‫با‬ ‫کالسترینگ‬ ‫تفاوت‬  ‫کردن‬ ‫کالستر‬ ‫در‬ ‫موجود‬ ‫مشکالت‬(‫بندی‬ ‫خوشه‬)  ‫بندی‬ ‫خوشه‬ ‫های‬ ‫روش‬ ‫انواع‬  ‫الگوریتم‬ ‫شرح‬ k-means  ‫الگوریتم‬ ‫شرح‬ k-nearest  ‫کاربردی‬ ‫مثال‬ ‫چند‬
  • 3. ‫چیست‬ ‫بندی‬ ‫خوشه‬‫؟‬ ‫باشند‬ ‫داشته‬ ‫شباهت‬ ‫هم‬ ‫به‬ ‫که‬ ‫شود‬‫مي‬ ‫گفته‬ ‫ها‬‫داده‬ ‫از‬ ‫اي‬‫مجموعه‬ ‫به‬ ‫خوشه‬.
  • 4. ‫بندي‬‫طبقه‬ ‫مقابل‬ ‫در‬ ‫بندي‬‫خوشه‬ ‫از‬ ‫کالس‬ ‫سری‬ ‫یک‬ ‫بندی‬ ‫طبقه‬ ‫در‬‫داریم‬ ‫شده‬ ‫تعیین‬ ‫پیش‬. ‫داده‬ ‫در‬ ‫موجود‬ ‫های‬ ‫کالس‬ ‫از‬ ‫اطالعی‬ ‫هیچ‬ ‫بندی‬ ‫خوشه‬ ‫در‬ ‫نداریم‬ ‫ها‬.
  • 5. ‫بندي‬‫خوشه‬ ‫هاي‬‫روش‬ ‫بندي‬‫خوشه‬‫انحصاري‬(Exclusive or Hard Clustering)‫مقابل‬ ‫در‬ ‫بندي‬‫خوشه‬‫پوشي‬‫هم‬ ‫با‬(Overlapping or Soft Clustering) ‫سلسله‬ ‫بندي‬‫خوشه‬‫مراتبي‬(Hierarchical)‫مقابل‬ ‫در‬ ‫مسطح‬ ‫بندي‬‫خوشه‬(Flat)
  • 6. ‫مراتبي‬ ‫سلسله‬ ‫بندي‬‫خوشه‬ ‫روشهاي‬ ‫به‬ ‫باال‬‫پايین‬(Top-Down) ‫تقسیم‬ ‫يا‬‫کننده‬(Divisive: ) ‫به‬ ‫پايین‬‫باال‬(Bottom-Up) ‫يا‬‫متراکم‬‫شونده‬(Agglomerative: )
  • 7. ‌‫‌بندي‌با‌روش‬‫ه‬‫خوش‬Single-Link dAB= min dij 𝒊 ∈ A j ∈ B ‫خوش‬ ‫دو‬ ‫بین‬ ‫شباهت‬ ‫محاسبه‬ ‫براي‬ ‫روش‬ ‫اين‬ ‫در‬‫ه‬‫شود‬‫مي‬ ‫استفاده‬ ‫زير‬ ‫معیار‬ ‫از‬:
  • 8. ‫برای‬ ‫مثال‬single-link ‫داشتن‬ ‫فرض‬ ‫با‬6‫ماتريس‬ ‫و‬ ‫داده‬ ‫نمونه‬‫فاصل‬‫ه‬‫جدول‬ ‫در‬ ‫که‬ ‫آنها‬ ‫بین‬1، ‫داده‬‫نشان‬ ‫الگوریتم‬ ‫عملکرد‬ ‫نحوه‬single-link‫دهیم‬ ‫می‬ ‫نشان‬ ‫را‬:
  • 9.
  • 10.
  • 11. ‫روش‬ ‫با‬ ‫بندي‬‫خوشه‬Complete-Link •‫خالف‬ ‫بر‬ ‫الگوریتم‬ ‫این‬ ‫در‬single-link‫کنیم‬ ‫می‬ ‫استفاده‬ ‫زیر‬ ‫شباهت‬ ‫معیار‬ ‫از‬:
  • 12.
  • 13.
  • 14.
  • 15. ‫روش‬ ‫با‬ ‫بندي‬‫خوشه‬Average-Link ‫کاهش‬ ‫برای‬noise‫میکنیم‬ ‫استفاده‬ ‫زیر‬ ‫معیار‬ ‫از‬ ‫که‬ ‫شود‬ ‫می‬ ‫استفاده‬ ‫روش‬ ‫این‬ ‫از‬:
  • 16.
  • 17.
  • 18.
  • 19. ‫الگوریتم‬k-means ‫محسوب‬ ‫مسطح‬ ‫و‬ ‫انحصاري‬ ‫روشي‬ ‫روش‬ ‫اين‬‫شود‬‫مي‬. ‫عملکرد‬ ‫نحوه‬: 1-‫دهی‬ ‫مقدار‬‫اولیه‬: k‫می‬ ‫نظر‬ ‫در‬ ‫اولیه‬ ‫مراکز‬ ‫عنوان‬ ‫به‬ ‫را‬ ‫نقطه‬‫گیرد‬.
  • 20. 2-K‫دهد‬ ‫می‬ ‫تشکیل‬ ‫مرکز‬ ‫ترین‬ ‫نزدیک‬ ‫به‬ ‫نقاط‬ ‫تمام‬ ‫تخصیص‬ ‫با‬ ‫را‬ ‫خوشه‬. 3-‫شوند‬ ‫می‬ ‫محاسبه‬ ‫دوباره‬ ‫خوشه‬ ‫هر‬ ‫مراکز‬.
  • 21. 4-‫نکنند‬ ‫تغییر‬ ‫مراکز‬ ‫که‬ ‫زمانی‬ ‫تا‬ ‫تکرار‬.
  • 22.
  • 23. ‫الگوریتم‬k-nearest ‫موجود‬ ‫های‬ ‫خوشه‬ ‫در‬ ‫جدید‬ ‫عضو‬ ‫یک‬ ‫بندی‬ ‫خوشه‬ ‫برای‬ ‫است‬ ‫الگوریتمی‬. tell me who your neighbors are, and I’ll tell you who you are K=3 2، ‫آال‬ ‫قزل‬ ‫تا‬1‫کپور‬ ‫میشود‬ ‫محسوب‬ ‫آال‬ ‫قزل‬ ‫ماهی‬ ‫نتیجه‬ ‫در‬.
  • 24. ‫به‬ ‫ماهی‬ ‫های‬ ‫گونه‬ ‫تعداد‬ ‫اگر‬ ‫قبل‬ ‫مثال‬ ‫در‬3‫و‬ ‫یابد‬ ‫تغییر‬ k‫برابر‬ ‫نیز‬5‫؟؟‬ ‫افتد‬ ‫می‬ ‫اتفاقی‬ ‫چه‬ ‫گردد‬ k=5 3، ‫آال‬ ‫قزل‬ ‫تا‬1، ‫کپور‬1‫مارماهی‬ ‫باشد‬ ‫می‬ ‫آال‬ ‫قزل‬ ‫جدید‬ ‫نمونه‬ ‫نتیجه‬ ‫در‬.
  • 25. ‫مقدار‬ ‫تاثیر‬k‫الگوریتم‬ ‫در‬: ‫چقدر‬ ‫هر‬ ‫نامحدود‬ ‫ی‬ ‫مجموعه‬ ‫در‬ ‫تئوری‬ ‫در‬k‫شود‬ ‫می‬ ‫حاصل‬ ‫بهتری‬ ‫نتیجه‬ ‫باشد‬ ‫بزرگتر‬. ‫ولی‬k‫شود‬ ‫رعایت‬ ‫محلیت‬ ‫اصل‬ ‫که‬ ‫گردد‬ ‫انتخاب‬ ‫طوری‬ ‫باید‬ ‫زیرا‬k‫شود‬ ‫می‬ ‫محلیت‬ ‫رفتن‬ ‫بین‬ ‫از‬ ‫باعث‬ ‫بزرگ‬.
  • 26. ‫مقدار‬ ‫بهترین‬k ‫برای‬ ‫مقدار‬ ‫بهترین‬k‫باشد‬ ‫می‬ ‫موجود‬ ‫های‬ ‫نمونه‬ ‫کل‬ ‫تعداد‬ ‫جذر‬ ‫غالبا‬. 𝒌 < 𝒏 K=1‫افزایش‬ ‫باعث‬ ‫ولی‬ ‫دهد‬ ‫افزایش‬ ‫را‬ ‫کارایی‬ ‫تواند‬ ‫می‬ ‫کمتر‬ ‫محاسبات‬ ‫دلیل‬ ‫به‬noise‫میگردد‬ .
  • 28. ‫کاربردی‬ ‫های‬ ‫مثال‬: ‫بازاريابي‬ ‫در‬:(marketing)‫بندي‬‫دسته‬‫و‬ ‫رفتارها‬ ‫حسب‬ ‫بر‬ ‫هايي‬‫دسته‬ ‫به‬ ‫ها‬‫مشتري‬ ‫نیازهاي‬‫آنها‬‫آنها‬ ‫هاي‬‫خريد‬ ‫آخرين‬ ‫و‬ ‫ها‬‫ويژگي‬ ‫از‬ ‫زيادي‬ ‫مجموعه‬ ‫طريق‬ ‫از‬. ‫شناسي‬‫زيست‬( :biology)‫بندي‬‫دسته‬‫هاي‬‫ويژگي‬ ‫روي‬ ‫از‬ ‫گیاهان‬ ‫و‬ ‫حیوانات‬‫آنها‬ ‫کتابداري‬:‫بندي‬‫دسته‬‫کتابها‬ ‫مطالعات‬‫نگاري‬‫زلزله‬:(earth quake studies)‫تشخیص‬‫اساس‬ ‫بر‬ ‫خیز‬‫حادثه‬ ‫مناطق‬ ‫مشاهدات‬‫قبلي‬ ‫کاوي‬ ‫داده‬:(data mininig)‫کشف‬‫موجود‬ ‫هاي‬‫داده‬ ‫از‬ ‫جديد‬ ‫ساختار‬ ‫و‬ ‫اطالعات‬
  • 29. ‫منابع‬:  The k-means algorithm ,Tan, Steinbach, Kumar + Ghosh  K-means and Hierarchical Clustering Andrew W. Moore Professor School of Computer Science Carnegie Mellon University