2. Кластеризація – пошук певної структури/порядку в
певному невпорядкованому наборі даних.
Кластеризація – це процес організації, впорядкування
даних в групи, члени яких є схожими якоюсь мірою.
3. Кластер – це набір груп, об’єкти яких є схожими в
межах групи і різними між різними групами.
4. Ціль кластеризації
Відшукати групування за властивостями в наборі
невпорядкованих даних.
Можливі застосування
Впорядкування книг в бібліотеці
Автоматична класифікація рослин та тварин до класів
В маркетингу пошук користувачів зі схожими потребами
І багато іншого …
5. Основні вимоги до алгоритмів кластеризації
Масштабованість
Робота з різними типами даних
Можливість опрацьовувати “шуми”
6. Але не все так просто…
Проблеми
Далеко не завжди можна відшукати параметри, за якими ми будемо
порівнювати об’єкти, а якщо і можна – то не завжди вони будуть
максимально задовольняти наші потреби
Довго триває кластеризація, якщо наші об’єкти – в багатьох вимірах, з
багатьма параметрами.
Результат не завжди однозначний
12. Алгоритм
1)Виберемо K випадкових центроїдів в нашій області
2)Поставимо у відповідність кожній точці рівно один центроїд, який
найближчий до тої точки
3)Коли всі точки розподілено, перерахуємо положення центроїдів.
4)Повторювати кроки 2 і 3 доки центроїди рухатимуться. В
кінцевому результаті – отримаємо К-кластеризацію.