The document discusses Indonesia's Digital Talent Scholarship Program which aims to provide training and certification in information and communication technology fields. It aims to train 60,000 participants in 2021 to improve skills and competitiveness in the ICT sector as part of national development priorities. The training program is divided into seven academies covering various ICT topics and target audiences, including recent graduates, vocational school graduates, teachers, the general public, civil servants, and digital entrepreneurs. The training utilizes various online platforms and aims to increase productivity and competitiveness in the era of Industry 4.0.
14. modul ta dts2021 model ann 14 juli 2021-v2ArdianDwiPraba
The document discusses Indonesia's Digital Talent Scholarship Program (DTS) which aims to improve the skills and competitiveness of human resources in information and communication technology.
In 2021, the DTS program targets training 60,000 participants across seven academies focused on areas like coding, entrepreneurship, and regional development. The training is intended to increase the skills and expertise of young workers, civilians, and civil servants in information and communication technologies.
The DTS program since 2018-2019 has already provided certification training to 26,000 recipients in information and communication technology fields. This year's program expansion aims to further develop Indonesia's digital talent and workforce.
This document outlines the preparation and process of classification modeling. It discusses the objectives of the training, which are for participants to be able to prepare for and conduct classification modeling. It describes dividing data into training, validation, and test sets. Other topics covered include determining modeling techniques, setting model parameters, and evaluating model performance using metrics like accuracy for classification tasks. The document provides information about the training, including the competencies, learning outcomes, duration, tools used, and training team.
Data mining 5 klasifikasi decision tree dan random forestIrwansyahSaputra1
The document discusses decision trees and random forests. It begins with an introduction to decision trees, including how they are used in everyday life to make decisions. It then covers key concepts such as entropy, information gain, and how decision trees use these concepts to build tree structures by recursively splitting nodes based on predictor variables that maximize information gain. The document provides examples to illustrate entropy, information gain, and how they are used to select the root node and build the tree structure.
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan digital 60.000 peserta melalui tujuh akademi pelatihan bidang teknologi informasi, seperti Fresh Graduate Academy, Vocational School Graduate Academy, dan Digital Entrepreneurship Academy. Pelatihan dilaksanakan secara daring dan diharapkan meningkatkan daya saing SDM Indonesia di era Industri 4.0.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Dokumen tersebut membahas arsitektur dan model data mining. Terdapat penjelasan mengenai komponen-komponen arsitektur data mining seperti data cleaning, data integration, data mining engine, dan graphical user interface. Juga dibahas model-model data mining seperti prediction methods dan description methods beserta contoh-contohnya seperti klasifikasi, regresi, dan clustering.
14. modul ta dts2021 model ann 14 juli 2021-v2ArdianDwiPraba
The document discusses Indonesia's Digital Talent Scholarship Program (DTS) which aims to improve the skills and competitiveness of human resources in information and communication technology.
In 2021, the DTS program targets training 60,000 participants across seven academies focused on areas like coding, entrepreneurship, and regional development. The training is intended to increase the skills and expertise of young workers, civilians, and civil servants in information and communication technologies.
The DTS program since 2018-2019 has already provided certification training to 26,000 recipients in information and communication technology fields. This year's program expansion aims to further develop Indonesia's digital talent and workforce.
This document outlines the preparation and process of classification modeling. It discusses the objectives of the training, which are for participants to be able to prepare for and conduct classification modeling. It describes dividing data into training, validation, and test sets. Other topics covered include determining modeling techniques, setting model parameters, and evaluating model performance using metrics like accuracy for classification tasks. The document provides information about the training, including the competencies, learning outcomes, duration, tools used, and training team.
Data mining 5 klasifikasi decision tree dan random forestIrwansyahSaputra1
The document discusses decision trees and random forests. It begins with an introduction to decision trees, including how they are used in everyday life to make decisions. It then covers key concepts such as entropy, information gain, and how decision trees use these concepts to build tree structures by recursively splitting nodes based on predictor variables that maximize information gain. The document provides examples to illustrate entropy, information gain, and how they are used to select the root node and build the tree structure.
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan digital 60.000 peserta melalui tujuh akademi pelatihan bidang teknologi informasi, seperti Fresh Graduate Academy, Vocational School Graduate Academy, dan Digital Entrepreneurship Academy. Pelatihan dilaksanakan secara daring dan diharapkan meningkatkan daya saing SDM Indonesia di era Industri 4.0.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Dokumen tersebut membahas arsitektur dan model data mining. Terdapat penjelasan mengenai komponen-komponen arsitektur data mining seperti data cleaning, data integration, data mining engine, dan graphical user interface. Juga dibahas model-model data mining seperti prediction methods dan description methods beserta contoh-contohnya seperti klasifikasi, regresi, dan clustering.
Certainty factor (faktor kepastian) diperkenalkan oleh Shortliffe dan Buchanan dalam sistem pakar MYCIN untuk mengakomodasi ketidakpastian pemikiran seorang pakar. Faktor kepastian menggunakan nilai antara -1 hingga 1 untuk menggambarkan tingkat keyakinan seorang pakar terhadap suatu pernyataan. Faktor kepastian dapat dihitung secara manual maupun didasarkan pada wawancara dengan pakar.
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
The document provides information about evaluating machine learning models, including:
1) The goals of evaluation are to determine if a model is suitable for use and to measure participant ability to evaluate models.
2) Key metrics for evaluation include accuracy, confusion matrix, and precision and recall. Accuracy is the number of correct predictions divided by total predictions. A confusion matrix shows correct and incorrect predictions for each class.
3) The document discusses evaluation concepts like true/false positives and negatives specifically for binary classification problems with two classes.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Penelitian ini membahas mengenai tata kelola teknologi informasi (TI) yang
difokuskan pada bagian pemasaran Usaha Mikro, Kecil, dan Menengah (UMKM) di
Palembang dengan menerapkan arsitektur berorientasi layanan (SOA) sebagai kerangka
kerjanya. Penelitian ini bertujuan untuk menemukan faktor-faktor yang perlu diperhatikan
dalam menciptakan sistem pemasaran yang baik dan membuat suatu rekomendasi tata
kelola TI yang diharapkan dapat membantu UMKM dalam memperluas pangsa pasar.
Penelitian ini mengusulkan 4 faktor yang memiliki pengaruh terhadap tata kelola TI, yaitu
kelayakan produk (PF), permintaan pasar (MD), pesaing (C) dan promosi (P). Pengumpulan
data penelitian dilakukan dengan menyebarkan 100 kuesioner kepada pelaku UMKM, dan
diperoleh 100 respondent valid. Hasil pengolahan data dengan menggunakan aplikasi SPSS
versi 21.0 menunjukkan adanya pengaruh positif antara kelayakan produk (PF) terhadap
tata kelola TI dan tata kelota TI terhadap promosi (P). Rekomendasi tata kelola TI pada
penelitian ini dirancang dengan menggunakan kerangka kerja SOA web services, dimana
terdapat 2 layanan yang saling berkaitan, yaitu layanan UMKM kota Palembang dan layanan
sistem consumer.
Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
Kriptograf - Algoritma Kriptografi Klasik (bagian 1)KuliahKita
1. Algoritma kriptografi klasik meliputi cipher substitusi dan transposisi yang berbasis karakter tanpa menggunakan komputer. 2. Cipher substitusi seperti Caesar cipher mengganti huruf plainteks dengan huruf lain sesuai tabel substitusi, sedangkan cipher transposisi mengubah posisi huruf dengan mengacaknya. 3. Super enkripsi merupakan kombinasi dari cipher substitusi dan transposisi untuk meningkatkan keamanan teks rahasia.
Dokumen tersebut merangkum hasil analisis regresi tak linier untuk memprediksi kecepatan rata-rata pelari berusia di atas 70 tahun berdasarkan data jarak dan kecepatan larinya. Persamaan regresi yang didapat adalah v̂ = 4,60s-0,06 dengan nilai R2 sebesar 0,81, yang menunjukkan hubungan antara jarak dan kecepatan sebesar 81%. Prediksi kecepatan rata-rata pelari berusia di atas 70 t
16.modul melakukan deployment model (final) v1 1ArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan 60.000 peserta di bidang teknologi informasi dan komunikasi. Program ini terdiri dari tujuh akademi pelatihan untuk berbagai kelompok sasaran seperti lulusan perguruan tinggi, SMK, guru, dan UMKM.
Extending the Student’s Performance via K-Means and Blended Learning IJEACS
In this paper, we use the clustering technique to monitor the status of students’ scholastic recital. This paper spotlights on upliftment the education system via K-means clustering. Clustering is the process of grouping the similar objects. Commonly in the academic, the performances of the students are grouped by their Graded Point (GP). We adopted K-means algorithm and implemented it on students’ mark data. This system is a promising index to screen the development of students and categorize the students by their academic performance. From the categories, we train the students based on their GP. It was implemented in MATLAB and obtained the clusters of students exactly.
A Generic Model for Student Data Analytic Web Service (SDAWS)Editor IJCATR
Any university management system accumulates a cartload of data and analytics can be applied on it to gather useful
information to aid the academic decision making process. This paper is a novel attempt to demonstrate the significance of a data
analytic web service in the education domain. This can be integrated with the University Management System or any other application
of the university easily. Analytics as a web service offers much benefits over the traditional analysis methods. The web service can be
hosted on a web server and accessed over the internet or on to the private cloud of the campus. The data from various courses from
different departments can be uploaded and analyzed easily. In this paper we design a web service framework to be used in educational
data mining that provide analysis as a service.
Certainty factor (faktor kepastian) diperkenalkan oleh Shortliffe dan Buchanan dalam sistem pakar MYCIN untuk mengakomodasi ketidakpastian pemikiran seorang pakar. Faktor kepastian menggunakan nilai antara -1 hingga 1 untuk menggambarkan tingkat keyakinan seorang pakar terhadap suatu pernyataan. Faktor kepastian dapat dihitung secara manual maupun didasarkan pada wawancara dengan pakar.
Kursus ini akan menjelaskan konsep dan implementasi regresi linier sederhana, variabel jamak, non-linier, serta algoritma regresi lainnya seperti SVR, DTR, dan RFR menggunakan bahasa pemrograman Python. Peserta akan mempelajari cara memprediksi nilai kontinyu dengan berbagai model regresi dan mengukur kinerjanya.
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
The document discusses the objectives and learning materials for a training module on data collection and analysis. The general objective is for participants to be able to collect and review data using statistical methods. Specific objectives include accessing open data sources, importing and exporting data in Pandas, and performing descriptive statistics and correlation analysis. The training will cover techniques for collecting data from open sources and exploring data using Pandas in Python. It will have a 70% practice to 30% theory ratio over 4 sessions.
The document provides information about evaluating machine learning models, including:
1) The goals of evaluation are to determine if a model is suitable for use and to measure participant ability to evaluate models.
2) Key metrics for evaluation include accuracy, confusion matrix, and precision and recall. Accuracy is the number of correct predictions divided by total predictions. A confusion matrix shows correct and incorrect predictions for each class.
3) The document discusses evaluation concepts like true/false positives and negatives specifically for binary classification problems with two classes.
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan untuk meningkatkan keterampilan 60.000 peserta melalui tujuh akademi pelatihan di bidang teknologi informasi dan komunikasi agar dapat meningkatkan produktivitas dan daya saing Indonesia di era Industri 4.0."
Penelitian ini membahas mengenai tata kelola teknologi informasi (TI) yang
difokuskan pada bagian pemasaran Usaha Mikro, Kecil, dan Menengah (UMKM) di
Palembang dengan menerapkan arsitektur berorientasi layanan (SOA) sebagai kerangka
kerjanya. Penelitian ini bertujuan untuk menemukan faktor-faktor yang perlu diperhatikan
dalam menciptakan sistem pemasaran yang baik dan membuat suatu rekomendasi tata
kelola TI yang diharapkan dapat membantu UMKM dalam memperluas pangsa pasar.
Penelitian ini mengusulkan 4 faktor yang memiliki pengaruh terhadap tata kelola TI, yaitu
kelayakan produk (PF), permintaan pasar (MD), pesaing (C) dan promosi (P). Pengumpulan
data penelitian dilakukan dengan menyebarkan 100 kuesioner kepada pelaku UMKM, dan
diperoleh 100 respondent valid. Hasil pengolahan data dengan menggunakan aplikasi SPSS
versi 21.0 menunjukkan adanya pengaruh positif antara kelayakan produk (PF) terhadap
tata kelola TI dan tata kelota TI terhadap promosi (P). Rekomendasi tata kelola TI pada
penelitian ini dirancang dengan menggunakan kerangka kerja SOA web services, dimana
terdapat 2 layanan yang saling berkaitan, yaitu layanan UMKM kota Palembang dan layanan
sistem consumer.
Dokumen tersebut membahas tentang teknik pencarian yang merupakan salah satu teknik penting dalam sistem cerdas untuk menyelesaikan masalah. Ada dua jenis teknik pencarian yaitu pencarian buta yang mencoba semua kemungkinan dan pencarian terbimbing yang menggunakan heuristic untuk meningkatkan efisiensi. Dokumen ini juga menjelaskan beberapa metode pencarian khusus seperti breadth-first search, depth-first search, serta con
Kriptograf - Algoritma Kriptografi Klasik (bagian 1)KuliahKita
1. Algoritma kriptografi klasik meliputi cipher substitusi dan transposisi yang berbasis karakter tanpa menggunakan komputer. 2. Cipher substitusi seperti Caesar cipher mengganti huruf plainteks dengan huruf lain sesuai tabel substitusi, sedangkan cipher transposisi mengubah posisi huruf dengan mengacaknya. 3. Super enkripsi merupakan kombinasi dari cipher substitusi dan transposisi untuk meningkatkan keamanan teks rahasia.
Dokumen tersebut merangkum hasil analisis regresi tak linier untuk memprediksi kecepatan rata-rata pelari berusia di atas 70 tahun berdasarkan data jarak dan kecepatan larinya. Persamaan regresi yang didapat adalah v̂ = 4,60s-0,06 dengan nilai R2 sebesar 0,81, yang menunjukkan hubungan antara jarak dan kecepatan sebesar 81%. Prediksi kecepatan rata-rata pelari berusia di atas 70 t
16.modul melakukan deployment model (final) v1 1ArdianDwiPraba
Program Digital Talent Scholarship 2021 bertujuan meningkatkan keterampilan 60.000 peserta di bidang teknologi informasi dan komunikasi. Program ini terdiri dari tujuh akademi pelatihan untuk berbagai kelompok sasaran seperti lulusan perguruan tinggi, SMK, guru, dan UMKM.
Extending the Student’s Performance via K-Means and Blended Learning IJEACS
In this paper, we use the clustering technique to monitor the status of students’ scholastic recital. This paper spotlights on upliftment the education system via K-means clustering. Clustering is the process of grouping the similar objects. Commonly in the academic, the performances of the students are grouped by their Graded Point (GP). We adopted K-means algorithm and implemented it on students’ mark data. This system is a promising index to screen the development of students and categorize the students by their academic performance. From the categories, we train the students based on their GP. It was implemented in MATLAB and obtained the clusters of students exactly.
A Generic Model for Student Data Analytic Web Service (SDAWS)Editor IJCATR
Any university management system accumulates a cartload of data and analytics can be applied on it to gather useful
information to aid the academic decision making process. This paper is a novel attempt to demonstrate the significance of a data
analytic web service in the education domain. This can be integrated with the University Management System or any other application
of the university easily. Analytics as a web service offers much benefits over the traditional analysis methods. The web service can be
hosted on a web server and accessed over the internet or on to the private cloud of the campus. The data from various courses from
different departments can be uploaded and analyzed easily. In this paper we design a web service framework to be used in educational
data mining that provide analysis as a service.
IRJET- Personalized E-Learning using Learner’s Capability Score (LCS)IRJET Journal
1) The document discusses a personalized e-learning model that calculates a learner's capability score (LCS) based on performance, learning style, and time to determine an optimal learning path.
2) The LCS algorithm uses parameters like time, performance on tests, learning style, objective, difficulty of concepts, and question level to analyze a learner's capabilities and provide personalized course sequencing.
3) The proposed model involves developing an application where learners can register for courses, take tests on concepts, and receive personalized sequencing of concepts based on their calculated LCS.
IRJET- Personalized E-Learning using Learner’s Capability Score (LCS)IRJET Journal
1) The document discusses a personalized e-learning model that calculates a learner's capability score (LCS) based on performance, learning style, and time to determine an optimal learning path.
2) The LCS algorithm uses parameters like time, performance on tests, learning style, objective, difficulty of concepts, and question level to analyze a learner's capabilities and provide personalized course sequencing.
3) The proposed model involves developing an application that stores learner information in a database, administers tests after concepts, calculates LCS, and guides learners through courses based on their scores.
Study and Analysis of K-Means Clustering Algorithm Using RapidminerIJERA Editor
Institution is a place where teacher explains and student just understands and learns the lesson. Every student has his own definition for toughness and easiness and there isn’t any absolute scale for measuring knowledge but examination score indicate the performance of student. In this case study, knowledge of data mining is combined with educational strategies to improve students’ performance. Generally, data mining (sometimes called data or knowledge discovery) is the process of analysing data from different perspectives and summarizing it into useful information. Data mining software is one of a number of analytical tools for data. It allows users to analyse data from many different dimensions or angles, categorize it, and summarize the relationships identified. Technically, data mining is the process of finding correlations or patterns among dozens of fields in large relational database. Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).This project describes the use of clustering data mining technique to improve the efficiency of academic performance in the educational institutions .In this project, a live experiment was conducted on students .By conducting an exam on students of computer science major using MOODLE(LMS) and analysing that data generated using RapidMiner(Datamining Software) and later by performing clustering on the data. This method helps to identify the students who need special advising or counselling by the teacher to give high quality of education.
STUDENTS’ PERFORMANCE PREDICTION SYSTEM USING MULTI AGENT DATA MINING TECHNIQUEIJDKP
The document discusses a proposed students' performance prediction system using multi-agent data mining techniques. It aims to predict student performance with high accuracy and help low-performing students. The system uses ensemble classifiers like Adaboost.M1 and LogitBoost and compares their prediction accuracy to the single classifier C4.5 decision tree. Experimental results showed SAMME boosting improved prediction accuracy over C4.5 and LogitBoost.
Deep Learning: The Impact on Future eLearningIRJET Journal
This document discusses how deep learning can impact future eLearning by analyzing its implications for resource management in eLearning. It examines deep learning applications like personalized learning paths and chatbots. Deep learning models like CNNs, RNNs, DBNs and DNNs are commonly used for sequences, associations, classifications, clusters and predictions in eLearning. A framework is presented showing how deep learning can incorporate existing materials, learner data, and mentor skills to create customized learning. The document summarizes recent deep learning tools in eLearning and their advantages and limitations. Deep learning is evolving to include ways to reuse existing resources to reduce eLearning development costs.
Data mining referred to extracting the hidden predictive information from huge amount of data set. Recently, there are number of private institution are came into existence and they put their efforts to get fruitful admissions. In this paper, the techniques of data mining are used to analyze the mind setup of student after matriculate. One of the best tools of data mining is known as WEKA (Waikato Environment Knowledge Analysis), is used to formulate the process of analysis.
Data mining referred to extracting the hidden predictive information from huge amount of data set. Recently, there are number of private institution are came into existence and they put their efforts to get fruitful admissions. In this paper, the techniques of data mining are used to analyze the mind setup of student after matriculate. One of the best tools of data mining is known as WEKA (Waikato Environment Knowledge Analysis), is used to formulate the process of analysis.
Big data integration for transition from e-learning to smart learning framework eraser Juan José Calderón
Big data integration for transition from e-learning to smart learning framework . Dr. Prakash Kumar Udupi Mr. Puttaswamy Malali Mr. Herald Noronha Department of Computing Department of Computing Department of Computing Middle East College Middle East College Middle East College .
Educational Data Mining to Analyze Students Performance – Concept PlanIRJET Journal
This document discusses using data mining techniques to analyze student performance data from educational institutions. It proposes using clustering and classification algorithms like K-means and Naive Bayesian on data collected from sources like learning management systems and surveys. The goals are to classify students into performance levels, identify factors affecting performance, and make recommendations to help students improve. Clustering could group students and classification could predict performance based on attributes. Analyzing the data may provide insights to enhance guidance and outcomes. The paper presents this as a conceptual plan to apply data mining in education.
Online Learning Management System and Analytics using Deep LearningDr. Amarjeet Singh
The document describes a proposed online learning management system and analytics platform that utilizes various machine learning and deep learning techniques. Specifically, it discusses implementing gamification elements and augmented reality content to increase student engagement. It also explores using business intelligence and data mining of student data to perform learning analytics, such as predicting student performance and factors affecting achievement, in order to help educators optimize their teaching methods. A variety of classification algorithms like decision trees, random forests, support vector machines, and logistic regression are evaluated for their ability to model student grades based on demographic and academic attributes.
Rajat Gupta is a solutions-driven candidate seeking a creative position utilizing his technical and analytical skills. He has experience in software development using languages like Java, Python, and PHP. He has worked on projects involving data structures, algorithms, SQL, databases like Oracle and MongoDB. His experience includes internships at Amazon and IIT Delhi where he worked on production code, machine learning algorithms, and more. He is educated with a B.Tech in computer science and has additional skills in languages, databases, tools, and operating systems.
Applying K-Means Clustering Algorithm to Discover Knowledge from Insurance Da...theijes
Data mining works to extract information known in advance from the enormous quantities of data which can lead to knowledge. It provides information that helps to make good decisions. The effectiveness of data mining in access to knowledge to achieve the goal of which is the discovery of the hidden facts contained in databases and through the use of multiple technologies. Clustering is organizing data into clusters or groups such that they have high intra-cluster similarity and low inter cluster similarity. This paper deals with K-means clustering algorithm which collect a number of data based on the characteristics and attributes of this data, and process the Clustering by reducing the distances between the data center. This algorithm is applied using open source tool called WEKA, with the Insurance dataset as its input
Student’s Skills Evaluation Techniques using Data Mining.IOSRjournaljce
This document discusses techniques for evaluating students' programming skills using data mining. It proposes using association rule mining to analyze student data and accurately predict their programming abilities. The key steps involve collecting student performance data, preprocessing the data, extracting features, clustering students based on skills, generating rules for skill evaluation, and predicting student skill types based on the rules. The overall goal is to help educational institutions and companies better evaluate programming skills to improve student training and increase placement opportunities.
AI-Learning style prediction for primary educationIRJET Journal
This document presents research on developing an AI model to predict learning styles for primary school students in an online learning environment. The researchers created an AI model within an online learning portal that recommends educational materials tailored to each student's preferred learning style. They developed a novel AI strategy using collaborative filtering to enable the model to independently predict learning styles. The model was tested on Indonesian elementary school students and showed improved performance over traditional matrix factorization-based models. The researchers conclude that accounting for individual learning preferences through personalized recommendations can improve student engagement and test scores with online learning platforms.
The document describes a proposed intelligent career guidance system using machine learning. It discusses algorithms like decision trees, XGBoost and SVM that will be used to classify students into suitable career paths based on their academic performance, skills and other attributes. Feature selection techniques like chi-squared test will be applied to select important features from the dataset. The system will first collect data, pre-process it, then use machine learning algorithms and techniques to analyze the data and provide career recommendations to students. Feasibility of the system is analyzed and the basic software and hardware requirements are also outlined.
Educational Data Mining & Students Performance Prediction using SVM TechniquesIRJET Journal
This document discusses using educational data mining and support vector machine (SVM) techniques to predict student performance. It begins with an abstract stating that educational data mining focuses on analyzing educational data to improve learning and institutional effectiveness. The document then provides background on educational data mining and discusses comparing various educational data mining techniques and algorithms using the Weka tool to analyze their accuracy in predicting student performance. Key techniques discussed include SVM, machine learning programming, and various data mining algorithms. The document also reviews related work applying educational data mining and discusses implementing various data mining methods and algorithms to conduct predictive analytics on student performance data.
The document provides an overview of the computing curriculum in England, including aims, key stages, and learning objectives. At key stage 1, students will learn about algorithms, basic programming, data storage and retrieval, and online safety. At key stage 2, they will design and write programs, use logical reasoning, understand computer networks and the internet, use search engines effectively, and collect/analyze data. At key stage 3, topics include computational modeling, algorithms, programming languages, Boolean logic, computer systems, and data representation.
1. KATA PENGANTAR
Era Digitalisasi pada Industri 4.0 di Indonesia saat ini dihadapkan pada tantangan hadirnya
permintaan dan penawaran talenta digital dalam mendukung perkembangan ekosistem industri teknologi.
Tantangan tersebut perlu dihadapi salah satunya melalui kegiatan inovasi dan inisiasi dari berbagai pihak
dalam memajukan talenta digital Indonesia, baik dari pemerintah maupun mitra kerja pemerintah yang
dapat menyiapkan angkatan kerja muda sebagai talenta digital Indonesia. Kementerian Komunikasi dan
Informatika melalui Badan Penelitian dan Pengembangan Sumber Daya Manusia sejak tahun 2018-2019,
telah menginisiasi Program Digital Talent Scholarship yang telah berhasil dianugerahkan kepada 26.000
penerima pelatihan di bidang teknologi informasi dan komunikasi. Program Digital Talent Scholarship ini
ditujukan untuk memberikan pelatihan dan sertifikasi tema-tema bidang teknologi informasi dan
komunikasi, diharapkan menjadi bagian untuk memenuhi permintaan dan penawaran talenta digital
Indonesia.
Tahun ini, Program Digital Talent Scholarship menargetkan pelatihan peningkatan kompetensi bagi
60.000 peserta yang bertujuan untuk meningkatkan keterampilan dan daya saing SDM bidang teknologi
informasi dan komunikasi sebagai bagian dari program pembangunan prioritas nasional. Program pelatihan
DTS 2021 ditujukan untuk meningkatkan keterampilan, keahlian angkatan kerja muda Indonesia,
masyarakat umum dan aparatur sipil negara di bidang teknologi informasi dan komunikasi sehingga dapat
meningkatkan produktivitas dan daya saing bangsa di era Industri 4.0.
Program DTS 2021 secara garis besar dibagi menjadi Tujuh akademi, yaitu: Fresh Graduate Academy
(FGA), Program pelatihan berbasis kompetensi bersama GlobalTech yang ditujukan kepada peserta
pelatihan bagi lulusan S1 bidang TIK dan MIPA, dan terbuka bagi penyandang disabilitas; Vocational School
Graduate Academy (VSGA), Program pelatihan berbasis kompetensi nasional yang ditujukan kepada peserta
pelatihan bagi lulusan SMK dan Pendidikan Vokasi bidang TI, Telekomunikasi, Desain, dan Multimedia;
Coding Teacher Academy (CTA), Program pelatihan merupakan program pelatihan pengembangan
sumberdaya manusia yang ditujukan kepada peserta pelatihan bagi Guru setingkat SMA/SMK/MA/SMP/SD di
bidang pemrograman. Online Academy (OA), Program pelatihan OA merupakan program pelatihan Online di
bidang Teknologi Informasi yang ditujukan kepada peserta pelatihan bagi Masyarakat umum, ASN,
mahasiswa, dan pelaku industri; Thematic Academy (TA), Program pelatihan TA merupakan program
pelatihan multisektor bagi pengembangan sumberdaya manusia yang ditujukan kepada peserta pelatihan
dari jenjang dan multidisiplin yang berbeda; Regional Development Academy (RDA), Program pelatihan RDA
merupakan program pelatihan pengembangan sumberdaya manusia yang ditujukan untuk meningkatkan
kompetensi ASN di Kawasan Prioritas Pariwisata dan 122 Kabupaten Prioritas Pembangunan. Digital
Entrepreneurship Academy (DEA), Program pelatihan DEA merupakan program pelatihan pengembangan
sumberdaya manusia yang ditujukan kepada talenta digital di bidang Usaha Mikro, Kecil, dan Menengah
(UMKM).
Selamat mengikuti Pelatihan Digital Talent Scholarship, mari persiapkan diri kita menjadi talenta digital
Indonesia.
Jakarta, 24 Februari 2021
Kepala Badan Penelitian dan Pengembangan Sumber Daya Manusia
Kementerian Komunikasi dan Informatika Republik Indonesia
Dr. Hary Budiarto, M.Kom
Pendahuluan
2. Tujuan Pembelajaran
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu melakukan proses
pemodelan clustering...
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data
Scientist: Artificial Intelligence untuk Dosen dan Instruktur ini guna memfasilitasi
peserta latih sehingga pada akhir pelatihan diharapkan memiliki kemampuan sebagai
berikut:
1. Melakukan normalisasi data set dan feature extraction
2. Memahami pengertian algoritma dan flowchart
3. Melakukan pengolahan dan analisis data berbasis clustering
Latar belakang
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan dalam merancang
website. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode
untuk menilai kemampuan dan penerapan pengetahuan pendukung penting. Penilaian
dilakukan dengan mengacu kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakan di
Tempat Uji Kompetensi (TUK), ruang simulasi atau workshop dengan cara:
1.1. Lisan
1.2. Wawancara
1.3. Tes tertulis
1.4. Demonstrasi
1.5. Metode lain yang relevan.
Deskripsi Pelatihan
Materi ini berisi penjelasan mengenai pengolahan data menggunakan metode
clustering dengan meggunakan algoritma K-Means clustering
Kompetensi Dasar
A. Mampu mengoperasikan aplikasi Jupiter notebook atau Spyder
B. Mampu menormalisasi data set untuk disiapkan sebagai input machine learning
Indikator Hasil Belajar
Dapat melakukan analisis data menggunakan metode AI berbasis clustering
3. INFORMASI PELATIHAN
Akademi Thematic Academy
Mitra Pelatihan Kementerian Komunikasi dan Informatika
Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen
dan Instruktur
Sertifikasi • Certificate of Attainment;
• Sertifikat Kompetensi Associate Data Scientist
Persyaratan Sarana Peserta/spesifikasi device
Tools/media ajar yang akan digunakan
Memiliki laptop/komputer dengan spesifikasi
minimal :
• RAM minimal 2 GB (disarankan 4 GB)
• Laptop dengan 32/64-bit processor
• Laptop dengan Operating System Windows 7,
8, 10, MacOS X atau Linux
• Laptop dengan konektivitas WiFi dan memiliki
Webcam
• Akses Internet Dedicated 126 kbps per peserta
per perangkat
• Memiliki aplikasi Zoom
• Memiliki akun Google Colab
Aplikasi yang akan di gunakan selamat pelatihan • Spyder
• Jupyter notebook
Tim Penyusun Dr. Berlian Al Kindhi,S.ST.,MT.
INFORMASI PEMBELAJARAN
Unit Kompetensi Materi
pembelajaran
Kegiatan
pembelajaran
Durasi
Pelatihan
Rasio
Praktek : Teori
Sumber
pembelajaran
Mampu
menjelaskan
metode clustering
dengan benar
Modul dan Slide
Analisis
clustering
menggunakan
algoritma K-
Means
Daring/Online Live Class 2
JP
LMS 4 JP
@ 45 Menit
60:40
Materi Pokok
Metode clustering menggunakan algoritma K-Means
4. Sub Materi Pokok
• Distance method
• Clustering method dengan algoritma K-Means
• Clustering method dengan algoritma Hierachical
• Clustering method dengan algoritma DBSCAN
5. PENDAHULUAN
ML (Machine Learning) dibagi ke dalam tiga kelompok, yaitu supervised learning,
unsupervised learning, dan reinforcement learning. Teknik clustering adalah salah satu
metode machine learning yang termasuk dalam kelompok unsupervised learning. Teknik
ini melakukan pembelajaran mesin tanpa ada supervisi untuk menyelesaikan suatu
masalah. Tidak seperti pembelajaran yang diawasi (supervised learning), clustering
dianggap sebagai metode pembelajaran tanpa pengawasan karena tidak memiliki
kebenaran dasar untuk membandingkan keluaran algoritme pengelompokan dengan
label sebenarnya untuk mengevaluasi performanya. Penerapan clustering bertujuan
untuk mengeksplorasi dan menyelidiki struktur data dengan mengelompokkan titik data
ke dalam subkelompok yang berbeda.
Clustering adalah salah satu teknik analisis dan eksplorasi data yang paling sering
digunakan untuk mendapatkan pola suatu struktur data. Clustering juga dapat
dianalogikan sebagai tugas mengidentifikasi subkelompok dalam data sedemikian rupa
sehingga titik data dalam subkelompok yang sama (cluster) sangat mirip sedangkan titik
data dalam cluster yang berbeda sangat berbeda. Dengan kata lain, clustering adalah
suatu Teknik untuk kelompok data yang homogen sedemikian rupa sehingga titik data di
setiap cluster semirip mungkin menurut ukuran kesamaan seperti jarak berbasis
euclidean atau jarak berbasis korelasi. Keputusan tentang ukuran kemiripan dapat
ditentukan melalui jumlah centroid masing-masing kelompok dan jaraknya.
Analisis clustering dapat dilakukan berdasarkan fitur yang telah ditentukan untuk
menemukan subkelompok berdasarkan fitur atau berdasarkan sampel. Sebagai contoh
Ketika terdapat data mahasiswa dalam satu angkatan yang berisi nilai quiz, UTS, UAS,
serta jumlah kehadiran dari seluruh mata kuliah. Maka dengan penerapan algoritma
clustering dapat menganalisa kelompok-kelompok mahasiswa yang memiliki nilai baik,
nilai yang biasa saja, baik di semua mata kuliah atau mata kuliah tertentu, serta yang rajin
menghadiri kuliah. Hasil dari pengelompokan tersebut dapat menghasilkan analisa
sesuai dengan yang diinginkan untuk memberikan suatu dukungan keputusan.
K-Means
Algoritma Kmeans adalah salah satu algoritma clustering yang bersifat iteratif yang
mencoba untuk mempartisi dataset menjadi subkelompok non-overlapping berbeda
yang ditentukan oleh K (cluster) di mana setiap titik data hanya dimiliki oleh satu
kelompok. K-Means mencoba membuat titik data intra-cluster semirip mungkin sambil
dengan titik data yang lain pada satu cluster. K-Means menetapkan poin data ke cluster
sedemikian rupa sehingga jumlah jarak kuadrat antara titik data dan pusat massa cluster
(rata-rata aritmatika dari semua titik data yang termasuk dalam cluster itu) minimal.
Semakin sedikit variasi yang kita miliki dalam cluster, semakin homogen (serupa) titik
data dalam cluster yang sama.
6. Langkah-langkah penyelesaian algoritma K-Means
Cara kerja algoritma k-means adalah sebagai berikut:
1. Memilih jumlah cluster awal (K) yang ingin dibuat.
Sebagai contoh terdapat dataset 2-dimensi seperti yang tampak pada Gambar 1
yang ditampilkan dalam grafik, langkah pertama adalah memilih jumlah kluster.
Misal kita pilih untuk membaginya ke dalam 2 kluster.
Gambar 1. Grafik klaster dua dimensi
2. Memilih titik secara random sebanyak K buah, di mana titik ini akan menjadi pusat
(centroid) dari masing-masing kelompok (clusters).
Langkah kedua adalah menentukan titik pusatnya. Dalam satu klaster terdapat
satu titik pusat atau yang disebut dengan centroid. Penentuan awal posisi titik
pusat ini bebas, karena nantinya algoritma K-Means akan merubah posisi tiap titik
hingga dicapai solusi paling optimal. Pada Gambar 2, titik merah mewakili pusat
dari kluster 1, dan biru untuk kluster 2. Dengan demikian, maka masing-masing
data point akan memilih titik pusat (centroid) yang paling dekat. Jika sudah dipilih
maka data point tersebut akan menjadi bagian dari klusternya.
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8
7. Gambar 2. Klaster dengan dua titik pusat
3. Dari dataset yang kita miliki, buat dataset yang terdekat dengan
titik centroid sebagai bagian dari cluster tersebut. Sehingga secara total akan
terbentuk clusters sebanyak K buah.
Berdasarkan pengelompokan pada langkah ke dua, maka setiap titik data saat
telah tergabung dalam salah satu kluster. Titik data yang diwakili dengan symbol
‘x’ berwarna merah masuk ke kluster 1, dan symbol ‘x’ berwarna biru masuk ke
kluster 2, seperti pada Gambar 3.
Gambar 3. Pengelompokan titik data pada dua klaster
4. Lakukan kalkulasi, dan tempatkan pusat centroid yang baru untuk setiap cluster-
nya. Langkah ini bisa disebut juga dengan istilah penyempurnaan centroid.
Langkah ke-empat adalah melakukan penghitungan sesuai algoritma K-Means,
yaitu mencari posisi titik pusat yang paling sesuai untuk sestiap klasternya
berdasarkan penghitungan jarak terdekat. Penghitungan jarak masing-masing
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8
B
A
8. titik data ke pusat klaster dapat menggunakan metode Euclidean distance,
ilustrasi penghitungan jarak dapat dilihat pada Gambar 4.
Gambar 4. Pencarian titik pusat baru
5. Dari dataset yang kita miliki ambil titik centroid terdekat, sehingga dataset tadi
menjadi bagian dari cluster tersebut. Jika masih ada data yang berubah kelompok
(pindah cluster), kembali ke langkah 4. Jika tidak, maka cluster yang terbentuk
sudah baik.
Langkah terakhir dari algoritma K-Means adalah melakukan pengecekan pada
titik pusat yang telah ditentukan sebelumnya. Pilih titik pusat terdekat, dan masuk
ke dalam kluster tersebut. Jika masih ada perpindahan kluster, kembali ke langkah
4. Algoritma K-Means akan terus mencari titik pusatnya, sampai pembagian
datasetnya optimum dan posisi titik pusat tidak berubah lagi.
Optimasi metode K-Means
Dari pembahasan di atas, dapat dianalisa bahwa salah satu faktor krusial baik tidaknya
metode ini adalah saat menentukan jumlah klusternya (nilai K). Karena hasil
pengemlompokan akan menghasilkan analisa yang berbeda untuk jumlah klaster yang
berbeda juga.
Jika terlalu sedikit K (misal 2), maka pembagian kluster menjadi cepat, namun mungkin
ada informasi tersembunyi yang tidak terungkap.
Jika K=3, maka ada informasi tambahan 1 kluster. Yang mungkin, akan memberi kita
informasi, apa arti dari kluster ketiga ini.
Jika K=10, maka terlalu banyak kluster. Mungkin akan terlalu sulit memilih strategi yang
tepat (strategi marketing misalnya) untuk masing-masing klusternya.
Untuk mengatasi ini, maka dapat ditambahkan fungsi optimasi yang akan memilih jumlah
awal kluster secara tepat. kita gunakan di sesi latihan dan sebuah metode elbow yang
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8
9. akan membantu kita untuk memilih nilai K yang tepat dengan menggunakan metricWCSS
(Within Cluster Sum of Squares), contoh penghitungan untuk dua klaster:
𝑤𝑐𝑠𝑠 = ∑ 𝑗𝑎𝑟𝑎𝑘 (𝑃𝑖, 𝐶1)2
+ ∑ 𝑗𝑎𝑟𝑎𝑘 (𝑃𝑖, 𝐶2)2
𝑃𝑖 𝑖𝑛 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2
𝑃𝑖 𝑖𝑛 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1
Pada metric di atas dapat diamati bahwa WCSS sebagai variabel dependennya. Kemudian
ada simbol Sigma (seperti E), yang menyatakan jumlah kuadrat dari jarak tiap titik Pi
yang ada pada kluster 1. Sum of Squares (jumlah kuadrat) adalah menjumlahkan hasil
kuadrat dari masing-masing jarak. Selanjutnya hasil penjumlahan kluster 1 ditambah
dengan hasil kudrat jarak untuk tiap data poin terhadap titik pusat kluster dua, dan
seterusnya sesuai jumlah kluster yang kita inginkan.
Untuk mengetahui jumlah klaster yang paling baik untuk studi kasusyang diuji coba
adalah dengan cara melihat perbandingan WCSS untuk 2 kluster, 3 kluster, 4 dan
seterusnya. Yang kita pilih adalah ketika perubahan nilai WCSS nya sangat signifikan,
seperti sebuah siku (elbow). Oleh karena itu cara pemilihan ini disebut
dengan elbow method.
Contoh perhitungan WCSS dapat dilihat pada grafik berikut:
Gambar 5. Contoh diagram hasil penghitungan menggunakan matriks WCSS
Grafik perhitungan WCSS untuk sebuah contoh dataset. Semakin kecil skor WCSS,
semakin baik. Sumbu x adalah jumlah kluster, sumbu y adalah skor WCSS. Bisa dilihat
bahwa saat K=1, nilai WCSS sangat tinggi. Kemudian menurun terus sampai K=5 terlihat
membentuk seperti sebuah siku. Mulai K=6 sampai K=10 penurunan skor WCSS sudah
10. tidak signifikan. Dengan demikian, dapat diketahui bahwa jumlah kluster yang tepat
untuk grafik di atas adalah 5.
Studi Kasus Metode K-Means
Pada studi kasus ini, kita akan mengaplikasikan metode K-Means ini untuk sebuah
permasalahan nyata. Misalnya, seorang data scientist diminta untuk menganalisis data
pelanggan toko. Data tersebut adalah data member atau pelanggan dimana hasil yang
diinginkan sebuah analisa kecenderungan pembelian dari suatu kelompok pelanggan
sehingga dapat memperkuat hubungan mereka terhadap konsumen. Misal untuk
penguatan marketing, strategi penawaran yang tepat, barang-barang apa saja yang cocok
bagi mereka, dll.
Coding dalam Python:
# Mengimpor library
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Mengimpor dataset
dataset = pd.read_csv('customer.csv')
X = dataset.iloc[:, [4, 5]].values
# Optimasi K-Means dengan metode elbow untuk menentukan jumlah klaster yang
tepat
from sklearn.cluster import KMeans
wcss = []
for i in range(1, 11):
kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
kmeans.fit(X)
wcss.append(kmeans.inertia_)
plt.plot(range(1, 11), wcss)
plt.title('Elbow Method')
plt.xlabel('Cluster Number')
plt.ylabel('WCSS')
plt.show()
# Proses K-Means Clustering
kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42)
y_kmeans = kmeans.fit_predict(X)
plt.show()
11. Penjelasan dari coding:
• Baris 2 sampai 4 mengimpor library yang dibutuhkan
• Baris 7, mengimpor dataset dan membacanya
• Baris 8, melakukan slicing, dari dataset yang dimiliki.
• Baris 11, mengimpor library K-Means.
• Baris 12, membuat list WCSS (mempersiapkan perhitungan WCSS).
• Baris 13 adalah perintah looping, pada studi kasus ini dapat diamati bahwa
looping yang dilakukan adalah sebanyak 10 kali. Pada coding dapat diamati ditulis
dengan range(1,11), hal ini dikarenakan pada python looping terakhir dianggap
hasil terakhir sehingga harus melebihkan satu dari jumlah looping yang
diinginkan, Misalnya jika ingin iterasi sebanyak 100 maka dapat ditulis dengan
(1,100).
• Baris 14 baris ini berfungsi untuk menuliskan objek kmeans pada algoritma K-
Means. Selanjutnya perintah pertama adalah KMeans (kapital K dan M), yang
merupakan class dari library K-Means yang diimpor di line 11, dengan beberapa
parameter n_clusters yang merupakan jumlah kluster, diikuti dengan parameter
kedua init yang merupakan pemilihan jumlah K di awal (kali ini kita gunakan K++.
Kemudian parameter yang terakhir adalah random_state = 42. Random state ini
seperti seed pada R, yang jika dipilih 42, maka ketika kita memilih 42 di
kesempatan yang berbeda, maka bilangan random yang dihasilkan akan sama.
• Baris 15 merupakan perintah agar objek kmeans di line 14, digunakan untuk
mengolah data X yang sudah kita definisikan di line 8.
# Visualisasi hasil clusters
plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 100, c = 'blue',
label = 'Cluster 1')
plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 100, c = 'red',
label = 'Cluster 2')
plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 100, c = 'magenta',
label = 'Cluster 3')
plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 100, c = 'cyan',
label = 'Cluster 4')
plt.scatter(X[y_kmeans == 4, 0], X[y_kmeans == 4, 1], s = 100, c = 'green',
label = 'Cluster 5')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s =
300, c = 'yellow', label = 'Centroids')
plt.title('Consumers Cluster')
plt.xlabel('Yearly Salary')
plt.ylabel('Yearly expense rating (1-100)')
plt.legend()
12. • Baris 16 merupakan perintah untuk menghitung WCSS dengan menuliskan
perintah append setelah wcss. Append merupakan method di python untuk
menambahkan objek. Algoritma wcss dituliskan dengan perintah kmeans.inertia_
(dengan underscore).
• Baris 17 merupakan perintah untuk menampilkan plot. Sumbu x pada plot adalah
jumlah kluster dari 1-10, maka ditulis range(1,11). Sumbu y nya adalah skor wcss
yang dihitung di line 16.
• Baris 18-20 adalah perintah plot untuk estetika, seperti nama sumbu x, sumbu y
dll.
• Baris 21 adalah perintah menampilkan plotnya.
• Baris 25 adalah melakukan prediksi seperti apa pengelompokan klusternya jika
kita pilih K=5. Kita siapkan objek y_kmeans (tentu saja pemilihan nama ini bebas)
dengan method bukan fit melainkan fit_predict terhadap variabel X yang sudah
didefinisikan di line 8.
Hasil pengelompokan data menggunakan metode K-Means yang dioptimasi dengan
metrics WCSS:
Gambar 6. Hasil penghitungan metode Elbow menggunakan metric WCSS
13. Pada Gambar 5., dapat diamati bahwa garis grafik yang berbentuk siku terdapat pada
klaster 3 dan 5, maka dapat disimpulkan bahwa pembagian klaster sebanyak 3 atau 5
adalah jumlah yang paling optimum.
Gambar 7. Hasil clustering menggunakan metode K-Means dengan 3 K
Gambar 8. Hasil clustering menggunakan metode K-Means dengan 5 K
14. Pada Gambar 6 dan 7 dapat diamati hasil pengelompokan data set yang terbagi dalam 3
dan 5 klaster. Hasil dari pengelompokan tersebut dapat digunakan sebagai dukungan
keputusan untuk menentukan startegi yang dituju oleh pemilik toko terhadap
pelanggannya.
Hierarchical Clustering
Pengelompokan hierarki adalah teknik clustering dengan memisahkan data ke dalam
kelompok berdasarkan beberapa ukuran kesamaan, menemukan cara untuk mengukur
bagaimana mereka sama dan berbeda, dan selanjutnya mempersempit data. Untuk dapat
lebih memahami metode hirarkikal clustering, analogi proses pengelompokan hirarkikal
dapat diamati pada Gambar 9.
Gambar 9. Pengelompokan data menggunakan metode Hierarchical Clustering
Pada Gambar 9 dapat dijelaskan bahwa pada awal proses clustering terdapat empat
mobil yang dapat masukkan ke dalam dua kelompok jenis mobil: sedan dan SUV.
Selanjutnya, HC akan menggabungkan sedan dan SUV. Untuk langkah terakhir, yaitu
mengelompokkan semuanya ke dalam satu cluster dan selesai ketika kita hanya memiliki
satu cluster.
15. Jenis metode Hierachical Clustering
Metode hierarchical clustering dibagi menjadi dua yaitu:
1. Divisive
Pengelompokan divisif dikenal sebagai pendekatan top-down, yaitu mengambil
cluster besar dan mulai membaginya menjadi dua, tiga, empat, atau lebih cluster
2. Aglomerative
Pengelompokan aglomeratif dikenal sebagai pendekatan bottom-up, yaitu
pengelompokan dimulai dari cluster kecil menuju satu cluster besar.
Gambar 10. Jenis metode hierarchical clustering
Pada Gambar 10 dapat diamati bahwa metode agglomerative melakukan
pengelompokkan dari cluster terkecil hingga terbentuk satu cluster besar, sebaliknya
metode divisive melakukan clustering dengan cara membagi sebuah cluster besar hingga
setiap node di dalam cluster tersebut mewakili satu cluster itu sendiri.
Langkah-langkah metode hierarchical clustering dengan agglomerative:
1. Buat setiap data poin dalam dataset menjadi sebuah cluster, sehi8ngga untuk N
data kita memiliki N cluster. Misalnya jika jumlah row data adalah 500 maka akan
terdapat 500 cluster.
2. Cari dua poin/2 cluster yang saling berdekatan untuk digabung menjadi satu
cluster sehingga jumlah cluster menjadi lebih kecil.
Agglomerative Divisive
16. 3. Cari 2 cluster lagi yang berdekatan dengan yang lain (termasuk dengan kluster
yang baru saja dibuat di langkah 2 jika memang cluster tersebut memiliki jarak
terdekat dengan kluster lain), dan jadikan dua cluster terdekat ini menjadi 1
kluster. Dengan demikian, sekarang kita memiliki N-2 kluster.
4. Langkah ketiga akan diulang terus hingga mendapatkan satu buah cluster besar.
Ilustrasi dari langkah-langkah aglomerative:
1. Misalnya terdapat enam data poin. Pada langkah pertama sudah jelas bawah N
data= N cluster. Kita akan mendefinisikan jarak antara 2 kluster sebagai jarak
euclidean terdekatnya. Ilustrasinya sebagai berikut:
Gambar 11. Menggabungkan dua titik terdekat
2. Langkah kedua adalah proses menggabungkan dua cluster menjadi satu dan dapat
masih dilanjutkan jika masih terdapat titik yang terdekat lagi yang memungkinkan
untuk digabungkan lagi.
Gambar 12. Mencari titik terdekat berikutnya untuk digabungkan menjadi cluster
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
17. 3. Selanjutnya, seperti langkah sebelumnya, kita cari dua cluster terdekat lagi untuk
digabungkan. Cluster yang digabungkan boleh cluster yang berupa satu titik pada
langkah pertama atau cluster yang merupakan gabungan dari dua titik/cluster
Gambar 13. Menggabungkan X6 ke dalam cluster X4 dan X5
4. Menggabungkan lagi dua cluster yang terdekat menjadi satu cluster. Jumlah titik
dalam cluster tidak harus ditentukan sama, dapat saja cluster yang satu jumlah
titiknya lebih banyak dibandingkan cluster yang lain.
Gambar 14. Menggabungkan X1 ke dalam cluster X2 dan X3
5. Proses akan berakhir ketika semua cluster telah tergabung menjadi satu cluster
besar.
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
18. Gambar 15. Menggabungkan seluruh cluster menjadi satu cluster besar
Optimasi Hierachical Clustering
Pada clustering K-Means yang kita pelajari sebelumnya, untuk mengetahui jumlah cluster
yang tepat kita dapat menggunakan metode Elbow, pada hierarchical clustering kita
dapat menggunakan Dendogram. Dendrogram adalah sebuah grafik (diagram) yang
menunjukkan proses penggabungan kluster. Di sumbu x dari sebuah dendrogram kita
memiliki data kluster, sementara di sumbu y adalah jarak euclideannya.
Ilustrasi dari penentuan dendogram adalah sebagai berikut:
1. Sama seperti pada contoh hierarchical clustering sebelumnya, terdapat enam titik
dalam satu diagram. Grafik yang atas adalah grafik awal dan yang bawah adalah
grafik dendogram.
Gambar 16. Transformasi dari grafik dua dimensi ke dendogram diagram
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
19. 2. Seperti ilustrasi pada hierarchical clustering, langkah pertama adalah menentukan
dua titik terdekat kemudian menerjemahkannya ke dalam diagram dendogram.
Gambar 17. Transformasi cluster X2X3 ke dalam dendogram diagram
3. Mencari lagi dua cluster yang berdekatan untuk digabungkan menjadi satu cluster
lagi. Tinggi diagram Dendogram berbeda-beda sesuai dengan hasil penghitungan
Euclidean Distancenya.
Gambar 18. Dua cluster ditransformasi ke dendogram diagram
4. Proses pada langkah ketiga diulang lagi dengan mencari dua cluster yang terdekat.
Jika dua cluster yang digabungkan sebelumnya adalah cluster antara dua titik maka
cara menerjemahkan dalam dendogram dapat diamati pada Gambar 19.
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
20. Gambar 19. Menggabungkan dendogram 6 ke dalam dendogram 4-5
5. Mengulang proses dengan menggabungkan cluster yang sudah ada, Pada gambar
disamping tampak bahwa dua cluster terakhir merupakan gabungan dari cluster
(dua titik yang menjadi satu cluster) pada proses awal.
Gambar 20. Menggabungkan X1 ke dalam cluster X2X3
6. Proses akan berhenti setelah semua cluster telah tergabung menjadi satu cluster
besar seperti pada Gambar 21.
Gambar 21. Menggabungkan seluruh dendogram menjadi satu dendogram
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
X6
X5
X4
X2
X1
X3
2
2,5
3
3,5
4
4,5
1,5 2,5 3,5 4,5
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
21. 7. Untuk menentukan berapa jumlah cluster yang paling sesuai pada dats set yang
diujikan dapat dianalisa melalui dendogram. Yaitu dengan menentukan garis grafik
dendogram yang paling panjang yang tidak terkena potongan atau bisa juga dengan
menentukan nilai threshold, seperti pada
Gambar 22. Menentukan jumlah cluster
Studi Kasus Hierachical Clustering
Pada studi kasus ini, kita akan mengaplikasikan metode Hierarchical Clustering ini untuk
sebuah permasalahan nyata. Misalnya, seorang data scientist diminta untuk menganalisis
data pelanggan toko. Data tersebut adalah data member atau pelanggan dimana hasil
yang diinginkan sebuah analisa kecenderungan pembelian dari suatu kelompok
pelanggan sehingga dapat memperkuat hubungan mereka terhadap konsumen. Misal
untuk penguatan marketing, strategi penawaran yang tepat, barang-barang apa saja yang
cocok bagi mereka, dll.
Penyelesaian:
Coding dalam Bahasa pemrograman Python:
0
0,5
1
1,5
2
2,5
3
0 1 2 3 4 5 6
threshold
# Mengimpor library
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Mengimpor dataset
dataset = pd.read_csv(‘Customer.csv')
X = dataset.iloc[:, [3, 4]].values
22. Penjelasan coding
• Baris 2 sampai 4 mengimpor library yang dibutuhkan.
• Baris 7 mengimpor dataset yang digunakan.
• Baris 8 melakukan slicing yaitu memilih komlom mana yang akan digunakan
sebagai data input.
• Baris 11 mengimpor library scipy.cluster.hierarchy untuk membuat dendrogram
diagram.
• Baris 12 mendefinisikan variabel dendrogam untuk membuat dendrogram.
Paramater yang digunakan adalah linkage. Linkage adalah algoritma python yang
ada di hierarchical clustering.
• Baris 13-16 adalah instruksi untuk menampilkan grafik dapat diamati bahwa
grafik di setting dengan warna berbeda untuk membangkitkan dendogram
diagram. Setelah program dijalankan dan diketahui jumlah K yang tepat melalui
# Menggunakan dendrogram untuk menentukan angka cluster yang tepat
import scipy.cluster.hierarchy as sch
dendrogram = sch.dendrogram(sch.linkage(X, method = 'ward'))
plt.title('Dendrogram')
plt.xlabel('Consumer')
plt.ylabel('Euclidean Distance')
plt.show()
# Menjalankan Hierarchical Clustering ke dataset
from sklearn.cluster import AgglomerativeClustering
hc = AgglomerativeClustering(n_clusters = 3, affinity = 'euclidean',
linkage = 'ward')
y_hc = hc.fit_predict(X)
# Visualisasi hasil clusters
plt.scatter(X[y_hc == 0, 0], X[y_hc == 0, 1], s = 100, c = 'red', label
= 'Cluster 1')
plt.scatter(X[y_hc == 1, 0], X[y_hc == 1, 1], s = 100, c = 'blue', label
= 'Cluster 2')
plt.scatter(X[y_hc == 2, 0], X[y_hc == 2, 1], s = 100, c = 'green',
label = 'Cluster 3')
plt.scatter(X[y_hc == 3, 0], X[y_hc == 3, 1], s = 100, c = 'cyan', label
= 'Cluster 4')
plt.scatter(X[y_hc == 4, 0], X[y_hc == 4, 1], s = 100, c = 'magenta',
label = 'Cluster 5')
plt.title('Consumers Cluster')
plt.xlabel('Yearly Salary')
plt.ylabel('Yearly expense rating (1-100)')
plt.legend()
plt.show()
23. dendogram diagram, langkah selanjutnya adalah melakukan pengolahan
Hierachical Clustering sesuai dengan jumlah K yang telah diamati.
• Baris 19 adalah perintah untuk mengimpor library AgglomerativeClustering dari
sklearn.cluster.
• Baris 20 mendefinisikan variabel untuk membuta model HIerachical Clustering.
Untuk parameter pengolahan HIerachical Clustering digunakan N=5 (jumlah K)
kemudian pengukuran jarak menggunakan Euclidean Distance dan Metode Ward.
• Baris 24-33 adalah perintah untuk menampilkan hasil clustering. Setiap kelompok
didefinisikan dengan warna berbeda agar lebih mudah dianalisa.
Gambar 23. Analisa dendogram diagram untuk menentukan jumlah K
Pada baris coding 13 hingga 16 telah dijelaskan bahwa coding tersebut adalah instruksi
untuk memunculkan dendogram diagram. Pada grafik dendogram Gambar 23 dapat
diamati bahwa jumlah cluster yang paling sesuai adalah 5 dihitung melalui jumlah garis
vertical yang terpotong dari nilai threshold yang telah ditentukan.
Garis potong
24. Gambar 24. Hasil pengolahan HIerachical Clustering
Pada gambar Gambar 24 dapat diamati bahwa hasil clustering menggunakan metode
hierarchical clustering yang paling sesuai adalah menggunakan K=5. Semua titik dapat
tergabung pada cluster dengan baik dan hasil clustering hampir sama hasilnya dengan
metode K-Means yang telah diuji coba sebelumnya.
DBSCAN
Pada materi sebelumnya telah dijelaskan teknik clustering berbasis partisi dan
hirarki, kedua Teknik ini efisien jika dataset berbentuk normal. Namun ketika data
cluster berbentuk arbiter atau ingin mendeteksi cluster out lier, maka DBSCAN
merupakan Teknik cluster yang sesuai. Density-Based Spatial Clustering of Applications
with Noise (DBSCAN) adalah algoritma dasar untuk pengelompokan berbasis density.
Algoritma ini dapat menemukan cluster dengan berbagai bentuk dan ukuran dari
sejumlah besar data, yang mengandung noise dan outlier. Pada Gambar 25 dapat diamati
perbedaan hasil clustering menggunakan metode DBSCAN dan K-Means pada data
density.
25. Gambar 25. Perbedaan clustering menggunakan DBSCAN dan K-Means
Parameter dan Konsep pada metode DBSCAN
Algoritma DBSCAN menggunakan dua parameter yaitu:
1. minPts: Jumlah minimum titik (ambang batas) yang dikelompokkan bersama
agar suatu wilayah dianggap density.
2. eps (ε): Ukuran jarak yang akan digunakan untuk menemukan titik-titik di
sekitar titik mana pun.
Kedua parameter ini dapat diterapkan dengan baik dengan menggunakan dua konsep
yaitu Density Reachability dan Density Connectivity.
1. Reachability pada konsep ini, digunakan untuk menentukan kepadatan dialukan
dengan menetapkan suatu titik yang dapat dijangkau dari yang lain jika terletak
dalam jarak tertentu (eps) darinya.
2. Connectivity, konsep ini melakukan pendekatan chaining berbasis transitivitas
untuk menentukan apakah titik terletak di cluster tertentu. Misalnya, titik p dan q
dapat dihubungkan jika p->r->s->t->q, di mana x->y berarti x berada di sekitar
(neighborhood) y.
Langkah-langkah algortima DBSCAN:
1. Algoritma dimulai dengan mengambil titik dalam kumpulan data secara random
(sampai semua titik telah dikunjungi).
2. Jika setidaknya ada titik 'minPoint' dalam radius '' ke titik tersebut, maka dapat
dianggap semua titik ini sebagai bagian dari cluster yang sama.
3. Cluster kemudian diperluas dengan mengulangi perhitungan lingkungan secara
rekursif untuk setiap titik tetangga
4. Terdapat tiga jenis titik setelah pengelompokan DBSCAN selesai:
Image source: https://github.com/NSHipster/DBSCAN
26. Gambar 26. Ilustrasi hasil pengelompokan menggunakan DBSCAN
Pada Gambar 26 dapat dijelaskan bahwa:
1. Core adalah titik yang memiliki setidaknya m titik dalam jarak n dari dirinya
sendiri.
2. Border adalah titik yang memiliki setidaknya satu titik Inti pada jarak n.
3. Noise adalah titik yang bukan Core atau Border dan titik tersebut memiliki kurang
dari m titik dalam jarak n dari dirinya sendiri.
Studi kasus DBSCAN
Kasus 1.
Penerapan DBSCAN pada cluster spherical data.
1. Generate data set pelatihan sebanyak 750 titik data pelatihan bola dengan label
yang sesuai
2. Melakukan normalisasi fitur pada proses pelatihan data,
3. menggunakan DBSCAN dari library sklearn.
Penyelesaian:
27. Coding:
#mengimpor library
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScaler
# Generate sample data
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples=750, centers=centers, cluster_std=0.4,
random_state=0)
X = StandardScaler().fit_transform(X)
# Menghitung DBSCAN
db = DBSCAN(eps=0.3, min_samples=10).fit(X)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_
# jumlah cluster pada labels, ignoring noise if present.
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)
print('Estimated number of clusters: %d' % n_clusters_)
print('Estimated number of noise points: %d' % n_noise_)
print("Homogeneity: %0.3f" % metrics.homogeneity_score(labels_true, labels))
print("Completeness: %0.3f" % metrics.completeness_score(labels_true, labels))
print("V-measure: %0.3f" % metrics.v_measure_score(labels_true, labels))
print("Adjusted Rand Index: %0.3f"
% metrics.adjusted_rand_score(labels_true, labels))
print("Adjusted Mutual Information: %0.3f"
% metrics.adjusted_mutual_info_score(labels_true, labels))
print("Silhouette Coefficient: %0.3f"
% metrics.silhouette_score(X, labels))
# Hasil Plot
import matplotlib.pyplot as plt
# Black removed and is used for noise instead.
unique_labels = set(labels)
colors = [plt.cm.Spectral(each)
for each in np.linspace(0, 1, len(unique_labels))]
for k, col in zip(unique_labels, colors):
if k == -1:
# Black used for noise.
col = [0, 0, 0, 1]
class_member_mask = (labels == k)
xy = X[class_member_mask & core_samples_mask]
plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
markeredgecolor='k', markersize=14)
xy = X[class_member_mask & ~core_samples_mask]
plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
markeredgecolor='k', markersize=6)
plt.title('Estimated number of clusters: %d' % n_clusters_)
plt.show()
28. Hasil running:
Gambar 27. Hasil pengelompokan data spherical menggunakan metode DBSCAN
Kasus 2.
Penerapan DBSCAN pada cluster non-spherical data.
1. Generate data set pelatihan sebanyak 750 titik data pelatihan bola dengan label
yang sesuai
2. Melakukan normalisasi fitur pada proses pelatihan data,
3. menggunakan DBSCAN dari library sklearn.
Penyelesaian:
Coding :
Estimated number of clusters: 3
Estimated number of noise points: 18
Homogeneity: 0.953
Completeness: 0.883
V-measure: 0.917
Adjusted Rand Index: 0.952
Adjusted Mutual Information: 0.916
Silhouette Coefficient: 0.626
#Penerapan DBSCAN pada cluster non-spherical data.
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.datasets import make_circles
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
29. Hasil running:
Number of clusters: 2
Homogeneity: 1.0000000000000007
Completeness: 0.9372565941867823
V-measure: 0.917
Adjusted Rand Index: 0.952
Adjusted Mutual Information: 0.916
Silhouette Coefficient: -0.061
Gambar 28. Hasil pengelompokan pada non-spherical data menggunakan
DBSCAN
Dapat diamati pada Gambar 27 dan Gambar 28, hasil pengelompokan menggunakan
metode DBSCAN dapat memisahkan data dengan baik pada kasus spherical dan non-
spherical data. Hasil pengelompokan tersebut akan berbeda jika menggunakan metode
#mengenerate data set
X, y = make_circles(n_samples=750, factor=0.3, noise=0.1)
X = StandardScaler().fit_transform(X)
y_pred = DBSCAN(eps=0.3, min_samples=10).fit_predict(X)
plt.scatter(X[:,0], X[:,1], c=y_pred)
#mencetak hasil pengelompokan
print('Number of clusters: {}'.format(len(set(y_pred[np.where(y_pred != -
1)]))))
print('Homogeneity: {}'.format(metrics.homogeneity_score(y, y_pred)))
print('Completeness: {}'.format(metrics.completeness_score(y, y_pred)))
print("V-measure: %0.3f" % metrics.v_measure_score(labels_true, labels))
print("Adjusted Rand Index: %0.3f"
% metrics.adjusted_rand_score(labels_true, labels))
print("Adjusted Mutual Information: %0.3f"
% metrics.adjusted_mutual_info_score(labels_true, labels))
print("Silhouette Coefficient: %0.3f"
% metrics.silhouette_score(X, labels))
30. K-Means dikarenakan K-Means memasukkan titik ke dalam clusternya berdasarkan
tingkat kedekatannya bukan berdasarkan tingkat density-nya.
31. Tugas Dan Proyek Pelatihan
1. Sebuah department store ingin menganalisa kelompok perilaku belanja dari pelanggannya, dengan
data set yang diberikan buatlah analisa:
a. gunakan kolom ke 2 hingga 4 sebagai input features
b. dengan metode elbow, analisa jumlah cluster yang tepat
c. gunakan K-Means clustering dan analisa hasilnya
2. Sebuah department store ingin menganalisa kelompok perilaku belanja dari pelanggannya, dengan
data set yang diberikan buatlah analisa:
a. gunakan kolom ke 2 hingga 4 sebagai input features
b. dengan dendogram diagram, analisa jumlah cluster yang tepat
c. gunakan Hierachical clustering dan analisa hasilnya
d. bandingkan hasilnya dengan menggunakan metode K-Means
3. Generate data set sebanyak 500 titik data pelatihan bola dengan label yang sesuai
a. lakukan normalisasi fitur pada proses pelatihan data,
b. gunakan DBSCAN dari library sklearn
c. buatlah untuk kasus spherical dan non-spherical data
d. Pada kasus non-spherical data, uji coba dengan metode K-Means dan bandingkan hasilnya
Link Referensi Modul Tiga Belas
1. Video Pembelajaran
2. E-book
3. Link Youtube/Website rujukan
Link Pertanyaan Modul Tiga Belas
Bahan Tayang
Power Point
Link room Pelatihan dan Jadwal live sesi bersama instruktur