Implementasi Machine Learning menggunakan Google Collab

PARKINSONS
DISEASES ANALYSIS
Implementasi Machine Learning pada Tableau
Bussines Intellegence #12
Hasti Wahyu Cahyaningrum

04 Clustering Metrics
TABLE OF CONTENTS
01
Apa itu Machine
Learning ?
Classification Metrics
02 Tentang Dataset
03
05 Kesimpulan

Machine learning (ML) adalah salah satu cabang dari artificial intelligence,
AI yang memungkinkan sistem komputer untuk belajar dari data dan
membuat keputusan atau prediksi tanpa diprogram secara eksplisit.
Apa itu Machine Learning?
Integrasi Machine Learning dalam Business
Intelligence memberikan banyak manfaat untuk
bergerak lebih cepat dalam membuat keputusan
berbasis data. Dengan kemampuannya untuk
memprediksi tren, mendeteksi anomali,
melakukan segmentasi pelanggan, dan
memberikan rekomendasi yang lebih akurat,
machine learning membawa BI ke tingkat yang
lebih tinggi, menjadikannya alat yang sangat
berharga dalam strategi bisnis modern.

Tentang Dataset
Dataset ini terdiri dari berbagai ukuran suara biomedis dari 31 orang, 23 di
antaranya dengan penyakit Parkinson (PD). Setiap kolom dalam tabel merupakan
ukuran suara tertentu, dan setiap baris mewakili salah satu dari 195 rekaman
suara dari individu-individu ini (kolom "name"). Tujuan utama dari data ini adalah
untuk membedakan orang sehat dari mereka yang memiliki PD, sesuai dengan
kolom "status" yang diset ke 0 untuk sehat dan 1 untuk PD.

Tentang Dataset & Tools
*klik untuk melihat link dataset dan alur pemograman dengan menggunakan collab

Evaluation Model : Metode Classification
mengambil (fetch) dataset dari UCI Machine Learning Repository secara otomatis ke dalam
program Python.
digunakan untuk mengambil dataset dengan ID 174 dari UCI ML Repository. ID 174 merujuk
pada parkinsons dataset.
X : sebagai features
y : sebagai target

Pada tahap ini x.head()
merupakan variabel input
yang digunakan untuk
memprediksi target dan
y.head() variabel yang
ingin diprediksi oleh
model.

Secara keseluruhan, kode di atas merupakan implementasi dari model Random Forest
untuk melakukan klasifikasi pada dataset Parkinson. Model ini dilatih dengan data fitur
(x_train) dan target (y_train), yang dapat digunakan untuk memprediksi target pada data
pengujian (x_test), yang dapat digunakan untuk mengevaluasi kinerjanya.

Menggunakan fitur preprocessing otomatis PyCaret, termasuk menginput nilai
yang hilang, mentransformasi tiap variabel numerik dan encoding variabel
kategorikal

Modeling
Fungsi compare_models()
dalam PyCaret digunakan untuk
membandingkan beberapa
model secara otomatis dan
memilih model terbaik
berdasarkan beberapa metrik
evaluasi, seperti akurasi, F1-
score, AUC, dan lainnya.

Modeling
melakukan tuning pada model yang sudah ada menggunakan fungsi tune_model dari PyCaret. Namun, variabel best
yang digunakan dalam kode tersebut belum didefinisikan, sehingga kode tersebut tidak bisa dijalankan langsung.
tune_model(lightgbm, optimize='F1'): Fungsi ini akan melakukan tuning pada model LightGBM yang telah dibuat untuk
mengoptimalkan nilai F1-score.

Modeling
Silhouette Score adalah metrik yang berguna untuk mengevaluasi kualitas klastering.
Dengan menggunakan Silhouette Score, pada model dapat menilai seberapa baik hasil klastering yang dilakukan dan bahkan
memilih jumlah klaster. Pada model untuk Silhouette Score = 0.5, itu menunjukkan bahwa kualitas klastering yang dilakukan
oleh model kamu cukup baik. Nilai 0.5 menunjukkan pemisahan yang cukup baik, tetapi mungkin ada ruang untuk
memperbaiki pemisahan antar klaster atau memperbaiki penempatan sampel di dalam klaster.

KESIMPULAN
Random Forest Classifier
Memiliki akurasi model sebesar 94.87 yang menunjukan bahwa model
berhasil memprediksi 94.87 % dari total data yang diuji.
Interpretasi Hasil:
● Akurasi sebesar 94.87% menunjukkan bahwa model Random Forest
sangat baik dalam memprediksi status penyakit Parkinson pada data
pengujian.
● Yang berarti model hanya mengalami kesalahan prediksi sekitar 5.13%
dari total data yang diuji.

KESIMPULAN
Classification PyCaret
Interpretasi Hasil:
● Model dengan performa terbaik ditunjukan dari Light Gradient Boosting
Machine secara keseluruhan dengan nilai tertinggi dalam metrik
accuracy, AUC, Recall, Prec, F1, Kappa dan RCC yang menunjukan model
ini paling efektif dalam melakukan classification data dan memiliki
keseimbangan yang baik antara presisi dan sensitivitas
● Pada model untuk AUC terbaik ditunjukan juga dengan nilai dari
Xgboost dan catboost
Clustering dengan Silhouette Score
Interpretasi Hasil:
● Pada model untuk Silhouette Score = 0.5, menunjukkan bahwa kualitas
klastering yang dilakukan oleh model kamu cukup baik yang
menunjukkan pemisahan yang cukup baik

Implementasi Machine Learning menggunakan Google Collab

More Related Content

Featured

Implementasi Machine Learning menggunakan Google Collab