PARKINSONS
DISEASES ANALYSIS
Implementasi Machine Learning pada Tableau
Bussines Intellegence #12
Hasti Wahyu Cahyaningrum
04 Clustering Metrics
TABLE OF CONTENTS
01
Apa itu Machine
Learning ?
Classification Metrics
02 Tentang Dataset
03
05 Kesimpulan
INTRODUCTION
01
Machine learning (ML) adalah salah satu cabang dari artificial intelligence,
AI yang memungkinkan sistem komputer untuk belajar dari data dan
membuat keputusan atau prediksi tanpa diprogram secara eksplisit.
Apa itu Machine Learning?
Integrasi Machine Learning dalam Business
Intelligence memberikan banyak manfaat untuk
bergerak lebih cepat dalam membuat keputusan
berbasis data. Dengan kemampuannya untuk
memprediksi tren, mendeteksi anomali,
melakukan segmentasi pelanggan, dan
memberikan rekomendasi yang lebih akurat,
machine learning membawa BI ke tingkat yang
lebih tinggi, menjadikannya alat yang sangat
berharga dalam strategi bisnis modern.
TENTANG DATASET
02
Tentang Dataset
Dataset ini terdiri dari berbagai ukuran suara biomedis dari 31 orang, 23 di
antaranya dengan penyakit Parkinson (PD). Setiap kolom dalam tabel merupakan
ukuran suara tertentu, dan setiap baris mewakili salah satu dari 195 rekaman
suara dari individu-individu ini (kolom "name"). Tujuan utama dari data ini adalah
untuk membedakan orang sehat dari mereka yang memiliki PD, sesuai dengan
kolom "status" yang diset ke 0 untuk sehat dan 1 untuk PD.
Tentang Dataset
Tentang Dataset & Tools
*klik untuk melihat link dataset dan alur pemograman dengan menggunakan collab
CLASSIFICATION
METRICS
03
Evaluation Model : Metode Classification
mengambil (fetch) dataset dari UCI Machine Learning Repository secara otomatis ke dalam
program Python.
digunakan untuk mengambil dataset dengan ID 174 dari UCI ML Repository. ID 174 merujuk
pada parkinsons dataset.
X : sebagai features
y : sebagai target
Evaluation Model : Metode Classification
Pada tahap ini x.head()
merupakan variabel input
yang digunakan untuk
memprediksi target dan
y.head() variabel yang
ingin diprediksi oleh
model.
Evaluation Model : Metode Classification
Secara keseluruhan, kode di atas merupakan implementasi dari model Random Forest
untuk melakukan klasifikasi pada dataset Parkinson. Model ini dilatih dengan data fitur
(x_train) dan target (y_train), yang dapat digunakan untuk memprediksi target pada data
pengujian (x_test), yang dapat digunakan untuk mengevaluasi kinerjanya.
PREPROCESING &
MODELING
Menggunakan fitur preprocessing otomatis PyCaret, termasuk menginput nilai
yang hilang, mentransformasi tiap variabel numerik dan encoding variabel
kategorikal
Modeling
Fungsi compare_models()
dalam PyCaret digunakan untuk
membandingkan beberapa
model secara otomatis dan
memilih model terbaik
berdasarkan beberapa metrik
evaluasi, seperti akurasi, F1-
score, AUC, dan lainnya.
Modeling
melakukan tuning pada model yang sudah ada menggunakan fungsi tune_model dari PyCaret. Namun, variabel best
yang digunakan dalam kode tersebut belum didefinisikan, sehingga kode tersebut tidak bisa dijalankan langsung.
tune_model(lightgbm, optimize='F1'): Fungsi ini akan melakukan tuning pada model LightGBM yang telah dibuat untuk
mengoptimalkan nilai F1-score.
CLUSTERING
METRICS
03
Modeling
Silhouette Score adalah metrik yang berguna untuk mengevaluasi kualitas klastering.
Dengan menggunakan Silhouette Score, pada model dapat menilai seberapa baik hasil klastering yang dilakukan dan bahkan
memilih jumlah klaster. Pada model untuk Silhouette Score = 0.5, itu menunjukkan bahwa kualitas klastering yang dilakukan
oleh model kamu cukup baik. Nilai 0.5 menunjukkan pemisahan yang cukup baik, tetapi mungkin ada ruang untuk
memperbaiki pemisahan antar klaster atau memperbaiki penempatan sampel di dalam klaster.
KESIMPULAN
04
KESIMPULAN
Random Forest Classifier
Memiliki akurasi model sebesar 94.87 yang menunjukan bahwa model
berhasil memprediksi 94.87 % dari total data yang diuji.
Interpretasi Hasil:
● Akurasi sebesar 94.87% menunjukkan bahwa model Random Forest
sangat baik dalam memprediksi status penyakit Parkinson pada data
pengujian.
● Yang berarti model hanya mengalami kesalahan prediksi sekitar 5.13%
dari total data yang diuji.
KESIMPULAN
Classification PyCaret
Interpretasi Hasil:
● Model dengan performa terbaik ditunjukan dari Light Gradient Boosting
Machine secara keseluruhan dengan nilai tertinggi dalam metrik
accuracy, AUC, Recall, Prec, F1, Kappa dan RCC yang menunjukan model
ini paling efektif dalam melakukan classification data dan memiliki
keseimbangan yang baik antara presisi dan sensitivitas
● Pada model untuk AUC terbaik ditunjukan juga dengan nilai dari
Xgboost dan catboost
Clustering dengan Silhouette Score
Interpretasi Hasil:
● Pada model untuk Silhouette Score = 0.5, menunjukkan bahwa kualitas
klastering yang dilakukan oleh model kamu cukup baik yang
menunjukkan pemisahan yang cukup baik
TERIMAKASIH

Implementasi Machine Learning menggunakan Google Collab

  • 1.
    PARKINSONS DISEASES ANALYSIS Implementasi MachineLearning pada Tableau Bussines Intellegence #12 Hasti Wahyu Cahyaningrum
  • 2.
    04 Clustering Metrics TABLEOF CONTENTS 01 Apa itu Machine Learning ? Classification Metrics 02 Tentang Dataset 03 05 Kesimpulan
  • 3.
  • 4.
    Machine learning (ML)adalah salah satu cabang dari artificial intelligence, AI yang memungkinkan sistem komputer untuk belajar dari data dan membuat keputusan atau prediksi tanpa diprogram secara eksplisit. Apa itu Machine Learning? Integrasi Machine Learning dalam Business Intelligence memberikan banyak manfaat untuk bergerak lebih cepat dalam membuat keputusan berbasis data. Dengan kemampuannya untuk memprediksi tren, mendeteksi anomali, melakukan segmentasi pelanggan, dan memberikan rekomendasi yang lebih akurat, machine learning membawa BI ke tingkat yang lebih tinggi, menjadikannya alat yang sangat berharga dalam strategi bisnis modern.
  • 5.
  • 6.
    Tentang Dataset Dataset initerdiri dari berbagai ukuran suara biomedis dari 31 orang, 23 di antaranya dengan penyakit Parkinson (PD). Setiap kolom dalam tabel merupakan ukuran suara tertentu, dan setiap baris mewakili salah satu dari 195 rekaman suara dari individu-individu ini (kolom "name"). Tujuan utama dari data ini adalah untuk membedakan orang sehat dari mereka yang memiliki PD, sesuai dengan kolom "status" yang diset ke 0 untuk sehat dan 1 untuk PD.
  • 7.
  • 8.
    Tentang Dataset &Tools *klik untuk melihat link dataset dan alur pemograman dengan menggunakan collab
  • 9.
  • 10.
    Evaluation Model :Metode Classification mengambil (fetch) dataset dari UCI Machine Learning Repository secara otomatis ke dalam program Python. digunakan untuk mengambil dataset dengan ID 174 dari UCI ML Repository. ID 174 merujuk pada parkinsons dataset. X : sebagai features y : sebagai target
  • 11.
    Evaluation Model :Metode Classification Pada tahap ini x.head() merupakan variabel input yang digunakan untuk memprediksi target dan y.head() variabel yang ingin diprediksi oleh model.
  • 12.
    Evaluation Model :Metode Classification Secara keseluruhan, kode di atas merupakan implementasi dari model Random Forest untuk melakukan klasifikasi pada dataset Parkinson. Model ini dilatih dengan data fitur (x_train) dan target (y_train), yang dapat digunakan untuk memprediksi target pada data pengujian (x_test), yang dapat digunakan untuk mengevaluasi kinerjanya.
  • 13.
  • 14.
    Menggunakan fitur preprocessingotomatis PyCaret, termasuk menginput nilai yang hilang, mentransformasi tiap variabel numerik dan encoding variabel kategorikal
  • 15.
    Modeling Fungsi compare_models() dalam PyCaretdigunakan untuk membandingkan beberapa model secara otomatis dan memilih model terbaik berdasarkan beberapa metrik evaluasi, seperti akurasi, F1- score, AUC, dan lainnya.
  • 16.
    Modeling melakukan tuning padamodel yang sudah ada menggunakan fungsi tune_model dari PyCaret. Namun, variabel best yang digunakan dalam kode tersebut belum didefinisikan, sehingga kode tersebut tidak bisa dijalankan langsung. tune_model(lightgbm, optimize='F1'): Fungsi ini akan melakukan tuning pada model LightGBM yang telah dibuat untuk mengoptimalkan nilai F1-score.
  • 17.
  • 18.
    Modeling Silhouette Score adalahmetrik yang berguna untuk mengevaluasi kualitas klastering. Dengan menggunakan Silhouette Score, pada model dapat menilai seberapa baik hasil klastering yang dilakukan dan bahkan memilih jumlah klaster. Pada model untuk Silhouette Score = 0.5, itu menunjukkan bahwa kualitas klastering yang dilakukan oleh model kamu cukup baik. Nilai 0.5 menunjukkan pemisahan yang cukup baik, tetapi mungkin ada ruang untuk memperbaiki pemisahan antar klaster atau memperbaiki penempatan sampel di dalam klaster.
  • 19.
  • 20.
    KESIMPULAN Random Forest Classifier Memilikiakurasi model sebesar 94.87 yang menunjukan bahwa model berhasil memprediksi 94.87 % dari total data yang diuji. Interpretasi Hasil: ● Akurasi sebesar 94.87% menunjukkan bahwa model Random Forest sangat baik dalam memprediksi status penyakit Parkinson pada data pengujian. ● Yang berarti model hanya mengalami kesalahan prediksi sekitar 5.13% dari total data yang diuji.
  • 21.
    KESIMPULAN Classification PyCaret Interpretasi Hasil: ●Model dengan performa terbaik ditunjukan dari Light Gradient Boosting Machine secara keseluruhan dengan nilai tertinggi dalam metrik accuracy, AUC, Recall, Prec, F1, Kappa dan RCC yang menunjukan model ini paling efektif dalam melakukan classification data dan memiliki keseimbangan yang baik antara presisi dan sensitivitas ● Pada model untuk AUC terbaik ditunjukan juga dengan nilai dari Xgboost dan catboost Clustering dengan Silhouette Score Interpretasi Hasil: ● Pada model untuk Silhouette Score = 0.5, menunjukkan bahwa kualitas klastering yang dilakukan oleh model kamu cukup baik yang menunjukkan pemisahan yang cukup baik
  • 22.