Klasifikasi Data Indian Liver Patient dengan Metode Logistic Regression, k- Nearest Neighbors, Adaptive Boosting, dan Support Vector Machine

K L A S I F I K A S I D ATA I N D I A N
L I V E R PAT I E N T D E N G A N M E T O D E
LO G I S T I C R E G R E S S I O N , K N N ,
A D A P T I V E B O O S T I N G , D A N S V M
D I M A S A C H M A D FA D H I L A
0 6 2 1 1 5 4 0 0 0 0 1 1 7

OUTLINE
PENDAHULUAN
METODOLOGI
PENELITIAN
ANALISIS
DAN
PEMBAHASAN
KESIMPULAN
DAN
SARAN

METODOLOGI
PENELITIAN
 S U M B E R D ATA
 VA R I A B E L P E N E L I T I A N D A N S T R U K T U R
D ATA
 L A N G K A H A N A L I S I S

SUMBER DATA
Sumber data pada penelitian ini merupakan data sekunder.
Data sekunder yang digunakan adalah Indian Liver Patient
Dataset UCI Machine Learning sebanyak 583 data. Data diambil
pada hari Rabu, 5 Desember 2018.

VARIABEL PENELITIANVariabel independen yang
digunakan pada penelitian ini
sebanyak 10 variabel dan 1
variabel dependen.
STRUKTUR DATA
No Atribut Tipe data Variabel
1 Age Numerik X
2 Gender Kategorik X
3 TB (Total Bilirubin) Numerik X
4 DB (Direct Bilirubin) Numerik X
5
Alkphos (Alkaline
Phosphotase)
Numerik X
6
Sgpt (Alamine
Aminotransferase)
Numerik X
7
Sgot (Aspartate
Aminotransferase)
Numerik X
8 TP (Total Proteins) Numerik X
9 ALB (Albumin) Numerik X
10
A/G (Ratio Albumin and
Globulin Ratio)
Numerik X
11
Class Variabel (positive liver
(1) and negative liver (2))
Numerik y
No. Age Gender TB DB Alkphos Agpt Sgot TP ALB A/G Class
1 65 Female 0.7 0.1 187 16 18 6.8 3.3 0.9 1
2 62 Male 10.9 5.5 699 64 100 7.5 3.2 0.74 1
3 62 Male 7.3 4.1 490 60 68 7 3.3 0.89 1
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
583 38 Male 1 0.3 216 21 24 7.3 4.4 1.5 2

LANGKAH ANALISIS
1. Import Libraries
2. Fetching Dataset
3. Preprocessing Data
4. Data Exploration
5. Feature Selection
6. Analysis
7. Penarikan Kesimpulan

ANALISIS DAN
PEMBAHASAN
 P R E P R O C E S S I N G D ATA
 E K S P LO R A S I D ATA
 F E AT U R E S E L E C T I O N
 K L A S I F I K A S I

PREPROCESSING DATA
1. ENCODING DATA
Encoding data merupakan
pemberian kode atau label
terhadap variabel kategorik, pada
penelitian ini adalah variabel
Gender yang memiliki kategori
Female dan Male. Female diberi
kode 1 dan Male 2

PREPROCESSING DATA
2. MENGATASI MISSING VALUE
Missing value merupakan data yang tidak tersedia pada sebuah dataset.
Syntax yang digunakan dalam penyelesaian ini adalah: indian =
indian[~np.isnan(indian).any(axis=1)].copy(). Ada satu buah missing value
yang terselesaikan yaitu pada variabel A/G.

EKSPLORASI DATA (1/3)
1. Statistika Deskriptif

2. EKSPLORASI DATA Berdasarkan Gambar
disamping dapat dilihat
bahwa presentase kelas 1
(positif terkena penyakit
liver) sebesar 71.4%
yangmana jauh lebih besar
daripada presentase kelas
2 (negatif terkena penyakit
liver) sebesar 28.6%,
dengan jumlah masing-
masing di atas 400 pasien
dan di atas 150 pasien

2. EKSPLORASI DATA
Berdasarkan gambar disamping,
dapat dilihat bahwa pasien yang
terkategorikan positif liver lebih
banyak yang berjenis kelamin laki-
laki daripada perempuan. Dari
masing-masing jenis kelamin, baik
laki-laki maupun perempuan lebih
banyak pasien yang terkategorikan
positif liver daripada yang negatif
liver.

FEATURE SELECTION
Berdasarkan Gambar disamping, dapat
dilihat bahwa semakin merah kotak
tersebut maka semakin rendah
korelasi antar variabel, sedangkan
semakin hijau kotak tersebut maka
semakin tinggi korelasi antar variabel.
Pada gambar tersebut tidak ada
korelasi yang mencapai 0.9 atau lebih,
maka tidak terjadi multikolinieritas
sehingga analisis dapat dilanjutkan.

KLASIFIKASI
1. Train – Test Split
Karena terjadi timpang antara jumlah kelas 1 dan kelas 2 pada
variabel y, maka dilakukan proses oversampling menggunakan
package SMOTE

KLASIFIKASI
3. Logistic Regression dengan Cross
Validation
Dari proses cross validation dan tuning
parameter, didapatkan parameter terbaik
adalah {'C': 1.0}, sehingga didapatkan
model logistic regression:
LogisticRegression(C=1,
class_weight=None, dual=False,
fit_intercept=True, intercept_scaling=1,
max_iter=100, multi_class='warn',
n_jobs=None, penalty='l1',
random_state=None, solver='warn',
tol=0.0001, verbose=5, warm_start=False)

KLASIFIKASI
4. Perbandingan Hasil Klasifikasi
No. Metode Akurasi Presisi Recall F1 Score
1 k Nearest Neighbors
0.905172414 0.94270833
3
0.82258064
5
0.861770122
2 Support Vector
0.73275862
1
0.36637931 0.5
0.42288557
2
3 Adaptive Boosting
0.715517241 0.648611111 0.66242884
3
0.65373134
3
4 Logistic Regression
0.67241379
3
0.91228070
2
0.611764706 0.73239436
6

KESIMPULAN
DAN SARAN
 K E S I M P U L A N
 S A R A N

KESIMPULAN
Kesimpulan yang dapat diambil
dari final project ini adalah dari
keempat metode klasifikasi yang
dilakukan, maka metode
klasifikasi yang paling baik
digunakan untuk menganalisis
data Indian Liver Patient adalah k
Nearest Neighbors dengan
akurasi sebesar 90.05% dan
presisi sebesar 90.43%.
SARAN
Saran terhadap final project ini
adalah melakukan lebih banyak
metode baik dalam
preprocessing data maupun
analisis atau klasifikasi khususnya
dalam hal menyelesaikan data
yang terdapat ketimpangan kelas
pada variabel respon.

DAFTAR PUSTAKA
i. Lumongga, Fitriani. 2008.
Struktur Liver. Medan:
USU Repository.
ii. Rahmawati, Eva. 2015.
Analisa Komparasi
Algoritma Naive Bayes
Dan C4.5 Untuk Prediksi
Penyakil Liver. Jurnal
Techno Nusa Mandiri Vol.
XII No. 2, September
2015.

Klasifikasi Data Indian Liver Patient dengan Metode Logistic Regression, k- Nearest Neighbors, Adaptive Boosting, dan Support Vector Machine

Recommended

Recommended

More Related Content

Similar to Klasifikasi Data Indian Liver Patient dengan Metode Logistic Regression, k- Nearest Neighbors, Adaptive Boosting, dan Support Vector Machine

Similar to Klasifikasi Data Indian Liver Patient dengan Metode Logistic Regression, k- Nearest Neighbors, Adaptive Boosting, dan Support Vector Machine (20)

Recently uploaded

Recently uploaded (9)

Klasifikasi Data Indian Liver Patient dengan Metode Logistic Regression, k- Nearest Neighbors, Adaptive Boosting, dan Support Vector Machine