Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.
Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%.
1. Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan
Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes
Furqonuddin Ramdhani, Agus Mutamakin
Abstrak
Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk
mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan
transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke
database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data
mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam
ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.
Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut
penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit
dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas
pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto
Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak
2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan
atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15),
prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08),
jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan
model yang dibuat memiliki predictive confidence sebesar 50,41%.
Keyword : SIMRS, data mining, biaya rawat, rawat inap
2. I. Pendahuluan
Perkembangan teknologi informasi yang pesat terutama di
sektor kesehatan memungkinkan data dalam jumlah besar
terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit
berbasis komputer untuk mendukung manajemen
keuangan (khususnya billing systems) [1]. Untuk rumah
sakit yang sudah mapan sistem informasinya bahkan
mulai memperluas kebutuhannya untuk membangun
sistem informasi klinik.
Pertumbuhan yang pesat dari akumulasi data itu telah
menciptakan kondisi yang sering disebut sebagai “rich of
data but poor of knowledge”, karena data yang terkumpul
itu hanya digunakan untuk kebutuhan operasional saja,
bahkan tidak jarang kumpulan data itu dibiarkan begitu Gambar 1. Evolusi teknologi sistem database
saja seakan-akan menjadi “kuburan data” (data tombs).
Menurut Friedman[4] ada beberapa definisi dari data
Untuk melakukan analisa data dalam jumlah besar yang mining. Dikumpulkan dari berbagai literatur data mining
tersimpan pada database, biasanya digunakan teknik data antara lain sebagai berikut:
mining. Meski telah umum digunakan pada industri
keuangan dan telekomunikasi, teknik data mining mulai • Data mining adalah proses ekstraksi sebelumnya
diterapkan secara intensif di sektor kesehatan. Sebagai tidak dikenal dan dipahami dari database berukuran
contoh, Mayo Clinic bekerja sama dengan IBM besar dan digunakan untuk membuat keputusan bisnis
menerapkan teknik data mining pada pasien dengan yang penting. - Zekulin.
kesamaan jenis kelamin, usia dan riwayat kesehatan untuk • Data mining adalah serangkaian metode yang
mengetahui respon terhadap pengobatan tertentu .[2] digunakan dalam proses penemuan pengetahuan
untuk membedakan yang sebelumnya tidak diketahui
Teknis data mining dapat kita lihat sebagai hasil dari baik hubungan dan pola dalam data. - Ferruzza.
evolusi alamiah teknologi informasi. Proses evolusi dalam • Data mining adalah proses pendukung keputusan
teknologi sistem database dapat dilihat pada Gambar 1. yang digali dari basis data berukuran besar untuk
mengetahui pola yang tidak diketahui dan tak terduga
sebelumnya pada data. - Parsaye
Potensi data mining dalam bidang kesehatan sudah diakui
secara luas. Banyak studi yang diakukan menggunakan
teknik data mining modern, antara lain classification dan
predictive yang diterapkan pada rekam medis elektronis.
Beberapa dari studi tersebut antara lain adalah sebagai
berikut :
3. • Teknik Classification Naïve Bayes yang diterapkan 4. Aplikasi teknik data mining, proses inti dimana teknik
untuk masalah seleksi embrio [6] data mining diterapkan untuk mengekstrak pola-pola
• Teknik Decision Tree untuk mengembangkan dan tertentu pada data;
memvalidasi ukuran resiko stratifikasi mortalitas di
5. Evaluasi pola yang ditemukan;
rumah sakit karena dekomposisi akut gagal
jantung(ADHF) [7] 6. Presentasi pengetahuan, menggunakan teknik
• Neural Network untuk memprediksi pasien tertentu visualisasi untuk menampilkan hasil data mining kepada
yang akan mengalami kegagalan dialysis peritoneal pengguna (user).
[8]
• Support Vector Machines (SVM) untuk memprediksi
sumber pendarahan dan mengidentifikasi kohort pada
pasien dengan pendarahan akut gastrointestinal (GIB)
yang memerlukan intervensi mendesak, termasuk
endoskopi [9]
• Association digunakan untuk mengkonfirmasi aturan
yang akan digunakan oleh sistem pakar yang
membantu dalam diagnosis penyakit jantung dan
untuk menemukan aturan-aturan baru
untuk memperkaya pengetahuan sistem pakar [10]
• Text Mining untuk mengidentifikasi luka yang terkait
dengan luka jatuh pada orang tua [11]
Gambar 2. Tahapan dalam proses data mining
Penggunan data mining diharapkan dapat membantu para
pengambil keputusan mendapatkan informasi yang lebih III. Data dan Perangkat Pendukung
akurat dan bermakna sebagai salah satu sarana untuk
III.1. Data
meningkatkan pelayanan kesehatan kepada masyarakat.
Untuk mengidentifikasi atribut-atribut penentu biaya
II. Proses Data Mining
pasien rawat inap, digunakan data kunjungan pasien rawat
Pada bagian ini akan dijelaskan proses data mining yang inap RSUP Dr. Cipto Mangunkusumo dengan jaminan
terdiri dari beberapa tahap yang diilustrasikan di gambar Jamkesmas periode 1 Januari 2009 s/d 30 September 2010
2[3]: yang diambil dari database SIMRS sebanyak 8383
kunjungan pasien. Setelah dilakukan data cleaning,
1. Pembersihan data (data cleaning), untuk membersihkan
didapatkan 2022 kunjungan pasien yang layak untuk
noise dan data yang tidak konsisten. Dalam kasus ini
dianalisa.
membersihkan data-data pasien yang sudah dihapus dan
identitas yang tidak lengkap (misal: umur, status marital,
pendidikan, diagnosa, dan sebagainya);
2. Integrasi data, penggabungan data dari berbagai
sumber;
3. Transformasi data, data diubah menjadi bentuk yang
sesuai untuk di mining;
4. III.2. Perangkat Lunak Bayesian Classification didasarkan pada Teorema
Bayesian. Konsep dasar teori bayes itu pada dasarnya
Untuk analisa data mining digunakan perangkat lunak
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian
Oracle Data Miner dan database Oracle 11g.
H adalah posterior dan X adalah prior. Prior adalah
III. 3 Metode & Teknik pengetahuan kita tentang karakteristik suatu parameter
(bisa dibaca sebagai pengalaman di masa lalu atas suatu
III.3.1. Attribute Importance (AI)
parameter atau juga bisa berdasarkan teori), sedangkan
Attribute Importance (AI) memberi peringkat atribut posterior adalah karakteristik yang akan kita duga pada
dengan menghilangkan atribut yang berulang, tidak kejadian yang akan datang.
relevan, atau tidak informatif dan mengidentifikasi atribut
Teorema Bayesian berguna untuk melakukan kalkulasi
yang mungkin memiliki pengaruh yang paling tinggi
probabilitas posterior, P(H|X), dari P(H), P(X) dan
dalam membuat prediksi.
P(X|H). Teori Bayes adalah sebagai berikut :
P(H|X) = P(X|H)P(H)
P(X)
Proses classification biasanya dibagi menjadi dua fase :
learning dan test. Pada fase learning, sebagian data yang
telah diketahui kelas datanya diumpankan untuk
Gambar 3. Ilustrasi Atrribut Importance membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data
AI menggunakan algoritma Minimum Description Length lainnya untuk mengetahui akurasi dari model tersebut.
(MDL). Algoritma MDL mempertimbangkan setiap Bila akurasinya mencukupi model ini dapat dipakai untuk
atribut sebagai model prediktif sederhana dari kelas target. prediksi kelas data yang belum diketahui. [3]
Teknik AI digunakan untuk mengoptimalkan analisa
model classification dengan mengurangi atribut yang
digunakan dan akan meningkatkan kecepatan dan akurasi
saat membangun model.
III.3.2. Naive Bayes Algorithm (Classification)
Classification
adalah
proses
untuk
menemukan
model
atau
fungsi
yang
menjelaskan
atau
membedakan
Gambar 4. Ilustrasi pemodelan teknik Classification
konsep
atau
kelas
data,
dengan
tujuan
untuk
dapat
untuk mengukur akurasi
memperkirakan
kelas
dari
suatu
objek
yang
labelnya
III.3.3. Data Scoring
tidak
diketahui.
Model
itu
sendiri
bisa
berupa
aturan
“jika-‐maka”.
Dalam
teknik
classification
terdapat
Setelah model dibuat dengan aplikasi data mining, model
beberapa
algoritma
yang
bisa
digunakan
antara
lain
tersebut bisa digunakan untuk membuat prediksi dari data
decision
tree,
naive
bayes
,
adaptive
naive
bayes,
logistic
baru yang dalam hal ini diterapkan untuk memprediksi
regression
dan
support
vector
machine.
pola biaya data kunjungan pasien. Model biasanya dibuat
dengan menggunakan data historis dari kunjungan pasien
5. sebelumnya. Prosesnya secara umum di ilustrasikan
sebagai berikut :
Sistem
Model
Data
Data
Historis
Mining
Gambar 5. Ilustrasi Pembuatan Model
Data
Historis
Gambar 5. Distribusi berdasar gender
Model
Scoring
Engine
Data
Prediksi
Gambar 6. Ilustrasi Sistem Scoring
IV. Teknik Data Mining
IV.1. Persiapan Data
Gambar 6 Distribusi berdasar umur
Sebelum dilakukan teknik data mining dilakukan
eksplorasi data untuk mengetahui distribusi data pasien
berdasarkan atribut tertentu (misal: distribusi pasien
berdasar umur) dan juga untuk mengidentifikasi data yang
tidak normal (outliers). Data divisualisasikan dalam
bentuk histogram. Beberapa histogram profil kunjungan
pasien ditampilkan sebagai berikut :
6. Gambar 7. Distribusi berdasar unit kunjungan
Keterangan Gambar 7 :
Gambar 9. Distribusi berdasar length of stay (LOS)
178 =
A - Penyakit Dalam 105 =
A - Onkologi Obgin
Dalam studi ini data kunjungan pasien di RSCM akan
108 =
A - Bedah 121 =
Kebidanan (IGD)
diamati atribut-atribut yang akan mempengaruhi pola
173 =
A - Bedah LT 4 113 =
A - Obgin
biaya pasien yang dirawat di RSCM. Untuk biaya di buat
176 =
A - Mata 175 =
A - THT skala RENDAH, SEDANG dan TINGGI. Dengan aturan
109 =
A - Neurologi sebagai berikut :
101 =
PJT - Intermediate Ward Lt. 4 Jika Biaya Tagihan < 10 juta Maka Pola
biaya RENDAH.
Jika Biaya Tagihan >10 juta dan < 50
juta maka biaya SEDANG.
Sedangkan jika Biaya tagihan > 10 juta
maka pola biaya TINGGI.
Permasalahan pada data yang memiliki banyak atribut
seperti data rekam medis pasien adalah tidak semua data
akan berkontribusi jika diterapkan model prediktif, bahkan
beberapa atribut cenderung mengaburkan hasil (noise).
Teknik Attribute Importance (AI) digunakan untuk
mengidentifikasi indikator yang paling berpengaruh
terhadap pasien dengan pola biaya tinggi atau rendah.
Setelah dianalisa menggunakan teknik Attribute
Gambar 8. Distribusi berdasar status kematian (tidak
Importance (AI), data akan dianalisa menggunakan teknik
meninggal=0, meninggal=1)
klasifikasi menggunakan Algoritma Naïve Bayes yang
7. kemudian akan digunakan untuk melakukan scoring Berikut ini merupakan tabel lengkap hasil analisa
terhadap kasus kunjungan pasien. menggunakan teknik Attribute Importance (AI).
IV.2. Analisa Menggunakan Teknik Attribute
Importance (AI)
Attribute Importance (AI) memberikan solusi otomatis
untuk meningkatkan kecepatan dan akurasi model
klasifikasi yang dibangun di atas tabel data dengan atribut
dalam jumlah besar.
Atribut untuk menentukan peringkat berdasarkan pada
kekuatan korelasi atau hubungan antara atribut prediktor
dengan atribut target. Target pada kasus ini adalah
mencari faktor yang sangat berpengaruh pada pola beban
biaya pasien rawat inap di RSCM (RENDAH, SEDANG, Gambar 10. Hasil Analisa Attribute Importance
TINGGI).
Name Rank Importance
Atribut yang digunakan untuk analisa adalah sebagai PROC1 1 0.16850816
berikut : PROC4 2 0.151484777
PROC3 3 0.148049858
LOS 4 0.136418431
PROC2 5 0.123940453
ORG_ID 6 0.102628058
PRIMARY_DIAG 7 0.084659551
ADM_GENDER_CD 8 0.024481749
MARITAL_ST 9 0.019523313
AGE 10 0.006332294
MORTALITY 11 0.005728084
EDUCATION 12 -0.005963103
JOBCLASS 13 -0.010410216
SEC_DIAG1 14 -0.024403058
SEC_DIAG3 15 -0.027612921
Tabel 1. Atribut data set SEC_DIAG2 16 -0.041533283
Tabel 2. Peringkat AI
Dapat dilihat baik dari grafik maupun tabel atribut-atribut
yang mempengaruhi besarnya beban biaya pasien dari
yang tertinggi sampai yang terendah. Dari hasil analisa
dapat diketahui bahwa atribut education, jobclass,
8. sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki confidence 50,41 % menandakan bahwa model Naïve
pengaruh korelasi signifikan terhadap pola biaya pasien. Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.
IV.2. Teknik Klasifikasi (Classification) Menggunakan
Algoritma Naive Bayes
Teknik Klasifikasi merupakan teknik yang umum
digunakan untuk memprediksi outcome yang spesifik dan
biasanya bersifat kategorikal. Dalam kasus ini digunakan
Gambar 12. Akurasi dari model
untuk memprediksi pola biaya RENDAH , SEDANG dan
TINGGI. Untuk menganalisa menggunakan teknik ini Pada tabel akurasi menunjukkan bahwa model cukup baik
digunakan atribut hasil analisa menggunakan Attribute memprediksi kasus pola biaya RENDAH dengan
Importance (AI). Atribut yang tidak memiliki pengaruh prosentase 83,36 %, kasus pola biaya SEDANG dengan
signifikan tidak diikutsertakan dalam analisa ini. prosentase 64 % dan kasus pola biaya TINGGI dengan
prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,
Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix
Pada gambar confusion matrix dapat diketahui ada 461
kasus yang diklasifikasi dengan benar sebagai pola biaya
Tabel 3. Atribut data set
RENDAH dari total 553 kasus, ada 46 kasus yang salah
klasifikasi yang seharusnya adalah pola biaya SEDANG
tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya
TINGGI diprediksi sebagai pola biaya RENDAH.
Untuk pola biaya SEDANG dapat diketahui ada 128 kasus
yang diklasifikasi dengan benar sebagai pola biaya
SEDANG dari total 200 kasus. Sedangkan untuk pola
biaya TINGGI dapat diketahui ada 31 kasus yang
Gambar 11 Predictive confidence
diklasifikasi dengan benar sebagai pola biaya TINGGI
Predictive confidence menunjukkan bahwa model yang dari total 58 kasus.
dibuat menggunakan teknik klasifikasi menggunakan
Dari model tersebut diterapkan model scoring untuk data
Algoritma Naïve Bayes cukup baik untuk digunakan
yang akan di tes maka hasil nya adalah sebagai berikut
dengan predictive confidence sebesar 50,41%. Predictive
(data sample 25 kasus kunjungan pasien):
9. Penggunaan teknik data mining pada studi ini
menunjukkan secara jelas potensi data mining untuk
menggali pengetahuan baru yang akan membantu
meningkatkan kualitas operasional pelayanan dan proses
pengambilan keputusan di rumah sakit.
Referensi
[1]. Fuad, A. 2005. Teknologi Informasi untuk
Keselamatan Pasien. http://www.desentralisasi
Tabel 2. Data scoring kesehatan.net/. 27 April 2008 14:10.
Kolom prediction pada tabel diatas adalah nilai target [2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The
untuk kasus(kunjungan) tersebut dan kolom probability information Management Journal, volume 3, issue 6,
adalah adalah nilai confidence dari prediksi tersebut. November /December 2004,p.8
Kolom cost merupakan biaya (cost) dari prediksi yang
salah, dengan biaya (cost) yang rendah berarti probabilitas [3]. J.Han and M. Kamber. Data Mining : Concepts and
yang tinggi. Techniques. Morgan Kaufmann, 2001.8
V. Kesimpulan [4]. Friedman JH: Data Mining and Statistics: What's the
Connection? Dept. of Statistics and Stanford Linear
Pada paper ini telah dilakukan studi dengan menggunakan Accelerator Center, Stanford University, Stanford, CA,
teknik Attribute Importance (AI) untuk mengetahui http://stat.stanford.edu/~jhf/ftp/dm-stat.ps
peringkat atribut yang berpengaruh terhadap pola biaya
data kunjungan pasien yang didefinisikan sebagai kelas [5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold
target RENDAH, SEDANG dan TINGGI. Dengan From Your Data Warehouse.Rampant,2007
mengetahui atribut-atribut yang mempengaruhi biaya
[6]. Morales, D. A., Bengoetxea, E. et al. 2008. Selection
tinggi, maka manajemen rumah sakit dapat lebih
of human embryos for transfer by Bayesian classifiers.
memfokuskan program efisiensi pada prosedur-prosedur
Computers in Biology and Medicine 38(11–12):1177–
medis berbiaya tinggi dan mengurangi LOS.
1186.
Percobaan kedua adalah dengan membuat model
menggunakan teknik classification dengan Algoritma [7]. Fonarow, G. C., Adams, K. F., Jr. et al. 2005. Risk
Naive Bayes yang kemudian digunakan untuk stratification for in-hospital mortality in acutely
memprediksi pola biaya pada data kunjungan pasien yang decompensated heart failure: classification and regression
akan datang (scoring data). Dengan model prediksi biaya tree analysis. JAMA 293(5):572–580.
tersebut, dapat diperkirakan biaya pasien rawat inap pada
saat awal kunjungan. Informasi perkiraan biaya tersebut [8]. Tangri, N., Ansell, D. et al. 2008. Predicting
bermanfaat bagi pihak pasien, karena dapat technique survival in peritoneal dialysis patients:
mempersiapkan pembiyaan dan pihak rumah sakit karena comparing artificial neural networks and logistic
dapat mengetahui perkiraan biaya dan sumberdaya yang regression. Nephrology Dialysis Transplantation
harus disiapkan untuk merawat pasien. 23(9):29722981.
10. [9]. Chu, A., Ahn, H. et al. 2008. A decision support and Knowledge Discovery.
system to facilitate management of patients with acute
gastrointestinal bleeding. Artificial Intelligence in [11]. Tremblay, M. C., Berndt, D. et al. 2005. Utilizing
Medicine 42(3):247–259. text mining techniques to identify fall related injuries. In
Proceedings of the 11th Americas Conference on
[10]. Ordonez, C., Santana, C. A. et al. 2000. Discovering Information Systems (AMCIS 2005), Omaha, NE.
interesting association rules in medical data. In ACM
SIGMOD Workshop on Research Issues on Data Mining