Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
novi.setiani@gmail.comApril 2013Materi Kuliah – [7]:Data MiningNaive Bayes
Tid Refund MaritalStatusTaxableIncome Cheat1 Yes Single 125K No2 No Married 100K No3 No Single 70K No4 Yes Married 120K No...
Klasifikasi Bayesian Problem:– Diberikan himpunan atribut X = {x1, x2... xn}– Prediksi nilai atribut kelas YSolusi:Cari p...
ProblemHimpunan atribut X = {Refund,Marital status, Taxableincome}Atribut kelas Y: Cheat= {Yes,No}Diketahui data:Refund Ma...
SolusiCari probabilitas:P1 = P(Cheat=yes|Refund=No,MaritalStatus=Married,Taxable Income=80K)P1 = P(Cheat=no|Refund=No,Mari...
Teorema BayesBagaimana mencari nilai P(Y|x1,...xn) ?Gunakan teorema Bayes:Fungsi normalization constant: tidak tergantung ...
Teorema BayesP(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1)= P(Y)P(X1|Y)P(X2|Y,X1)P(X3,..,Xn|Y,X1,X2)= P(Y)P(X1|Y)P(X2|Y,...
Naive BayesAsumsi Naïve Bayes : Jika diberikan atribut kelas Y,seluruh atribut X bersifat independen (tidak tergantungsatu...
Naive BayesP(Y)P(X1, …, Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-1).P(Y)P(X1, …, Xn|Y) =P(Y)P(X...
Contoh 1: KlasifikasiKeuntungan PerusahaanUsia Aset Nilai Saing Jenis KeuntunganLama Ada Software MenurunLama Tidak Ada So...
Pertanyaan:Sebuah perusahaan memiliki usia aset yang baru,memiliki nilai saing dan bergerak di bidanghardware.Tentukan pel...
Solusi: Klasifikasi NaiveBayes1. Tentukan himpunan atribut X dan atribut kelas Y:Himpunan atribut X = {Usia aset, nilai sa...
Atribut Nilai JmlKasusKelasNaikKelasTurunTotal 10 5 5Usia Aset Lama 3 0 3Tengah 4 2 2Baru 3 3 0Nilai Saing Ada 4 1 3Tdk Ad...
3. Hitung probabilitas:P1 = P(naik | usia aset=baru,nilai saing=ada,jenis=hardware)= P(naik)P(usia aset=baru|naik)P(nilai ...
P (naik) = Jumlah keuntungan naik/jumlah keseluruhan data =5/10P (usia aset=baru|naik) = Jumlah usia aset baru dan keuntun...
P (turun) = Jumlah keuntungan turun/jumlah keseluruhan data =5/10P (usia aset=baru|turun) = Jumlah usia aset baru dankeunt...
Laplacian CorrectionUntuk menghindari probabilitas 0- Ditambahkan data dummy pada data set.P(X=A|Y=B) = (Jumlah kemunculan...
Lanjutan..Perhitungan probabilitas dengan Laplace Correction:P(usia aset=baru|turun) =(Jumlah usia aset baru dan keuntunga...
Diberikan data delapan nasabah Bank. Buat Pendapatan dalam 4 kategori,sbb: 0-25, 26-50, 51-75, >75.Dari data tersebut, ten...
Upcoming SlideShare
Loading in …5
×

Dm 07-naive bayes

506 views

Published on

Published in: Technology, Education
  • Be the first to comment

  • Be the first to like this

Dm 07-naive bayes

  1. 1. novi.setiani@gmail.comApril 2013Materi Kuliah – [7]:Data MiningNaive Bayes
  2. 2. Tid Refund MaritalStatusTaxableIncome Cheat1 Yes Single 125K No2 No Married 100K No3 No Single 70K No4 Yes Married 120K No5 No Divorced 95K Yes6 No Married 60K No7 Yes Divorced 220K No8 No Single 85K Yes9 No Married 75K No10 No Single 90K Yes10RefundMarStTaxIncYESNONONOYes NoMarriedSingle, Divorced< 80K > 80KSplitting AttributesModel: Decision TreeRecall: Pohon Keputusan
  3. 3. Klasifikasi Bayesian Problem:– Diberikan himpunan atribut X = {x1, x2... xn}– Prediksi nilai atribut kelas YSolusi:Cari probabilitas tertinggi untuk nilai Y jika diberikan himpunanatribut X.
  4. 4. ProblemHimpunan atribut X = {Refund,Marital status, Taxableincome}Atribut kelas Y: Cheat= {Yes,No}Diketahui data:Refund MaritalStatusTaxableIncome CheatNo Married 80K ?10Tid Refund MaritalStatusTaxableIncome Cheat1 Yes Single 125K No2 No Married 100K No3 No Single 70K No4 Yes Married 120K No5 No Divorced 95K Yes6 No Married 60K No7 Yes Divorced 220K No8 No Single 85K Yes9 No Married 75K No10 No Single 90K Yes10
  5. 5. SolusiCari probabilitas:P1 = P(Cheat=yes|Refund=No,MaritalStatus=Married,Taxable Income=80K)P1 = P(Cheat=no|Refund=No,MaritalStatus=Married,Taxable Income=80K)Jika P1 > P2, maka Cheat = yes.Jika P1 < P2, maka Cheat = noP1 = P2? Pilih salah satu.
  6. 6. Teorema BayesBagaimana mencari nilai P(Y|x1,...xn) ?Gunakan teorema Bayes:Fungsi normalization constant: tidak tergantung nilai Ysehingga nilainya tetap antara P1 dan P2 → tidak perludihitung.Normalization ConstantLikelihood Prior
  7. 7. Teorema BayesP(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1)= P(Y)P(X1|Y)P(X2|Y,X1)P(X3,..,Xn|Y,X1,X2)= P(Y)P(X1|Y)P(X2|Y,X1)P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-1).Terlalu banyak parameterLamaTempat yang besarData yang banyak
  8. 8. Naive BayesAsumsi Naïve Bayes : Jika diberikan atribut kelas Y,seluruh atribut X bersifat independen (tidak tergantungsatu sama lain) → Tidak ada hubungan antar atribut X.YXn...X2X1YXnX2X1 ...
  9. 9. Naive BayesP(Y)P(X1, …, Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-1).P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y)P(Y) = Jumlah kemunculan Y/Jumlah dataP(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y
  10. 10. Contoh 1: KlasifikasiKeuntungan PerusahaanUsia Aset Nilai Saing Jenis KeuntunganLama Ada Software MenurunLama Tidak Ada Software MenurunLama Tidak Ada Hardware MenurunTengah Ada Software MenurunTengah Ada Hardware MenurunTengah Tidak Ada Hardware MeningkatTengah Tidak Ada Software MeningkatBaru Ada Software MeningkatBaru Tidak Ada Hardware MeningkatBaru Tidak Ada Software Meningkat
  11. 11. Pertanyaan:Sebuah perusahaan memiliki usia aset yang baru,memiliki nilai saing dan bergerak di bidanghardware.Tentukan peluang perusahaan tersebutmemperoleh keuntungan naik dan turunberdasarkan tabel tersebut denganmenggunakan Naive Bayes.
  12. 12. Solusi: Klasifikasi NaiveBayes1. Tentukan himpunan atribut X dan atribut kelas Y:Himpunan atribut X = {Usia aset, nilai saing, jenis}Atribut kelas Y = Keuntungan2. Buat Tabel hubungan setiap atribut dengan atributkelas.
  13. 13. Atribut Nilai JmlKasusKelasNaikKelasTurunTotal 10 5 5Usia Aset Lama 3 0 3Tengah 4 2 2Baru 3 3 0Nilai Saing Ada 4 1 3Tdk Ada 6 4 2Jenis Software 6 3 3Hardware 4 2 2
  14. 14. 3. Hitung probabilitas:P1 = P(naik | usia aset=baru,nilai saing=ada,jenis=hardware)= P(naik)P(usia aset=baru|naik)P(nilai saing=ada|naik)P(jenis=hardware|naik)P2 = P(turun | usia aset=baru,nilai saing=ada,jenis=hardware)= P(turun)P(usia aset=baru|turun)P(nilai saing=ada|turun)P(jenis=hardware|turun)4. Bandingkan P1 dan P2if P1>P2 keuntungan → naik, else keuntungan → turun
  15. 15. P (naik) = Jumlah keuntungan naik/jumlah keseluruhan data =5/10P (usia aset=baru|naik) = Jumlah usia aset baru dan keuntungannaik/ Jumlah keuntungan naik = 3/5P (nilai saing=ada|naik) = Jumlah nilai saing ada dankeuntungan naik/ Jumlah keuntungan naik = 1/5P (jenis=hardware|naik) = Jumlah jenis hardware dankeuntungan naik/ Jumlah keuntungan naik = 2/5P1 = P(naik)P(naik | usia aset=baru,nilaisaing=ada,jenis=hardware) = 0.5 x 0.6 x 0.2 x 0.4 =0.024
  16. 16. P (turun) = Jumlah keuntungan turun/jumlah keseluruhan data =5/10P (usia aset=baru|turun) = Jumlah usia aset baru dankeuntungan turun/ Jumlah keuntungan turun = 0/5P (nilai saing=ada|turun) = Jumlah nilai saing ada dankeuntungan turun/ Jumlah keuntungan turun = 3/5– P (jenis=hardware|turun) = Jumlah jenis hardwaredan keuntungan turun/ Jumlah keuntungan turun =2/5P2 = P(turun)P(turun | usia aset=baru,nilaisaing=ada,jenis=hardware) = 0Kesimpulan : P1 > P2 → keuntungan naikZero?
  17. 17. Laplacian CorrectionUntuk menghindari probabilitas 0- Ditambahkan data dummy pada data set.P(X=A|Y=B) = (Jumlah kemunculan X=A dan Y=B)+1(Jumlah kemunculan Y=B) + (Jumlahkemungkinan nilai X)
  18. 18. Lanjutan..Perhitungan probabilitas dengan Laplace Correction:P(usia aset=baru|turun) =(Jumlah usia aset baru dan keuntungan turun)+1/(Jumlahkeuntungan turun) + |Kemungkinan usia aset| = (0+1)/(5+3) =1/8|Kemungkinan usia aset| = 3 yaitu: Lama, Tengah, BaruLakukan laplace correction untuk atribut lainnya. Apakahhasilnya masih sama? P1 > P2?
  19. 19. Diberikan data delapan nasabah Bank. Buat Pendapatan dalam 4 kategori,sbb: 0-25, 26-50, 51-75, >75.Dari data tersebut, tentukan peluang risiko kredit baik atau buruk denganmenggunakan Naive bayes, jika ada nasabah yang memilki tabungan:tinggi, aset: rendah dan pendapatan: 30 juta rupiah.LatihanNasabah Tabungan Aset Pendapatan RisikoKredit1 Sedang Tinggi 75 Baik2 Rendah Rendah 50 Buruk3 Tinggi Sedang 25 Buruk4 Sedang Sedang 50 Baik5 Rendah Sedang 100 Baik6 Tinggi Tinggi 25 Baik7 Rendah Rendah 25 Buruk8 Sedang Sedang 75 Baik

×