Bab 3                                 SQL Server 2008 Data Mining3.1     PendahuluanHampir setiap perusahaan memiliki apli...
pendukung (yang tentu saja terdapat di dalam database) adalah tanggal pelunasan setiap periode,tanggal jatuh tempo tiap pe...
Keterkaitan tidak selalu melibatkan 2 item, sangat mungkin keterkaitan melibatkan lebih dari 2 item,sebagai contoh bila it...
dari OLTP, sebaiknya pastikan datanya telah konsisten. Bila belum konsisten, SSIS bisa digunakan untukmelakukan cleansing ...
deploy solusi sample analysis service AdventureWorksDW2008, silahkan ikuti langkah-langkah padaAppendix B.3.4.1   Microsof...
Berdasarkan gambar 3.4.1, kita melihat bahwasanya terdapat 4 level dimana level kedua adalah NumberCars Owned yang menentu...
Gambar 3.2 Dependency Network untuk Algoritma Microsoft Decision TreeGambar 3.4.2 menampilkan semua atribut dalam bentuk n...
Gambar 3.4 Hubungan Atribut BikeBuyer terhadap Semua Atribut yang Mengkontribusi PrediksiTerdapat warna hijau karena focus...
Bentuk tugas dasar yang dilakukan oleh algoritma ini adalah tugas dasar klasifikasi (sub bab 3.2.1).Namun algoritma ini bi...
Kembali kepada Gambar 3.4.1, pilih TM Naïve Bayes pada combo box Mining Model dan Microsoft NaïveBayes Viewer pada combo b...
3.4.3.1 Attribute Profiles                                Gambar 3.7 Tampilan Sub Tab Attribute ProfilesSub tab attribute ...
Gambar 3.8 Tampilan Sub Tab Attribute CharacteristicsPada Gambar 3.8, pastikan atribut BikeBuyer terpilih pada combo box A...
Gambar 3.9 Tampilan Sub Tab Attribute DiscriminationKembali urutan atribut kontributor prediksi yang ditampilkan berdasark...
Gambar 3.10 Tampilan Cluster Diagram Algoritma Microsoft ClusteringBentuk tugas dasar yang dilakukan oleh algoritma Cluste...
Gambar 3.11 Hasil Tampilan Clustering Setelah RenameBerikutnya kita masuk ke sub tab kedua, Cluster Profiles.3.4.4.2 Clust...
Gambar 3.12 Distribusi Nilai Setiap Atribut Pada Cluster BikeBuyer = 1Di dalam cluster BikeBuyer = 1, kita bisa melihat ka...
Gambar 3.13 Cluster Characteristics pada Cluster : BikerBuyer = 13.4.4.4 Cluster DiscriminationFungsi Cluster Discriminati...
Gambar 3.14 Cluster Discrimination antara Cluster BikeBuyer = 1 dan Cluster 1Cluster Discrimination dapat membandingkan se...
Contoh penerapan asosiasi bisa ditemui pada mining model Market Basket.dmm di solusi analysisservices AdventureWorks DW 20...
Gambar 3.16 Contoh Association Rules pada Mining Model Market BasketDidalam tab Mining Model Viewer terdapat 3 sub tab yai...
3.4.6   Microsoft Sequence ClusteringAlgoritma Sequence Clustering ini dikembangkan oleh tim riset Microsoft. Algoritma in...
Gambar 3.19 Mining Model Sequence ClusteringTerlihat pada gambar 3.20 terdapat 5 sub tab yaitu Cluster Diagram, Cluster Pr...
Gambar 3.20 Designer Algoritma Sequence ClusteringPilih sub tab State Transitions, pilih node Water Bottle dan naikkan sli...
Gambar 3.21 State Transitions pada Node Bottle WaterTerlihat nilai probabilitas transisi dari nodeWater Bottle ke node yan...
Gambar 3.21 Mining Model Forecasting (Forecasting.dmm)Di dalam designer untuk mining model Forecasting.dmm, pilih tab Mini...
Gambar 3.22 Grafik Prediksi untuk Microsoft Time SeriesTerlihat di gambar 3.22, diambil contoh prediksi penjualan di tahun...
Number CarsOwned = 0Age = 30                                                                                  BikeBuyer = ...
Gambar 3.25 Contoh Penerapan Microsoft Neural NetworkTampilan informasi untuk Microsoft Neural Network sama seperti sub ta...
Gambar 3.26 Connect ke Analysis ServicesPilih nama server analysis service di window dialog Connect To Server dan tekan to...
Gambar 3.27 Penggunaan DMX secara GrafisTerlihat di gambar 3.28, designer untuk melakukan DMX secara grafis.
Gambar 3.28 Designer DMXMari kita hands-on bagaimana penggunaan DMX secara grafis. Dari gambar 3.28, tekan tombol SelectMo...
Gambar 3.29 Pemilihan Algoritma untuk PrediksiDi sub window Select Input Table(s) (gambar 3.30), pilih tombol Select Case ...
Gambar 3.30 Pemilihan Sumber Data yang Menjadi Target PrediksiSecara otomatis, analysis service melakukan mapping antara m...
Gambar 3.31 Mapping Kolom antara Mining Model dengan Input Table(s)Di dalam data grid yang tersedia (dibawah kedua sub win...
Gambar 3.32 Pemilihan informasi Yang akan ditampilkan dengan Prediksi BikeBuyer = 1Bila sudah dirasa mencukupi, di bagian ...
Gambar 3.35 Tampilan Hasil PrediksiAnda bisa melihat bentuk query DMX dengan memilih tombol kedua di gambar 3.34, query-ny...
Gambar 3.36 Query DMXDari gambar 3.36 terlihat keyword yang menjadi karakteristik query DMX seperti PREDICTION JOIN.Terdap...
Gambar 3.37 Manipulasi Query DMXEksekusi dengan menekan tombol query view (tombol ketiga pada gambar 3.34), hasilnya terli...
Gambar 3.39 Bentuk Tampilan Designer untuk Prediksi Data Mining di Visual StudioCobalah lakukan cara serupa seperti yang s...
<tipe join> = tersedia PREDICTION JOIN, NATURAL PREDICTION JOIN, hanya PREDICTION JOIN yangmemerlukan ekspresi join (ON <e...
Perhatikan huruf yang penulis sengaja tebalkan untuk menegaskan penggunaan sintax query DMX. Halyang menjadi perhatian ada...
Gambar 3.41 Pemilihan Mining Model untuk PrediksiCopy paste query DMX (diatas gambar 3.40) ke dalam designer window data m...
SELECT [FirstName], [LastName], [Gender], [CustomerKey],      [MaritalStatus] AS [Marital Status],      [YearlyIncome] AS ...
(           select            Ali AS [First Name],            Santoso AS [Last Name]            N AS [Marital Status],    ...
7. Di bagian Welcome to the Report Wizard, tekan tombol Next seperti yang ditunjukkan pada   gambar di bawah ini.8. Di bag...
9. Di window dialog Connection Properties, masukkan Server Name untuk analysis services dan   juga nama database analyss s...
10. Bila koneksi berhasil tersambung ke nama server dan database analysis service maka akan    muncul pesan sukses atau ga...
11. Terlihat pada gambar di bawah ini, connection string untuk analysis services yang anda tuju dan    tekan tombol Next u...
12. Di bagian Design the Query, tekan tombol Query Builder untuk membuat query DMX secara    grafis maupun secara manual.
13. Muncul window dialog Query Designer, pilih toolbar data mining (yang disorot pada gambar di    bawah ini).
14. Muncul pesan konfirmasi “Switching from MDX to CMX will result in losing all current design    context. Do you want to...
15. Di window Query Designer, tentukan mining model dengan menekan tombol Select Model.
16. Di window dialog Select Mining Model, pilih TM Decision Tree yang ada di bwah Targeted    Mailing, database analysis s...
17. Di window dialog Query Designer, pilih tombol Select Case Table. Case table adalah sumber data    yang ingin anda pred...
18. Tentukan Data Source (Adventure Works DW) dan juga sumber data di Table/View Name    (Customer (dbo)) lalu tekan OK.
19. Sd
20. Kembali ke window dialog Report Wizard, terlihat query DMX telah tercreate lalu maju ke step    berikutnya dengan memi...
21. Di bagian Select the Report Type, pilih opsi Tabular dan tekan tombol Next.
22. Di bagian Design the Table, tekan tombol Next.
23. Di bagian Choose the Table Style, pilih tampilan report yang anda inginkan, lalu tekan tombol    Next.
24. Di bagian akhir Completing the Wizard, masukkan nama report (misalnya : List of Potential Bike    Buyer) kemudian teka...
25. Di Visual Studio terlihat tampilan designer report anda. Report data mining tersebut bisa di    preview di Visual Stud...
26. Terlihat daftar calon customer yang diprediksi akan membeli produk sepeda.
3.6.2   Delivery Data Mining lewat Microsoft ExcelBentuk penggunaan data mining oleh pengguna awam dimungkin lewat Microso...
Berikut cara pembuatan mining model di sampel project analysis service yang akan dipandu langkahdemi langkah.    1. Buka V...
4. Pada bagian informasi Welcome to the Data Mining Wizard, pilih tombol Next untuk maju ke   step berikutnya.5. Pada bagi...
6. Pada bagian Create the Data Mining Structure, terdapat 9 pilihan algoritma data mining. Sebagai   demo pada contoh ini,...
7. Pada bagian Select Data Source View, tentukan data source yang tersedia (dibagian Available   data source views) dan te...
8. Pada bagian Specify Table Types, pilih vTargetMail sebagai Case table dan tekan tombol Next.   Case table akan digunaka...
9. Di bagian Specify Training Data, pilih CustomerKey sebagai key, dan BikeBuyer sebagai   Predictable attribute (atribut ...
10. Di window dialog Suggest Related Columns, terdapat score untuk setiap kolom sumber data.    Anda bisa mengikutsertakan...
11. Terlihat kolom-kolom yang dipilih sebagai kontributor prediksi terpilih pada langkah 9. Anda    masih bisa melakukan p...
12. Di bagian Specify Columns’ Content and Data Type terdapat atribut prediksi berserta atribut    contributor prediksi. T...
13. Terdapat perubahan sebelum dan sesudah tombol Detect ditekan. Perubahan dari Continuous    ke Discrete terjadi pada ko...
14. Di bagian Create Testing Set, tentukan porsi data yang digunakan untuk testing validasi    keakuratan sebuah data mini...
15. Di bagian akhir wizard, beri nama untuk data mining (misalnya: Bike Buyer) dan model data    mining (misalnya : Bike B...
16. Data mining Bike Buyer terlihat pada window panel Solution Explorer dan muncul designer    untuk data mining terkait d...
17. Di dalam tab Mining Models (dilingkari pada gambar dibawah ini), terdapat 1 algoritma yang    diimplementasikan terhad...
18. Muncul window dialog New Mining Model, pilih Microsoft Naïve Bayes pada combo box    Algorithm name dan beri nama mini...
Pilih Yes pada window dialog konfirmasi.20. Di dalam tab Mining Models kini terdapat 2 mining model (yaitu Bike Buyer Deci...
22. Masuk kembali ke tab pertama (tab Mining Structure). Pilih atribut Age dan di bagian window    panel Properties terkai...
23. Kembali ke tab Mining Models. Anda bisa menambahkan beberapa algoritma yang lain sampai    cukup mining model yang ada...
24. Terlihat di window panel Deployment Progress, analysis service melakukan deployment di    analysis server.
25. Setelah deployment selesai, dilanjutkan dengan processing mining structure terhadap mining    model. Tekan tombol Run ...
26. Pada gambar dibawah ini, diperlihatkan proses processing sampai selesai. Setelah status :    Process succeeded muncul ...
3.8    Validasi Mining ModelSampai dengan langkah 26, data mining Bike Buyer telah selesai dibuat di proses. Pertanyaan ya...
Di sub tab Input Selection, terlihat mining model yaitu Bike Buyer Decision Tree dan NaïveBayes. Karena atribut yang dipre...
Opsi ketiga adalah kita mendefinisikan test case yang berasal dari sumber data yang lain               dengan memilih tomb...
29. Untuk melihat nilai lain selain 49.50% pada Population Percentage dapat dilakukan dengan       meng-click area grafik....
a. Population          Artinya jumlah calon customer yang akan menjadi target aktivitas marketing. Misalnya          kita ...
3.8.3   Sub Tab Classification MatrixSub tab ketiga adalah sub tab Classification Matrix. Sub tab classification Matrix me...
Terlihat bahwa mining model Bike Buyer Decision Tree lebih banyak menghasilkan prediksi yang        tepat ketimbang mining...
34. Hasilnya terlihat analisa untuk mining model Bike Buyer Decision Tree dan Bike Buyer Naïve    Bayes terhadap mining st...
e. Target Threshold              Nilai minimum dimana suatu prediksi dianggap tepat. Kisaran nilainya antara 0 dan 1.     ...
Bab 4                       SQL Server 2008 Reporting Services (SSRS)SQL Server Reporting Services (SSRS) adalah platform ...
Upcoming SlideShare
Loading in …5
×

Essential sql server 2008 bi sql server indonesia group - data mining

2,612 views
2,484 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,612
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
118
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Essential sql server 2008 bi sql server indonesia group - data mining

  1. 1. Bab 3 SQL Server 2008 Data Mining3.1 PendahuluanHampir setiap perusahaan memiliki aplikasi yang mencatat kegiatan transaksi harian ke dalam database.Setelah beberapa waktu berjalan, terkumpul ratusan ribu bahkan jutaan data transaksi di dalamdatabase. Data transaksi tersebut merupakan history pasang surut perusahaan yang perlu diolahmenjadi sebuah informasi yang membantu pihak manajemen mengambil keputusan strategis secaralebih akurat. Bagaimana informasi tersebut bisa didapatkan dari hasil analisa data? Kuncinya adalahpenarikan pola data dengan mempelajari sampel data yang diberikan untuk menjawab kebutuhaninformasi strategis perusahaan. Bermodalkan pola tersebut, sebuah organisasi dapat mengetahuiprobabilitas apakah suatu tujuan akan tercapai dengan melihat parameter-parameter input yang telahditetapkan, misalnya seberapa besar kecenderungan seorang customer memarkir kendaraannya (kurangdari 1 jam, 2 jam, 3 jam, lebih dari 3 jam) bila seorang customer memiliki 2 kendaraan, memiliki 1 anak,berbelanja lebih dari 10 jenis barang serta customer tersebut tinggal lebih dari 10 kilometer. Sehinggaorganisasi tersebut dapat memperkirakan pemasukan dari jasa parkir kendaraan bermotor.3.2 Jenis Tugas Dasar pada Data MiningSetelah mengetahui faedah data mining, kita perlu mengenali bentuk tugas dasar data mining dalammelakukan pengolahan data menjadi informasi. Pada hakekatnya, tugas dasar yang bisa dilakukan olehdata mining ada 6 yaitu : 1. Klasifikasi 2. Regresi 3. Segmentasi 4. Asosiasi 5. Analisa urutanMari kita tinjau setiap tugas dasar yang terdapat pada data mining.3.2.1 KlasifikasiBentuk tugas dasar ini adalah dengan menentukan pengelompokan informasi akhir yang hendakdidapatkan. Misalnya klasifikasi customer yang berpotensi memiliki kredit macet dan kredit lancar.Biasanya di dalam sumber data terdapat atribut yang menjadi tujuan klasifikasi. Atribut tujuan biasanyamerupakan kolom dari sebuah tabel atau dimensi di dalam Analysis Service. Kemudian klasifikasimembutuhkan juga atribut-atribut lain yang memiliki pengaruh signifikan terhadap atribut tujuan. Sayasebut atribut demikian sebagai atribut pendukung. Dalam contoh kredit macet/lancer, atribut-atribut
  2. 2. pendukung (yang tentu saja terdapat di dalam database) adalah tanggal pelunasan setiap periode,tanggal jatuh tempo tiap periode, lama kredit yang diberikan, besar kredit yang diberikan, besar bungakredit, besar aset yang diagunkan dan indikator-indikator lainnya. Dengan data-data yang tersedia, datamining dapat memberikan petunjuk kepada pengguna data mining apakah sebaiknya mencucurkankredit kepada seorang customer.Kelihatannya sederhana, namun dengan jumlah data yang besar dan jumlah atribut pendukung yangbanyak, klasifikasi secara manual menjadi tidak mudah dibandingkan pengolahan secara efisien danakurat oleh data mining SQL Server.3.2.2 RegresiJenis tugas dasar ini hampir sama dengan jenis tugas dasar klasifikasi. Perbedaan antara keduanyaadalah regresi memberikan hasil yang tidak terbatas sedangkan klasifikasi memberikan hasil yang diskrit(terbatas kemungkinan yang ada – ingat contoh customer berpotensi kredit macet atau kredit lancar?Berarti ada 2 jenis kemungkinan dari hasil probabilitas).Contoh dari regresi adalah kebutuhan perusahaan untuk melakukan estimasi nilai sales pada tahundepan berdasarkan analisa trend sales tahun-tahun sebelumnya. Katakanlah nilai tahun lalu sebesar 100juta rupiah, tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa naik atau bisa turun. Kemungkinanhasil probablitas tidak terbatas hanya 100 juta ataupun 200 juta rupiah.3.2.3 SegmentasiSegmentasi adalah bentuk tugas dasar data mining yang memilah data-data ke dalam beberapakelompok. Masing-masing kelompok memiliki karakteristik atribut yang sama. Contoh segmentasiadalah analisa pendekatan calon klien oleh sebuah perusahaan jasa untuk aktivitas sales dan marketing.Calon klien adalah dipilah berdasarkan 3 kelompok klien yaitu klien kecil dengan jumlah karyawankurang dari 100 orang, klien menengah dengan jumlah karyawan 101 sampai dengan 500 dan klienberskala besar dengan jumlah karyawan di atas 500. Masing-masing kelompok memiliki rentangpenghasilan perusahaan yang serupa, cakupan kebutuhan yang serupa, dan lain sebagainya.SQL Server 2008 akan membantu memilihkan atribut yang menjadi segmentasi setelah menganalisadata yang ada.3.2.4 AsosiasiAsosiasi adalah bentuk tugas dasar yang mencari keterkaitan antara satu item dengan item lainnya padaatribut yang sama, sehingga asosiasi dapat juga disebut keterkaitan. Item-item yang terkait satu samalain dapat dipandang sebagai satu kesatuan unit.Contoh asosiasi adalah apabila seorang customer membeli buku SQL Server Analysis Service 2008kemungkinan besar dia juga akan memerlukan buku SQL Server Reporting Services 2008 sehinggadengan mengetahui keterkaitan antara keduanya; seorang sales dapat menawarkan buku ReportingServices tersebut kepada customer.
  3. 3. Keterkaitan tidak selalu melibatkan 2 item, sangat mungkin keterkaitan melibatkan lebih dari 2 item,sebagai contoh bila item A dan item B merupakan satu kesatuan unit, probabilitas yang besar terjadi bilaitem C juga masuk ke dalam kesatuan unit tersebut karena item A, B dan C memiliki keterkaitan satudengan lainnya.3.2.5 Sequence AnalysisSequence analysis akan menampilkan pola persinggahan data dari satu node ke node lainnya. Contohyang paling menggambarkan teknik sequence analysis adalah pola navigasi user pada sebuah websitedimana setelah user mengakses web page A, lebih besar probabilitas user akan mengunjungi web pageB ketimbang web page C.Agar data mining dapat memprediksi pola akses berbasis sequence analysis, diperlukan data-datalampau untuk dipelajari pola akses untuk sequence analysis.3.3 Langkah-langkah data miningUntuk memanfaatkan data mining untuk mempelajari pola dari data yang dimiliki oleh suatu perusahaandan mampu memberikan prediksi berdasarkan pola data yang ada, maka diperlukan langkah-langkahpenentuan definisi data mining dari awal sampai dengan data mining siap untuk memberikan prediksi.Langkah-langkah tersebut adalah :1. Definisi permasalahan bisnis yang ingin diketahui2. Mempersiapkan data yang menjadi sumber untuk data mining untuk dipelajari polanya.3. Menentukan porsi data yang digunakan men-training data mining berdasarkan algoritma data miningyang telah dibuat.4. Validasi apakah data mining memberikan prediksi yang akurat.5. Data mining dideploy ke analysis server.3.3.1 Definisi masalahLangkah pertama dalam pembuatan data mining adalah definisi permasalahan bisnis yang ingin dijawab,misalnya ingin mengetahui apakah seorang customer berpotensi memiliki kredit macet, ataumengidentifikasi seorang customer apakah akan pindah ke kompetitor bisnis kita, dan lain sebagainya.Setelah menemukan pertanyaan bisnis yang perlu dijawab oleh data mining, selanjutnya tentukan tipetugas dasar untuk menjawab pertanyaan bisnis tersebut. Tugas dasar yang menjadi dasar algoritma datamining adalah klasifikasi, regresi, segmentasi, asosiasi dan sequence analysis. Dengan mengetahui tugasdasar, anda memiliki pedoman kira-kira algoritma mana yang bisa digunakan untuk menjawabpertanyaan bisnis.3.3.2 Persiapan dataSetelah menentukan definisi masalah, langkah berikutnya adalah mencari data yang mendukung definisimasalah anda. Sumber data dapat berasal dari OLTP maupun dari cube OLAP. Bila sumber data berasal
  4. 4. dari OLTP, sebaiknya pastikan datanya telah konsisten. Bila belum konsisten, SSIS bisa digunakan untukmelakukan cleansing data sampai data tersebut konsisten.3.3.3 Pelatihan data untuk algoritma data miningSetelah persiapan data selesai dilakukan, langkah berikutnya adalah memberikan sebagian data kedalamalgoritma data mining. Algoritma data mining perlu mempelajari pola data yang diberikan guna menarikinformasi dan trend dari data tersebut. Istilah itu dikenal dengan sebutan training data mining.3.3.4 Validasi algoritma data miningSetelah training data selesai dilakukan, data mining tersebut perlu di-“uji” atau di-validasikeakuratannya terhadap data testing. Biasanya tidak hanya 1 algoritma data mining yangdiimplementasikan ke dalam suatu data mining. Berarti data yang dipersiapkan pada sub bab 3.3.2mengandung data yang digunakan untuk training dan data yang digunakan untuk testing. Pemilihan datatraining dan data testing dapat dilakukan secara manual ataupun secara acak oleh SQL Server.3.3.5 Deploy aplikasi data miningSetelah algoritma data mining berhasil melalui proses validasi, data mining di-deploy ke analysisservices. Data mining siap menjawab pertanyaan bisnis lewat tool front-end (seperti reporting services,Microsoft Excel dan lain sebagainya) ataupun bahasa SQL khusus untuk data mining yang disebut queryDMX (Data Mining Extensions) yang akan dibahas pada sub bab selanjutnya.3.4 Jenis Algoritma Data MiningSQL Server 2008 memiliki 9 jenis algoritma data mining. Tidak semua algoritma tersebut digunakandalam memecahkan masalah data mining karena setiap algoritma memiliki karakteristik yang mungkincocok dengan karakteristik masalah yang perlu dicarikan solusi di dalam data mining.9 jenis data mining tersebut adalah : 1. Microsoft Decision Tree 2. Microsoft Linear Regression 3. Microsoft Naïve Bayes 4. Microsoft Clustering 5. Microsoft Association Rules 6. Microsoft Sequence Clustering 7. Microsoft Time Series 8. Microsoft Neutral Network 9. Microsoft Logistic Regression Algorithm.Sebelum kita telusuri karakteristik setiap algoritma pada sub bab berikutnya terlebih dahulu pastikandatabase AdventureWorksDW2008 beserta project analysis service telah dideploy ke SQL Server. Untukdeploy database keluarga AdventureWorks, silahkan ikuti langkah-langkah pada Appendix A. Untuk
  5. 5. deploy solusi sample analysis service AdventureWorksDW2008, silahkan ikuti langkah-langkah padaAppendix B.3.4.1 Microsoft Decision TreeMicrosoft Decision Tree memberikan prediksi dalam bentuk struktur pohon (tree). Untuk lebih jelasnya,silahkan buka project Adventure Works DW 2008 yang dijabarkan pada appendix B. Di panel windowSolution Explorer, expand folder Mining Structures dan double click Targeted Mailing.dmm yang akanmemunculkan designer Targeted Mailing.dmm. Pilih tab ketiga (Mining Model Viewer) di dalam designertersebut. Pastikan TM Decision Tree terpilih untuk combo box Mining Model dan Microsoft Tree Viewerterpilih untuk combo box Viewer. Secara default 3 level (di bagian Default Expression) akan ditampilkandi Microsoft Tree Viewer. Lalu Expand sesuai dengan Gambar 3.4.1. Gambar 3.1 Algoritma Microsoft Decision TreeTree diatas memberikan informasi mengenai kecenderungan seorang customer yang membeli sepeda(Bike Buyer) berdasarkan analisa atribut (Number Cars Owned, Region, Total Children). Dimana nilainyaadalah 0 atau 1. Nilai 0 berarti seorang customer yang tidak membeli sepeda sedangkan nilai 1 berartiseorang customer yang membeli sepeda. Pada Gambar 3.4.1 juga terlihat window Mining Legend yangmemperlihatkan BikeBuyer dengan nilai 1 diwakili dengan warna merah.
  6. 6. Berdasarkan gambar 3.4.1, kita melihat bahwasanya terdapat 4 level dimana level kedua adalah NumberCars Owned yang menentukan apakah seorang customer merupakan BikeBuyer. Level berikutnyaditentukan oleh atribut Region dan level terakhir ditentukan oleh atribut Total Children. Untuk levelkedua (Number Cars Owned) persentase BikeBuyer = 1 terbesar jatuh pada Number Cars Owned = 0dengan persentase 63.99%. Anda bisa temukan nilai ini lewat window mining legend. Untuk level ketiga(Region) persentase BikeBuyer = 1 terbesar jatuh pada Region Pacific dengan nilai 91.68%. Untuk levelkeempat (atribut Total Children) persentase BikeBuyer = 1 terbesar jatuh pada Total Children not = 4dengan persentase 94.37%.Informasi yang bisa ditarik dari Decision Tree diatas adalah customer paling potensial BikeBuyer adalahyang tidak memiliki kendaraan (Number Cars Owned = 0), berada pada region Pacific dan tidak memiliki4 orang anak. Dengan demikian bagian marketing perusahaan tersebut bisa menargetkan secara lebihterarah aktivitas marketingnya.Tab Mining Model Viewer memiliki 2 sub tab yaitu tab Decision Tree dan tab Dependency Network.Gambar 3.4.1 terdapat pada tab Decision Tree. Mari kita lihat informasi yang bisa ditampilkan di dalamtab Dependency Network di dalam Gambar 3.4.2.
  7. 7. Gambar 3.2 Dependency Network untuk Algoritma Microsoft Decision TreeGambar 3.4.2 menampilkan semua atribut dalam bentuk node yang terarah ke satu node yaituBikeBuyer. Arah panah tersebut menunjukkan BikeBuyer sebagai atribut yang menjadi target prediksisedangkan asal arah panah menunjukkan atribut yang berperan dalam memprediksi atribut BikeBuyer.Pilih satu satu atribut yang berkontribusi dalam meramalkan atribut BikeBuyer (misalnya atribut Region)seperti pada Gambar 3.4.3 Gambar 3.3 Hubungan Atribut Region terhadap Atribut BikeBuyerTerlihat 2 warna yang berbeda. Atribut Region bewarna hijau sedangkan atribut BikeBuyer berwarnabiru. Apa arti warna-warna tersebut. Dari keterangan warna di Gambar 3.4.3 memberikan penjelasansebagai berikut : = Atribut yang sedang di click (atribut Region pada Gambar 3.4.3). = Atribut yang sedang di click (atribut Region pada Gambar 3.4.3)memprediksi node target (atribut BikeBuyer pada Gambar 3.4.3).Berikutnya coba click node BikeBuyer yang menjadi atribut yang diprediksi seperti pada Gambar 3.4.4.
  8. 8. Gambar 3.4 Hubungan Atribut BikeBuyer terhadap Semua Atribut yang Mengkontribusi PrediksiTerdapat warna hijau karena focus yang di-click adalah atribut BikeBuyer dan warna merah yangdijelaskan pada bagian keterangan warna pada Gambar 3.4.4. = Atribut yang menentukan prediksi pada node yang sedang dipilih(atribut kBikeBuyer)Ada satu keterangan warna yaitu warna ungu, , yaitu node tersebut bisa menjadiatribut yang memiliki kontribusi prediksi terhadap atribut lain namun sekaligus menjadi atribut yangmenjadi target prediksi dari atribut lain.Di bagian kiri terdapat slider, yang menampilkan tingkat keterkaitan antara atribut yang menjadi targetprediksi (atribut BikeBuyer) dengan atribut yang menyumbang prediksi. Terdapat tulisan All Links dibagian atas slider dan tulisan Strongest Links pada bagian bawah slider. Anda bisa menggeser slidertersebut di antara kedua titik ekstrim tersebut. Sisi ekstrim bagian atas (All Links) pada slider tersebutakan menampilkan panah semua atribut yang menyumbang prediksi, sedangkan sisi ekstrim bagianbawah (Strongest Links) akan menampilkan panah hanya ada atribut yang memiliki kontribusi prediksiterkuat dari semua atribut yang memberikan kontribusi kepada atribut target prediksi. Coba anda geser-geser slider tersebut antara kedua titik ekstrim atas dan bawah untuk memperjelas pemahaman andamengenai informasi yang ditampilkan di tab Dependency Network .
  9. 9. Bentuk tugas dasar yang dilakukan oleh algoritma ini adalah tugas dasar klasifikasi (sub bab 3.2.1).Namun algoritma ini bisa juga diterapkan untuk tugas dasar regresi (sub bab 3.2.2) dan asosiasi (sub bab3.2.4).3.4.2 Microsoft Linear RegressionAlgoritma ini merupakan turunan dari algoritma Decision Tree. Bila di bahasa indonesiakan adalahregresi linier. Di dalam dunia statistik, regresi linier melibatkan 2 jenis variabel numerik yaitu variabelindependen dan variabel non-independen. Variabel-variabel tersebut harus bertipe numerik dancontinuous (tidak diskrit, sedangkan Microsoft Decision Tree bersifat diskrit). Ilustrasi selengkapnya bisadilihat pada Gambar 3.4.2. Gambar 3.5 Algoritma Microsoft Linear RegressionDari Gambar 3.4.2, bisa diprediksi nilai variabel non-independen pada sumbu Y bila diketahui nilaivariabel independen pada sumbu X.Bentuk tugas dasar yang dilakukan oleh algoritma ini adalah tugas dasar regresi.3.4.3 Microsoft Naïve BayesAlgoritma Naïve Bayes akan mengevaluasi setiap atribut yang mengkontribusi prediksi pada atributtarget (atribut BikeBayer pada solusi AdventureWorks DW 2008). Namun Algoritma Naïve Bayes tidakmemperhitungkan relasi antar atribut-atribut kontributor prediksi (Number Children at Home, YearlyIncome, Total Children, Occupation, Commute Distance, Number Cars Owned, Education, Age, MaritalStatus, House Owner Flag, Region). Sebaliknya Microsoft Decision Tree memperhitungkan relasi antaratribut (lihat kembali Gambar 3.4.1).Bentuk tugas dasar yang dilakukan oleh algoritma Naïve Bayes adalah hanyalah klasifikasi.
  10. 10. Kembali kepada Gambar 3.4.1, pilih TM Naïve Bayes pada combo box Mining Model dan Microsoft NaïveBayes Viewer pada combo box Viewer. Anda akan dihadirkan dengan 4 sub tab (Dependency Network,Atribut Profile, Atribut Characteristics, Atribut Discrimination) seperti pada Gambar 3.4.6 di bawah ini : Gambar 3.6 Tampilan 4 Sub Tab pada Algoritma Naïve BayesPenggunaan dan intrepetasi informasi di bagian sub tab Dependency Network telah diulas pada sub bab3.4.1. Mari tinjau ketiga sub tab lainnya.
  11. 11. 3.4.3.1 Attribute Profiles Gambar 3.7 Tampilan Sub Tab Attribute ProfilesSub tab attribute profiles menampilkan atribut kontributor prediksi yang bisa dilihat pada kolomAttributes, namun itu tergantung pilihan yang muncul pada combo box Predictable (dalam solusi inihanya terdapat 1 atribut yang diprediksi yaitu atribut BikeBuyer). Terdapat pengelompokan untuk tiapatribut kontributor prediksi seperti atribut Age memiliki 5 buah pengelompokan, atribut Marital Statusmemiliki 3 buah pengelompokan dan seterusnya. Mari kita lihat salah satu atribut kontributor prediksi,yaitu atribut Age. Kita ingin melihat distribusi kelompok umur yang memiliki nilai BikeBuyer = 1 (penulismeng-click kolom 1 (kolom kelima dari kiri) dan pastikan centang check box “Show legend”). Dariwindow Mining Legend terlihat kelompok umur 41-48 memiliki proporsi terbesar dalam pembeliansepeda (BikeBuyer = 1).3.4.3.2 Attribute CharacteristicsInformasi yang ditampilkan pada sub tab Attribute Characteristics ini adalah menampilkan semua atributpendukung prediksi yang mungkin muncul pada atribut prediksi (BikeBuyer). Informasi yang ditampilkanoleh sub tab ini dapat dilihat pada Gambar 3.8.
  12. 12. Gambar 3.8 Tampilan Sub Tab Attribute CharacteristicsPada Gambar 3.8, pastikan atribut BikeBuyer terpilih pada combo box Attribute dan nilai yang ingindiprediksi adalah 1 pada combo box Value. Terlihat bahwa Number Children At Home = 0 memilikiprobabliitas yang terbesar yang mungkin muncul untuk atribut BikeBuyer = 1. Attribute Characteristicsakan menampilkan atribut pendukung prediksi dari probabilitas terbesar (atribut Number Children atHome dengan nilai 0) sampai dengan probabilitas terkecil (atribut Age 70-75, scroll down ke bawahkarena tidak terlihat di Gambar 3.8).3.4.3.3 Attribute DiscriminationInformasi yang ditampilkan pada sub tab Attribute Discrimination ini adalah kecenderungan nilaiattribute pendukung prediksi terhadap nilai atribut target prediksi (dalam sampel ini adalah atributBikeBuyer yang memiliki nilai atribut 0 dan 1). Gambar 3.9 menunjukkan atribut pendukung prediksiberdasarkan input yang diberikan (pilih atribut BikeBuyer pada combo box Attribute, nilai 1 untukcombo box Value 1, nilai 0 untuk combo box Value 2).
  13. 13. Gambar 3.9 Tampilan Sub Tab Attribute DiscriminationKembali urutan atribut kontributor prediksi yang ditampilkan berdasarkan besar kontribusi prediksiterhadap atribut BikeBuyer. Dari Gambar 3.9 terlihat bahwa customer dengan Number Cars Owned = 0(tanpa kepemilikan mobil) sangat berpeluang membeli sepeda (BikeBuyer = 1), dimana detilnya bisadilihat pada window Mining Legend setelah di-click pada row pertama. Namun terlihat informasi jugabahwa customer yang memiliki 2 kendaraan (Number Cars Owned = 2) sangat berpeluang tidak membelisepeda. Semakin kebawah besar probabilitas atribut semakin kecil.Sehingga dapat dikatakan bahwa Attribute Discrimination akan menampilkan besar peluang dari atributkontributor prediksi baik yang mendukung prediksi yang diharapkan (BikeBuyer = 1) maupun prediksiyang tidak diharapkan (BikeBuyer = 0).3.4.4 Microsoft ClusteringAlgoritma Microsoft Clustering ini akan membuat beberapa cluster data dan cluster data tersebutterhubung satu dengan lainnya. Setelah cluster tersebut terbentuk dan meneria input atribut yang akandiprediksi beserta nilainya (misal : BikeBuyer = 1), algoritma ini akan menganalisa setiap clusterberdasarkan input yang diterima dan akan menampilkan atribut kontributor prediksi yang palingmempengaruhi dari setiap cluster.Masih di dalam data mining model Targeted Mailing.dmm, pilih tab Mining Model Viewer, pilih TMClustering pada combo box Mining Model dan pastikan Microsoft Cluster Viewer terpilih di combo boxViewer. Terdapat 4 sub tab untuk Microsoft Clustering yaitu Cluster Diagram, Cluster Profiles, ClusterCharacteristics, dan Cluster Discrimination. Gambar 3.10 menampilkan apa yang muncul ketika kitamelakukan langkah-langkah yang telah dijabarkan sebelumnya.
  14. 14. Gambar 3.10 Tampilan Cluster Diagram Algoritma Microsoft ClusteringBentuk tugas dasar yang dilakukan oleh algoritma Clustering adalah hanyalah segmentasi, namunmencakup pula tugas dasar regresi dan klasifikasi.Mari kita bahas lebih lanjut setiap sub tab pada sub bab di bawah ini.3.4.4.1 Cluster DiagramCluster Diagram menampilkan informasi karakteristik setiap cluster ketika user memilih atribut yanghendak dianalisa misalnya BikeBuyer=1. Kemudian pilih BikeBayer di dalam combo box Shading Variabledan pilih nilai 1 pada combo box State. Hasilnya terlihat pada gambar 3.10. Makin gelap warna suatucluster, makin mendominasi nilai atribut BikeBuyer = 1. Click kanan pada Cluster 3 dan pilih RenameCluster pada context menu, namakan BikeBuyer = 1. Hasilnya ditampilkan seperti pada gambar 3.11.
  15. 15. Gambar 3.11 Hasil Tampilan Clustering Setelah RenameBerikutnya kita masuk ke sub tab kedua, Cluster Profiles.3.4.4.2 Cluster ProfilesHampir serupa dengan fungsi pada sub tab Attribute Profiles di Algoritma Naïve Bayes, dimana kita bisamelihat distribusi nilai setiap kelompok yang ada pada setiap atribut. Perbedaannya adalah attributeprofiles di Naïve Bayes menampilkan nilai atribut yang diprediksi (nilai missing, 0, dan 1), sebaliknyacluster profiles di Microsoft Clustering menampilkan semua cluster yang ada di Cluster Diagram.Selengkapnya bisa bandingkan gambar 3.12 (Microsoft Clustering) dengan gambar 3.7 (Microsoft NaïveBayes).
  16. 16. Gambar 3.12 Distribusi Nilai Setiap Atribut Pada Cluster BikeBuyer = 1Di dalam cluster BikeBuyer = 1, kita bisa melihat karakteristik setiap kelompok untuk setiap atribut.3.4.4.3 Cluster CharacteristicsCluster Characteristics memiliki fungsi yang sama seperti pada Attribute Characteristics di pembahasanMicrosoft Naïve Bayes. Perbedaannya adalah analisa karakteristik terhadap cluster seperti yang terlihatpada gambar 3.13.
  17. 17. Gambar 3.13 Cluster Characteristics pada Cluster : BikerBuyer = 13.4.4.4 Cluster DiscriminationFungsi Cluster Discrimination pada algoritma Microsoft Clustering sama seperti Attribute Discriminationpada algoritma Microsoft Naïve Bayes. Bila kita amati di gambar 3.14, Cluster Discrimination akanmembandingkan nilai atribut yang paling membedakan antara cluster pertama (cluster BikeBuyer = 1)dan cluster kedua (cluster 1).
  18. 18. Gambar 3.14 Cluster Discrimination antara Cluster BikeBuyer = 1 dan Cluster 1Cluster Discrimination dapat membandingkan semua cluster selain cluster yang kita pilih pada combobox Cluster 1. Misalnya pada combo box Cluster 1 dipilih cluster BikeBuyer =1 maka pada combo boxCluster 2 tersedia pilihan Complement of BikeBuyer = 1 (semua cluster selain cluster BikeBuyer = 1).3.4.5 Microsoft Association RulesMicrosoft Association Rules merupakan implementasi terhadap tugas dasar asosiasi. Lebih lanjutasosiasi ini melibatkan 2 atau lebih item yang saling berasosiasi. Arah asosiasi pun terdiri atas 2kemungkinan, asosiasi 1 arah atau asosiasi 2 arah. Item baik yang berdiri sendiri maupun berpasangandengan item lainnya dinamakan itemset.Contoh 2 itemset yang memiliki asosiasi 1 arah adalah item notebook dan item tas notebook, bilaseorang customer membeli notebook maka kemungkinan besar juga menghendaki tas notebook, namunbelum tentu kemungkinan yang sama terjadi sebaliknya (membeli tas notebook belum tentumenghendaki notebook juga).Sedangkan 2 itemset yang memiliki asosiasi 2 arah adalah pembelian buku business intelligencekemungkinan juga tertarik dengan buku reporting services atau sebaliknya.Bentuk tugas dasar yang dilakukan oleh algoritma Association Rule adalah asosiasi.
  19. 19. Contoh penerapan asosiasi bisa ditemui pada mining model Market Basket.dmm di solusi analysisservices AdventureWorks DW 2008 seperti yang terlihat pada window panel Solution Explorer di VisualStudio (gambar 3.15). Gambar 3.15 Contoh Association Rules pada Mining Model Market BasketDouble click pada mining model tersebut (gambar 3.15) untuk memunculkan designer mining model,kemudian pilih tab Mining Model Viewer. Secara otomatis terpilih Association di combo box MiningModel karena hanya 1 jenis algoritma yang diimplementasikan untuk mining model Market Baskettersebut. Selengkapnya bisa dilihat pada gambar 3.16.
  20. 20. Gambar 3.16 Contoh Association Rules pada Mining Model Market BasketDidalam tab Mining Model Viewer terdapat 3 sub tab yaitu : Rules, Itemsets, dan Dependency Network.3.4.5.1 ItemsetsTampilan sub tab Itemsets bisa dilihat pada gambar 3.17. Gambar 3.17 Tampilan Sub Tab ItemsetsTerlihat kolom Itemset menampilkan deskripsi item terkait. Kolom Support menunjukkan jumlah kasusyang melibatkan itemset terkait. Kolom Size menampilkan jumlah anggota untuk itemset tersebut.3.4.5.2 RulesSeperti yang terlihat di gambar 3.16, rules memberikan informasi keterkaitan antar itemset. Terdapat 3kolom yaitu Probability, Importance dan Rule.Kolom Probability memberikan informasi prediksi asosiasi suatu itemset dengan itemset lainnya. Bilanilainya 1 maka yang terjadi adalah kepastian (probability = 100%).Kolom Importance menunjukkan seberapa bergunakah rule tersebut dalam menghadirkan prediksi. Nilaiimportance yang rendah menunjukkan bahwa rule tersebut tidak begitu penting dalam menentukanprediksi.3.4.5.3 Dependency NetworkSub tab yang ketiga adalah Dependency Network. Sama seperti gambar 3.2 (pada pembahasanmengenai algoritma Microsoft Decision Tree), sub tab ini menunjukkan keterkaitan antar itemsetindividual. Informasi mengenai asosiasi 1 arah maupun asosiasi 2 arah akan terlihat pada sub tab ini.
  21. 21. 3.4.6 Microsoft Sequence ClusteringAlgoritma Sequence Clustering ini dikembangkan oleh tim riset Microsoft. Algoritma ini merupakanimplementasi dari tugas dasar Sequence Analysis, meskipun tugas dasar segmentasi mungkin bisaditerapkan lewat algoritma ini. Untuk mengetahui apa itu sequence analysis, silahkan membaca kembalipada pembahasan sub bab 3.2.5.Elemen dasar dari algoritma ini adalah node, transisi berarah (directed transition) dan probabiitastransisi dari setiap node. Contoh kombinasi 4 node dapat dilihat pada gambar 3.18. Gambar 3.18 Kombinasi Node, Transisi Berarah dan State TransitionUntuk node A, terdapat 4 arah menuju ke node lainnya atau bisa menuju ke diri sendiri. Probabilitasnode A transisi ke node B adalah 35% (0.35), ke node C adalah 30%, dan seterusnya. Hal yang samaterjadi pada node B, node C dan node D.Contoh implementasi algoritma ini dapat dijumpai pada mining model Sequence Clustering di sampelsolusi analysis services AdventureWorks DW 2008. Double click pada mining model Sequence Clusteringseperti yang ditunjukkan pada gambar 3.19.
  22. 22. Gambar 3.19 Mining Model Sequence ClusteringTerlihat pada gambar 3.20 terdapat 5 sub tab yaitu Cluster Diagram, Cluster Profiles, ClusterCharacteristics, Cluster Discrimination dan State Transitions. 4 sub tab pertama sama fungsinya sepertipada sub tab di Microsoft Clustering. 1 sub tab yang spesifik untuk algoritma Sequence Clustering yaitusub tab State Transitions.
  23. 23. Gambar 3.20 Designer Algoritma Sequence ClusteringPilih sub tab State Transitions, pilih node Water Bottle dan naikkan slider sampai ke All Links sepertiterlihat pada gambar 3.21.
  24. 24. Gambar 3.21 State Transitions pada Node Bottle WaterTerlihat nilai probabilitas transisi dari nodeWater Bottle ke node yang lain maupun ke node Water Bottlesendiri. State transition pada gambar 3.18 merupakan bentuk sederhana dari real world state transitiondi gambar 3.21.3.4.7 Microsoft Time SeriesAlgoritma time series merupakan algoritma yang mampu memberikan prediksi terhadap suatu aktivitasyang dipengaruhi waktu seperti penjualan sales dari waktu ke waktu.Algoritma ini merupakan penggabungan sub algoritma ARTxp yang dikembangkan oleh Microsoft dansub algoritma ARIMA yang dikembangkan oleh Box dan Jenkins sehingga memberikan prediksi yanglebih tepat untuk jangka pendek dan jangka panjang. Algoritma ARIMA merupakan algoritma yangmenjadi diterima secara luas dan menjadi standar industry. ARIMA memiliki kemampuan prediksi yanglebih baik untuk jangka panjang sedangkan algoritma ARTxp memiliki kemampuan prediksi yang baikuntuk jangka pendek.Contoh implementasi Microsoft Time Series bisa dijumpai pada mining model Forecasting.dmm, sampelprojek analysis service AdventureWorks DW 2008. Di window panel Solution Explorer di Visual Studio,double click mining model Forecasting.dmm seperti yang terlihat di gambar 3.22.
  25. 25. Gambar 3.21 Mining Model Forecasting (Forecasting.dmm)Di dalam designer untuk mining model Forecasting.dmm, pilih tab Mining Model Viewer. Didalamnyaterdapat 2 sub tab yaitu Charts dan Model. Sub tab Model mirip seperti sub tab Decision Tree dialgoritma Microsoft Decision Tree. Sub tab Charts menampilkan grafik yang digunakan untuk prediksitingkat penjualan Sales untuk setiap wilayah (Region).
  26. 26. Gambar 3.22 Grafik Prediksi untuk Microsoft Time SeriesTerlihat di gambar 3.22, diambil contoh prediksi penjualan di tahun 200408 (garis putus-putus), datayang tersedia sampai dengan bulan July 2004 (200407) yang diwakili dengan garis tanpa putus-putus.Untuk menuju kepada prediksi bulan-tahun yang diinginkan bisa dengan langsung meng-click di grafiktersebut.Tugas dasar yang dilakukan oleh algoritma ini adalah regresi.3.4.8 Microsoft Neural NetworkAlgoritma Microsoft Neural Network dikembangkan sejak tahun 1960-an. Ide dasar ini datang dari carakerja syaraf manusia, dimana urat syaraf tersusun atas banyak neuron yang menghantarkan sinyalrangsangan dari dan ke otak. Algoritma ini menerima input dari masing-masing atribut yang kemudiandikombinasi dengan nilai atribut lainnya untuk menghasilkan hasil prediksi seperti yang digambarkanpada gambar 3.22.
  27. 27. Number CarsOwned = 0Age = 30 BikeBuyer = 1MaritalStatus = N Gambar 3.23 Ilustrasi Algorima Neural NetworkSetiap node memiliki struktur internal seperti yang terlihat di gambar 3.23 yang terdiri atas fungsikombinasi dan fungsi aktivasi. Fungsi kombinasi akan menerima nilai atribut atau nilai node lainnya. Nilaimasing-masing input mungkin memiliki bobot yang tidak sama ketika di proses oleh fungsi kombinasi.Hasil dari fungsi kombinasi diteruskan ke fungsi aktivasi. Fungsi aktivasi akan menghasilkan output darinode tersebut yang diteruskan ke node lainnya atau mungkin menjadi hasil akhir prediksi.inputdari node lain fungsi fungsi kombinasi aktivasiinput dari menuju ke node berikutnya.node lain Gambar 3.24 Struktur Internal Setiap NodeAdapun tugas dasar tercakup oleh algoritma ini adalah klasifikasi dan regresi.Contoh penggunaan Microsoft Neural Network bisa dijumpai pada mining model Targeted Mailing.dmm,masuk pada tab Mining Model Viewer dan pilih TM Neural Net di combo box Mining Model danMicrosoft Neural Network Viewer di combo box Viewer seperti yang terlihat di gambar 3.25.
  28. 28. Gambar 3.25 Contoh Penerapan Microsoft Neural NetworkTampilan informasi untuk Microsoft Neural Network sama seperti sub tab Attribute Discrimination dipembahasan algoritma Naïve Bayes (sub bab 3.4.3.3).3.4.9 Microsoft Logistic RegressionAlgoritma ini merupakan turunan dari algoritma Microsoft Neural Network. Algoritma ini melibatkanfungsi matematika transformasi logistik yand digunakan untuk mengurangi nilai ekstrim di dalamalgoritma tersebut. Algoritma ini mampu menghasilkan lebih dari 1 prediksi seperti prediksikemungkinan customer membeli sepeda dan kemungkinan tidak.Tugas dasar yang dilakukan oleh algoritma ini adalah regresi.3.5 Data Mining Extension (DMX)Data mining memiliki bentuk SQL tersendiri yang dinamakan DMX (Data Mining Extension). Lewat DMX,prediksi dapat dilakukan terhadap algoritma mining model yang tersedia. Prediksi DMX dapat dilakukansecara grafis maupun secara query langsung. Secara grafis dapat melalui SQL Server Management Studio(SSMS) maupun lewat Visual Studio.Lewat SSMS, di window panel Object Explorer (bila tidak terlihat Object Explorer, pilih menu View >Object Explorer), click tombol Connect, dan pilih Analysis Services seperti yang terlihat di gambar 3.26.
  29. 29. Gambar 3.26 Connect ke Analysis ServicesPilih nama server analysis service di window dialog Connect To Server dan tekan tombol Connect.Kemudian Expand folder Databases, expand database Adventure Works DW 2008, expand folder MiningStructures. Di dalam folder Mining Structures, terdapat beberapa data mining, sebagai contoh pilihTargeted Mailing dan click kanan untuk memunculkan context menu, dan pilih Build Prediction Queryseperti yang terlihat di gambar 3.27.
  30. 30. Gambar 3.27 Penggunaan DMX secara GrafisTerlihat di gambar 3.28, designer untuk melakukan DMX secara grafis.
  31. 31. Gambar 3.28 Designer DMXMari kita hands-on bagaimana penggunaan DMX secara grafis. Dari gambar 3.28, tekan tombol SelectModel di sub window Mining Model. Akan muncul window Select Mining Model, expand TargetedMailing. Di dalam data mining Targeted Mailing terdapat 4 jenis implementasi algoritma, sebagai hands-on, penulis memilih TM Decision Tree dan tekan tombol OK seperti yang terlihat di gambar 3.29.
  32. 32. Gambar 3.29 Pemilihan Algoritma untuk PrediksiDi sub window Select Input Table(s) (gambar 3.30), pilih tombol Select Case Table yang akanmemunculkan window dialog Select Table. Pilih item di dalam combo box Data Source dimana terdapatdata yang akan dilakukan prediksi, kemudian di dalam kolom Table/View Name, pilih Customer (dbo)dan tekan tombol OK.
  33. 33. Gambar 3.30 Pemilihan Sumber Data yang Menjadi Target PrediksiSecara otomatis, analysis service melakukan mapping antara mining model dengan case table sepertiyang terlihat di gambar 3.31. Periksa apakah mapping tersebut sudah benar, bila ada mapping yangkurang tepat atau tidak diperlukan bisa memilih pada garis mapping tersebut, dan tekan tombol Deleteatau bila hendak menambahkan mapping bisa drag dari kolom di sub window Mining Model ke kolomyang ada di sub window Select Input Table(s).
  34. 34. Gambar 3.31 Mapping Kolom antara Mining Model dengan Input Table(s)Di dalam data grid yang tersedia (dibawah kedua sub window), anda bisa memasukkan kolom yang inginditampilkan beserta kolom yang ingin di prediksi (dalam contoh ini adalah field Bike Buyer denganCriteria = 1). Untuk setiap row di dalam data grid, pemilihan dimulai pada kolom Source, yang diikutioleh kolom-kolom lainnya. Selengkapnya dapat dilihat pada gambar 3.32.
  35. 35. Gambar 3.32 Pemilihan informasi Yang akan ditampilkan dengan Prediksi BikeBuyer = 1Bila sudah dirasa mencukupi, di bagian kanan atas pada designer Targeted Mailing di gambar 3.32,terlihat 3 buah tombol, pilih tombol ketiga dari kiri seperti pada gambar 3.34. Gambar 3.34 Tombol Designer Mode, Text Mode, View Result ModeHasilnya bisa terlihat pada gambar 3.35.
  36. 36. Gambar 3.35 Tampilan Hasil PrediksiAnda bisa melihat bentuk query DMX dengan memilih tombol kedua di gambar 3.34, query-nya akanterlihat seperti di gambar 3.36.
  37. 37. Gambar 3.36 Query DMXDari gambar 3.36 terlihat keyword yang menjadi karakteristik query DMX seperti PREDICTION JOIN.Terdapat jenis-jenis join selain PREDICTION JOIN yang akan diulas pada sub bab 3.5.1 sampai dengan subbab 3.5.4. Kembali ke pembahasan mengenai query grafis lewat SSMS, di query DMX, penulis bisamerubah query DMX yang dikehendaki yang menjadi keterbatasan di modus designer. Sebagai contohpenulis bisa menggabungkan firstname dan lastname menjadi satu kolom seperti terlihat pada gambar3.37.
  38. 38. Gambar 3.37 Manipulasi Query DMXEksekusi dengan menekan tombol query view (tombol ketiga pada gambar 3.34), hasilnya terlihat padapada gambar 3.38. Gambar 3.38 Hasil Manipulasi Query DMXDengan cara yang hampir sama, analisa prediksi dapat dilakukan di Visual Studio. Buka sampel projectanalysis services AdventureWorks DW 2008, di dalam window panel Solution Explorer expand folderMining Structures, dan double click data mining Targeted Mailing.dmm. Setelah tampil designer untukTargeted Mailing, pilih sub tab Mining Model Prediction. Hasilnya seperti yang terlihat di dalam gambar3.39.
  39. 39. Gambar 3.39 Bentuk Tampilan Designer untuk Prediksi Data Mining di Visual StudioCobalah lakukan cara serupa seperti yang sudah ditunjukkan lewat SSMS. Untuk tombol modus eksekusiseperti yang terlihat di gambar 3.34, akan dijumpai dekat sudut kiri atas (bertuliskan SQL di gambar3.39). Tombol kedua setelah tombol SQL adalah tombol SAVE, yang digunakan untuk menyimpan hasilprediksi ke dalam tabel.Pembahasan berikutnya akan membahas mengenai query DMX .3.5.1 Syntax DMX dan Penggunaan Prediction JoinSyntax DMX secara umum adalah :SELECT <list nama kolom>FROM <mining model yang digunakan><tipe join><sumber data yang akan diprediksi>ON <ekspresi join antara mining model dengan sumber data>WHERE <ekspresi atribut yang akan diprediksi>ORDER BY <ordering nama kolom yang dispesifikasikan di bagian SELECT>Keterangan :
  40. 40. <tipe join> = tersedia PREDICTION JOIN, NATURAL PREDICTION JOIN, hanya PREDICTION JOIN yangmemerlukan ekspresi join (ON <eskpresi join antara mining model dengan sumber data>).<sumber data> = biasanya merupakan tabel atau view yang akan diprediksi. Untuk terkoneksi ke sumberdata lewat Data Source/Data Source View, biasanya menggunakan OPENQUERY (<nama data sourceatau data source view>, ‘<statement select ke tabel/view>’).Contoh : OPENQUERY ([Adventure Works DW], ‘select [firstname],[lastname] from dbo.DimCustomer’)Source data dapat berasal dari luar database analysis service. Untuk penggunaan OPENQUERYselengkapnya, silahkan melihat di dalam SQL Server Books Online.Sebagai contoh dimana diminta menampilkan nama customer yang kemungkinan membeli sepeda(BikeBuyer = 1) dan hasil yang dinginkan diurutkan berdasarkan nama depan. Dengan menggunakanmining model TM Decision Tree pada data mining Targeted Mailing (refer ke gambar 3.28 dan 3.29)maka querynya adalah :SELECT t.[FirstName], t.[LastName]From [TM Decision Tree]PREDICTION JOIN OPENQUERY([Adventure Works DW], SELECT [FirstName], [LastName], [Gender], [CustomerKey],[MaritalStatus], [YearlyIncome], [TotalChildren], [NumberChildrenAtHome], [HouseOwnerFlag],[NumberCarsOwned], [CommuteDistance] FROM [dbo].[DimCustomer]) AS tON [TM Decision Tree].[Marital Status] = t.[MaritalStatus] AND [TM Decision Tree].[Gender] = t.[Gender] AND [TM Decision Tree].[Yearly Income] = t.[YearlyIncome] AND [TM Decision Tree].[Total Children] = t.[TotalChildren] AND [TM Decision Tree].[Number Children At Home] = t.[NumberChildrenAtHome] AND [TM Decision Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND [TM Decision Tree].[Number Cars Owned] = t.[NumberCarsOwned] AND [TM Decision Tree].[Commute Distance] = t.[CommuteDistance]WHERE [TM Decision Tree].[Bike Buyer] =1ORDER BY t.[FirstName] ;
  41. 41. Perhatikan huruf yang penulis sengaja tebalkan untuk menegaskan penggunaan sintax query DMX. Halyang menjadi perhatian adalah kriteria dibagian ON yang menunjukkan mapping antara atribut di miningmodel terhadap kolom di tabel sumber data seperti yang ditunjukkan di gambar 3.31. Untukmengeksekusi query di atas, anda bisa eksekusi di SSMS. Caranya adalah tekan tombol query DMX yangterlihat di gambar 3.40. Gambar 3.40 Tombol Query DMX (keempat dari kiri)Berikutnya muncul window dialog Connect to Analysis Service, masukkan nama analysis server anda,dan tekan tombol Connect. Terdapat beberapa item di combo box Mining Model, pilih TM Decision Treeseperti yang ditunjukkan di gambar 3.41.
  42. 42. Gambar 3.41 Pemilihan Mining Model untuk PrediksiCopy paste query DMX (diatas gambar 3.40) ke dalam designer window data mining dan tekan tombol . Hasilnya terlihat seperti pada gambar 3.42. Gambar 3.42 Eksekusi Query DMX di SSMS3.5.2 Natural Prediction JoinNatural prediction join hampir sama halnya seperti prediction join namun tanpa ada kriteria mappingsecara eksplisit antara atribut di mining model dengan kolom dari sumber yang akan diprediksimelainkan mapping secara implicit. Mapping secara implisit dimungkinkan bila nama atribut di miningmodel dan nama kolom dari sumber data.Contoh query pada sub bab 3.6.1 bila dituliskan dengan menggunakan natural prediction join menjadi :SELECT t.[FirstName], t.[LastName]From [TM Decision Tree]NATURAL PREDICTION JOIN OPENQUERY([Adventure Works DW],
  43. 43. SELECT [FirstName], [LastName], [Gender], [CustomerKey], [MaritalStatus] AS [Marital Status], [YearlyIncome] AS [Yearly Income], [TotalChildren] AS [Total Children], [NumberChildrenAtHome] AS [Number Children At Home], [HouseOwnerFlag] AS [House Owner Flag], [NumberCarsOwned] AS [Number Cars Owned], [CommuteDistance] AS [Commute Distance] FROM [dbo].[DimCustomer]) AS tWHERE [TM Decision Tree].[Bike Buyer] =1ORDER BY t.[FirstName] ;3.5.3 Empty Prediction JoinJenis join ini tidak melakukan mapping baik eksplisit maupun implisit dan informasi nama kolom yangditampilkan di dalam SELECT hanya kolom yang menjadi target prediksi di dalam mining model. Berikutcontoh penggunaan empty prediction join.SELECT [Bike Buyer]FROM [TM Decision Tree];Bila ditambahkan atribut lain seperti [Marital Status] di bawah ini:SELECT [Bike Buyer], [Marital Status]FROM [TM Decision Tree];Akan memberikan pesan error bahwa hanya atribut yang bersifat predictable (menjadi target prediksi didalam mining model) yang bisa ditampilkan di dalam SELECTError (Data mining): Only a predictable column (or a column that isrelated to a predictable column) can be referenced from the miningmodel in the context at line 1, column 22.3.5.4 Query SingletonQuery prediction join dan natural prediction join menerima data yang akan diprediksi lebih dari 1 row,sebaliknya query singleton hanya menerima data yang bersifat hard-coded. Berikut contoh penggunaanquery singletonSELECT t.[First Name], t.[Last Name], [TM Decision Tree].[Bike Buyer]From [TM Decision Tree]NATURAL PREDICTION JOIN
  44. 44. ( select Ali AS [First Name], Santoso AS [Last Name] N AS [Marital Status], M AS [Gender], 100000 AS [Yearly Income], 0 AS [Total Children], 0 AS [Number Children At Home], 1 AS [House Owner Flag], 1 AS [Number Cars Owned], 10+ Miles AS [Commute Distance] ) AS t;Hasil eksekusi seperti terlihat pada gambar 3.43. Gambar 3.42 Eksekusi Query Singleton di SSMS3.6 Delivery Data MiningData mining tidak akan banyak berguna bila tidak bisa diakses oleh pengguna awam. Oleh sebab itu,Microsoft menyediakan beberapa cara menghadirkan fitur data mining ke pengguna lewat SQL ServerReporting Services maupun Microsoft Excel. Berikut ini ditunjukkan cara menampilkan data mining lewatreporting services.3.6.1 Delivery Data Mining lewat SQL Server Reporting ServicesContoh skenario dimana dibutuhkan report yang mengandung daftar nama calon customer yangberpotensial membeli sepeda (BikeBuyer = 1) yang dibutuhkan oleh bagian marketing perusahaan ABC.Penulis akan menunjukkan cara membuat report data mining dengan menggunakan reporting services.Reporting Services akan dibahas selengkapnya pada bab 4.Berikut langkah-langkah pembuatan report bersumberkan data mining. 1. Buka Microsoft Visual Studio 2008. 2. Di dalam Visual Studio pilih menu File > New > Project, akan muncul window dialog New Project 3. Di bagian kiri terdapat Project Types, pilih Business Intelligence Project. 4. Di bagian kanan terdapat Visual Studio Installed Templates, pilih Report Server Project. 5. Di textbox Name berikan nama project, misal : BikeBuyerList lalu tekan tombol OK 6. Di window panel Solution Explorer, klik kanan pada folder Reports dan pilih Add New Report pada context menu yang muncul yang selanjutnya akan muncul window dialog Report Wizard.
  45. 45. 7. Di bagian Welcome to the Report Wizard, tekan tombol Next seperti yang ditunjukkan pada gambar di bawah ini.8. Di bagian Select the Data Source, pilih Microsoft SQL Server Analysis Services di combo box Type dan tekan tombol Edit.
  46. 46. 9. Di window dialog Connection Properties, masukkan Server Name untuk analysis services dan juga nama database analyss service lalu tekan tombol Test Connection.
  47. 47. 10. Bila koneksi berhasil tersambung ke nama server dan database analysis service maka akan muncul pesan sukses atau gagal. Bila gagal, ulangi langkah 9 dan 10 sampai berhasil dilakukan koneksi. Setelah berhasil tekan tombol OK di window dialog Test Results dan tekan tombol OK di window dialog Connection Properties.
  48. 48. 11. Terlihat pada gambar di bawah ini, connection string untuk analysis services yang anda tuju dan tekan tombol Next untuk melanjutkan ke langkah berikutnya.
  49. 49. 12. Di bagian Design the Query, tekan tombol Query Builder untuk membuat query DMX secara grafis maupun secara manual.
  50. 50. 13. Muncul window dialog Query Designer, pilih toolbar data mining (yang disorot pada gambar di bawah ini).
  51. 51. 14. Muncul pesan konfirmasi “Switching from MDX to CMX will result in losing all current design context. Do you want to proceed?”. Untuk konfirmasi ini, pilih YES.
  52. 52. 15. Di window Query Designer, tentukan mining model dengan menekan tombol Select Model.
  53. 53. 16. Di window dialog Select Mining Model, pilih TM Decision Tree yang ada di bwah Targeted Mailing, database analysis service Adventure Works DW 2008 dan tekan tombol OK untuk kembali ke window dialog Query Designer.
  54. 54. 17. Di window dialog Query Designer, pilih tombol Select Case Table. Case table adalah sumber data yang ingin anda prediksi customer yang akan membeli produk sepeda.
  55. 55. 18. Tentukan Data Source (Adventure Works DW) dan juga sumber data di Table/View Name (Customer (dbo)) lalu tekan OK.
  56. 56. 19. Sd
  57. 57. 20. Kembali ke window dialog Report Wizard, terlihat query DMX telah tercreate lalu maju ke step berikutnya dengan memilih tombol Next.
  58. 58. 21. Di bagian Select the Report Type, pilih opsi Tabular dan tekan tombol Next.
  59. 59. 22. Di bagian Design the Table, tekan tombol Next.
  60. 60. 23. Di bagian Choose the Table Style, pilih tampilan report yang anda inginkan, lalu tekan tombol Next.
  61. 61. 24. Di bagian akhir Completing the Wizard, masukkan nama report (misalnya : List of Potential Bike Buyer) kemudian tekan tombol Finish.
  62. 62. 25. Di Visual Studio terlihat tampilan designer report anda. Report data mining tersebut bisa di preview di Visual Studio dengan menekan tab kedua (Preview)
  63. 63. 26. Terlihat daftar calon customer yang diprediksi akan membeli produk sepeda.
  64. 64. 3.6.2 Delivery Data Mining lewat Microsoft ExcelBentuk penggunaan data mining oleh pengguna awam dimungkin lewat Microsoft Excel. Versi excelyang penulis gunakan adalah excel 2007. Untuk terkoneksi ke SQL Server 2008 analysis service, andamemerlukan SQL Server 2008 Data Mining Add-Ins for Excel 2007. Link untuk mendownload dapat andatemui di http://www.microsoft.com/sqlserver/2008/en/us/data-mining-addins.aspx, di dalam web pagetersebut anda bisa melihat demo video mengenai penggunaan add-in tersebut.3.7 Pembuatan Mining ModelSejauh ini dijabarkan penggunaan mining model pada sampel project analysis service Adventure WorksDW 2008, namun bagaimana pembuatan mining model dengan memanfaatkan algoritma yang tersediadi SQL Server 2008?
  65. 65. Berikut cara pembuatan mining model di sampel project analysis service yang akan dipandu langkahdemi langkah. 1. Buka Visual Studio 2008. 2. Buka sampel project analysis service Adventure Works DW 2008. 3. Klik kanan pada folder Mining Structures dan pilih New Mining Structures seperti yang diperlihatkan pada gambar di bawah ini.
  66. 66. 4. Pada bagian informasi Welcome to the Data Mining Wizard, pilih tombol Next untuk maju ke step berikutnya.5. Pada bagian Select the Definition Method, terdapat 2 pilihan darimana sumber data untuk data mining yang sedang kita buat. Pilihan pertama apabila sumber data mining berasal dari OLTP, pilihan kedua apabila sumber data mining berasal dari OLAP cube. Untuk data mining yang sedang dibuat, sumber datanya berasal dari OLTP, sehingga pilihan pertama yang dipilih, dan tekan tombol Next untuk maju ke step berikutnya.
  67. 67. 6. Pada bagian Create the Data Mining Structure, terdapat 9 pilihan algoritma data mining. Sebagai demo pada contoh ini, pilih Microsoft Decision Tree dan tekan tombol Next untuk melanjutkan.
  68. 68. 7. Pada bagian Select Data Source View, tentukan data source yang tersedia (dibagian Available data source views) dan tentukan sumber data untuk data mining yang sedang di create (di panel sebelah kanan, pilih vTargetMail) dan tekan tombol Next.
  69. 69. 8. Pada bagian Specify Table Types, pilih vTargetMail sebagai Case table dan tekan tombol Next. Case table akan digunakan oleh data mining untuk menvalidasi keakuratan data mining dalam melakukan prediksi.
  70. 70. 9. Di bagian Specify Training Data, pilih CustomerKey sebagai key, dan BikeBuyer sebagai Predictable attribute (atribut yang akan menjadi diprediksi). Key di CustomerKey merupakan unique key untuk setiap row. Setiap case (kasus) akan berkorespondensi terhadap setiap row. Setelah memilih CustomerKey dan BikeBuyer tekan tombol Suggest untuk mengetahui atribut apa saja yang diperkirakan berkontribusi dalam melakukan prediksi terhadap atribut BikeBuyer berdasarkan sumber data yang diberikan.
  71. 71. 10. Di window dialog Suggest Related Columns, terdapat score untuk setiap kolom sumber data. Anda bisa mengikutsertakan kolom mana saja yang dianggap berperan dalam menentukan prediksi BikeBuyer dengan meng-click row yang bersangkutan di kolom Input sehingga terdapat tanda X. Dan click tombol OK untuk kembali ke bagian Specify the Training Data di langkah 9.
  72. 72. 11. Terlihat kolom-kolom yang dipilih sebagai kontributor prediksi terpilih pada langkah 9. Anda masih bisa melakukan perubahan pada. Bila sudah tidak ada perubahan, pilih tombol Next untuk maju ke langkah berikutnya.
  73. 73. 12. Di bagian Specify Columns’ Content and Data Type terdapat atribut prediksi berserta atribut contributor prediksi. Tekan tombol Detect.
  74. 74. 13. Terdapat perubahan sebelum dan sesudah tombol Detect ditekan. Perubahan dari Continuous ke Discrete terjadi pada kolom Bike Buyer, Number Cars Owned, dan Number Children At Home. Atribut Bike Buyer hanya terdapat sedikit cakupan nilai yaitu 0 dan 1 sehingga dipandang memiliki nilai diskrit (pilihan Discrete), begitu juga untuk Number Cars Owned dan Number Children At Home. Algoritma Microsoft Decision Tree membolehkan atribut kontributor prediksi memiliki content type = Continuous namun ada algoritma seperti algoritma Naïve Bayes hanya bisa menerima jenis data diskrit. Untuk atribut yang memiliki sifat continous seperti atribut Yearly Income, maka dimungkinkan diskrit lewat pilihan Discretized. Content Type = Discretized akan mengelompokkan Yearly Income kedalam beberapa grouping (misalnya group I (Yearly Income antara 0 - $15,999), group II (Yearly Income antara ($16,000-$19,999) dan group III (Yearly Income antara $20,000 - $40,000)). Dengan tipe kolom continuous dalam bentuk discretized akan memudahkan analisa algoritma berdasarkan grouping. Click tombol Next untuk maju ke langkah berikutnya.
  75. 75. 14. Di bagian Create Testing Set, tentukan porsi data yang digunakan untuk testing validasi keakuratan sebuah data mining. Pilihan default adalah 30%, namun anda bisa melakukan penyesuian persentase data testing, setelah itu tekan tombol Next.
  76. 76. 15. Di bagian akhir wizard, beri nama untuk data mining (misalnya: Bike Buyer) dan model data mining (misalnya : Bike Buyer Decision Tree, berdasarkan algoritma yang dipilih pada langkah 6). Dan tekan tombol Finish.
  77. 77. 16. Data mining Bike Buyer terlihat pada window panel Solution Explorer dan muncul designer untuk data mining terkait dengan 5 tab yaitu tab Mining Structure, tab Mining Models, tab Mining Model Viewer, tab Mining Accuracy Chart, dan tab Mining Model Prediction. Tab Mining Model Viewer dan tab Mining Model Prediction telah dibahas pada sub bab sebelumnya. Tab Mining Models, tab Mining Accuracy Chart akan dibahas pada step selanjutnya sambil meninjau data mining yang telah dibuat (data mining Bike Buyer). Di dalam tab Mining Structure diperlihatkan sumber data mining. Mari melihat algoritma data mining yang diimplementasikan terhadap tab pertama (tab Mining Structure) dengan memilih tab kedua (tab Mining Models).
  78. 78. 17. Di dalam tab Mining Models (dilingkari pada gambar dibawah ini), terdapat 1 algoritma yang diimplementasikan terhadap mining structure Bike Buyer yaitu Bike Buyer Decision Tree. Di dalam tab ini dimungkinkan 1 mining structure terdapat beberapa implementasi algoritma. Untuk menambah implementasi algoritma selain Bike Buyer Decision Tree dapat dilakukan dengan menekan toolbar ketiga (dilingkari) yang memunculkan tooltip : “Create a related mining model”.
  79. 79. 18. Muncul window dialog New Mining Model, pilih Microsoft Naïve Bayes pada combo box Algorithm name dan beri nama mining model terkait dengan algoritma Naïve Bayes yang dipilih (misalnya Bike Buyer Naïve Bayes) dan tombol OK.19. Muncul pesan bahwa Microsoft Naïve Bayes tidak mendukung content type yang ada di dalam mining structure karena atribut Age dan Yearly Income bertipe continuous. Oleh karena itu Naïve Bayes akan mengabaikan atribut tersebut. Mengenai content type discrete, discretized dan continous telah dijelaskan pada langkah 13.
  80. 80. Pilih Yes pada window dialog konfirmasi.20. Di dalam tab Mining Models kini terdapat 2 mining model (yaitu Bike Buyer Decision Tree dan Bike Buyer Naïve Bayes). Terlihat di dalam Naïve Bayes, atribut Age dan Yearly Income di set Ignore.21. Ubah Ignore menjadi Input untuk atribut Age dan Yearly Income seperti yang terlihat pada gambar di bawah ini.
  81. 81. 22. Masuk kembali ke tab pertama (tab Mining Structure). Pilih atribut Age dan di bagian window panel Properties terkait, ubah property Content dari Continuous ke Discretized. Lakukan hal yang sama terhadap atribut Yearly Income.
  82. 82. 23. Kembali ke tab Mining Models. Anda bisa menambahkan beberapa algoritma yang lain sampai cukup mining model yang ada. Langkah berikutnya adalah melakukan pemrosesan mining model dengan menekan tombol pertama di toolbar yang diperlihatkan pada gambar di bawah ini.
  83. 83. 24. Terlihat di window panel Deployment Progress, analysis service melakukan deployment di analysis server.
  84. 84. 25. Setelah deployment selesai, dilanjutkan dengan processing mining structure terhadap mining model. Tekan tombol Run untuk menjalankan processing.
  85. 85. 26. Pada gambar dibawah ini, diperlihatkan proses processing sampai selesai. Setelah status : Process succeeded muncul berarti processing telah selesai dan tekan tombol Close 2 kali untuk kembali ke tab Mining Models.
  86. 86. 3.8 Validasi Mining ModelSampai dengan langkah 26, data mining Bike Buyer telah selesai dibuat di proses. Pertanyaan yangtimbul adalah dengan adanya 2 mining model yang tersedia, mana yang lebih akurat dan seberapaakuratkah untuk memprediksi customer yang akan membeli sepeda? Untuk menjawab pertanyaantersebut, Microsoft menyediakan tab ketiga yaitu Mining Accuracy Chart. 27. Seperti yang diperlihatkan di bawah gambar ini, terdapat 4 jenis sub tab yaitu sub tab Input Selection, Lift Chart, Classification Matrix dan Cross Validation. Kita akan bahas penggunaan setiap sub tab dimulai dengan sub tab Input Selection.
  87. 87. Di sub tab Input Selection, terlihat mining model yaitu Bike Buyer Decision Tree dan NaïveBayes. Karena atribut yang diprediksi hanya satu yaitu Bike Buyer maka hanya Bike Buyer yangmuncul pada kolom kedua (Predictable Column Name). Pada kolom Predict Value terdapat 2kemungkinan (0 atau 1) untuk item yang dipilih pada kolom kedua (Predictable Column Name).Apabila check box “Synchronize Prediction Columns and Values” di pilih, maka nilai Predict Valuedi pilih pada salah satu mining model (Bike Buyer Decision Tree dalam contoh ini) akan berlakupada mining model lainnya (Bike Buyer Naïve Bayes).Di bagian Select Data Set to be Used for Accuracy Chart, terdapat 3 pilihan untuk menvalidasikeakuratan mining model yang telah kita buat, yaitu : a. Use mining model test cases Test case untuk mining model akan ditentukan ketika mendefiniskan persentasi training data yang dilakukan pada langkah 14. b. Use mining structure test cases Test case ini akan menvalidasi apakah mining structure Bike Buyer sudah tepat untuk memprediksi atribut BikeBuyer. Test case ini ditentukan ketika mendefinisikan sumber data yang dilakukan pada langkah 11. c. Specify a different data set
  88. 88. Opsi ketiga adalah kita mendefinisikan test case yang berasal dari sumber data yang lain dengan memilih tombol … yang didekat opsi tersebut dan tentukan sumber data beserta mapping kolom sumber data terhadap mining structure.3.8.1 Sub Tab Lift Chart dengan Pilihan Lift Chart 28. Setelah menentukan nilai atribut yang akan diprediksi beserta sumber data dan jenis test case, pilih sub tab kedua Lift Chart untuk melihat keakuratan kedua mining model yang telah dibuat. Pada gambar di bawah ini terlihat Lift Chart dipilih di combo box Chart Type. Di window Mining Legend terlihat Population Percentage : 49.50% yang mengacu pada sumbu X. Interpretasi data dari window Mining Legend terhadap 2 mining model adalah sebagai berikut: Untuk persentase data 49.50% dari jumlah data yang diproses, Bike Buyer Decision Tree memiliki kemampuan prediksi 73.12% tepat ketimbang Bike Buyer Naïve Bayes (hanya 63.51% tepat). Nilai keakuratan prediksi terlihat pada kolom Target Population (di window Mining Legend dan juga di sumbu Y) dengan persentase populasi 49.50% (sumbu X).
  89. 89. 29. Untuk melihat nilai lain selain 49.50% pada Population Percentage dapat dilakukan dengan meng-click area grafik. Sebagai contoh diperlihatkan pada gambar di bawah Population Percentage 40% (39.60%), maka kemampuan prediksi pada Bike Buyer Decision Tree akan 63.3% tepat dibandingkan Bike Buyer Naïve Bayes (53.7% tepat), dimana model yang ideal adalah 81.6% (ketepatan prediksi dengan populasi data yang diproses sebesar 40%). Tentu saja semakin mendekati model ideal, semakin akurat sebuah data mining.3.8.2 Sub Tab Lift Chart dengan Pilihan Profit ChartApakah Profit Chart itu? Profit Chart memberikan informasi aspek finansial yang diharapkan dariaktivitas marketing untuk mencapai target yang diinginkan (Bike Buyer = 1, misalnya). 30. Masih dalam sub tab Lift Chart, pilih Profit Chart di combo box Chart Type. Muncul window dialog Profit Chart Settings dengan input Population, Fixed Cost, Individual Cost dan Revenue per Individual. Apa arti dari setiap input di dalam Profit Chart Settings?
  90. 90. a. Population Artinya jumlah calon customer yang akan menjadi target aktivitas marketing. Misalnya kita memiliki 100.000 calon customer. Dan budget yang tersedia hanya mampu mengirimkan brosur sepeda ke sebanyak 30.000 customer maka masukkan nilai tersebut ke input untuk Population. b. Fixed cost Adalah biaya tetap tanpa dipengaruhi oleh besaran Population. c. Individual cost Adalah biaya yang timbul dari setiap item di dalam Population. d. Revenue per individual Adalah hasil yang diharapkan dari setiap item population terhadap target prediksi. Dalam contoh Bike Buyer = 1, calon customer yang membeli sepeda yang rata-rata seharga $15. Tekan tombol OK pada Profit Chart Settings.31. Pada gambar di bawah ini, terlihat besaran Profit Chart maximum adalah $130.076,30 dengan besaran populasi 84.16%. Besaran profit tidak akan lebih menguntungkan dengan besaran populasi lebih dari 84.16%.
  91. 91. 3.8.3 Sub Tab Classification MatrixSub tab ketiga adalah sub tab Classification Matrix. Sub tab classification Matrix menunjukkan besarankesalahan prediksi terhadap case table/view. 32. Pada gambar di bawah ini, pada bagian yang ditandai dengan kotak diagonal warna merah, ditunjukkan nilai prediksi 0 dengan nilai aktual 0, dan nilai 1 dengan nilai aktual 1. Interpretasi dari pertemuan nilai yang sama antara kolom Predicted dan Actual di bagian diagonal menunjukkan jumlah test case yang diprediksi secara tepat, sedangkan untuk bagian non diagonal menunjukkan jumlah test case yang tidak diprediksi secara tepat.
  92. 92. Terlihat bahwa mining model Bike Buyer Decision Tree lebih banyak menghasilkan prediksi yang tepat ketimbang mining model Bike Buyer Naïve Bayes.3.8.4 Sub Tab Cross ValidationSub tab keempat adalah sub tab cross validation. Sub tab ini melakukan perbandingan keakuratanmining model terhadap mining structure. 33. Pilih sub tab keempat (sub tab Cross Validation). Pada gambar di bawah ini, tentukan nilai Fold Count = 2, Max Cases = 30, Target Attribute = Bike Buyer, Target State = 1 dan Target Threshold = 0.8 dan tekan tombol Get Results.
  93. 93. 34. Hasilnya terlihat analisa untuk mining model Bike Buyer Decision Tree dan Bike Buyer Naïve Bayes terhadap mining structure. Berikut penjelasan dari setiap input di dalam sub tab Cross Validation a. Fold Count Akan menentukan jumlah Partition Index. Satu partition index digunakan untuk testing data sedangkan partition index yang lain (di dalam group partition index yang sama) digunakan untuk training mining model sebelum dilakukan testing. b. Max Cases Jumlah maksimum test case yang dibagi merata untuk setiap group partition index. Pada gambar diatas terlihat partition size adalah 15 untuk 2 partition index sehingga input untuk max case diisi sebesar 30 test case. c. Target Attribute Atribut yang digunakan untuk prediksi. Dalam data mining BikeBuyer, atribut yang digunakan sebagai target prediksi adalah Bike Buyer. d. Target State Nilai prediksi dari Target Attribute.
  94. 94. e. Target Threshold Nilai minimum dimana suatu prediksi dianggap tepat. Kisaran nilainya antara 0 dan 1. Dimana semakin mendekati 1 maka nilai probabilitasnya dianggap semakin tepat. Dalam contoh ini penulis memasukkan nilai probabilitas minimum 0.8 merupakan indikasi seorang customer mungkin akan membeli sepeda.3.9 RangkumanSQL Server 2008 menghadirkan 9 algoritma data mining. Algoritma data mining dikombinasikan denganmining structure menghasilkan prediksi terhadap arah business ke depannya. Setelah data miningdideploy dan diproses di analysis server, data mining siap digunakan untuk melakukan prediksi. Hasilprediksi dapat dilakukan lewat SSMS, SQL Server Reporting Services maupun Microsoft Excel.Query ke dalam data mining dilakukan lewat query DMX (Data Mining Extension). Query DMX dapatdilakukan secara grafis maupun textual baik di Visual Studio maupun di dalam SSMS.
  95. 95. Bab 4 SQL Server 2008 Reporting Services (SSRS)SQL Server Reporting Services (SSRS) adalah platform laporan berbasis server yang menyediakanfungsionalitas pembuatan laporan untuk berbagai sumber data. SSRS terdiri dari kumpulan kakas yangdigunakan untuk membuat, mengatur dan mengirim laporan, dan API yang memudahkan developeruntuk mengintegrasikan laporan dengan aplikasi kustom.Dengan SSRS, laporan dapat dibuat dalam bentuk tabular, grafikal dari sumber data relational (OLTP),multidimensional (OLAP), atau bahkan XML. Kita dapat mem-publikasikan laporan, menjadualpemrosesan laporan, atau mengakses laporan pada saat diinginkan. Dengan SSRS laporan ad hoc jugadapat dibuat berdasarkan model yang didefinisikan, dan mengeksplorasi data secara interaktifberdasarkan modelnya. Terdapat berbagai format untuk menampilkan dan mengekspor laporan keaplikasi lain, dan mensubskripsi report yang telah dipublikasi. Laporan dapat dilihat melalui koneksi webatau sebagai bagian dari aplikasi Windows atau situs SharePoint.Dalam kaitannya dengan BI, SSRS adalah fitur yang digunakan untuk menampilkan data dari databasemultidimensional yang membantu melakukan analisis data.4.1 Kakas SSRS4.1.1 Report DesignerReport Designer adalah kakas yang digunakan untuk membuat laporan dalam bentuk tabular, matrixchart, ataupun bentuk bebas. Report Designer diakses menggunakan BIDS.4.1.2 Report Model BuilderKakas ini digunakan untuk membuat, memodifikasi, dan mempublikasikan model laporan yangdigunakan sebagai dasar dari laporan ad hoc dari Report Builder. Report Model Designer diaksesmenggunakan BIDS.4.1.3 Report BuilderReport Builder adalah kakas yang digunakan untuk membuat laporan ad hoc dalam bentuk tabular,matrix, dan chart. Apabila Report Designer ditujukan untuk orang-orang yang memahami dan terbiasadengan SQL statement, maka Report Builder dibuat agar orang yang tidak memahami SQL statement

×