1. 28 September 2005 Pendahuluan dan Proses KDD 1
PERTEMUAN 1& 2
PENDAHULUAN DAN PROSES KDD
2. 28 September 2005 Pendahuluan dan Proses KDD 2
KebutuhanBisnis
Terdapattigakebutuhanbisnis:
‰Penambahanmaupunpeningkatankapasitasproduk
‰Penguranganbiayaoperasiperusahaan
‰Peningkatanefektifitaspemasarandankeuntungan
3. 28 September 2005 Pendahuluan dan Proses KDD 3
PermasalahanBisnissecaraumum
•Permasalahanbisnisyang umumdihadapi:
1.Bagaimanamenyajikanadvertensikepadatarget yang tepatsasaran
2.Menyajikanhalamanweb ygkhusussetiappelanggan
3.Menampilkaninformasiproduklain yang biasadibelibersamaandenganproduktertentu.
4.Mengklasifikasikanartikel-artikelsecaraotomatis
5.Mengelompokkanpengunjungweb yang memilikikesamaankarateristiktertentu
6.Mengestimasidata yang hilang
7.Memprediksikelakuandimasayang akandatang
4. 28 September 2005 Pendahuluan dan Proses KDD 4
SolusiMasalah
Konsepdasaryang perludipikirkanpelakubisnissebagaisolusipermasalahan, yaitu:
1.PerumusanTarget
Memilihtarget pemasaranuntukdisuguhiadvertensitertentubertujuanuntukmeningkatkanprofit perusahaan, pengenalanproduksecaraluasatauhasil-hasilterukurlainnya.
2.Personalisasi
Memanfaatkanpersonalisasiuntukmemilihadvertensiyang paling sesuaiuntukorangtertentudanpersonalisasiinibertujuanagar pengunjungyang sudahmenjadipelangganmembelisebanyakmungkinprodukperusahaan.
3.Asosiasi(analisiskeranjangpasar)
Asosiasiinimengidentifikasiitem-item produkyang mungkindibelibersamaandenganproduklain ataudilihatsecarabersamaanpadasaatmencariinformasimengenaiproduktertentu.
5. 28 September 2005 Pendahuluan dan Proses KDD 5
5.ManajemenPengetahuanSisteminimengidentifikasidanmemanfaatkanpola-poladidalamdokumenyang berbahasaalamiatauberformattext. Pendekataninidigunakanuntukmenyortirdokumenbarudanmempersonalisasipublikasionline6. PengelompokkanPengelompokkandigunakanuntukmembuatlaporanmengenaikarateristikumumdarigrup-gruppengunjung(kustomer) yang berbeda. 7. EstimasidanPrediksiEstimasimenerkasebuahnilaiyang belumdiketahuidanprediksimemperkirakannilaiuntukmasadatang. 8. PohonKeputusanSebagaidiagram alirdarititik-titikpertanyaanyang menujupadasebuahkeputusan.
6. 28 September 2005 Pendahuluan dan Proses KDD 6
KebutuhandanKesempatanuntukData Mining
Kebutuhanakandata mining dikarenakan:
1.Ketersediaandata yang melimpah, kebutuhanakaninformasi(ataupengetahuan) sebagaipendukungpengambilankeputusanuntukmembuatsolusibisnisdandukunganinfrastrukturdibidangteknologiinformasi
2.Ketersediaandata transaksidalamvolume yang besar
3.Informasisebagaiasetperusahaanyang pentingsehinggamelahirkangudangdata yang mengintegrasikaninformasidarisistemyang tersebaruntukmendukungpengambilankeputusan
4.Ketersediaanteknologiinformasidalamskalayang terjangkaudansudahdapatdiadopsisecaraluas.
7. 28 September 2005 Pendahuluan dan Proses KDD 7
DefinisiData Mining
‰Data mining adalahprosesyang memperkerjakansatuataulebihteknik-teknikpembelajarankomputer(machine learning) untukmenganalisisdanmengekstraksipengetahuan(knowledge) secaraotomatis.
‰Data mining merupakanprosesiteratifdaninteraktifuntukmenemukanpolaataumodel yang sahih, baru, bermanfaat, dandimengertidalamsuatudatabase yang sangatbesar(massive databases).
‰Data mining merupakanserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandata berupapengetahuanyang selamainitidakdiketahuisecaramanual darisuatukumpulandata
‰Data mining menggunakanberbagaiperangkatlunakanalisisdata untukmenemukanpoladanrelasidata agar dapatdigunakanuntukmembuatprediksidengantepat
8. 28 September 2005 Pendahuluan dan Proses KDD 8
MengapaMelakukanData Mining
‰SudutPandangKomersial:
•Meledaknyavolume data yang dihimpundandisimpandalamdata warehouse
•Proseskomputasiyang dapatdiupayakan
•Kuatnyatekanankompetitif
∼Dapatmenyediakanyang lebihbaik, layanan-layanankastemisasi
∼Informasimenjadiprodukyang berarti
‰SudutPandangKeilmuan:
•Kecepatandata yang dihimpundandisimpan(Gbyte/hour)
∼Remote sensor yang ditempatkanpadasuatusatelit
∼Telescope yang digunakanuntukmen-scan langit
∼Simulasisaintifikyang membangkitkandata dalamukuranterabytes
•Teknik-tekniktradisionaltidakfisibelutnukmengolahdata mentah
•Data mining untukreduksidata ;
∼Catalogging, klassifikasi, segmentasidata
∼Membantuilmuwandalammelakukanformulasihipotesisi
9. 28 September 2005 Pendahuluan dan Proses KDD 9
IlmuBerkaitanData Mining
Bidangilmuyang berkaitan:
‰Database
‰Information science (ilmuinformasi)
‰High performance computing
‰Visualisasi
‰Machine learning
‰Statistik
‰Neural networks (jaringansaraftiruan)
‰Pemodelanmatematika
‰Information retrieval
‰Information extraction dan
‰Pengenalanpola
10. 28 September 2005 Pendahuluan dan Proses KDD 10
‰AnalisaPasardanManajemenBeberapasolusidapatdiselesaikandengandata mining : –Menebaktarget pasar–Melihatpolabelipemakaidariwaktukewaktu–Cross Market Analysis–ProfilCustomer–IdentifikasiKebutuhanCustomer–Menilailoyalitascustomer–Informasisummary ‰AnalisaPerusahaandanManajemenResikoBeberapasolusidapatdiselesaikandengandata mining : –MerencanakanKeuangandanEvaluasiAset–MerencanakanSumberDaya(Resource Planning) –MemoniotrPersaingan(Competition) PenerapanData Mining
11. 28 September 2005 Pendahuluan dan Proses KDD 11
‰Telekomunikasi
Data mining digunakanuntukmelihatjutaantransaksiyang masukdengantujuanmenambahlayananotomatis
‰KeuanganData mining digunakanuntukmendeteksitransaksi- transaksikeuanganyang mencurigakandimanaakansusahdilakukanjikamenggunakananalisisstandar. ‰AsuransiAustralian Health Insurance Commisionmenggunakandata mining untukmengidentifikasilayanankesehatandanberhasilmenghematsatujutadollar pertahun
12. 28 September 2005 Pendahuluan dan Proses KDD 12
‰Olahraga IBM Advanced Scout menggunakandata mining untukmenganalisisstatistikpermainanNBA dalamrangkacompetitive advantage untuktimNew York Knicks
‰Astronomi
Jet Propulsion Laboratory (JPL) diPasadena danPulomarObservatory menemukan22 quasar denganbantuandata mining.
‰Internet Web Surf-AidIBM Surf-Aid menggunakanalgoritmadata mining untukmendataakseshalamanWeb khususnyaberkaitandenganpemasaranmelaluiweb.
13. 28 September 2005 Pendahuluan dan Proses KDD 13
Tools Data Mining
‰Karateristik-karateristik pentingdaritool data mining meliputi:
–Data preparation facilities
–Selection of data mining operation (algorithms)
–Product scalability and performance
–Facilities for visualization of result
‰Data mining tool, meliputi:
–Integral Solution Ltd’sClementine
–DataMindCorp’s Data Crusher
–IBM’s Intelligent Miner
–Silicon Graphics Inc.’s MineSet
–InformationsDiscovery Inc.’s Data Mining Suite
–SAS Institute Inc.’s SAS System and Right Information System’Thought.
14. 28 September 2005 Pendahuluan dan Proses KDD 14
EvolusiDatabase
‰Th1960
–Pengumpulandata, pembuatandata, IMS dannetwork DBMS
‰Th1970
–Model data relasional, ImplementasiDBMS relasional
‰Th1980
–RDBMS, Model data lanjutan(extended-relational, OO, deductive)
‰Th1990
–Data mining, data warehouse, database multimedia, danWeb database.
‰Th2000
–Stream data managemendanmining
–Data mining denganberbagaivariasiaplikasi
–Teknologiweb dansisteminformasiglobal
15. 28 September 2005 Pendahuluan dan Proses KDD 15
Teknik–teknikDatabase
Searching
‰Searching dilakukanuntukmemeriksaserangkaianitem yang memilikisifat- sifatyang diinginkan.
‰Tindakanuntukmenemukansuatuitem tertentubaikyang diketahuikeberadaannyamaupuntidak.
‰Memasukkankatadalamsuatuprogram komputeruntukmembandingkandenganinformasiyang adadalamdatabase.
Indexing
‰Indexing adalahstruktur-strukturaksesyang digunakanuntukmempercepatrespondalammendapatkanrecord-record padakondisi-kondisipencariantertentu.
‰Indexing field adalahsuatustrukturaksesindex yang biasanyamenjelaskanfield tunggaldarisuatufile.
‰Indexing organization memberikanefisiensiakseskerecord-record secaraberurutataurandom.
16. 28 September 2005 Pendahuluan dan Proses KDD 16
Data Reduction
‰Data reduction adalahtransformasisuatumasalahkemasalahlain dandapatdigunakanuntukmendefinisikanserangkaianmasalahyang kompleks.
‰Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, summingdan averaging data.
‰Data reduction dilakukanuntuk mengatasi ukuran data yang terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.
‰Data reduction dilakukan dalam tahap data preprocessing pada rangkaian proses Knowledge Discovery Databases (KDD) sebelum data mining dengan tujuan mengurangi ukuran data yang besar.
17. 28 September 2005 Pendahuluan dan Proses KDD 17
OLAP (On-line analytical processing)
‰OLAP adalahsuatusistematauteknologiyang dirancanguntukmendukungprosesanalisiskompleksdalamrangkamengungkapkankecenderunganpasardanfaktor-faktorpentingdalambisnis
‰OLAP ditandaidengankemampuannyamenaikkanataumenurunkandimensidata sehinggakitadapatmenggalidata sampaipadalevel yang sangatdetail danmemperolehpandanganyang lebihluasmengenaiobjekyang sedangkitaanalisis.
‰OLAP secarakhususmemfokuskanpadapembuatandata agar dapatdiaksespadasaatpendefinisiankembalidimensi.
‰OLAP dapatdigunakanmembuatrangkumandarimultidimensidata yang berbeda, rangkumanbarudanmendapatkanresponsecaraonline, danmemberikanview duadimensipadadata cube multidimensisecarainteraktif.
18. 28 September 2005 Pendahuluan dan Proses KDD 18
Data Warehouse
Definisi:
‰Data Warehouse adalahPusatrepositoriinformasiyang mampumemberikandatabase berorientasisubyekuntuk informasi yang bersifathistorisyang mendukungDSS (Decision SuportSystem) danEIS (Executive Information System).
‰Salinandaritransaksidata yang terstruktursecaraspesifikpadaquery dananalisa.
‰Salinandaritransaksidata yang terstrukturspesifikuntukquery danlaporan
Tujuan:
‰Meningkatkankualitasdanakurasiinformasibisnisdanmengirimkaninformasikepemakaidalambentukyang dimengertidandapatdiaksesdenganmudah.
19. 28 September 2005 Pendahuluan dan Proses KDD 19
Ciri-ciriData Warehouse
Terdapat4 karateristikdata warehouse
•Subject oriented
–Data yang disusunmenurutsubyekberisihanyainformasiyang pentingbagipemprosesandecision support.
–Database yang semuainformasiyang tersimpandikelompokkanberdasarkansubyektertentumisalnya: pelanggan, gudang, pasar, dsb.
–SemuaInformasitersebutdisimpandalamsuatusistemdata warehouse.
–Data-data disetiapsubyekdirangkumkedalamdimensi, misalnya: periodewaktu, produk, wilayah, dsb, sehinggadapatmemberikannilaisejarahuntukbahananalisa.
•Integrated
–Jikadata terletakpadaberbagaiaplikasiyang terpisahdalamsuatulingkunganoperasional, encoding data seringtidakseragamsehingggabiladata dipindahkankedata warehouse makacoding akandiasumsikansama sepertilazimnya.
•Time-variant
–Data warehouse adalahtempatuntukstoring data selama5 sampai10 tahunataulebih, data digunakanuntukperbandinganatauperkiraandandata initidakdapatdiperbaharui.
•Non volatile
–Data tidakdapatdiperbaharuiataudirubahtetapihanyadapatditambahdandilihat.
20. 28 September 2005 Pendahuluan dan Proses KDD 20
Masalah-masalahdalammenerapkanData warehouse : •Dokumentasidanpengelolaanmetadata daridata warehouse. •Penentuanaturandalamprosestransformasiuntukmemetakanberbagaisumberlegacy data yang akandimasukkankedalamdata warehouse. •Pencapaianprosespengembanganyang handal, baikdalammembangun, mempimplementasikan, maupunmemeliharadata warehouse.
21. 28 September 2005 Pendahuluan dan Proses KDD 21
Data Preprocessing
‰Data preprocessing menerangkantipe-tipeprosesyang melaksanakandata mentahuntukmempersiapkanprosesproseduryang lainnya.
‰Dalamdata mining menstrasformasidata kesuatuformat yang prosesnyalebihmudahdanefektifuntukkebutuhanpemakai, contohnyaNeural Network.
‰Terdapatbeberapaalatdanmetodeyang berbedayang digunakanuntukpreprocessing seperti:
–Sampling : menyeleksisubset representatifdaripopulasidata yang besar.
–Transformation : memanipulasidata mentahuntukmenghasilkaninput tunggal.
–Denoising: menghilangkannoise daridata
–Normalization : mengorganisasidata untukpengaksesanyang lebihspesifik
–Feature extration: membukaspesifikasidata yang signifikandalamkontekstertentu.
22. 28 September 2005 Pendahuluan dan Proses KDD 22
Knowledge Discovery In Database (KDD)
‰KDD berhubungandenganteknikintegrasidanpenemuanilmiah, interprestasi danvisualisasidaripola-polasejumlahkumpulandata.
‰Knowledge discoveryin databases(KDD) adalahkeseluruhanprosesnon-trivial untukmencaridanmengidentifikasipola(pattern) dalamdata, dimanapolayang ditemukanbersifatsah, baru, dapatbermanfaatdandapatdimengerti.
24. 28 September 2005 Pendahuluan dan Proses KDD 24
TahapanProsesKDD1.Data Selection–Menciptakanhimpunandata target , pemilihanhimpunandata, ataumemfokuskanpadasubset variabelatausampeldata, dimanapenemuan(discovery) akandilakukan. –Pemilihan(seleksi) data darisekumpulandata operasionalperludilakukansebelumtahappenggalianinformasidalamKDD dimulai. Data hasilseleksiyang akandigunakanuntukprosesdata mining, disimpandalamsuatuberkas, terpisahdaribasis data operasional.
25. 28 September 2005 Pendahuluan dan Proses KDD 25
2. Pre-processing/ Cleaning
–Pemprosesanpendahuluandanpembersihandata merupakanoperasidasarsepertipenghapusannoise dilakukan.
–Sebelumprosesdata miningdapatdilaksanakan, perludilakukanprosescleaningpadadata yang menjadifokusKDD.
–Prosescleaning mencakupantaralain membuangduplikasidata, memeriksadata yang inkonsisten, danmemperbaikikesalahanpadadata, sepertikesalahancetak(tipografi).
–Dilakukanprosesenrichment, yaituproses“memperkaya” data yang sudahadadengandata atauinformasilain yang relevandandiperlukanuntukKDD, sepertidata atauinformasieksternal.
26. 28 September 2005 Pendahuluan dan Proses KDD 26
3.Transformation
–Pencarianfitur-fituryang bergunauntukmempresentasikandata bergantungkepadagoal yang ingindicapai.
–Merupakanprosestransformasipadadata yang telahdipilih, sehinggadata tersebutsesuaiuntukprosesdata mining. Prosesinimerupakanproseskreatifdansangattergantungpadajenisataupolainformasiyang akandicaridalambasis data