The document is a chapter from a textbook on data mining written by Akannsha A. Totewar, a professor at YCCE in Nagpur, India. It provides an introduction to data mining, including definitions of data mining, the motivation and evolution of the field, common data mining tasks, and major issues in data mining such as methodology, performance, and privacy.
Dokumen tersebut membahas arsitektur dan model data mining. Terdapat penjelasan mengenai komponen-komponen arsitektur data mining seperti data cleaning, data integration, data mining engine, dan graphical user interface. Juga dibahas model-model data mining seperti prediction methods dan description methods beserta contoh-contohnya seperti klasifikasi, regresi, dan clustering.
Sistem Informasi (SI) adalah suatu kesatuan yang terdiri dari manusia, perangkat keras, piranti lunak, jaringan komunikasi dan sumber daya data yang mengumpulkan, mentransformasi dan mendistribusikan informasi di dalam suatu organisasi
01 - Introduction to Data Mining - Original.pdfElvi Rahmi
01. Dokumen tersebut membahas tentang pengantar data mining, meliputi pengertian data mining, manfaat, bidang terkait, proses, task, dan penerapannya di berbagai bidang serta bahasa pemrograman yang digunakan.
Tiga kalimat ringkasan dokumen:
Dokumen menjelaskan tentang manajemen ruang lingkup proyek mulai dari pendefinisian, perencanaan, pembangunan WBS, verifikasi, hingga pengendalian perubahan ruang lingkup proyek agar tetap sesuai dengan tujuan awal proyek.
Dokumen tersebut membahas tentang sistem informasi bisnis dan jenis-jenisnya, serta bagaimana sistem tersebut mendukung fungsi bisnis. Ada beberapa jenis sistem informasi seperti sistem pendukung eksekutif, sistem pendukung keputusan, sistem informasi manajemen, dan sistem otomatisasi kantor. Dokumen ini juga membahas tentang proses bisnis, manajemen rantai pasokan, manajemen hubungan pelanggan, dan cara organisasi bisnis beroper
The document is a chapter from a textbook on data mining written by Akannsha A. Totewar, a professor at YCCE in Nagpur, India. It provides an introduction to data mining, including definitions of data mining, the motivation and evolution of the field, common data mining tasks, and major issues in data mining such as methodology, performance, and privacy.
Dokumen tersebut membahas arsitektur dan model data mining. Terdapat penjelasan mengenai komponen-komponen arsitektur data mining seperti data cleaning, data integration, data mining engine, dan graphical user interface. Juga dibahas model-model data mining seperti prediction methods dan description methods beserta contoh-contohnya seperti klasifikasi, regresi, dan clustering.
Sistem Informasi (SI) adalah suatu kesatuan yang terdiri dari manusia, perangkat keras, piranti lunak, jaringan komunikasi dan sumber daya data yang mengumpulkan, mentransformasi dan mendistribusikan informasi di dalam suatu organisasi
01 - Introduction to Data Mining - Original.pdfElvi Rahmi
01. Dokumen tersebut membahas tentang pengantar data mining, meliputi pengertian data mining, manfaat, bidang terkait, proses, task, dan penerapannya di berbagai bidang serta bahasa pemrograman yang digunakan.
Tiga kalimat ringkasan dokumen:
Dokumen menjelaskan tentang manajemen ruang lingkup proyek mulai dari pendefinisian, perencanaan, pembangunan WBS, verifikasi, hingga pengendalian perubahan ruang lingkup proyek agar tetap sesuai dengan tujuan awal proyek.
Dokumen tersebut membahas tentang sistem informasi bisnis dan jenis-jenisnya, serta bagaimana sistem tersebut mendukung fungsi bisnis. Ada beberapa jenis sistem informasi seperti sistem pendukung eksekutif, sistem pendukung keputusan, sistem informasi manajemen, dan sistem otomatisasi kantor. Dokumen ini juga membahas tentang proses bisnis, manajemen rantai pasokan, manajemen hubungan pelanggan, dan cara organisasi bisnis beroper
Equnix Business Solutions (Equnix) is an IT Solution provider in Indonesia, providing comprehensive solution services especially on the infrastructure side for corporate business needs based on research and Open Source. Equnix has 3 (three) main services known as the Trilogy of Services: Support (Maintenance/Managed), World class level of Software Development, and Expert Consulting and Assessment for High Performance Transactions System. Equnix is customer oriented, not product or principal. Equal opportunity based on merit is our credo in managing HR development.
DBMS adalah singkatan dari “Database Management System” yaitu sistem penorganisasian dan sistem pengolahan Database pada komputer. DBMS atau database management system ini merupakan perangkat lunak (software) yang dipakai untuk membangun basis data yang berbasis komputerisasi.
Presentasi ini membahas pengembangan sistem informasi manajemen dengan menjelaskan tujuan belajar, pendekatan sistem, jenis-jenis prototipe, pengembangan prototipe evolusioner dan persyaratan, keuntungan prototyping, potensi kesulitan, pengembangan aplikasi lebih cepat, pengembangan berfase, tahapannya, pemodelan proses, diagram arus data, kasus penggunaan, kepemimpinan proyek, input pengestimasian biaya, alat-al
Tiga kalimat ringkasan dokumen tersebut adalah:
Dokumen tersebut membahas penggunaan teknologi informasi dalam organisasi besar seperti Toyota dan UPS serta pengertian, komponen, peran, dan tahapan pembangunan sistem informasi manajemen.
Aplikasi Pengelolaan Persedian Barang Dagang Berupa ATKFitri Evi Nasution
Aplikasi ini membahas tentang pengembangan aplikasi pengelolaan persediaan barang dagang ATK menggunakan bahasa pemrograman Java. Aplikasi ini dirancang untuk mengelola data barang seperti input data barang, stok barang, harga barang, dan transaksi pembelian; serta mampu mencetak laporan.
Dokumen tersebut membahas tentang metode pengiriman form (POST dan GET) serta penggunaan session dalam PHP. Metode POST menyembunyikan variabel yang dikirim di alamat web, sedangkan metode GET menampilkan variabelnya. Session digunakan untuk menyimpan sementara variabel antar halaman dengan mendaftarkan, mengisi, dan menampilkan variabel session. Contoh koding mendemonstrasikan penggunaan form dengan metode POST, penyimpanan variabel ke session, dan penampil
Equnix Business Solutions (Equnix) is an IT Solution provider in Indonesia, providing comprehensive solution services especially on the infrastructure side for corporate business needs based on research and Open Source. Equnix has 3 (three) main services known as the Trilogy of Services: Support (Maintenance/Managed), World class level of Software Development, and Expert Consulting and Assessment for High Performance Transactions System. Equnix is customer oriented, not product or principal. Equal opportunity based on merit is our credo in managing HR development.
DBMS adalah singkatan dari “Database Management System” yaitu sistem penorganisasian dan sistem pengolahan Database pada komputer. DBMS atau database management system ini merupakan perangkat lunak (software) yang dipakai untuk membangun basis data yang berbasis komputerisasi.
Presentasi ini membahas pengembangan sistem informasi manajemen dengan menjelaskan tujuan belajar, pendekatan sistem, jenis-jenis prototipe, pengembangan prototipe evolusioner dan persyaratan, keuntungan prototyping, potensi kesulitan, pengembangan aplikasi lebih cepat, pengembangan berfase, tahapannya, pemodelan proses, diagram arus data, kasus penggunaan, kepemimpinan proyek, input pengestimasian biaya, alat-al
Tiga kalimat ringkasan dokumen tersebut adalah:
Dokumen tersebut membahas penggunaan teknologi informasi dalam organisasi besar seperti Toyota dan UPS serta pengertian, komponen, peran, dan tahapan pembangunan sistem informasi manajemen.
Aplikasi Pengelolaan Persedian Barang Dagang Berupa ATKFitri Evi Nasution
Aplikasi ini membahas tentang pengembangan aplikasi pengelolaan persediaan barang dagang ATK menggunakan bahasa pemrograman Java. Aplikasi ini dirancang untuk mengelola data barang seperti input data barang, stok barang, harga barang, dan transaksi pembelian; serta mampu mencetak laporan.
Dokumen tersebut membahas tentang metode pengiriman form (POST dan GET) serta penggunaan session dalam PHP. Metode POST menyembunyikan variabel yang dikirim di alamat web, sedangkan metode GET menampilkan variabelnya. Session digunakan untuk menyimpan sementara variabel antar halaman dengan mendaftarkan, mengisi, dan menampilkan variabel session. Contoh koding mendemonstrasikan penggunaan form dengan metode POST, penyimpanan variabel ke session, dan penampil
Dokumen ini membahas penggunaan beberapa tag HTML penting untuk format tampilan dokumen seperti heading, paragraph, line break, dan daftar termasuk ordered list, unordered list, dan menu list.
The PHP script connects to a database to log website visitor statistics including the visitor's IP address, date, number of page hits, and time online. It checks if the IP address already exists for the current date, and if not, inserts a new entry, otherwise it updates the existing entry by incrementing the hits count and setting the online time. Various metrics are then calculated from the database like current visitors, total visitors, hits for the day, total hits, and current online users. These statistics are output in an HTML table.
Web/HTML Editor digunakan untuk membuat halaman web statis dan dinamis secara visual atau menggunakan teks editor. Editor web profesional menyediakan fitur yang mempercepat pembuatan halaman seperti GUI, otomatisasi kode, dan sambungan basis data. Browser menerjemahkan kode HTML menjadi tampilan yang diinginkan. Microsoft Internet Explorer, Firefox, dan Safari adalah contoh browser web. Ada dua model pembuatan halaman web statis yaitu secara lokal dan di server. Str
CSS digunakan untuk mengubah tampilan halaman website seperti warna dan format dengan mudah. CSS memungkinkan pengguna untuk mempercantik tampilan teks, tombol, tabel dan elemen lainnya. CSS dapat ditempatkan langsung di tag HTML, di dalam file HTML, atau di file CSS terpisah yang dapat digunakan untuk semua halaman website. Kelas CSS memungkinkan pengguna untuk menerapkan gaya yang sama pada elemen-elemen yang berbeda.
Dokumen ini membahas konsep dasar penggunaan basis data pada sistem berbasis web. Terdapat penjelasan tentang koneksi database, mengeksekusi query, dan fungsi-fungsi PHP untuk MySQL. Juga dijelaskan cara membuat database, tabel, dan file-file pendukung seperti config, connection, dan SQL. Selanjutnya dijelaskan cara menampilkan, menambahkan, mengubah, dan menghapus data kota pada tabel melalui beberapa file seperti form input, tampil, edit
This document discusses PHP control structures including if/else statements, switch statements, and looping structures like while, do-while and for loops.
If/else statements allow for conditional execution of code based on simple or compound expressions. Switch statements allow checking a variable against multiple case values.
While and do-while loops check a condition at the start or end of each loop iteration. For loops allow iterating with a counter variable through initialization, condition checking, and increment/decrement each loop.
HTML dikembangkan oleh Tim Berners-Lee di CERN dan dipopulerkan oleh browser Mosaic pada tahun 1990-an. HTML menggunakan tag yang diletakkan di antara tanda kurung siku untuk menandai teks dan elemen lainnya. Struktur dasar file HTML terdiri atas bagian Header dan Body.
The document discusses visualizing an HTML table containing poll results using Highcharts. It includes instructions to include necessary JavaScript libraries, initialize a chart on page load by passing the table and chart options to a Highcharts visualization function, and output the poll response counts from a database into the table. This will generate an interactive column chart of the poll results from the data in the HTML table.
1. 28 September 2005 Pendahuluan dan Proses KDD 1
PERTEMUAN 1& 2
PENDAHULUAN DAN PROSES KDD
2. 28 September 2005 Pendahuluan dan Proses KDD 2
KebutuhanBisnis
Terdapattigakebutuhanbisnis:
‰Penambahanmaupunpeningkatankapasitasproduk
‰Penguranganbiayaoperasiperusahaan
‰Peningkatanefektifitaspemasarandankeuntungan
3. 28 September 2005 Pendahuluan dan Proses KDD 3
PermasalahanBisnissecaraumum
•Permasalahanbisnisyang umumdihadapi:
1.Bagaimanamenyajikanadvertensikepadatarget yang tepatsasaran
2.Menyajikanhalamanweb ygkhusussetiappelanggan
3.Menampilkaninformasiproduklain yang biasadibelibersamaandenganproduktertentu.
4.Mengklasifikasikanartikel-artikelsecaraotomatis
5.Mengelompokkanpengunjungweb yang memilikikesamaankarateristiktertentu
6.Mengestimasidata yang hilang
7.Memprediksikelakuandimasayang akandatang
4. 28 September 2005 Pendahuluan dan Proses KDD 4
SolusiMasalah
Konsepdasaryang perludipikirkanpelakubisnissebagaisolusipermasalahan, yaitu:
1.PerumusanTarget
Memilihtarget pemasaranuntukdisuguhiadvertensitertentubertujuanuntukmeningkatkanprofit perusahaan, pengenalanproduksecaraluasatauhasil-hasilterukurlainnya.
2.Personalisasi
Memanfaatkanpersonalisasiuntukmemilihadvertensiyang paling sesuaiuntukorangtertentudanpersonalisasiinibertujuanagar pengunjungyang sudahmenjadipelangganmembelisebanyakmungkinprodukperusahaan.
3.Asosiasi(analisiskeranjangpasar)
Asosiasiinimengidentifikasiitem-item produkyang mungkindibelibersamaandenganproduklain ataudilihatsecarabersamaanpadasaatmencariinformasimengenaiproduktertentu.
5. 28 September 2005 Pendahuluan dan Proses KDD 5
5.ManajemenPengetahuanSisteminimengidentifikasidanmemanfaatkanpola-poladidalamdokumenyang berbahasaalamiatauberformattext. Pendekataninidigunakanuntukmenyortirdokumenbarudanmempersonalisasipublikasionline6. PengelompokkanPengelompokkandigunakanuntukmembuatlaporanmengenaikarateristikumumdarigrup-gruppengunjung(kustomer) yang berbeda. 7. EstimasidanPrediksiEstimasimenerkasebuahnilaiyang belumdiketahuidanprediksimemperkirakannilaiuntukmasadatang. 8. PohonKeputusanSebagaidiagram alirdarititik-titikpertanyaanyang menujupadasebuahkeputusan.
6. 28 September 2005 Pendahuluan dan Proses KDD 6
KebutuhandanKesempatanuntukData Mining
Kebutuhanakandata mining dikarenakan:
1.Ketersediaandata yang melimpah, kebutuhanakaninformasi(ataupengetahuan) sebagaipendukungpengambilankeputusanuntukmembuatsolusibisnisdandukunganinfrastrukturdibidangteknologiinformasi
2.Ketersediaandata transaksidalamvolume yang besar
3.Informasisebagaiasetperusahaanyang pentingsehinggamelahirkangudangdata yang mengintegrasikaninformasidarisistemyang tersebaruntukmendukungpengambilankeputusan
4.Ketersediaanteknologiinformasidalamskalayang terjangkaudansudahdapatdiadopsisecaraluas.
7. 28 September 2005 Pendahuluan dan Proses KDD 7
DefinisiData Mining
‰Data mining adalahprosesyang memperkerjakansatuataulebihteknik-teknikpembelajarankomputer(machine learning) untukmenganalisisdanmengekstraksipengetahuan(knowledge) secaraotomatis.
‰Data mining merupakanprosesiteratifdaninteraktifuntukmenemukanpolaataumodel yang sahih, baru, bermanfaat, dandimengertidalamsuatudatabase yang sangatbesar(massive databases).
‰Data mining merupakanserangkaianprosesuntukmenggalinilaitambahdarisuatukumpulandata berupapengetahuanyang selamainitidakdiketahuisecaramanual darisuatukumpulandata
‰Data mining menggunakanberbagaiperangkatlunakanalisisdata untukmenemukanpoladanrelasidata agar dapatdigunakanuntukmembuatprediksidengantepat
8. 28 September 2005 Pendahuluan dan Proses KDD 8
MengapaMelakukanData Mining
‰SudutPandangKomersial:
•Meledaknyavolume data yang dihimpundandisimpandalamdata warehouse
•Proseskomputasiyang dapatdiupayakan
•Kuatnyatekanankompetitif
∼Dapatmenyediakanyang lebihbaik, layanan-layanankastemisasi
∼Informasimenjadiprodukyang berarti
‰SudutPandangKeilmuan:
•Kecepatandata yang dihimpundandisimpan(Gbyte/hour)
∼Remote sensor yang ditempatkanpadasuatusatelit
∼Telescope yang digunakanuntukmen-scan langit
∼Simulasisaintifikyang membangkitkandata dalamukuranterabytes
•Teknik-tekniktradisionaltidakfisibelutnukmengolahdata mentah
•Data mining untukreduksidata ;
∼Catalogging, klassifikasi, segmentasidata
∼Membantuilmuwandalammelakukanformulasihipotesisi
9. 28 September 2005 Pendahuluan dan Proses KDD 9
IlmuBerkaitanData Mining
Bidangilmuyang berkaitan:
‰Database
‰Information science (ilmuinformasi)
‰High performance computing
‰Visualisasi
‰Machine learning
‰Statistik
‰Neural networks (jaringansaraftiruan)
‰Pemodelanmatematika
‰Information retrieval
‰Information extraction dan
‰Pengenalanpola
10. 28 September 2005 Pendahuluan dan Proses KDD 10
‰AnalisaPasardanManajemenBeberapasolusidapatdiselesaikandengandata mining : –Menebaktarget pasar–Melihatpolabelipemakaidariwaktukewaktu–Cross Market Analysis–ProfilCustomer–IdentifikasiKebutuhanCustomer–Menilailoyalitascustomer–Informasisummary ‰AnalisaPerusahaandanManajemenResikoBeberapasolusidapatdiselesaikandengandata mining : –MerencanakanKeuangandanEvaluasiAset–MerencanakanSumberDaya(Resource Planning) –MemoniotrPersaingan(Competition) PenerapanData Mining
11. 28 September 2005 Pendahuluan dan Proses KDD 11
‰Telekomunikasi
Data mining digunakanuntukmelihatjutaantransaksiyang masukdengantujuanmenambahlayananotomatis
‰KeuanganData mining digunakanuntukmendeteksitransaksi- transaksikeuanganyang mencurigakandimanaakansusahdilakukanjikamenggunakananalisisstandar. ‰AsuransiAustralian Health Insurance Commisionmenggunakandata mining untukmengidentifikasilayanankesehatandanberhasilmenghematsatujutadollar pertahun
12. 28 September 2005 Pendahuluan dan Proses KDD 12
‰Olahraga IBM Advanced Scout menggunakandata mining untukmenganalisisstatistikpermainanNBA dalamrangkacompetitive advantage untuktimNew York Knicks
‰Astronomi
Jet Propulsion Laboratory (JPL) diPasadena danPulomarObservatory menemukan22 quasar denganbantuandata mining.
‰Internet Web Surf-AidIBM Surf-Aid menggunakanalgoritmadata mining untukmendataakseshalamanWeb khususnyaberkaitandenganpemasaranmelaluiweb.
13. 28 September 2005 Pendahuluan dan Proses KDD 13
Tools Data Mining
‰Karateristik-karateristik pentingdaritool data mining meliputi:
–Data preparation facilities
–Selection of data mining operation (algorithms)
–Product scalability and performance
–Facilities for visualization of result
‰Data mining tool, meliputi:
–Integral Solution Ltd’sClementine
–DataMindCorp’s Data Crusher
–IBM’s Intelligent Miner
–Silicon Graphics Inc.’s MineSet
–InformationsDiscovery Inc.’s Data Mining Suite
–SAS Institute Inc.’s SAS System and Right Information System’Thought.
14. 28 September 2005 Pendahuluan dan Proses KDD 14
EvolusiDatabase
‰Th1960
–Pengumpulandata, pembuatandata, IMS dannetwork DBMS
‰Th1970
–Model data relasional, ImplementasiDBMS relasional
‰Th1980
–RDBMS, Model data lanjutan(extended-relational, OO, deductive)
‰Th1990
–Data mining, data warehouse, database multimedia, danWeb database.
‰Th2000
–Stream data managemendanmining
–Data mining denganberbagaivariasiaplikasi
–Teknologiweb dansisteminformasiglobal
15. 28 September 2005 Pendahuluan dan Proses KDD 15
Teknik–teknikDatabase
Searching
‰Searching dilakukanuntukmemeriksaserangkaianitem yang memilikisifat- sifatyang diinginkan.
‰Tindakanuntukmenemukansuatuitem tertentubaikyang diketahuikeberadaannyamaupuntidak.
‰Memasukkankatadalamsuatuprogram komputeruntukmembandingkandenganinformasiyang adadalamdatabase.
Indexing
‰Indexing adalahstruktur-strukturaksesyang digunakanuntukmempercepatrespondalammendapatkanrecord-record padakondisi-kondisipencariantertentu.
‰Indexing field adalahsuatustrukturaksesindex yang biasanyamenjelaskanfield tunggaldarisuatufile.
‰Indexing organization memberikanefisiensiakseskerecord-record secaraberurutataurandom.
16. 28 September 2005 Pendahuluan dan Proses KDD 16
Data Reduction
‰Data reduction adalahtransformasisuatumasalahkemasalahlain dandapatdigunakanuntukmendefinisikanserangkaianmasalahyang kompleks.
‰Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, summingdan averaging data.
‰Data reduction dilakukanuntuk mengatasi ukuran data yang terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.
‰Data reduction dilakukan dalam tahap data preprocessing pada rangkaian proses Knowledge Discovery Databases (KDD) sebelum data mining dengan tujuan mengurangi ukuran data yang besar.
17. 28 September 2005 Pendahuluan dan Proses KDD 17
OLAP (On-line analytical processing)
‰OLAP adalahsuatusistematauteknologiyang dirancanguntukmendukungprosesanalisiskompleksdalamrangkamengungkapkankecenderunganpasardanfaktor-faktorpentingdalambisnis
‰OLAP ditandaidengankemampuannyamenaikkanataumenurunkandimensidata sehinggakitadapatmenggalidata sampaipadalevel yang sangatdetail danmemperolehpandanganyang lebihluasmengenaiobjekyang sedangkitaanalisis.
‰OLAP secarakhususmemfokuskanpadapembuatandata agar dapatdiaksespadasaatpendefinisiankembalidimensi.
‰OLAP dapatdigunakanmembuatrangkumandarimultidimensidata yang berbeda, rangkumanbarudanmendapatkanresponsecaraonline, danmemberikanview duadimensipadadata cube multidimensisecarainteraktif.
18. 28 September 2005 Pendahuluan dan Proses KDD 18
Data Warehouse
Definisi:
‰Data Warehouse adalahPusatrepositoriinformasiyang mampumemberikandatabase berorientasisubyekuntuk informasi yang bersifathistorisyang mendukungDSS (Decision SuportSystem) danEIS (Executive Information System).
‰Salinandaritransaksidata yang terstruktursecaraspesifikpadaquery dananalisa.
‰Salinandaritransaksidata yang terstrukturspesifikuntukquery danlaporan
Tujuan:
‰Meningkatkankualitasdanakurasiinformasibisnisdanmengirimkaninformasikepemakaidalambentukyang dimengertidandapatdiaksesdenganmudah.
19. 28 September 2005 Pendahuluan dan Proses KDD 19
Ciri-ciriData Warehouse
Terdapat4 karateristikdata warehouse
•Subject oriented
–Data yang disusunmenurutsubyekberisihanyainformasiyang pentingbagipemprosesandecision support.
–Database yang semuainformasiyang tersimpandikelompokkanberdasarkansubyektertentumisalnya: pelanggan, gudang, pasar, dsb.
–SemuaInformasitersebutdisimpandalamsuatusistemdata warehouse.
–Data-data disetiapsubyekdirangkumkedalamdimensi, misalnya: periodewaktu, produk, wilayah, dsb, sehinggadapatmemberikannilaisejarahuntukbahananalisa.
•Integrated
–Jikadata terletakpadaberbagaiaplikasiyang terpisahdalamsuatulingkunganoperasional, encoding data seringtidakseragamsehingggabiladata dipindahkankedata warehouse makacoding akandiasumsikansama sepertilazimnya.
•Time-variant
–Data warehouse adalahtempatuntukstoring data selama5 sampai10 tahunataulebih, data digunakanuntukperbandinganatauperkiraandandata initidakdapatdiperbaharui.
•Non volatile
–Data tidakdapatdiperbaharuiataudirubahtetapihanyadapatditambahdandilihat.
20. 28 September 2005 Pendahuluan dan Proses KDD 20
Masalah-masalahdalammenerapkanData warehouse : •Dokumentasidanpengelolaanmetadata daridata warehouse. •Penentuanaturandalamprosestransformasiuntukmemetakanberbagaisumberlegacy data yang akandimasukkankedalamdata warehouse. •Pencapaianprosespengembanganyang handal, baikdalammembangun, mempimplementasikan, maupunmemeliharadata warehouse.
21. 28 September 2005 Pendahuluan dan Proses KDD 21
Data Preprocessing
‰Data preprocessing menerangkantipe-tipeprosesyang melaksanakandata mentahuntukmempersiapkanprosesproseduryang lainnya.
‰Dalamdata mining menstrasformasidata kesuatuformat yang prosesnyalebihmudahdanefektifuntukkebutuhanpemakai, contohnyaNeural Network.
‰Terdapatbeberapaalatdanmetodeyang berbedayang digunakanuntukpreprocessing seperti:
–Sampling : menyeleksisubset representatifdaripopulasidata yang besar.
–Transformation : memanipulasidata mentahuntukmenghasilkaninput tunggal.
–Denoising: menghilangkannoise daridata
–Normalization : mengorganisasidata untukpengaksesanyang lebihspesifik
–Feature extration: membukaspesifikasidata yang signifikandalamkontekstertentu.
22. 28 September 2005 Pendahuluan dan Proses KDD 22
Knowledge Discovery In Database (KDD)
‰KDD berhubungandenganteknikintegrasidanpenemuanilmiah, interprestasi danvisualisasidaripola-polasejumlahkumpulandata.
‰Knowledge discoveryin databases(KDD) adalahkeseluruhanprosesnon-trivial untukmencaridanmengidentifikasipola(pattern) dalamdata, dimanapolayang ditemukanbersifatsah, baru, dapatbermanfaatdandapatdimengerti.
24. 28 September 2005 Pendahuluan dan Proses KDD 24
TahapanProsesKDD1.Data Selection–Menciptakanhimpunandata target , pemilihanhimpunandata, ataumemfokuskanpadasubset variabelatausampeldata, dimanapenemuan(discovery) akandilakukan. –Pemilihan(seleksi) data darisekumpulandata operasionalperludilakukansebelumtahappenggalianinformasidalamKDD dimulai. Data hasilseleksiyang akandigunakanuntukprosesdata mining, disimpandalamsuatuberkas, terpisahdaribasis data operasional.
25. 28 September 2005 Pendahuluan dan Proses KDD 25
2. Pre-processing/ Cleaning
–Pemprosesanpendahuluandanpembersihandata merupakanoperasidasarsepertipenghapusannoise dilakukan.
–Sebelumprosesdata miningdapatdilaksanakan, perludilakukanprosescleaningpadadata yang menjadifokusKDD.
–Prosescleaning mencakupantaralain membuangduplikasidata, memeriksadata yang inkonsisten, danmemperbaikikesalahanpadadata, sepertikesalahancetak(tipografi).
–Dilakukanprosesenrichment, yaituproses“memperkaya” data yang sudahadadengandata atauinformasilain yang relevandandiperlukanuntukKDD, sepertidata atauinformasieksternal.
26. 28 September 2005 Pendahuluan dan Proses KDD 26
3.Transformation
–Pencarianfitur-fituryang bergunauntukmempresentasikandata bergantungkepadagoal yang ingindicapai.
–Merupakanprosestransformasipadadata yang telahdipilih, sehinggadata tersebutsesuaiuntukprosesdata mining. Prosesinimerupakanproseskreatifdansangattergantungpadajenisataupolainformasiyang akandicaridalambasis data