Data dimensioanal kelompok akbar aswad
Upcoming SlideShare
Loading in...5
×
 

Data dimensioanal kelompok akbar aswad

on

  • 1,155 views

 

Statistics

Views

Total Views
1,155
Views on SlideShare
1,155
Embed Views
0

Actions

Likes
1
Downloads
50
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Data dimensioanal kelompok akbar aswad Data dimensioanal kelompok akbar aswad Document Transcript

  • TUGAS KELOMPOK DATA MINING DAN DATA WAREHOUSE “DATA DIMENSIONAL” Oleh : - Akbar Aswad (1031098) - Pingky Hermanto (1131092) - Yulianto (1031102) - Lintang A. R. (1031080) - Ogi Riwandi (1031115) JURUSAN SISTEM INFORMASI FAKULTAS ILMU KOMPUTERUNIVERSITAS INTERNASIONAL BATAM 2012 1
  • Daftar Isi ............................................................ Error! Bookmark not defined.Definisi Data Warehouse ........................................................................ 3I.1. Pengertian Data, Informasi dan Database ................................................... 3I.2. Pengertian Data Warehouse ..................................................................... 3I.3. Store-store data yang berhubungan dengan data warehouse .......................... 4I.4. Istilah-istilah yang berhubungan dengan data warehouse .............................. 5I.5. Karakteristik Data Warehouse .................................................................. 6Data Operasional ......................................................................................... 6Data Warehouse .......................................................................................... 6Data Dimensional ......................................................................................... 71. Pengertian ......................................................................................... 72. Konsep Modeling Data Dimensional ................................................. 92.1. Tabel Fakta (the fact table) .................................................................102.2. Dimensi Data Model .............................................................................113. Membangun Sebuah Model Data Dimensional ...............................133.1. Memilih Sebuah Proses Bisnis ................................................................ 143.2. Merangkum Dari Proses Bisnis...............................................................143.3. Menentukan Ringkasan Dari Tabel Fakta ................................................153.4. Indentifikasi Dimensi dan Hirarki ...........................................................163.4. Memilih dan Menetukan Tabel Fakta ......................................................173.5. Resisting Normalisasi ............................................................................183.6. Memilih Atribut Tabel Dimensi ..........................................................194. Menangani Masalah umum Data Dimensional ...............................204.1. Meminalisir Jumlah Atribut ..................................................................204.2. Penanganan Dimensi Yang Berubah........................................................214.3. Menggunakan Skema Snowflake ............................................................22Daftar Pustaka ..........................................................................................24 2
  • Definisi Data WarehouseI.1. Pengertian Data, Informasi dan Database Sebelum membahas tentang data warehouse, hal yang harus dipahami terlebih dahuluyaitu pengertian tentang data,informasi dan database yaitu :1. Steven Alter, data merupakan fakta,gambar atau suara yang mungkin atau tidakberhubungan atau berguna bagi tugas tertentu.2. McLeod, data terdiri dari fakta-fakta dan angka yang secara relatif tidak berarti bagipemakai. Sedangkan informasi adalah data yang sudah diproses atau data yang memiliki arti. Jadi dapat diartikan bahwa data merupakan suatu bentuk keterangan-keterangan yangbelum diolah atau dimanipulasi sehingga belum begitu berarti bagi sebagian pemakai.Sedangkan informasi merupakan data yang sudah di olah sehingga memiliki arti. Menurut James A. O’Brien Database adalah suatu koleksi terintegrasi dimana secaralogika berhubungan dengan record dari file. Jadi Database adalah tempat penyimpanan data yang saling berhubungan secara logika,sehingga bisa digunakan untuk mendapatkan suatu informasi yang diperlukan oleh suatuorganisasi atau perusahaan. Sedangkan data yang diperoleh suatu organisasi atau perusahaan umumnya didapat darikegiatan operasional sehari-hari atau hasil dari transaksi. Sehingga dari perkembangan modeldatabase, dapat disebut juga dengan data warehouse.I.2. Pengertian Data Warehouse Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama,seperti pendapat beberapa ahli berikut ini : 3
  • 1. W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyaisifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalammendukung proses pengambilan keputusan management.2. Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read onlyyang digunakan sebagai fondasi dari sistem penunjang keputusan. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjangDSS(Decission Support System) dan EIS (Executive Information System). Secara fisik datawarehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda.Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada datawarehouse normalisasi bukanlah cara yang terbaik. Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalahdatabase yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifatorientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu parapengambil keputusan.I.3. Store-store data yang berhubungan dengan data warehouse Data warehouse Sebuah database yang dioptimalkan untuk pengambilan data. Data tidak disimpan pada tingkat transaksi, beberapa tingkat data diringkas. Tidak seperti database OLTP tradisional, yang mengotomatisasi sehari-hari operasi, data warehouse menyediakan lingkungan pendukung keputusan di mana Anda dapat mengevaluasi kinerja seluruh perusahaan dari waktu ke waktu. Biasanya, Anda menggunakan model data relasional untuk membangun data warehouse. Data mart Sebuah subset dari data warehouse yang disimpan dalam database yang lebih kecil dan yang berorientasi pada tujuan tertentu atau subjek data daripada untuk enterprise-wide perencanaan strategis. Sebuah data mart dapat berisi data operasional, data diringkas, data spasial, atau metadata. Biasanya, Anda menggunakan model data dimensi untuk membangun data mart. Operational data store 4
  • Sebuah sistem subjek berorientasi yang dioptimalkan untuk mencari satu atau dua catatan pada suatu waktu untuk pengambilan keputusan. Sebuah toko data operasional adalah bentuk hibrida data warehouse yang berisi tepat waktu, saat ini, informasi yang terintegrasi. Data biasanya adalah granularity tingkat lebih tinggi dari transaksi. Anda dapat menggunakan menyimpan data operasional untuk administrasi pengambilan keputusan, sehari-hari membuat. Data ini dapat berfungsi sebagai sumber umum dari data untuk gudang data. Repository Sebuah repositori menggabungkan sumber data ke dalam satu database dinormalisasi. Catatan dalam repositori sering diperbarui. Data operasional, bukan sejarah. Anda mungkin menggunakan repositori untuk spesifik pendukung keputusan query, tergantung pada persyaratan sistem tertentu. Sebuah repositori sesuai dengan kebutuhan perusahaan yang memerlukan, terpadu enterprise-wide sumber data untuk pengolahan operasional.I.4. Istilah-istilah yang berhubungan dengan data warehouse Istilah-istilah yang berkaitan dengan data warehouse : 1. On-Line Analytical Processing(OLAP) Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data yang berukuran besar. 2. On-Line Transaction Processing(OLTP) Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi sehari-hari. 3. Dimension Table Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan. Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang berupa perbulan, perkwartal dan pertahun). 4. Fact Table Merupakan tabel yang umumnya mengandung angka dan data history dimana key (kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci asing) yang merupakan primary key (kunci utama) dari beberapa dimension table yang berhubungan. 5. DSS 5
  • Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang baik.I.5. Karakteristik Data Warehouse Karakteristik data warehouse menurut Inmon, yaitu : 1. Subject Oriented (Berorientasi subject) Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data Operasional Data Warehouse Dirancang berorientasi hanya pada Dirancang berdasar pada subjek-subjek aplikasi dan fungsi tertentu tertentu(utama) Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain data Berisi rincian atau detail data Berisi data-data history yang akan dipakai dalam proses analisis Relasi antar table berdasar aturan Banyak aturan bisnis dapat tersaji antara terkini(selalu mengikuti rule(aturan) tabel-tabel terbaru) 2. Integrated (Terintegrasi) Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. 3. Time-variant (Rentang Waktu) Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. 4. Non-Volatile 6
  • Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler.Data Dimensional 1. Pengertian Data dimensional merupakan rancangan logikal yang bertujuan untukmenampilkan data dalam bentuk standar dan intuitif yang memperbolehkan akses dengan performa yang tinggi. Model dimensional menggunakan konsep model hubungan antar entity (ER) dengan beberapa batasan yang penting. Setiap model dimensi terdiri dari sebuah tabel dengan sebuah komposit primary key, disebut dengan table fakta, dan satu set table yang lebih kecil disebut table dimensi. Setiap table dimensi memiliki sebuah simple primary key yang merespon tepat pada satu komponen primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri dari dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau join bintang. Database relasional tradisional diorganisir diantara daftar catatan. Setiap record berisi informasi terkait yang diatur dalam atribut (field). Tabel pelanggan dari database demonstrasi stores_demo, yang mencakup kolom untuk nama, perusahaan, alamat, telepon, dan sebagainya, adalah contoh yang khas. Sementara tabel ini memiliki beberapa bidang informasi, setiap baris dalam tabel berkaitan dengan hanya satu pelanggan. Jika Anda ingin membuat sebuah matriks dua dimensi dengan nama pelanggan dan bidang lain (misalnya, nomor telepon), Anda akan menyadari bahwa hanya ada korespondensi satu-ke-satu. Tabel 8 menunjukkan meja dengan bidang yang hanya memiliki korespondensi satu-ke-satu. Table 8. A Table with a One-To-One Correspondences Between Fields Customer Phone number ---> Ludwig Pauli 408-789-8075 ---------------- ---------------- Carole Sadler ---------------- 415-822-1289 ---------------- Philip Currie ---------------- ---------------- 414-328-4543 7
  • Anda bisa menempatkan setiap kombinasi dari bidang dari tabel pelanggansebelumnya dalam matriks ini, tetapi Anda selalu akan berakhir dengan korespondensisatu-ke-satu, yang menunjukkan bahwa tabel ini tidak multidimensi dan tidak akancocok untuk database dimensi. Namun, pertimbangkan meja relasional yang berisi lebih dari korespondensisatu-ke-satu antara bidang meja. Misalkan Anda membuat tabel yang berisi datapenjualan untuk produk yang dijual di setiap wilayah negara. Untuk mempermudah,misalkan perusahaan memiliki tiga produk yang dijual di tiga wilayah. Tabel 9 showsbagaimana Anda dapat menyimpan data ini dalam tabel relasional. Table 9. A Simple Relational Table Product Region Unit Sales Football East 2300 Football West 4000 Football Central 5600 Tennis racket East 5500 Tennis racket West 8000 Tennis racket Central 2300 Baseball East 10000 Baseball West 22000 Baseball Central 34000 Tabel dalam Tabel 9 cocok untuk representasi multidimensi karena memilikilebih dari satu produk per wilayah dan lebih dari satu wilayah per produk. Tabel 10menunjukkan matriks dua dimensi yang lebih baik merupakan hubungan banyak-ke-banyak data produk dan wilayah. Table 10. A Simple Two-Dimensional Example Product Region Central East West Football 5600 2300 4000 Tennis Racket 2300 5500 8000 Baseball 34000 10000 22000 Meskipun data ini dapat dipaksa ke dalam tabel tiga bidang relasional dari Tabel9, data cocok lebih alami ke dalam matriks dua dimensi dari Tabel 10. 8
  • Keunggulan kinerja dari tabel dimensi di atas meja relasional tradisional dapat menjadi besar. Pendekatan dimensi menyederhanakan akses ke data yang ingin Anda meringkas atau membandingkan. Misalnya, jika Anda menggunakan tabel dimensi untuk query jumlah produk yang dijual di Barat, database server menemukan kolom Barat dan menghitung total untuk semua nilai baris dalam kolom tersebut. Untuk melakukan query yang sama di meja relasional, database server harus mencari dan mengambil setiap baris di mana kolom Daerah sama barat dan kemudian agregat data. Dalam pertanyaan semacam ini, tabel dimensi dapat total semua nilai kolom thewest di sebagian kecil dari waktu yang dibutuhkan tabel relasional untuk menemukan semua catatan Barat.2. Konsep Modeling Data Dimensional Untuk membangun sebuah database dimensi, Anda mulai dengan model data dimensi. Model Data dimensi menyediakan metode untuk membuat database sederhana dan mudah dipahami. Anda dapat membayangkan database dimensi sebagai kubus database tiga atau empat dimensi di mana pengguna dapat mengakses sepotong database bersama salah satu dimensi. Untuk membuat database dimensi, Anda membutuhkan model yang memungkinkan Anda memvisualisasikan data. Misalkan bisnis Anda menjual produk di pasar yang berbeda dan mengevaluasi kinerja dari waktu ke waktu. Sangat mudah untuk memahami proses bisnis sebagai kubus data, yang berisi dimensi waktu, produk, dan pasar. Gambar 35 menunjukkan model dimensi. Persimpangan berbagai sepanjang baris kubus akan berisi langkah- langkah bisnis. Langkah-langkah sesuai dengan kombinasi tertentu dari data produk, pasar, dan waktu. Figure 35. A Dimensional Model of a Business That Has Time, Product, and Market Dimensions Nama lain untuk model dimensi adalah skema bintang-bergabung. Para desainer database menggunakan nama ini karena diagram untuk model ini tampak seperti bintang dengan satu meja sentral di mana satu set meja lainnya akan ditampilkan. Tabel utama adalah tabel hanya dalam skema dengan beberapa join menghubungkannya ke 9
  • semua tabel lainnya. Ini meja tengah disebut tabel fakta dan tabel lain yang disebut tabel dimensi. Tabel dimensi semua hanya memiliki join tunggal yang menempel mereka ke tabel fakta, terlepas dari query.Gambat 36 menunjukkan model dimensi sederhana dari sebuah bisnis yang menjual produk di pasar yang berbeda dan mengevaluasi kinerja bisnis dari waktu ke waktu. Gambar 36. A Typical Dimensional Model2.1. Tabel Fakta (the fact table) Tabel fakta menyimpan ukuran bisnis dan menunjuk ke nilai kunci pada tingkat terendah dari masing-masing tabel dimensi. Langkah-langkah adalah data kuantitatif atau faktual tentang subjek. Langkah-langkah umumnya numerik dan sesuai dengan seberapa jauh atau seberapa banyak aspek dari pertanyaan. Contoh tindakan adalah harga, penjualan produk, persediaan produk, pendapatan, dan sebagainya. Sebuah ukuran dapat didasarkan pada sebuah kolom dalam sebuah tabel atau dapat dihitung. Tabel 11 menunjukkan tabel fakta yang tindakannya merupakan jumlah dari unit yang terjual, pendapatan, dan keuntungan untuk penjualan produk tersebut ke akun bahwa pada hari itu. Table 11. A Fact Table with Sample Records Product Account Code Day Code Units Sold Revenue Profit Code 1 5 32104 1 82.12 27.12 3 17 33111 2 171.12 66.00 10
  • Table 11. A Fact Table with Sample Records Product Account Code Day Code Units Sold Revenue Profit Code 1 13 32567 1 82.12 27.12 Sebelum Anda merancang tabel fakta, Anda harus menentukan rincian (granularity) dari tabel fakta. Granularity sesuai dengan bagaimana Anda mendefinisikan catatan rendah tingkat individu dalam tabel fakta. Granularity mungkin transaksi individual, snapshot harian, atau snapshot bulanan. Tabel fakta dalam Tabel 11 berisi satu baris untuk setiap produk yang dijual untuk setiap account setiap hari. Dengan demikian, granularity dari tabel fakta yang diungkapkan oleh asproduct akun demi hari.2.2. Dimensi Data Model Sebuah dimensi merupakan satu set objek atau peristiwa di dunia nyata. Setiap dimensi yang Anda mengidentifikasi untuk model data akan diimplementasikan sebagai tabel dimensi. Dimensi adalah kualifikasi yang membuat ukuran tabel fakta bermakna, karena mereka menjawab apa, kapan, dan di mana aspek pertanyaan. Sebagai contoh, perhatikan pertanyaan-pertanyaan berikut ini bisnis, dimana dimensi yang dicetak miring: • Apakah penyebab menghasilkan pendapatan tertinggi tahun lalu? • Apa keuntungan kita oleh vendor? • Berapa banyak unit yang terjual untuk setiap produk? Pada set sebelumnya pertanyaan, pendapatan, laba, dan unit yang dijual adalah ukuran (tidak dimensi), karena masing-masing merupakan data kuantitatif atau faktual. Dimension Elements Sebuah dimensi dapat menentukan elemen dimensi ganda untuk berbagai tingkat penjumlahan. Sebagai contoh, semua elemen yang berhubungan dengan struktur organisasi penjualan mungkin terdiri dari satu dimensi. Gambar 37 menunjukkan elemen dimensi bahwa dimensi rekening mendefinisikan. Gambar 37. Dimension Elements in the Accounts Dimension 11
  • Dimensi terdiri dari hierarki elemen terkait. Karena aspek hirarkis dimensi,pengguna dapat membangun query yang mengakses data pada tingkat yang lebih tinggi(sampai roll) atau tingkat yang lebih rendah (drill down) dari tingkat sebelumnya detail.Gambar 37 menunjukkan hubungan hirarki dari elemen dimensi: rekening gulunghingga wilayah, dan wilayah menggulung ke daerah. Pengguna dapat query padatingkat yang berbeda dari dimensi, tergantung pada data yang mereka ingin mengambil.Misalnya, pengguna mungkin melakukan query terhadap semua wilayah dan kemudianmenelusuri ke tingkat wilayah atau account untuk informasi rinci. Dimensi elemen biasanya disimpan dalam database sebagai kode numerik ataustring karakter pendek untuk memfasilitasi bergabung ke meja lainnya. Setiap elemendimensi dapat menentukan atribut dimensi ganda, dengan cara yang sama dimensidapat menentukan elemen dimensi ganda.Dimension Attributes Sebuah atribut dimensi adalah kolom dalam tabel dimensi. Setiap atributmenggambarkan tingkat ringkasan dalam hirarki dimensi. Unsur-unsur dimensimenentukan hubungan hirarkis dalam tabel dimensi, atribut menggambarkan unsur-unsur dimensi dalam hal yang akrab bagi pengguna. Gambar 38 menunjukkan unsur-unsur dimensi dan atribut yang sesuai dari dimensi akun.Figure 38. Attributes That Correspond to the Dimension Elements Karena atribut dimensi menggambarkan item dalam dimensi, mereka yangpaling berguna ketika mereka teks.Tip:Kadang-kadang selama proses desain, tidak jelas apakah bidang data numerik darisumber data produksi adalah fakta terukur atau atribut. Umumnya, jika bidang datanumerik adalah pengukuran yang mengubah setiap kali kita sampel itu, itu adalah fakta.Jika itu adalah deskripsi discretely terhormat sesuatu yang lebih atau kurang konstan,itu adalah atribut dimensi. 12
  • Dimension Tables Sebuah tabel dimensi adalah tabel yang menyimpan deskripsi tekstual dari dimensi bisnis. Sebuah tabel dimensi berisi elemen dan atribut, jika sesuai, untuk setiap tingkat dalam hirarki. Tingkat terendah detail yang diperlukan untuk analisis data menentukan tingkat terendah dalam hirarki. Lebih tinggi dari ini data base tingkat toko berlebihan Levels. Tabel ini denormalized mengurangi jumlah gabungan yang diperlukan untuk query dan membuat lebih mudah bagi pengguna untuk query pada tingkat yang lebih tinggi dan kemudian menelusuri ke tingkat yang lebih rendah dari detail. Pengeboran Istilah turun berarti menambahkan header baris dari tabel dimensi query.Table Anda 12 menunjukkan contoh tabel dimensi yang didasarkan pada dimensi akun.Table 12. An Example of a Dimension Table Region RegionAcct Code Account Name Territory Salesman Region Size Manager1 Janes Mfg. 101 B. Adams Midwest Over 50 T. Sent2 TBD Sales 101 B. Adams Midwest Over 50 T. Sent3 Mollys Wares 101 B. Adams Midwest Over 50 T. Sent4 The Golf Co. 201 T. Scott Midwest Over 50 T. Sent3. Membangun Sebuah Model Data Dimensional Untuk membangun sebuah model data dimensi, Anda memerlukan metodologi yang menguraikan keputusan yang Anda butuhkan untuk membuat untuk melengkapi desain database. Metodologi ini menggunakan pendekatan top-down karena pertama mengidentifikasi proses utama dalam organisasi Anda di mana data dikumpulkan. Sebuah tugas penting dari desainer database untuk memulai dengan sumber data yang ada organisasi Anda menggunakan. Setelah proses diidentifikasi, satu atau lebih tabel fakta yang dibangun dari setiap proses bisnis. Langkah-langkah berikut ini menjelaskan metodologi yang Anda gunakan untuk membangun model data. Untuk membangun sebuah database dimensi a) Pilih proses bisnis yang ingin Anda gunakan untuk menganalisis subyek yang akan dimodelkan. b) Tentukan granularity dari tabel fakta. c) Mengidentifikasi dimensi dan hirarki untuk setiap tabel fakta. d) Mengidentifikasi langkah-langkah untuk tabel fakta. e) Tentukan atribut untuk setiap tabel dimensi. f) Dapatkan pengguna untuk memverifikasi model data. 13
  • Meskipun database dimensi dapat didasarkan pada proses bisnis dan dapat berisi beberapa tabel fakta banyak, model data yang bagian ini menjelaskan didasarkan pada proses bisnis tunggal dan memiliki satu tabel fakta.3.1. Memilih Sebuah Proses Bisnis Sebuah proses bisnis adalah operasi penting dalam organisasi Anda bahwa beberapa sistem warisan mendukung. Anda mengumpulkan data dari sistem ini untuk digunakan dalam database dimensi Anda. Proses bisnis mengidentifikasi apa yang pengguna akhir lakukan dengan data mereka, di mana data berasal dari, dan bagaimana mengubah data tersebut untuk membuatnya bermakna. Informasi dapat diperoleh dari berbagai sumber, termasuk keuangan, analisis penjualan, analisis pasar, profil pelanggan. Daftar berikut ini menunjukkan proses bisnis yang berbeda mungkin Anda gunakan untuk menentukan data apa untuk memasukkan dalam database dimensi Anda: • Penjualan • Pengiriman • Inventarisasi • Pesanan • Faktur3.2. Merangkum Dari Proses Bisnis Misalkan organisasi Anda ingin menganalisis tren pelanggan membeli dengan lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang lebih efektif. Dalam skenario ini, area subyek untuk model data Anda adalah penjualan. Setelah banyak wawancara dan analisis mendalam dari proses bisnis penjualan Anda, misalkan organisasi Anda mengumpulkan informasi berikut: • Pelanggan-basis informasi telah berubah. Sebelumnya, penjualan kabupaten dibagi kota. Sekarang basis pelanggan sesuai dengan dua daerah: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara-negara lain. • Laporan berikut yang paling penting untuk pemasaran: o Bulanan pendapatan, biaya, laba bersih per lini produk vendor yang Pendapatan o dan unit dijual oleh produk, menurut wilayah, berdasarkan bulan o Pendapatan Bulanan pelanggan o Triwulan pendapatan per penjual • Analisis Kebanyakan penjualan didasarkan pada hasil bulanan, tetapi Anda dapat memilih untuk menganalisis penjualan minggu atau periode akuntansi (di kemudian hari). • Sebuah sistem entry data ada dalam database relasional. Untuk mengembangkan model data bekerja, Anda dapat mengasumsikan bahwa database relasional informasi penjualan memiliki sifat sebagai berikut: o Database stores_demo menyediakan banyak data pendapatan bahwa departemen pemasaran menggunakan. o kode produk yang digunakan analis disimpan dalam tabel katalog sebagai nomor katalog. o Kode lini produk disimpan dalam tabel saham sebagai nomor saham. Nama produk disimpan sebagai deskripsi. o hirarki produk yang agak rumit. Setiap lini produk memiliki banyak produk, dan produsen masing-masing memiliki banyak produk. 14
  • • Semua data biaya untuk setiap produk disimpan dalam flat file bernama costs.lst pada sistem pembelian yang berbeda. • Data Pelanggan disimpan dalam database stores_demo.3.3. Menentukan Ringkasan Dari Tabel Fakta Setelah Anda mengumpulkan semua informasi yang relevan tentang daerah subjek, langkah berikutnya dalam proses desain adalah untuk menentukan granularity dari tabel fakta. Untuk melakukan ini, Anda harus memutuskan apa catatan tingkat rendah individu dalam tabel fakta harus berisi. Komponen yang membentuk granularity dari tabel fakta berhubungan langsung dengan dimensi dari model data. Jadi, ketika Anda menentukan granularity dari tabel fakta, Anda mengidentifikasi dimensi dari model data. Bagaimana Granularity Mempengaruhi Ukuran Database Granularity dari tabel fakta juga menentukan berapa banyak ruang penyimpanan database membutuhkan. Sebagai contoh, mempertimbangkan kemungkinan granularities berikut untuk tabel fakta: Produk demi hari menurut wilayah Produk berdasarkan bulan menurut wilayah Ukuran database yang memiliki granularity produk demi hari menurut wilayah akan jauh lebih besar daripada database dengan granularity produk per bulan menurut wilayah karena database berisi catatan untuk setiap transaksi dibuat setiap hari sebagai lawan penjumlahan bulanan transaksi. Anda harus hati-hati menentukan granularity dari tabel fakta Anda karena terlalu halus granularity bisa mengakibatkan database astronomis besar. Sebaliknya, terlalu kasar granularity bisa berarti data tidak cukup rinci bagi pengguna untuk melakukan query bermakna terhadap database. Menggunakan Proses Bisnis Menentukan Granularity tersebut Sebuah tinjauan seksama informasi yang dikumpulkan dari proses bisnis harus menyediakan apa yang Anda butuhkan untuk menentukan granularity dari tabel fakta. Untuk meringkas, organisasi Anda ingin menganalisis pelanggan membeli tren dengan lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang lebih efektif. Pelanggan dengan Produk Granularity dari tabel fakta selalu merupakan tingkat terendah untuk setiap dimensi yang sesuai. Ketika Anda meninjau informasi dari proses bisnis, granularity untuk dimensi pelanggan dan produk dari tabel fakta yang jelas. Pelanggan dan produk tidak dapat cukup dikurangi lebih jauh: mereka sudah mengungkapkan tingkat terendah dari catatan individu untuk tabel fakta. (Dalam beberapa kasus, produk mungkin kemudian dikurangi ke tingkat komponen produk karena produk bisa terdiri dari beberapa komponen.) Pelanggan dengan Produk dari district Karena pelanggan yang membeli tren organisasi Anda ingin menganalisis memasukkan komponen geografis, Anda masih perlu memutuskan tingkat terendah untuk informasi daerah. Proses bisnis menunjukkan bahwa di masa lalu, penjualan kabupaten dibagi kota, tapi sekarang organisasi Anda membedakan antara dua wilayah untuk basis pelanggan: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara- negara lain. Meskipun demikian, pada tingkat terendah, organisasi Anda masih termasuk data penjualan kabupaten, sehingga kabupaten merupakan tingkat terendah untuk informasi geografis dan menyediakan komponen ketiga untuk lebih menentukan granularity dari tabel fakta. 15
  • Pelanggan dengan Produk dari district perhari Pelanggan-beli tren selalu terjadi dari waktu ke waktu, sehingga granularity dari tabel fakta harus menyertakan komponen waktu. Misalkan organisasi Anda memutuskan untuk membuat laporan minggu, periode akuntansi, bulan, kuartal tahun, atau. Pada tingkat terendah, Anda mungkin ingin memilih granularity dasar hari. Granularity ini memungkinkan bisnis Anda untuk membandingkan penjualan pada hari Selasa dengan penjualan pada hari Jumat, bandingkan penjualan untuk hari pertama setiap bulan, dan sebagainya. Granularity dari tabel fakta sekarang lengkap.3.4. Indentifikasi Dimensi dan Hirarki Setelah Anda menentukan granularity (ringkasan) dari tabel fakta, mudah untuk mengidentifikasi dimensi utama untuk model data karena setiap komponen yang mendefinisikan granularity sesuai dengan dimensi. Gambar 39 menunjukkan hubungan antara granularity dari tabel fakta dan dimensi dari model data. Figure 39. The Granularity of the Fact Table Corresponds to the Dimensions of the Data Model Dengan dimensi (pelanggan, produk, geografi, waktu) untuk model data di tempat, diagram skema mulai terbentuk.Sekarang Anda dapat memetakan elemen dimensi dan hirarki untuk setiap dimensi. Gambar 40 menunjukkan hubungan antara dimensi, dimensi elemen, dan hirarki yang melekat. Figure 40. The Relationships Between Dimensions, Dimension Elements, and the Inherent Hierarchies 16
  • Dalam kebanyakan kasus, elemen dimensi perlu mengekspresikan granularity terendah yang bisa setiap dimensi, bukan karena permintaan perlu mengakses individu tingkat rendah catatan, tetapi karena permintaan perlu memotong melalui database dengan cara yang tepat. Dengan kata lain, meskipun pertanyaan bahwa lingkungan data warehouse pose biasanya luas, pertanyaan-pertanyaan ini masih tergantung pada tingkat terendah detail produk.3.4. Memilih dan Menetukan Tabel Fakta Langkah-langkah untuk model data tidak hanya mencakup data itu sendiri, tetapi juga nilai-nilai baru yang Anda menghitung dari data yang ada. Ketika Anda memeriksa langkah-langkah, Anda mungkin menemukan bahwa Anda perlu membuat penyesuaian baik dalam granularity dari tabel fakta atau jumlah dimensi. Keputusan penting lainnya yang harus Anda lakukan ketika Anda merancang model data adalah apakah untuk menyimpan hasil perhitungan pada tabel fakta atau untuk mendapatkan nilai-nilai ini pada saat runtime. Pertanyaan untuk menjawab adalah, "Apa langkah-langkah yang digunakan untuk menganalisis bisnis?" Ingatlah bahwa tindakan adalah data kuantitatif atau faktual yang memberitahu berapa banyak atau berapa banyak. Informasi yang Anda kumpulkan dari analisis bisnis penjualan hasil proses dalam daftar berikut langkah- langkah: • Pendapatan • Biaya • Unit dijual • Laba bersih Gunakan langkah-langkah untuk menyelesaikan tabel fakta pada Gambar 41. Figure 41. The Sales Fact Table References Each Dimension Table 17
  • Menggunakan Kunci Bergabung dengan Tabel Fakta dengan Tabel Dimensi. Asumsikan, untuk saat ini, bahwa skema dari Gambar 41 menunjukkan baik desain logis dan fisik dari database. Database berisi lima tabel berikut: • Penjualan tabel fakta • Produk dimensi meja • Waktu dimensi meja • Pelanggan dimensi meja • Geografi dimensi meja Setiap tabel dimensi termasuk kunci primer (produk, time_code, pelanggan, district_code), dan kolom yang sesuai dalam tabel fakta adalah kunci asing. Tabel fakta juga memiliki kunci (komposit) primer yang merupakan kombinasi dari empat kunci asing. Sebagai aturan, masing-masing kunci asing dari tabel fakta harus memiliki rekan dalam tabel dimensi. Selanjutnya, setiap tabel dalam database dimensi yang memiliki kunci komposit harus menjadi tabel fakta, yang berarti bahwa setiap tabel dalam database dimensi yang mengungkapkan hubungan banyak-ke-banyak adalah tabel fakta.3.5. Resisting Normalisasi Jika keempat kunci asing dari tabel fakta secara ketat diberikan bilangan bulat berturut-turut, Anda bisa memesan sesedikit 16 byte untuk semua empat kunci (4 byte setiap waktu, produk, pelanggan, dan geografi) dari tabel fakta. Jika keempat langkah di tabel fakta masing-masing 4-byte integer kolom, Anda akan perlu untuk memesan hanya lain 16 byte. Dengan demikian, setiap record dari tabel fakta akan menjadi hanya 18
  • 32 byte. Bahkan tabel fakta miliar-baris akan membutuhkan hanya sekitar 32 gigabyte ruang data primer.3.6. Memilih Atribut Tabel Dimensi Setelah Anda menyelesaikan tabel fakta, Anda dapat memutuskan atribut dimensi untuk setiap tabel dimensi. Untuk menggambarkan bagaimana memilih atribut, mempertimbangkan dimensi waktu. Model data untuk proses bisnis penjualan mendefinisikan granularity hari yang sesuai dengan dimensi waktu, sehingga setiap record dalam tabel dimensi waktu merupakan hari. Perlu diingat bahwa setiap bidang tabel didefinisikan oleh hari tertentu catatan mewakili. Analisis proses bisnis penjualan juga menunjukkan bahwa departemen pemasaran kebutuhan bulanan, laporan triwulanan, dan tahunan, sehingga dimensi waktu mencakup unsur-unsur: hari, bulan, triwulan, dan tahun. Setiap elemen diberikan atribut yang menggambarkan elemen dan atribut kode (untuk menghindari nilai-nilai kolom yang mengandung karakter string panjang). Tabel 13 menunjukkan atribut untuk tabel dimensi waktu dan nilai-nilai sampel untuk setiap bidang meja. Table 13. Attributes for the Time Dimension quarter time code order date month code month quarter year code 35276 07/31/1999 7 july 3 third q 1999 35277 08/01/1999 8 aug 3 third q 1999 35278 08/02/1999 8 aug 3 third q 1999 Tabel 13 menunjukkan bahwa nama atribut Anda harus menetapkan istilah bisnis akrab yang membuatnya mudah bagi pengguna akhir untuk membentuk query pada database. Gambar 42 menunjukkan model data yang lengkap untuk proses bisnis penjualan dengan semua atribut yang didefinisikan untuk setiap tabel dimensi. Figure 42. The Completed Dimensional Data Model for the Sales Business Process 19
  • 4. Menangani Masalah umum Data Dimensional Model dimensi yang bagian sebelumnya menjelaskan hanya menggambarkan konsep yang paling dasar dan teknik pemodelan data dimensi. Model data yang Anda membangun untuk mengatasi kebutuhan bisnis perusahaan Anda biasanya melibatkan masalah tambahan dan kesulitan yang harus diselesaikan untuk mencapai kinerja query terbaik dari database Anda. Bagian ini menjelaskan berbagai metode yang dapat Anda gunakan untuk menyelesaikan beberapa masalah yang paling umum yang muncul ketika Anda membangun sebuah model data dimensi.4.1. Meminalisir Jumlah Atribut Dimensi tabel yang berisi informasi pelanggan atau produk dengan mudah mungkin memiliki 50 sampai 100 atribut dan jutaan baris. Namun, dimensi tabel dengan atribut terlalu banyak dapat menyebabkan baris berlebihan luas dan kinerja yang buruk. Untuk alasan ini, Anda mungkin ingin memisahkan kelompok tertentu dari atribut dari tabel dimensi dan menempatkan mereka dalam tabel terpisah yang disebut tabel minidimension. Sebuah meja minidimension terdiri dari sekelompok kecil atribut yang dipisahkan dari tabel dimensi yang lebih besar. Anda mungkin memilih untuk 20
  • membuat tabel minidimension untuk atribut yang memiliki salah satu dari karakteristik berikut: • Bidang jarang digunakan sebagai kendala dalam query. • Bidang sering dibandingkan bersama-sama. Gambar 43 menunjukkan tabel minidimension untuk informasi demografis yang dipisahkan dari customertable. Gambar 43. A Minidimension Table for Demographics Information4.2. Penanganan Dimensi Yang Berubah Dalam tabel demografi, Anda dapat menyimpan demografi kunci sebagai kunci asing di kedua tabel fakta dan tabel pelanggan, yang memungkinkan Anda untuk bergabung tabel demografi langsung ke tabel fakta. Anda juga dapat menggunakan tombol demografi langsung dengan tabel pelanggan untuk menelusuri atribut demografis. Gambar 44. A Dimension That Changes 21
  • Anda dapat menggunakan tiga cara untuk menangani perubahan yang terjadi pada dimensi: • Mengubah nilai yang disimpan dalam kolom dimensi. Pada Gambar 44, rekor Bill Adams dalam tabel dimensi pelanggan diperbarui untuk menunjukkan alamat baru Arlington Heights. Semua sejarah penjualan sebelumnya ini pelanggan kini dikaitkan dengan distrik Arlington Heights bukannya Des Plaines. • Membuat data dimensi kedua dengan nilai baru dan kunci umum. Pendekatan ini efektif partisi sejarah. Tabel dimensi pelanggan sekarang akan berisi dua catatan untuk Bill Adams. Rekor lama dengan kunci 101 tetap, dan catatan dalam tabel fakta masih terkait dengannya. Sebuah rekor baru juga ditambahkan ke tabel dimensi pelanggan untuk Bill Adams, dengan kunci baru yang mungkin terdiri dari kunci tua ditambah beberapa digit versi (101,01, misalnya). Semua catatan berikutnya yang ditambahkan ke tabel fakta untuk Bill Adams yang terkait dengan kunci baru. • Tambahkan sebuah bidang baru dalam tabel dimensi pelanggan untuk atribut yang terkena dampak dan mengubah nama atribut lama. Pendekatan ini jarang digunakan kecuali jika Anda perlu untuk melacak sejarah tua dalam hal nilai baru dan sebaliknya. Tabel dimensi pelanggan mendapatkan atribut baru bernama alamat sekarang, dan atribut lama berganti nama alamat asli. Catatan yang berisi informasi mengenai Bill Adams termasuk nilai-nilai untuk kedua alamat asli dan saat ini.4.3. Menggunakan Skema Snowflake Skema snowflake adalah variasi pada skema bintang, di mana tabel dimensi yang sangat besar dinormalisasi menjadi beberapa tabel. Dimensi dengan hirarki dapat diuraikan menjadi struktur salju ketika Anda ingin menghindari bergabung ke tabel dimensi besar ketika Anda menggunakan agregat dari tabel fakta. Misalnya, jika Anda memiliki informasi merek yang Anda ingin memisahkan dari tabel dimensi produk, Anda dapat membuat salju merek yang terdiri dari satu baris untuk setiap merek dan yang berisi baris secara signifikan lebih sedikit daripada tabel dimensi produk. Gambar 45 menunjukkan struktur kepingan salju untuk merek dan elemen lini produk dan tabel agregat brand_agg. gambar 45. An Example of a Snowflake Schema 22
  • Jika dalam membuat agregat, brand_agg, yang terdiri dari kode merek dan pendapatantotal per merek, Anda dapat menggunakan skema kepingan salju untuk menghindaribergabung dengan jauh lebih besar sales table, Pada pernyataan berikutbrand danbrand_agg tables Tampilkan:SELECT brand.brand_name, brand_agg.total_revenueFROM brand, brand_agg WHERE brand.brand_code = brand_agg.brand_code AND brand.brand_name = Anza 23
  • Daftar Pustakahttp://en.wikipedia.org/wiki/Decision_support_systemhttp://publib.boulder.ibm.com/infocenter/idshelp/v10/index.jsp?topic=/com.ibm.ddi.doc/ddi221.htmConolly,Thomas dan Begg Carolyn(2002). Database systems – A Practical Approach to Design, Implementation and Management, edisi-3. Addison Wesley Longman.Inc., USAFatansyah(2002). Buku Teks Ilmu Komputer – Basis Data, cetakan-4. InformatikaInmon, W.H.(2002). Building the Data Warehouse,edisi-3. Wiley Computer Publishing.Kimball,R.,Merz, R (1998). The Data Warehouse Lifecycle Toolkit. Expert Methods for Designing, Developing and Deploying Data Warehouses. Wiley Computer Publishing, Canada.Mcleod,Raymond(1996). Sistem Informasi Manajemen, Jilid-1. Terjemahan Teguh,H. PT. Prenhallindo, Jakarta.Nolan,Sean And Huguelet, Tom(2000).Microsoft SQL Server 7.0 Data Warehousing Training Kit. Microsoft Prees, USAPoe, Vidette(1998). Building Data Warehouse for Decision Support, edisi-2. Prentice Hall. 24