Konsep dan Rancangan Data Warehouse
Daftar Isi
- Konsep dan Rancangan Data Warehousing
- Konsep dan Arsitektur Data Warehouse
- Alur Data Warehouse
- Teknologi dan Peralatan Data Warehouse
- Metodelogi Perancangan Basis Data Warehouse
- Dowload Materi PPT
- Dowload Materi PPT
Konsep dan Rancangan Data Warehousing
- Teknologi dan Peralatan Data Warehouse
- Konsep dan Arsitektur Data Warehouse
- Alur Data Warehouse
- Metodelogi Perancangan Basis Data Warehouse
Konsep dan Arsitektur Data Warehouse
Konsep Data Warehouse Data warehouse adalah sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi, 2008). Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan).
Ada empat tugas yang bisa dilakukan dengan adanya data warehouse
- Pembuatan laporan
- Online Analytical Processing (OLAP)
- Data Mining
- Proses Informasi Executive
KARAKTERISTIK DATA WAREHOUSE
- Subject Oriented (Berorientasi subject)
Sebuah gudang data dapat digunakan untuk menganalisa suatu subyek tertentu. Misalnya, "penjualan" bisa menjadi topik atau subyek yang dianalisis.
- Integrated (Terintegrasi)
Sebuah data warehouse mengintegrasikan data dari berbagai sumber data. Misalnya, sumber A dan sumber B mungkin memiliki cara yang berbeda untuk mengidentifikasi produk, tetapi dalam data warehouse, hanya akan ada satu cara untuk mengidentifikasi produk, sehingga keduanya akan mempunyai cara yang sama dalam mengidentifikasi produk.
- Time-variant (Rentang Waktu)
Seluruh data historis disimpan di gudang data. Sebagai contoh, seseorang dapat mengambil data per 3 bulan, 6 bulan, 12 bulan, atau bahkan lebih lama. Ini berbeda dengan sistem transaksi, yang hanya menyimpan data terbaru. Sebagai contoh, sistem transaksi dapat menyimpan alamat terbaru dari pelanggan, data warehouse dapat menampung semua alamat yang terkait dengan pelanggan.
- Non-Volatile
Setelah data berada di dalam data warehouse, data tidak akan berubah. Jadi, data historis yang telah berada di dalam gudang data tidak akan berubah.
Keuntungan Data Warehouse
- Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi.
- Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
- Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari database OLTP (Online Transaction Processing) ke data warehouse.
- Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.
Komponen-komponen yang terdapat di dalam arsitektur data warehouse yaitu :
- Operational Data ke-n
- Operational Data Store
- ETL - Extract, Transform & Load Manager
- Warehouse Manager
- Query Manager
- Detailed Data
- Lightly dan Hightly Summarized Data
- Archive dan Backup Data
- End-User Access Tools
Alur Data Warehouse
- Inflow yaitu proses yang terkait dengan extraction, pembersihan, dan pembuatan data dari sumber sistem ke dalam data warehouse.
- Upflow yaitu proses yang berhubungan dengan menambahkan nilai pada data warehouse melalui meringkas, pengepakan, dan distribusi data.
- Downflow yaitu proses yang berhubungan dengan pengarsipan dan back-up data warehouse.
- Outflow yaitu proses yang terkait dengan membuat data yang tersedia untuk pengguna akhir.
- Meta-flow yaitu proses yang terkait dengan pengelolaan data meta.
Teknologi dan Peralatan Data Warehouse
Teknologi dan Peralatan yang digunakan dalam konsep alur data warehouse.
- Code Generator Membuat program transformasi 3GL/4GL yang dapat disesuaikan berdasarkan sumber dan target pendefinisian data.
- Definisi 3GL Third-Generation Language (3GL) merupakan bahasa pemrograman yang masuk dalam generasi ketiga. Ini adalah bahasa pemrograman tingkat tinggi, seperti PL/1, C, atau Java. Untuk dapat menggunakan bahasa pemrograman ini, dibutuhkan pengetahuan dan penguasaan terhadap bahasa pemrograman itu sendiri.
- Definisi 4GL Fourth-Generation Language (4GL) adalah bahasa pemrograman yang didesain lebih “natural”, sehingga makin mudah digunakan. Pada generasi keempat ini, bahasa pemrograman sudah dapat digunakan untuk mengakses sebuah data base.
Teknologi dan Peralatan yang digunakan dalam konsep alur data warehouse.
- Database Data Replication Tools Menggunakan database trigger dan recovery log untuk merekam perubahan terhadap sumber data tunggal pada satu system dan mengunakan perubahan tersebut kesuatu salinan sumber data yang dialokasikan pada sebuah sistem yang berbeda.
- Dynamic Transformation Engines Merekam data dari sumber system pada interval yang telah definisikan pemakai, mentransformasikan data kemudian mengirim dan memuat hasilnya ke dalam target lingkungan
Metodelogi Perancangan Basis Data Warehouse
Menurut Kimball ada sembilan tahap metodologi dalam perancangan database untuk data warehouse, yaitu :
Langkah 1 : Pemilihan proses
- Data mart yang pertama kali dibangun haruslah data mart yang dapat dikirim tepat waktu dan dapat menjawab semua pertanyaan bisnis yang penting
- Pilihan terbaik untuk data mart yang pertama adalah yang berhubungan dengan sales, misal property sales, property leasing,property advertising.
Langkah 2 : Pemilihan sumber
- Untuk memutuskan secara pasti apa yang diwakili atau direpresentasikan oleh sebuah tabel fakta.
- Misal, jika sumber dari sebuah tabel fakta properti sale adalah properti sale individual maka sumber dari sebuah dimensi pelanggan berisi rincian pelanggan yang membeli properti utama
Langkah 3 : Mengidentifikasi dimensi
- Set dimensi yang dibangun dengan baik, memberikan kemudahan untuk memahami dan menggunakan data mart
- Dimensi ini penting untuk menggambarkan fakta-fakta yang terdapat pada tabel fakta
- Misal, setiap data pelanggan pada tabel dimensi pembeli dilengkapi dengan id_pelanggan, no_pelanggan, tipe_pelanggan, tempat_tinggal, dan lain sebagainya.
- Jika ada dimensi yang muncul pada dua data mart, kedua data mart tersebut harus berdimensi sama atau paling tidak salah satunya berupa subset matematis dari yang lainnya.
- Jika sebuah dimensi digunakan pada dua data mart atau lebih dan dimensi ini tidak disinkronisasi, maka keseluruhan data warehouse akan gagal, karena dua data mart tidak bisa digunakan secara bersama-sama
Langkah 4 : Pemilihan fakta
- Sumber dari sebuah tabel fakta menentukan fakta mana yang bisa digunakan dalam data mart.
- Semua fakta harus diekspresikan pada tingkat yang telah ditentukan oleh sumber
Langkah 5 : Menyimpan pre-kalkulasi di tabel fakta
- Hal ini terjadi apabila fakta kehilangan statement
Langkah 6 : Melengkapi tabel dimensi
- Pada tahap ini kita menambahkan keterangan selengkap-lengkapnya pada tabel dimensi
- Keterangannya harus bersifat intuitif dan mudah dipahami oleh pengguna
Langkah 7 : Pemilihan durasi database
- Misalnya pada suatu perusahaan asuransi, mengharuskan data disimpan selama 10 tahun atau lebih
Langkah 8 : Menelusuri perubahan dimensi yang perlahan
- Ada tiga tipe perubahan dimensi yang perlahan, yaitu :
- Tipe 1. Atribut dimensi yang telah berubah tertulis ulang
- Tipe 2. Atribut dimensi yang telah berubah menimbulkan sebuah dimensi baru
- Tipe 3. Atribut dimensi yang telah berubah menimbulkan alternatif sehingga nilai atribut lama dan yang baru dapat diakses secara bersama pada dimensi yang sama.
Langkah 9 : Menentukan prioritas dan mode query
- Pada tahap ini kita menggunakan perancangan fisik.