Konsep Gudang Data
Konsep asas Gudang Data adalah untuk memfasilitasi satu versi kebenaran bagi syarikat untuk membuat keputusan dan ramalan. Gudang Data adalah sistem maklumat yang mengandungi data sejarah dan komutatif dari sumber tunggal atau pelbagai. Konsep Gudang Data mempermudah proses pelaporan dan analisis organisasi.
Ciri-ciri gudang Data
Konsep Gudang Data mempunyai ciri-ciri berikut:
- Berorientasikan Subjek
- Bersepadu
- Varian masa
- Tidak meruap
Berorientasikan Subjek
Gudang data berorientasikan subjek kerana menawarkan maklumat mengenai tema dan bukannya operasi berterusan syarikat. Mata pelajaran ini boleh menjadi penjualan, pemasaran, pengedaran, dll.
Gudang data tidak pernah menumpukan pada operasi yang sedang berjalan. Sebaliknya, ia menekankan pemodelan dan analisis data untuk membuat keputusan . Ini juga memberikan pandangan yang ringkas dan ringkas mengenai subjek tertentu dengan mengecualikan data yang tidak membantu menyokong proses keputusan.
Bersepadu
Di Data Warehouse, integrasi bermaksud pembentukan unit ukuran bersama untuk semua data yang serupa dari pangkalan data yang berbeza. Data juga perlu disimpan di Datawarehouse secara umum dan boleh diterima secara universal.
Gudang data dikembangkan dengan mengintegrasikan data dari berbagai sumber seperti kerangka utama, pangkalan data relasional, fail rata, dan lain-lain. Selain itu, ia mesti menyimpan konvensi penamaan, format, dan pengekodan yang konsisten.
Integrasi ini membantu dalam analisis data yang berkesan. Ketekalan dalam konvensyen penamaan, ukuran atribut, struktur pengekodan dll perlu dipastikan. Pertimbangkan contoh berikut:
Dalam contoh di atas, terdapat tiga aplikasi berbeza berlabel A, B dan C. Maklumat yang tersimpan dalam aplikasi ini adalah Jantina, Tarikh, dan Baki. Walau bagaimanapun, setiap data aplikasi disimpan dengan cara yang berbeza.
- Dalam Aplikasi A jantina menyimpan nilai logik seperti M atau F
- Dalam bidang gender Aplikasi B adalah nilai berangka,
- Dalam aplikasi Aplikasi C, bidang gender disimpan dalam bentuk nilai watak.
- Begitu juga dengan Tarikh dan baki
Namun, setelah proses transformasi dan pembersihan semua data ini disimpan dalam format yang sama di Data Warehouse.
Varian Masa
Jangka masa untuk gudang data cukup luas berbanding dengan sistem operasi. Data yang dikumpulkan di gudang data diakui dengan jangka waktu tertentu dan menawarkan maklumat dari sudut sejarah. Ia mengandungi unsur waktu, secara eksplisit atau tersirat.
Salah satu tempat di mana data Datawarehouse memaparkan perbezaan masa dalam struktur kunci rekod. Setiap kunci utama yang terkandung dalam DW harus mempunyai unsur waktu secara tersirat atau tersurat. Seperti hari, bulan minggu, dll.
Aspek lain dari variasi waktu adalah apabila data dimasukkan ke gudang, data tidak dapat diperbarui atau diubah.
Tidak meruap
Gudang data juga tidak mudah berubah bermaksud data sebelumnya tidak akan terhapus ketika data baru dimasukkan di dalamnya.
Data hanya boleh dibaca dan disegarkan secara berkala. Ini juga membantu menganalisis data sejarah dan memahami apa & bila berlaku. Ia tidak memerlukan proses transaksi, pemulihan dan mekanisme kawalan serentak.
Kegiatan seperti menghapus, mengemas kini, dan memasukkan yang dilakukan dalam lingkungan aplikasi operasi dihilangkan di lingkungan gudang Data. Hanya dua jenis operasi data yang dilakukan dalam Pergudangan Data
- Pemuatan data
- Akses data
Berikut adalah beberapa perbezaan utama antara Aplikasi dan Gudang Data
Aplikasi Operasi | Gudang Data |
Program yang kompleks mesti dikodkan untuk memastikan bahawa proses peningkatan data mengekalkan integriti tinggi produk akhir. | Masalah seperti ini tidak berlaku kerana kemas kini data tidak dilakukan. |
Data diletakkan dalam bentuk normal untuk memastikan redundansi minimum. | Data tidak disimpan dalam bentuk normal. |
Teknologi yang diperlukan untuk menyokong isu transaksi, pemulihan data, penggantian, dan penyelesaian kerana kebuntuannya cukup kompleks. | Ia menawarkan kesederhanaan dalam teknologi. |
Senibina Gudang Data
Data Warehouse Architecture adalah kompleks kerana ia adalah sistem maklumat yang mengandungi data sejarah dan komutatif dari pelbagai sumber. Terdapat 3 pendekatan untuk membina lapisan Data Warehouse: Single Tier, Two tier dan Three tier. Senibina 3 tingkat Data Warehouse dijelaskan seperti di bawah.
Senibina satu peringkat
Objektif lapisan tunggal adalah untuk meminimumkan jumlah data yang disimpan. Matlamat ini adalah untuk menghilangkan kelebihan data. Senibina ini tidak kerap digunakan dalam praktik.
Senibina dua peringkat
Senibina dua lapisan adalah salah satu lapisan Data Warehouse yang memisahkan sumber yang ada secara fizikal dan gudang data. Senibina ini tidak dapat dikembangkan dan juga tidak menyokong sebilangan besar pengguna akhir. Ia juga mempunyai masalah penyambungan kerana keterbatasan rangkaian.
Senibina Gudang Data Tiga Tingkat
Ini adalah Senibina Data Warehouse yang paling banyak digunakan.
Ia terdiri daripada Tingkat Atas, Tengah dan Bawah.
- Tingkat Bawah: Pangkalan data pelayan Datawarehouse sebagai peringkat bawah. Ia biasanya merupakan sistem pangkalan data hubungan. Data dibersihkan, diubah, dan dimuat ke dalam lapisan ini dengan menggunakan alat belakang.
- Tahap Tengah: Tingkat tengah di gudang Data adalah pelayan OLAP yang dilaksanakan menggunakan model ROLAP atau MOLAP. Bagi pengguna, tahap aplikasi ini menyajikan pandangan abstrak dari pangkalan data. Lapisan ini juga bertindak sebagai orang tengah antara pengguna akhir dan pangkalan data.
- Tingkat Atas : Tahap atas adalah lapisan pelanggan bahagian depan. Tahap teratas adalah alat dan API yang anda sambungkan dan mengeluarkan data dari gudang data. Ini boleh menjadi alat Kueri, alat pelaporan, alat pertanyaan terkawal, alat Analisis dan alat perlombongan Data
Komponen Datawarehouse
Kami akan belajar mengenai Komponen Datawarehouse dan Senibina Data Warehouse dengan Diagram seperti yang ditunjukkan di bawah:

Data Warehouse didasarkan pada pelayan RDBMS yang merupakan pusat penyimpanan maklumat pusat yang dikelilingi oleh beberapa komponen Data Warehousing utama untuk menjadikan seluruh persekitaran berfungsi, terkawal dan dapat diakses.
Terdapat terutamanya lima Komponen Gudang Data:
Pangkalan Data Gudang Data
Pangkalan data pusat adalah asas persekitaran pergudangan data. Pangkalan data ini dilaksanakan pada teknologi RDBMS. Walaupun, implementasi semacam ini dibatasi oleh kenyataan bahawa sistem RDBMS tradisional dioptimumkan untuk pemprosesan pangkalan data transaksional dan bukan untuk pergudangan data. Contohnya, pertanyaan ad-hoc, gabungan pelbagai jadual, agregat adalah intensif sumber dan memperlambat prestasi.
Oleh itu, pendekatan alternatif untuk Pangkalan Data digunakan seperti yang disenaraikan di bawah-
- Di gudang data, pangkalan data relasional digunakan secara selari untuk memungkinkan skalabiliti. Pangkalan data hubungan selari juga membolehkan memori bersama atau model tidak dikongsi bersama pada pelbagai konfigurasi multiprosesor atau pemproses selari secara besar-besaran.
- Struktur indeks baru digunakan untuk memintas imbasan jadual hubungan dan meningkatkan kelajuan.
- Penggunaan pangkalan data multidimensi (MDDB) untuk mengatasi sebarang batasan yang berlaku kerana Model Gudang Data yang berkaitan. Contoh: Essbase dari Oracle.
Sumber, Perolehan, Pembersihan dan Alat Transformasi (ETL)
Alat sumber data, transformasi, dan migrasi digunakan untuk melakukan semua konversi, ringkasan, dan semua perubahan yang diperlukan untuk mengubah data menjadi format terpadu di gudang data. Mereka juga dipanggil Alat Ekstrak, Transform dan Beban (ETL).
Fungsi mereka merangkumi:
- Anonimkan data mengikut ketetapan peraturan.
- Menghilangkan data yang tidak diingini dalam pangkalan data operasi dari memuatkan ke gudang Data.
- Cari dan ganti nama dan definisi umum untuk data yang datang dari pelbagai sumber.
- Mengira ringkasan dan data yang diperoleh
- Sekiranya data hilang, isi dengan lalai.
- Data berulang yang diduplikasi tiba dari pelbagai sumber data.
Alat Ekstrak, Transformasi, dan Pemuatan ini dapat menghasilkan pekerjaan cron, pekerjaan latar belakang, program Cobol, skrip shell, dll. Yang selalu mengemas kini data di gudang data. Alat-alat ini juga berguna untuk mengekalkan Metadata.
Alat ETL ini harus menghadapi cabaran heterogenitas Pangkalan Data & Data.
Metadata
Nama Meta Data menunjukkan beberapa Konsep Pergudangan Data teknologi peringkat tinggi. Walau bagaimanapun, ia agak mudah. Metadata adalah data mengenai data yang menentukan gudang data. Ini digunakan untuk membangun, memelihara dan mengelola gudang data.
Dalam Arsitektur Gudang Data, meta-data memainkan peranan penting kerana menentukan sumber, penggunaan, nilai, dan fitur data gudang data. Ia juga menentukan bagaimana data dapat diubah dan diproses. Ia berhubung rapat dengan gudang data.
Sebagai contoh, garis dalam pangkalan data penjualan mungkin mengandungi:
4030 KJ732 299.90
Ini adalah data yang tidak bermakna sehingga kami berunding dengan Meta yang memberitahu kami
- Nombor model: 4030
- ID Ejen Jualan: KJ732
- Jumlah jualan sebanyak $ 299.90
Oleh itu, Meta Data adalah bahan penting dalam transformasi data menjadi pengetahuan.
Metadata membantu menjawab soalan berikut
- Jadual, atribut, dan kunci apa yang terdapat di Gudang Data?
- Dari mana asalnya data?
- Berapa kali data dimuat semula?
- Transformasi apa yang berlaku dengan pembersihan?
Metadata boleh dikelaskan kepada kategori berikut:
- Data Meta Teknikal : Metadata jenis ini mengandungi maklumat mengenai gudang yang digunakan oleh pereka dan pentadbir gudang data.
- Business Meta Data: Metadata jenis ini mengandungi perincian yang memberi pengguna akhir cara yang mudah untuk memahami maklumat yang disimpan di gudang data.
Alat Pertanyaan
Salah satu objektif utama pergudangan data adalah memberikan maklumat kepada perniagaan untuk membuat keputusan strategik. Alat pertanyaan membolehkan pengguna berinteraksi dengan sistem gudang data.
Alat ini tergolong dalam empat kategori yang berbeza:
- Alat pertanyaan dan pelaporan
- Alat Pembangunan Aplikasi
- Alat perlombongan data
- Alat OLAP
1. Alat pertanyaan dan pelaporan:
Alat pertanyaan dan pelaporan dapat dibahagikan lagi kepada
- Alat pelaporan
- Alat pertanyaan terurus
Alat pelaporan:
Alat pelaporan dapat dibahagikan lagi kepada alat pelaporan pengeluaran dan penulis laporan desktop.
- Penulis laporan: Alat pelaporan semacam ini adalah alat yang direka untuk pengguna akhir untuk analisis mereka.
- Pelaporan pengeluaran: Alat seperti ini membolehkan organisasi menghasilkan laporan operasi berkala. Ia juga menyokong pekerjaan kumpulan besar seperti mencetak dan mengira. Beberapa alat pelaporan yang popular ialah Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Alat pertanyaan terurus:
Alat akses semacam ini membantu pengguna akhir menyelesaikan masalah dalam pangkalan data dan SQL dan struktur pangkalan data dengan memasukkan lapisan meta antara pengguna dan pangkalan data.
2. Alat pembangunan aplikasi:
Kadang kala alat grafik dan analitik terbina dalam tidak memenuhi keperluan analisis organisasi. Dalam kes seperti itu, laporan khusus dikembangkan menggunakan alat pengembangan Aplikasi.
3. Alat perlombongan data:
Perlombongan data adalah proses mencari korelasi, paten, dan tren baru yang bermakna dengan menambang sejumlah besar data. Alat perlombongan data digunakan untuk menjadikan proses ini automatik.
4. Alat OLAP:
Alat ini berdasarkan konsep pangkalan data multidimensi. Ia membolehkan pengguna menganalisis data menggunakan pandangan multidimensi yang rumit dan kompleks.
Senibina Bas gudang data
Bas gudang data menentukan aliran data di gudang anda. Aliran data di gudang data dapat dikategorikan sebagai aliran Inflow, Upflow, Downflow, Outflow dan Meta.
Semasa merancang Bas Data, seseorang perlu mempertimbangkan dimensi bersama, fakta di seluruh data.
Data Mart
Data mart adalah lapisan akses yang digunakan untuk mengeluarkan data kepada pengguna. Ia disajikan sebagai pilihan untuk gudang data bersaiz besar kerana memerlukan lebih sedikit masa dan wang untuk dibina. Walau bagaimanapun, tidak ada definisi standard data mart yang berbeza dari orang ke orang.
Dengan kata mudah Data mart adalah anak syarikat gudang data. Data mart digunakan untuk partisi data yang dibuat untuk kumpulan pengguna tertentu.
Data mart dapat dibuat dalam pangkalan data yang sama dengan Datawarehouse atau Pangkalan Data yang terpisah secara fizikal.
Amalan Terbaik Senibina gudang data
Untuk merancang Senibina Data Warehouse, anda perlu mengikuti amalan terbaik berikut:
- Gunakan Model Gudang Data yang dioptimumkan untuk pencarian maklumat yang boleh menjadi mod dimensi, denormalisasi atau pendekatan hibrid.
- Pilih pendekatan merancang yang sesuai sebagai pendekatan atas ke bawah dan bawah ke atas di Data Warehouse
- Perlu memastikan bahawa Data diproses dengan cepat dan tepat. Pada masa yang sama, anda harus mengambil pendekatan yang menggabungkan data menjadi satu versi kebenaran.
- Reka proses pemerolehan dan pembersihan data dengan teliti untuk gudang Data.
- Reka bentuk seni bina MetaData yang membolehkan perkongsian metadata antara komponen Data Warehouse
- Pertimbangkan untuk menerapkan model ODS ketika keperluan pengambilan maklumat berada di bahagian bawah piramid abstraksi data atau apabila terdapat banyak sumber operasi yang diperlukan untuk diakses.
- Kita harus memastikan bahawa model data disatukan dan tidak hanya digabungkan. Sekiranya demikian, anda harus mempertimbangkan model data 3NF. Ia juga sesuai untuk memperoleh alat pembersih ETL dan Data
Ringkasan:
- Gudang data adalah sistem maklumat yang mengandungi data sejarah dan komutatif dari sumber tunggal atau pelbagai. Sumber-sumber ini boleh menjadi Data Warehouse tradisional, Cloud Data Warehouse atau Virtual Data Warehouse.
- Gudang data berorientasikan subjek kerana menawarkan maklumat mengenai subjek dan bukannya operasi berterusan organisasi.
- Di Gudang Data, integrasi bermaksud pembentukan unit ukuran bersama untuk semua data yang serupa dari pangkalan data yang berbeza
- Gudang data juga tidak mudah berubah bermaksud data sebelumnya tidak akan terhapus ketika data baru dimasukkan di dalamnya.
- Datawarehouse adalah Time-varian kerana data dalam DW mempunyai jangka hayat yang tinggi.
- Terdapat terutamanya 5 komponen Data Warehouse Architecture: 1) Pangkalan Data 2) Alat ETL 3) Meta Data 4) Alat Pertanyaan 5) DataMarts
- Ini adalah empat kategori utama alat pertanyaan 1. Pertanyaan dan pelaporan, alat 2. Alat Pembangunan Aplikasi, 3. Alat perlombongan data 4. alat OLAP
- Alat sumber data, transformasi, dan migrasi digunakan untuk melakukan semua penukaran dan ringkasan.
- Dalam Arsitektur Gudang Data, meta-data memainkan peranan penting kerana menentukan sumber, penggunaan, nilai, dan fitur data gudang data.