Apa itu ETL?
ETL adalah proses yang mengekstrak data dari sistem sumber yang berbeza, kemudian mengubah data (seperti menerapkan pengiraan, gabungan, dll.) Dan akhirnya memuat data ke dalam sistem Data Warehouse. Bentuk penuh ETL adalah Ekstrak, Transformasi dan Beban.
Sangat menggoda untuk berfikir bahawa membuat gudang Data hanya mengekstrak data dari pelbagai sumber dan memuatkan ke pangkalan data gudang Data. Ini jauh dari kebenaran dan memerlukan proses ETL yang kompleks. Proses ETL memerlukan input aktif dari pelbagai pihak berkepentingan termasuk pemaju, penganalisis, penguji, eksekutif atasan dan secara teknikalnya mencabar.
Untuk mengekalkan nilainya sebagai alat untuk pembuat keputusan, sistem gudang data perlu berubah dengan perubahan perniagaan. ETL adalah aktiviti berulang (harian, mingguan, bulanan) sistem gudang Data dan perlu tangkas, automatik, dan didokumentasikan dengan baik.
Dalam tutorial ETL ini, anda akan belajar-
- Apa itu ETL?
- Mengapa anda memerlukan ETL?
- Proses ETL di Gudang Data
- Langkah 1) Pengekstrakan
- Langkah 2) Transformasi
- Langkah 3) Memuatkan
- Alat ETL
- Proses ETL amalan terbaik
Mengapa anda memerlukan ETL?
Terdapat banyak sebab untuk mengadopsi ETL dalam organisasi:
- Ia membantu syarikat menganalisis data perniagaan mereka untuk mengambil keputusan perniagaan yang kritikal.
- Pangkalan data transaksi tidak dapat menjawab soalan perniagaan yang rumit yang dapat dijawab dengan contoh ETL.
- Gudang Data menyediakan penyimpanan data biasa
- ETL menyediakan kaedah memindahkan data dari pelbagai sumber ke gudang data.
- Apabila sumber data berubah, Gudang Data akan dikemas kini secara automatik.
- Sistem ETL yang dirancang dan didokumentasikan dengan baik hampir mustahak untuk kejayaan projek Data Warehouse.
- Benarkan pengesahan transformasi data, agregasi dan peraturan pengiraan.
- Proses ETL membolehkan perbandingan data sampel antara sumber dan sistem sasaran.
- Proses ETL dapat melakukan transformasi yang kompleks dan memerlukan kawasan tambahan untuk menyimpan data.
- ETL membantu Migrasi data ke Gudang Data. Tukar kepada pelbagai format dan jenis untuk mematuhi satu sistem yang konsisten.
- ETL adalah proses yang telah ditentukan untuk mengakses dan memanipulasi data sumber ke dalam pangkalan data sasaran.
- ETL di gudang data menawarkan konteks sejarah yang mendalam untuk perniagaan.
- Ia membantu meningkatkan produktiviti kerana mengekod dan menggunakan semula tanpa memerlukan kemahiran teknikal.
Proses ETL di Gudang Data
ETL adalah proses 3 langkah

Langkah 1) Pengekstrakan
Dalam langkah seni bina ETL ini, data diekstrak dari sistem sumber ke kawasan pementasan. Transformasi jika ada dilakukan di kawasan pementasan sehingga prestasi sistem sumber tidak tergendala. Juga, jika data yang rosak disalin langsung dari sumber ke dalam pangkalan data gudang Data, pemulangan akan menjadi satu cabaran. Kawasan pementasan memberi peluang untuk mengesahkan data yang diekstrak sebelum berpindah ke gudang Data.
Gudang data perlu mengintegrasikan sistem yang berbeza
DBMS, Perkakasan, Sistem Operasi dan Protokol Komunikasi. Sumber boleh merangkumi aplikasi lama seperti Mainframe, aplikasi khusus, Perangkat kontak seperti ATM, Suis panggilan, fail teks, spreadsheet, ERP, data dari vendor, rakan kongsi antara lain.
Oleh itu seseorang memerlukan peta data logik sebelum data diekstrak dan dimuat secara fizikal. Peta data ini menerangkan hubungan antara sumber dan data sasaran.
Tiga kaedah Pengekstrakan Data:
- Pengekstrakan Penuh
- Pengekstrakan Separa- tanpa pemberitahuan kemas kini.
- Pengekstrakan Separa- dengan pemberitahuan kemas kini
Tanpa mengira kaedah yang digunakan, pengekstrakan tidak boleh mempengaruhi prestasi dan masa tindak balas sistem sumber. Sistem sumber ini adalah pangkalan data pengeluaran langsung. Sebarang kelambatan atau penguncian boleh mempengaruhi garis bawah syarikat.
Beberapa pengesahan dilakukan semasa Pengekstrakan:
- Selaraskan rekod dengan data sumber
- Pastikan tiada data spam atau data yang tidak diingini dimuat
- Pemeriksaan jenis data
- Keluarkan semua jenis data pendua / terpecah
- Periksa sama ada semua kunci sudah ada atau tidak
Langkah 2) Transformasi
Data yang diekstrak dari pelayan sumber adalah mentah dan tidak dapat digunakan dalam bentuk asalnya. Oleh itu ia perlu dibersihkan, dipetakan dan diubah. Sebenarnya, ini adalah langkah utama di mana proses ETL menambah nilai dan mengubah data sehingga laporan BI yang berwawasan dapat dihasilkan.
Ini adalah salah satu konsep ETL penting di mana anda menerapkan sekumpulan fungsi pada data yang diekstrak. Data yang tidak memerlukan transformasi disebut sebagai pergerakan langsung atau melewati data .
Dalam langkah transformasi, anda dapat melakukan operasi yang disesuaikan pada data. Contohnya, jika pengguna menginginkan jumlah hasil penjualan yang tidak ada dalam pangkalan data. Atau jika nama pertama dan nama belakang dalam jadual terdapat dalam lajur yang berbeza. Adalah mungkin untuk menggabungkannya sebelum memuat.

Berikut adalah Masalah Integriti Data:
- Ejaan orang yang sama seperti Jon, John, dll.
- Terdapat banyak cara untuk menunjukkan nama syarikat seperti Google, Google Inc.
- Penggunaan pelbagai nama seperti Cleaveland, Cleveland.
- Ada kemungkinan bahawa nombor akaun yang berbeza dihasilkan oleh pelbagai aplikasi untuk pelanggan yang sama.
- Dalam beberapa data, fail yang diperlukan tetap kosong
- Produk yang tidak dikumpulkan di POS sebagai penyertaan manual boleh menyebabkan kesilapan.
Pengesahan dilakukan semasa peringkat ini
- Menapis - Pilih hanya lajur tertentu untuk dimuat
- Menggunakan peraturan dan jadual pencarian untuk penyeragaman Data
- Penukaran Set Karakter dan pengendalian pengekodan
- Penukaran Unit Pengukuran seperti Penukaran Tarikh Masa, penukaran mata wang, penukaran berangka, dll.
- Pemeriksaan pengesahan ambang data. Contohnya, umur tidak boleh melebihi dua digit.
- Pengesahan aliran data dari kawasan pementasan ke jadual perantaraan.
- Medan yang diperlukan tidak boleh dibiarkan kosong.
- Pembersihan (contohnya, pemetaan NULL ke 0 atau Jantina Lelaki ke "M" dan Perempuan ke "F" dll.)
- Pisahkan lajur menjadi gandaan dan gabungkan beberapa lajur menjadi satu lajur.
- Memindahkan baris dan lajur,
- Gunakan carian untuk menggabungkan data
- Menggunakan pengesahan data yang rumit (contohnya, jika dua lajur pertama berturut-turut kosong maka secara automatik menolak baris dari pemprosesan)
Langkah 3) Memuatkan
Memuatkan data ke dalam pangkalan data data target adalah langkah terakhir dari proses ETL. Di gudang Data biasa, sejumlah besar data perlu dimuat dalam jangka masa yang agak singkat (malam). Oleh itu, proses beban harus dioptimumkan untuk prestasi.
Sekiranya kegagalan beban, mekanisme pemulihan harus dikonfigurasi untuk dimulakan semula dari titik kegagalan tanpa kehilangan integriti data. Pentadbiran Gudang Data perlu memantau, menyambung semula, membatalkan beban sesuai dengan prestasi pelayan yang berlaku.
Jenis Pemuatan:
- Beban Awal - mengisi semua jadual Gudang Data
- Beban Tambahan - menerapkan perubahan berterusan apabila diperlukan secara berkala.
- Refresh Penuh -menurunkan kandungan satu atau lebih jadual dan memuat semula dengan data segar.
Muatkan pengesahan
- Pastikan data medan utama tidak hilang atau tidak ada.
- Uji pandangan pemodelan berdasarkan jadual sasaran.
- Periksa nilai gabungan dan ukuran yang dikira.
- Pemeriksaan data dalam jadual dimensi dan juga jadual sejarah.
- Periksa laporan BI pada jadual fakta dan dimensi yang dimuat.
Alat ETL
Terdapat banyak alat Pergudangan Data yang terdapat di pasaran. Berikut adalah beberapa yang paling terkenal:
1. MarkLogic:
MarkLogic adalah penyelesaian pergudangan data yang menjadikan integrasi data lebih mudah dan cepat menggunakan pelbagai ciri perusahaan. Ia boleh meminta pelbagai jenis data seperti dokumen, hubungan, dan metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle adalah pangkalan data terkemuka di industri. Ia menawarkan pelbagai pilihan penyelesaian Data Warehouse untuk kedua-dua premis dan awan. Ini membantu mengoptimumkan pengalaman pelanggan dengan meningkatkan kecekapan operasi.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift adalah alat Datawarehouse. Ini adalah alat yang mudah dan menjimatkan untuk menganalisis semua jenis data menggunakan SQL standard dan alat BI yang ada. Ini juga membolehkan menjalankan pertanyaan kompleks terhadap petabyte data berstruktur.
https://aws.amazon.com/redshift/?nc2=h_m1
Berikut adalah senarai lengkap Alat gudang data yang berguna.
Proses ETL amalan terbaik
Berikut adalah amalan terbaik untuk langkah Proses ETL:
Jangan sekali-kali cuba membersihkan semua data:
Setiap organisasi ingin membersihkan semua data, tetapi kebanyakan dari mereka tidak bersedia membayar untuk menunggu atau tidak bersedia untuk menunggu. Untuk membersihkannya semua akan memakan masa terlalu lama, jadi lebih baik tidak mencuba membersihkan semua data.
Jangan sekali-kali membersihkan Apa-apa:
Selalu merancang untuk membersihkan sesuatu kerana alasan terbesar untuk membina Data Warehouse adalah dengan menawarkan data yang lebih bersih dan lebih dipercayai.
Tentukan kos pembersihan data:
Sebelum membersihkan semua data kotor, penting bagi anda untuk menentukan kos pembersihan bagi setiap elemen data kotor.
Untuk mempercepat pemprosesan pertanyaan, dapatkan pandangan dan indeks tambahan:
Untuk mengurangkan kos penyimpanan, simpan data yang diringkaskan ke dalam pita cakera. Juga, pertukaran antara jumlah data yang akan disimpan dan penggunaan terperinci diperlukan. Tukar pada tahap butiran data untuk mengurangkan kos penyimpanan.
Ringkasan:
- ETLstands untuk Ekstrak, Transformasi dan Beban.
- ETL menyediakan kaedah memindahkan data dari pelbagai sumber ke gudang data.
- Pada pengekstrakan langkah pertama, data diekstrak dari sistem sumber ke kawasan pementasan.
- Dalam langkah transformasi, data yang diekstrak dari sumber dibersihkan dan diubah.
- Memuatkan data ke gudang data sasaran adalah langkah terakhir dari proses ETL.