Apa itu Data Lake?
Data Lake adalah penyimpanan simpanan yang dapat menyimpan sejumlah besar data berstruktur, separa berstruktur, dan tidak berstruktur. Ini adalah tempat untuk menyimpan setiap jenis data dalam format asalnya tanpa had tetap pada ukuran atau fail akaun. Ia menawarkan kuantiti data yang tinggi untuk meningkatkan prestasi analitik dan integrasi asli.
Data Lake adalah seperti bekas besar yang sangat mirip dengan tasik dan sungai yang sebenarnya. Sama seperti di tasik, terdapat banyak anak sungai yang masuk, tasik data mempunyai data terstruktur, data tidak berstruktur, mesin ke mesin, log yang mengalir melalui waktu nyata.
Data Lake mendemokrasikan data dan merupakan kaedah yang menjimatkan untuk menyimpan semua data organisasi untuk diproses kemudian. Penganalisis Penyelidikan dapat memberi tumpuan untuk mencari corak makna dalam data dan bukan data itu sendiri.
Tidak seperti rumah Dataware hierarki di mana data disimpan dalam Fail dan Folder, tasik Data mempunyai seni bina yang rata. Setiap elemen data di Tasik Data diberi pengenal unik dan ditandai dengan sekumpulan maklumat metadata.
Dalam tutorial ini, anda akan belajar-
- Apa itu Data Lake?
- Mengapa Data Lake?
- Senibina Tasik Data
- Konsep Tasik Data Utama
- Tahap kematangan Data Lake
- Amalan terbaik untuk Pelaksanaan Data Lake:
- Perbezaan antara Tasik data dan gudang Data
- Faedah dan Risiko menggunakan Data Lake:
Mengapa Data Lake?
Objektif utama membina tasik data adalah untuk menawarkan pandangan data yang tidak disempurnakan kepada para saintis data.
Sebab untuk menggunakan Data Lake adalah:
- Dengan bermulanya enjin penyimpanan seperti Hadoop menyimpan maklumat yang berbeza menjadi mudah. Tidak perlu memodelkan data menjadi skema seluruh perusahaan dengan Data Lake.
- Dengan peningkatan jumlah data, kualiti data, dan metadata, kualiti analisis juga meningkat.
- Data Lake menawarkan Kelincahan perniagaan
- Pembelajaran Mesin dan Kecerdasan Buatan dapat digunakan untuk membuat ramalan yang menguntungkan.
- Ia menawarkan kelebihan daya saing kepada organisasi pelaksana.
- Tidak ada struktur silo data. Data Lake memberikan pandangan 360 darjah pelanggan dan membuat analisis lebih mantap.
Senibina Tasik Data
Gambar menunjukkan seni bina Tasik Data Perniagaan. Tahap bawah menunjukkan data yang kebanyakannya sedang rehat sementara tahap atas menunjukkan data transaksi masa nyata. Data ini mengalir melalui sistem tanpa sedikit atau sedikit kependaman. Berikut adalah tahap penting dalam Data Lake Architecture:
- Tahap Pengingesan : Tahap di sebelah kiri menggambarkan sumber data. Data dapat dimuat ke dalam tasik data secara berkelompok atau dalam waktu nyata
- Tahap Pandangan: Tahap di sebelah kanan mewakili sisi penyelidikan di mana pandangan dari sistem digunakan. SQL, pertanyaan NoSQL, atau bahkan excel dapat digunakan untuk analisis data.
- HDFS adalah penyelesaian yang menjimatkan untuk kedua-dua data berstruktur dan tidak berstruktur. Ini adalah zon pendaratan untuk semua data yang berada di dalam sistem.
- Tahap penyulingan mengambil data dari tayar simpanan dan menukarnya menjadi data berstruktur untuk analisis yang lebih mudah.
- Memproses algoritma analisis tahap lanjutan dan pertanyaan pengguna dengan masa nyata yang berbeza-beza, interaktif, kumpulan untuk menghasilkan data berstruktur untuk analisis yang lebih mudah.
- Tahap operasi bersatu mengatur pengurusan dan pemantauan sistem. Ia merangkumi pengauditan dan pengurusan kecekapan, pengurusan data, pengurusan aliran kerja.
Konsep Tasik Data Utama
Berikut adalah konsep Key Data Lake yang perlu difahami oleh seseorang untuk memahami sepenuhnya Data Lake Architecture
Pengingesan Data
Pengambilan Data membolehkan penyambung mendapatkan data dari sumber data yang berbeza dan memuatkan ke tasik Data.
Penyerapan Data menyokong:
- Semua jenis data Berstruktur, Separa Berstruktur, dan Tidak Berstruktur.
- Pelbagai pengambilan seperti Batch, Real-Time, One-time load.
- Banyak jenis sumber data seperti Pangkalan Data, Pelayan Web, E-mel, IoT, dan FTP.
Simpanan data
Penyimpanan data harus berskala, menawarkan penyimpanan yang menjimatkan dan membolehkan akses cepat ke penerokaan data. Ia harus menyokong pelbagai format data.
Tadbir Urus Data
Tadbir urus data adalah proses mengurus ketersediaan, kegunaan, keselamatan, dan integriti data yang digunakan dalam organisasi.
Keselamatan
Keselamatan perlu dilaksanakan di setiap lapisan tasik Data. Ia dimulakan dengan Penyimpanan, Pengambilan, dan Penggunaan. Keperluan asas adalah menghentikan akses untuk pengguna yang tidak dibenarkan. Ia harus menyokong alat yang berbeza untuk mengakses data dengan GUI dan Papan Pemuka yang mudah dinavigasi.
Pengesahan, Perakaunan, Kebenaran dan Perlindungan Data adalah beberapa ciri penting keselamatan data tasik.
Kualiti Data:
Kualiti data adalah komponen penting dalam seni bina Data Lake. Data digunakan untuk nilai perniagaan yang tepat. Pengambilan maklumat dari data berkualiti rendah akan menghasilkan pandangan berkualiti rendah.
Penemuan Data
Penemuan Data adalah satu lagi tahap penting sebelum anda dapat memulakan penyediaan data atau analisis. Pada tahap ini, teknik penandaan digunakan untuk mengekspresikan pemahaman data, dengan mengatur dan menafsirkan data yang ditelan di tasik Data.
Pengauditan Data
Dua tugas pengauditan data utama adalah mengesan perubahan pada kumpulan data utama.
- Mengesan perubahan pada elemen kumpulan data penting
- Menangkap bagaimana / bila / dan siapa yang berubah pada elemen-elemen ini.
Pengauditan data membantu menilai risiko dan pematuhan.
Keturunan Data
Komponen ini berkaitan dengan asal-usul data. Ini terutama berkaitan dengan tempat ia bergerak dari masa ke masa dan apa yang berlaku padanya. Ini memudahkan pembetulan kesilapan dalam proses analisis data dari asal ke tujuan.
Penerokaan Data
Ini adalah peringkat awal analisis data. Ia membantu mengenal pasti set data yang betul adalah penting sebelum memulakan Eksplorasi Data.
Semua komponen yang diberikan perlu bekerjasama untuk memainkan peranan penting dalam bangunan tasik Data dengan mudah berkembang dan meneroka alam sekitar.
Tahap kematangan Data Lake
Tahap Definisi Data Lake Maturity berbeza dari buku teks ke buku yang lain. Walaupun intinya tetap sama. Setelah matang, definisi tahap adalah dari sudut pandangan orang awam.
Tahap 1: Mengendalikan dan menelan data dalam skala
Tahap pertama Kematangan Data ini melibatkan peningkatan keupayaan untuk mengubah dan menganalisis data. Di sini, pemilik perniagaan perlu mencari alat mengikut kemahiran mereka untuk memperoleh lebih banyak data dan membina aplikasi analisis.
Tahap 2: Membina otot analitik
Ini adalah peringkat kedua yang melibatkan peningkatan kemampuan mengubah dan menganalisis data. Pada peringkat ini, syarikat menggunakan alat yang paling sesuai dengan kemahiran mereka. Mereka mula memperoleh lebih banyak data dan membina aplikasi. Di sini, keupayaan gudang data perusahaan dan tasik data digunakan bersama.
Tahap 3: EDW dan Data Lake berfungsi secara serentak
Langkah ini melibatkan mendapatkan data dan analitik ke tangan sebanyak mungkin orang. Pada peringkat ini, tasik data dan gudang data perusahaan mula berfungsi dalam kesatuan. Kedua-duanya memainkan peranan dalam analitik
Tahap 4: Keupayaan perusahaan di tasik
Dalam tahap kematangan data data ini, kemampuan perusahaan ditambahkan ke Data Lake. Penerapan tadbir urus maklumat, keupayaan pengurusan kitaran hidup maklumat, dan pengurusan Metadata. Walau bagaimanapun, sangat sedikit organisasi yang dapat mencapai tahap kematangan ini, tetapi jumlah ini akan meningkat pada masa akan datang.
Amalan terbaik untuk Pelaksanaan Data Lake:
- Komponen seni bina, interaksi mereka dan produk yang dikenal pasti harus menyokong jenis data asli
- Reka bentuk Data Lake harus didorong oleh apa yang ada dan bukannya apa yang diperlukan. Skema dan keperluan data tidak ditentukan sehingga disoal
- Reka bentuk harus dipandu oleh komponen pakai yang diintegrasikan dengan API perkhidmatan.
- Penemuan data, penyerapan, penyimpanan, pentadbiran, kualiti, transformasi, dan visualisasi harus dikendalikan secara bebas.
- Senibina Data Lake harus disesuaikan dengan industri tertentu. Ia harus memastikan bahawa keupayaan yang diperlukan untuk domain tersebut adalah bahagian yang tidak dapat dilupakan dalam reka bentuk
- Pengambilan sumber data yang baru ditemui lebih cepat adalah penting
- Data Lake membantu pengurusan yang disesuaikan untuk mengekstrak nilai maksimum
- Data Lake harus menyokong teknik dan kaedah pengurusan data perusahaan yang ada
Cabaran membina tasik data:
- Di Data Lake, jumlah data lebih tinggi, jadi prosesnya harus lebih bergantung pada pentadbiran terprogram
- Adalah sukar untuk menangani data yang jarang, tidak lengkap dan tidak stabil
- Skop data dan sumber yang lebih luas memerlukan tadbir urus & sokongan data yang lebih besar
Perbezaan antara Tasik data dan gudang Data
Parameter | Tasik Data | Gudang Data |
---|---|---|
Data | Tasik data menyimpan semuanya. | Data Warehouse hanya tertumpu pada Proses Perniagaan. |
Memproses | Data terutamanya tidak diproses | Data yang sangat diproses. |
Jenis Data | Ia boleh Berstruktur, separa berstruktur dan berstruktur. | Ini kebanyakannya dalam bentuk & struktur jadual. |
Tugas | Berkongsi pengurusan data | Dioptimumkan untuk pengambilan data |
Ketangkasan | Sangat tangkas, konfigurasi dan konfigurasikan semula mengikut keperluan. | Bandingkan dengan Data Lake, ia kurang tangkas dan mempunyai konfigurasi yang tetap. |
Pengguna | Data Lake kebanyakannya digunakan oleh Data Scientist | Profesional perniagaan menggunakan Gudang data secara meluas |
Penyimpanan | Reka bentuk tasik data untuk penyimpanan kos rendah. | Storan mahal yang memberi masa tindak balas cepat digunakan |
Keselamatan | Menawarkan kawalan yang lebih rendah. | Membolehkan kawalan data lebih baik. |
Penggantian EDW | Data tasik boleh menjadi sumber EDW | Pelengkap EDW (bukan penggantian) |
Skema | Skema membaca (tiada skema yang telah ditentukan) | Skema menulis (skema yang telah ditentukan) |
Pemprosesan data | Membantu pengambilan data baru dengan pantas. | Mengambil masa untuk memperkenalkan kandungan baru. |
Butiran Data | Data pada tahap perincian atau butiran yang rendah. | Data pada tahap perincian ringkasan atau gabungan. |
Alat | Boleh menggunakan sumber terbuka / alat seperti Hadoop / Pengurangan Peta | Sebilangan besar alat komersial. |
Faedah dan Risiko menggunakan Data Lake:
Berikut adalah beberapa faedah utama dalam menggunakan Data Lake:
- Membantu sepenuhnya dengan pengionan produk & analitik canggih
- Menawarkan skalabiliti dan fleksibiliti yang menjimatkan
- Menawarkan nilai dari jenis data tanpa had
- Mengurangkan kos pemilikan jangka panjang
- Membolehkan penyimpanan fail ekonomi
- Mudah disesuaikan dengan perubahan
- Kelebihan utama tasik data adalah pemusatan sumber kandungan yang berbeza
- Pengguna, dari pelbagai jabatan, mungkin tersebar di seluruh dunia dapat memiliki akses data yang fleksibel
Risiko Menggunakan Tasik Data:
- Setelah beberapa lama, Data Lake mungkin kehilangan relevan dan momentum
- Terdapat risiko yang lebih besar dalam merancang Data Lake
- Data Tidak Berstruktur boleh menyebabkan Chao yang Tidak Dikendalikan, Data yang Tidak Dapat Digunakan, Alat yang Tidak Berpisah & Kompleks, Kerjasama Seluruh Perusahaan, Bersatu, Konsisten, dan Biasa
- Ia juga meningkatkan simpanan & mengira kos
- Tidak ada cara untuk mendapatkan pandangan daripada orang lain yang telah bekerja dengan data tersebut kerana tidak ada catatan mengenai susunan penemuan oleh penganalisis sebelumnya
- Risiko terbesar data tasik adalah keselamatan dan kawalan akses. Kadang-kadang data dapat dimasukkan ke dalam tasik tanpa pengawasan, kerana beberapa data mungkin memerlukan privasi dan keperluan peraturan
Ringkasan:
- Data Lake adalah penyimpanan simpanan yang dapat menyimpan sejumlah besar data berstruktur, separa berstruktur, dan tidak berstruktur.
- Objektif utama membina tasik data adalah untuk menawarkan pandangan data yang tidak disempurnakan kepada para saintis data.
- Tahap operasi bersatu, Tahap pemprosesan, Tahap penyulingan dan HDFS adalah lapisan penting dalam Data Lake Architecture
- Pengambilan Data, Penyimpanan data, Kualiti data, Pengauditan Data, Eksplorasi data, Penemuan data adalah beberapa komponen penting dalam Data Lake Architecture
- Reka bentuk Data Lake harus didorong oleh apa yang ada dan bukannya apa yang diperlukan.
- Data Lake mengurangkan kos pemilikan jangka panjang dan membenarkan penyimpanan fail secara ekonomi
- Risiko terbesar data tasik adalah keselamatan dan kawalan akses. Kadang-kadang data dapat dimasukkan ke dalam tasik tanpa pengawasan, kerana beberapa data mungkin memerlukan privasi dan peraturan.