Berikut adalah soalan wawancara jurutera data yang sering diajukan untuk calon baru dan juga calon yang berpengalaman untuk mendapatkan pekerjaan yang tepat.
1) Terangkan Kejuruteraan Data.
Kejuruteraan data adalah istilah yang digunakan dalam data besar. Ia menumpukan pada aplikasi pengumpulan dan penyelidikan data. Data yang dihasilkan dari pelbagai sumber hanyalah data mentah. Kejuruteraan data membantu mengubah data mentah ini menjadi maklumat berguna.
2) Apa itu Pemodelan Data?
Pemodelan data adalah kaedah mendokumentasikan reka bentuk perisian yang kompleks sebagai gambarajah supaya sesiapa sahaja dapat memahami dengan mudah. Ini adalah representasi konseptual objek data yang berkaitan antara pelbagai objek data dan peraturan.
3) Senaraikan pelbagai jenis skema reka bentuk dalam Pemodelan Data
Terdapat terutamanya dua jenis skema dalam pemodelan data: 1) Skema bintang dan 2) Skema kepingan salji.
4) Membezakan antara data berstruktur dan tidak berstruktur
Berikut adalah perbezaan antara data berstruktur dan tidak berstruktur:
Parameter | Data Berstruktur | Data Tidak Berstruktur |
Penyimpanan | DBMS | Struktur fail yang tidak terurus |
Piawai | ADO.net, ODBC, dan SQL | STMP, XML, CSV, dan SMS |
Alat Integrasi | ELT (Ekstrak, Transformasi, Beban) | Kemasukan data manual atau pemprosesan kumpulan yang merangkumi kod |
penskalaan | Penskalaan skema sukar dilakukan | Penskalaan sangat mudah. |
5) Terangkan semua komponen aplikasi Hadoop
Berikut adalah komponen aplikasi Hadoop:
- Hadoop Common: Ini adalah sekumpulan utiliti dan perpustakaan yang biasa digunakan oleh Hadoop.
- HDFS: Aplikasi Hadoop ini berkaitan dengan sistem fail di mana data Hadoop disimpan. Ia adalah sistem fail diedarkan yang mempunyai lebar jalur yang tinggi.
- Hadoop MapReduce: Ia didasarkan pada algoritma untuk penyediaan pemprosesan data berskala besar.
- Hadoop YARN: Ia digunakan untuk pengurusan sumber dalam kluster Hadoop. Ia juga dapat digunakan untuk penjadualan tugas untuk pengguna.
6) Apa itu NameNode?
Ia adalah inti HDFS. Ia menyimpan data HDFS dan melacak pelbagai fail di kluster. Di sini, data sebenar tidak disimpan. Data disimpan dalam DataNodes.
7) Tentukan streaming Hadoop
Ini adalah utiliti yang memungkinkan untuk membuat peta dan Mengurangkan pekerjaan dan menyerahkannya ke kelompok tertentu.
8) Apakah bentuk penuh HDFS?
HDFS bermaksud Sistem Fail Terdistribusi Hadoop.
9) Tentukan Pengimbas Blok dan Blok dalam HDFS
Blok adalah unit terkecil dari fail data. Hadoop secara automatik membahagikan fail besar menjadi kepingan kecil.
Block Scanner mengesahkan senarai blok yang disajikan pada DataNode.
10) Apakah langkah-langkah yang berlaku ketika Block Scanner mengesan blok data yang rosak?
Berikut adalah langkah-langkah yang berlaku ketika Block Scanner menemui blok data yang rosak:
1) Pertama sekali, apabila Block Scanner menemui blok data yang rosak, DataNode melaporkan kepada NameNode
2) NameNode memulakan proses membuat replika baru menggunakan replika blok yang rosak.
3) Kiraan replikasi replika yang betul cuba dipadankan dengan faktor replikasi. Sekiranya perlawanan didapati blok data yang rosak tidak akan dihapuskan.
11) Namakan dua mesej yang mendapat NameNode dari DataNode?
Terdapat dua mesej yang mendapat NameNode dari DataNode. Mereka adalah 1) Laporan blok dan 2) Denyutan jantung.
12) Senaraikan pelbagai fail konfigurasi XML di Hadoop?
Terdapat lima fail konfigurasi XML di Hadoop:
- Laman web yang dipetakan
- Laman web teras
- Laman web HDFS
- Tapak benang
13) Apakah empat data besar V?
Empat data besar V adalah:
- Halaju
- Kepelbagaian
- Isipadu
- Ketepatan
14) Terangkan ciri Hadoop
Ciri-ciri penting Hadoop adalah:
- Ini adalah kerangka sumber terbuka yang tersedia secara percuma.
- Hadoop serasi dengan banyak jenis perkakasan dan mudah mengakses perkakasan baru dalam nod tertentu.
- Hadoop menyokong pemprosesan data yang lebih cepat diedarkan.
- Ia menyimpan data dalam kluster, yang tidak bergantung pada operasi yang lain.
- Hadoop membolehkan membuat 3 replika untuk setiap blok dengan nod yang berbeza.
15) Terangkan kaedah utama Reducer
- setup (): Ini digunakan untuk mengkonfigurasi parameter seperti ukuran data input dan cache yang diedarkan.
- pembersihan (): Kaedah ini digunakan untuk membersihkan fail sementara.
- kurangkan (): Ini adalah inti pengurang yang dipanggil sekali per kunci dengan tugas pengurangan yang berkaitan
16) Apakah singkatan COSHH?
Singkatan COSHH adalah Jadual berdasarkan Klasifikasi dan Pengoptimuman untuk sistem Hadoop Heterogen.
17) Terangkan Skema Bintang
Star Schema atau Star Join Schema adalah jenis skema Data Warehouse yang paling mudah. Ia dikenali sebagai skema bintang kerana strukturnya seperti bintang. Dalam skema Bintang, bahagian tengah bintang mungkin mempunyai satu jadual fakta dan beberapa jadual dimensi yang berkaitan. Skema ini digunakan untuk meminta set data yang besar.
18) Bagaimana menggunakan penyelesaian data besar?
Ikuti langkah-langkah berikut untuk menggunakan penyelesaian data besar.
1) Mengintegrasikan data menggunakan sumber data seperti RDBMS, SAP, MySQL, Salesforce
2) Simpan data yang diekstrak dalam pangkalan data NoSQL atau HDFS.
3) Terapkan penyelesaian data besar menggunakan kerangka pemprosesan seperti Babi, Spark, dan MapReduce.
19) Terangkan FSCK
Pemeriksaan Sistem Fail atau FSCK adalah arahan yang digunakan oleh HDFS. Perintah FSCK digunakan untuk memeriksa ketidakkonsistenan dan masalah dalam fail.
20) Terangkan Skema Kepingan Salji
Skema Snowflake adalah lanjutan dari Skema Bintang, dan ia menambah dimensi tambahan. Ia dipanggil kepingan salji kerana rajahnya kelihatan seperti kepingan salji. Jadual dimensi dinormalisasi, yang membagi data menjadi jadual tambahan.
21) Bezakan antara Skema Bintang dan Kepingan Salji
Bintang | Skema SnowFlake |
Hierarki dimensi disimpan dalam jadual dimensi. | Setiap hierarki disimpan ke dalam jadual yang berasingan. |
Kemungkinan redundansi data tinggi | Kemungkinan redundansi data rendah. |
Ia mempunyai reka bentuk DB yang sangat sederhana | Ia mempunyai reka bentuk DB yang kompleks |
Berikan kaedah yang lebih pantas untuk pemprosesan kiub | Pemprosesan kubus lambat kerana gabungan kompleks. |
22) Terangkan sistem fail diedarkan Hadoop
Hadoop berfungsi dengan sistem fail diedarkan berskala seperti S3, HFTP FS, FS, dan HDFS. Sistem Fail Terdistribusi Hadoop dibuat pada Sistem Fail Google. Sistem fail ini direka sedemikian rupa sehingga dapat berjalan dengan mudah pada kelompok besar sistem komputer.
23) Terangkan tanggungjawab utama jurutera data
Jurutera data mempunyai banyak tanggungjawab. Mereka menguruskan sistem sumber data. Jurutera data mempermudah struktur data yang rumit dan mencegah peniruan semula data. Sering kali mereka juga menyediakan transformasi ELT dan data.
24) Apakah bentuk YARN yang lengkap?
Bentuk YARN yang lengkap adalah Negosiator Sumber Lain.
25) Senaraikan pelbagai mod dalam Hadoop
Mod dalam Hadoop adalah 1) Mod berdiri sendiri 2) Mod diedarkan semu 3) Mod diedarkan sepenuhnya.
26) Bagaimana untuk mencapai keselamatan di Hadoop?
Lakukan langkah-langkah berikut untuk mencapai keselamatan di Hadoop:
1) Langkah pertama adalah mengamankan saluran pengesahan klien ke pelayan. Berikan cap masa kepada pelanggan.
2) Pada langkah kedua, pelanggan menggunakan cap waktu yang diterima untuk meminta TGS untuk tiket perkhidmatan.
3) Pada langkah terakhir, pelanggan menggunakan tiket perkhidmatan untuk pengesahan diri ke pelayan tertentu.
27) Apakah degupan jantung di Hadoop?
Dalam Hadoop, NameNode dan DataNode berkomunikasi antara satu sama lain. Denyutan jantung adalah isyarat yang dihantar oleh DataNode ke NameNode secara berkala untuk menunjukkan kehadirannya.
28) Bezakan antara NAS dan DAS di Hadoop
NAS | DAS |
Kapasiti simpanan adalah 10 9 hingga 10 12 inte. | Kapasiti simpanan ialah 10 9 inte. |
Kos pengurusan per GB adalah sederhana. | Kos pengurusan per GB adalah tinggi. |
Hantar data menggunakan Ethernet atau TCP / IP. | Hantar data menggunakan IDE / SCSI |
29) Senaraikan bidang atau bahasa penting yang digunakan oleh jurutera data
Berikut adalah beberapa bidang atau bahasa yang digunakan oleh jurutera data:
- Kebarangkalian serta aljabar linear
- Pembelajaran mesin
- Analisis tren dan regresi
- Hive QL dan pangkalan data SQL
30) Apa itu Big Data?
Ini adalah sejumlah besar data berstruktur dan tidak terstruktur, yang tidak dapat diproses dengan mudah dengan kaedah penyimpanan data tradisional. Jurutera data menggunakan Hadoop untuk menguruskan data besar.
31) Apakah penjadualan FIFO?
Ini adalah algoritma penjadualan Pekerjaan Hadoop. Dalam penjadualan FIFO ini, seorang wartawan memilih pekerjaan dari barisan kerja, pekerjaan tertua terlebih dahulu.
32) Sebutkan nombor port lalai yang menjalankan tracker tugas, NameNode, dan tracker pekerjaan di Hadoop
Nombor port lalai di mana tracker tugas, NameNode, dan tracker pekerjaan dijalankan di Hadoop adalah seperti berikut:
- Penjejak tugas berjalan di port 50060
- NameNode berjalan pada 50070 port
- Job Tracker berjalan di 50030 port
33) Cara mematikan Pengimbas Blok pada Nod Data HDFS
Untuk mematikan Pengimbas Blok pada Nod Data HDFS, tetapkan dfs.datanode.scan.period.hours ke 0.
34) Bagaimana menentukan jarak antara dua nod di Hadoop?
Jarak sama dengan jumlah jarak ke nod terdekat. Kaedah getDistance () digunakan untuk mengira jarak antara dua nod.
35) Mengapa menggunakan perkakasan komoditi di Hadoop?
Perkakasan komoditi mudah diperoleh dan berpatutan. Ini adalah sistem yang serasi dengan Windows, MS-DOS, atau Linux.
36) Tentukan faktor replikasi dalam HDFS
Faktor replikasi adalah jumlah replika fail dalam sistem.
37) Data apa yang disimpan di NameNode?
Namenode menyimpan metadata untuk HDFS seperti maklumat blok, dan maklumat ruang nama.
38) Apa maksud anda dengan Rack Awareness?
Dalam kluster Haddop, Namenode menggunakan Datanode untuk meningkatkan lalu lintas rangkaian semasa membaca atau menulis fail yang lebih dekat dengan rak berdekatan untuk membaca atau Menulis permintaan. Namenode mengekalkan id rak setiap DataNode untuk mencapai maklumat rak. Konsep ini disebut sebagai Rack Awareness di Hadoop.
39) Apakah fungsi Secondary NameNode?
Berikut adalah fungsi Secondary NameNode:
- FsImage yang menyimpan salinan fail EditLog dan FsImage.
- Kerosakan NameNode: Sekiranya NameNode mogok, FsImage NameNode Sekunder dapat digunakan untuk membuat semula NameNode.
- Checkpoint: Ia digunakan oleh SecondNameNode untuk mengesahkan bahawa data tidak rosak dalam HDFS.
- Kemas kini: Ia secara automatik mengemas kini fail EditLog dan FsImage. Ia membantu memastikan fail FsImage di SecondNameNode dikemas kini.
40) Apa yang berlaku apabila NameNode tergendala, dan pengguna mengemukakan pekerjaan baru?
NameNode adalah titik kegagalan tunggal dalam Hadoop sehingga pengguna tidak dapat menyerahkan pekerjaan baru yang tidak dapat dilaksanakan. Sekiranya NameNode tergendala, maka tugas tersebut mungkin gagal, kerana pengguna ini perlu menunggu NameNode dimulakan semula sebelum menjalankan sebarang pekerjaan.
41) Apakah fasa asas pengurang dalam Hadoop?
Terdapat tiga fasa asas pengurang dalam Hadoop:
1. Shuffle: Di sini, Reducer menyalin output dari Mapper.
2. Susun: Dalam bentuk, Hadoop menyusun input ke Reducer menggunakan kekunci yang sama.
3. Kurangkan: Pada fasa ini, nilai output yang berkaitan dengan kunci dikurangkan untuk menggabungkan data ke output akhir.
42) Mengapa Hadoop menggunakan objek Konteks?
Kerangka Hadoop menggunakan objek Konteks dengan kelas Mapper untuk berinteraksi dengan sistem yang tinggal. Objek konteks mendapat perincian konfigurasi sistem dan tugas dalam konstruktornya.
Kami menggunakan objek Konteks untuk menyampaikan maklumat dalam kaedah penyiapan (), pembersihan () dan peta (). Objek ini menjadikan maklumat penting tersedia semasa operasi peta.
43) Tentukan Combiner di Hadoop
Ini adalah langkah pilihan antara Peta dan Kurangkan. Combiner mengambil output dari fungsi Peta, membuat pasangan nilai kunci, dan menyerahkan kepada Hadoop Reducer. Tugas Combiner adalah meringkaskan hasil akhir dari Peta ke dalam catatan ringkasan dengan kunci yang serupa.
44) Apakah faktor replikasi lalai yang terdapat dalam HDFS Apa yang ditunjukkan?
Faktor replikasi lalai yang terdapat dalam HDFS adalah tiga. Faktor replikasi lalai menunjukkan bahawa akan ada tiga replika setiap data.
45) Apa maksud anda Data Lokasi di Hadoop?
Dalam sistem Big Data, ukuran data sangat besar, dan itulah sebabnya tidak masuk akal untuk memindahkan data ke seluruh rangkaian. Sekarang, Hadoop cuba menggerakkan perhitungan lebih dekat ke data. Dengan cara ini, data tetap tempatan ke lokasi yang disimpan.
46) Tentukan Pengimbang dalam HDFS
Dalam HDFS, penyeimbang adalah pentadbiran yang digunakan oleh staf pentadbir untuk mengimbangi data merentasi DataNodes dan memindahkan blok dari nod yang terlalu banyak ke yang tidak digunakan.
47) Terangkan mod Selamat dalam HDFS
Ini adalah mod hanya-baca NameNode dalam kluster. Pada mulanya, NameNode berada di Safemode. Ia menghalang penulisan ke sistem fail di Safemode. Pada masa ini, ia mengumpulkan data dan statistik dari semua DataNodes.
48) Apakah kepentingan Distribusi Cache dalam Apache Hadoop?
Hadoop mempunyai ciri utiliti berguna yang disebut Distused Cache yang meningkatkan prestasi pekerjaan dengan mencache file yang digunakan oleh aplikasi. Aplikasi dapat menentukan file untuk cache menggunakan konfigurasi JobConf.
Kerangka Hadoop membuat replika fail-fail ini ke node yang tugasnya harus dilaksanakan. Ini dilakukan sebelum pelaksanaan tugas dimulakan. Distribusi Cache menyokong pengedaran fail baca sahaja serta fail zip, dan balang.
49) Apa itu Metastore di Hive?
Ia menyimpan skema dan juga lokasi jadual Hive.
Jadual sarang menentukan, pemetaan, dan metadata yang disimpan di Metastore. Ini boleh disimpan dalam RDBMS yang disokong oleh JPOX.
50) Apa maksud SerDe di Hive?
SerDe adalah nama ringkas untuk Serializer atau Deserializer. Di Hive, SerDe membolehkan membaca data dari jadual ke dan menulis ke bidang tertentu dalam format yang anda mahukan.
51) Senaraikan komponen yang terdapat dalam model data Hive
Terdapat komponen berikut dalam model data Hive:
- Jadual
- Partition
- Baldi
52) Terangkan penggunaan Hive dalam eko-sistem Hadoop.
Hive menyediakan antara muka untuk menguruskan data yang disimpan dalam eko-sistem Hadoop. Hive digunakan untuk pemetaan dan bekerja dengan jadual HBase. Pertanyaan sarang diubah menjadi pekerjaan MapReduce untuk menyembunyikan kerumitan yang berkaitan dengan membuat dan menjalankan pekerjaan MapReduce.
53) Senaraikan pelbagai jenis / koleksi data kompleks yang disokong oleh Hive
Hive menyokong jenis data kompleks berikut:
- Peta
- Struktur
- Array
- Kesatuan
54) Terangkan bagaimana fail .hiverc di Hive digunakan?
Di Hive, .hiverc adalah fail inisialisasi. Fail ini pada mulanya dimuat ketika kita memulakan Command Line Interface (CLI) untuk Hive. Kita dapat menetapkan nilai awal parameter dalam file .hiverc.
55) Adakah mungkin untuk membuat lebih daripada satu jadual di Hive untuk satu fail data?
Ya, kita dapat membuat lebih dari satu skema jadual untuk fail data. Hive menyimpan skema di Hive Metastore. Berdasarkan skema ini, kami dapat memperoleh hasil yang tidak sama dari Data yang sama.
56) Terangkan pelbagai pelaksanaan SerDe yang terdapat di Hive
Terdapat banyak pelaksanaan SerDe yang terdapat di Hive. Anda juga boleh menulis pelaksanaan SerDe tersuai anda sendiri. Berikut adalah beberapa pelaksanaan SerDe yang terkenal:
- OpenCSVSerde
- RegexSerDe
- TerhadJSONSerDe
- ByteStreamTypedSerDe
57) Senaraikan fungsi menghasilkan jadual yang terdapat di Hive
Berikut adalah senarai fungsi menghasilkan jadual:
- Meletup (array)
- JSON_tuple ()
- Timbunan()
- Meletup (peta)
58) Apakah jadual Skewed di Hive?
Jadual Skewed adalah jadual yang mengandungi nilai lajur lebih kerap. Di Hive, ketika kita menentukan jadual sebagai SKEWED selama pembuatan, nilai miring ditulis ke dalam fail yang terpisah, dan nilai yang tersisa pergi ke fail lain.
59) Senaraikan objek yang dibuat dengan membuat pernyataan di MySQL.
Objek yang dibuat dengan membuat pernyataan di MySQL adalah seperti berikut:
- Pangkalan data
- Indeks
- Jadual
- Pengguna
- Prosedur
- Pencetus
- Acara
- Pandangan
- Fungsi
60) Bagaimana melihat struktur pangkalan data di MySQL?
Untuk melihat struktur pangkalan data di MySQL, anda boleh menggunakan
Perintah DESCRIBE. Sintaks arahan ini adalah DESCRIBE Table name ;.
61) Bagaimana mencari String tertentu di lajur jadual MySQL?
Gunakan operator regex untuk mencari String di lajur MySQL. Di sini, kita juga dapat menentukan pelbagai jenis ungkapan biasa dan mencari untuk menggunakan regex.
62) Terangkan bagaimana analisis data dan data besar dapat meningkatkan pendapatan syarikat?
Berikut adalah cara bagaimana analisis data dan data besar dapat meningkatkan pendapatan syarikat:
- Gunakan data dengan cekap untuk memastikan pertumbuhan perniagaan.
- Meningkatkan nilai pelanggan.
- Mengubah analitik untuk meningkatkan ramalan tahap kakitangan.
- Mengurangkan kos pengeluaran organisasi.