Hadoop 60 Teratas & Soalan Temuduga MapReduce & Jawapan

Anonim

Muat turun PDF

Berikut adalah soalan yang sering diajukan dalam wawancara untuk pemula dan pemaju yang berpengalaman.

1) Apakah Pengurangan Peta Hadoop?

Untuk memproses set data besar secara selari melintasi kluster Hadoop, kerangka Hadoop MapReduce digunakan. Analisis data menggunakan peta dua langkah dan proses pengurangan.

2) Bagaimana Hadoop MapReduce berfungsi?

Dalam MapReduce, selama fasa peta, ia menghitung kata-kata dalam setiap dokumen, sementara pada tahap pengurangan mengumpulkan data berdasarkan dokumen yang merangkumi keseluruhan koleksi. Semasa fasa peta, data input dibahagikan kepada beberapa bahagian untuk dianalisis dengan tugas peta yang berjalan secara selari di seluruh kerangka Hadoop.

3) Terangkan apa yang mengacak dalam MapReduce?

Proses di mana sistem melakukan urutan dan memindahkan output peta ke pengurang kerana input dikenali sebagai shuffle

4) Terangkan apa yang diedarkan Cache dalam MapReduce Framework?

Distribusi Cache adalah ciri penting yang disediakan oleh kerangka MapReduce. Apabila anda ingin berkongsi beberapa fail di semua node di Hadoop Cluster, Distribusi Cache digunakan. Fail boleh berupa fail jar yang dapat dieksekusi atau fail sifat sederhana

5) Terangkan apa itu NameNode di Hadoop?

NameNode di Hadoop adalah node, di mana Hadoop menyimpan semua maklumat lokasi fail dalam HDFS (Hadoop Distused File System). Dengan kata lain, NameNode adalah bahagian tengah sistem fail HDFS. Ini menyimpan rekod semua fail dalam sistem fail dan melacak data fail di kluster atau beberapa mesin

6) Terangkan apa itu JobTracker di Hadoop? Apakah tindakan yang diikuti oleh Hadoop?

Dalam Hadoop untuk mengirimkan dan melacak pekerjaan MapReduce, JobTracker digunakan. Penjejak kerja dijalankan berdasarkan proses JVMnya sendiri

Job Tracker melakukan tindakan berikut di Hadoop

  • Permohonan pelanggan menyerahkan pekerjaan ke pelacak pekerjaan
  • JobTracker berkomunikasi ke mod Nama untuk menentukan lokasi data
  • Berhampiran data atau dengan slot yang tersedia JobTracker mencari nod TaskTracker
  • Pada Node TaskTracker yang dipilih, ia menghantar karya
  • Apabila tugas gagal, Penjejak tugas memberitahu dan memutuskan apa yang harus dilakukan kemudian.
  • Node TaskTracker dipantau oleh JobTracker

7) Terangkan apa degupan jantung dalam HDFS?

Denyut jantung dirujuk pada isyarat yang digunakan antara simpul data dan simpul Nama, dan antara pelacak tugas dan pelacak tugas, jika simpul Nama atau pelacak pekerjaan tidak bertindak balas terhadap isyarat, maka dianggap ada beberapa masalah dengan simpul data atau tugas pengesan

8) Terangkan apa itu penggabung dan kapan anda harus menggunakan penggabung dalam MapReduce Job?

Untuk meningkatkan kecekapan Program MapReduce, Combiners digunakan. Jumlah data dapat dikurangkan dengan bantuan penggabung yang perlu dipindahkan ke pengurang. Sekiranya operasi yang dilakukan adalah komutatif dan bersekutu, anda boleh menggunakan kod pengurang anda sebagai penggabung. Pelaksanaan combiner tidak dijamin di Hadoop

9) Apa yang berlaku apabila simpul data gagal?

Apabila nod data gagal

  • Jobtracker dan namenode mengesan kegagalan
  • Pada nod yang gagal semua tugas dijadualkan semula
  • Namenode mereplikasi data pengguna ke nod lain

10) Terangkan apa itu Pelaksanaan Spekulatif?

Dalam Hadoop semasa Pelaksanaan Spekulatif, sejumlah tugas pendua dilancarkan. Pada node hamba yang berbeza, beberapa salinan peta yang sama atau tugas pengurangan dapat dilaksanakan menggunakan Eksekusi Spekulatif. Dengan kata mudah, jika pemacu tertentu memerlukan masa yang lama untuk menyelesaikan tugas, Hadoop akan membuat tugas pendua pada cakera lain. Cakera yang menyelesaikan tugas terlebih dahulu disimpan dan cakera yang tidak selesai terlebih dahulu dibunuh.

11) Terangkan apa parameter asas Mapper?

Parameter asas Mapper adalah

  • Panjang Tulisan dan Teks
  • Teks dan Tidak Boleh Ditulis

12) Terangkan apa fungsi pemisah MapReduce?

Fungsi partitioner MapReduce adalah untuk memastikan bahawa semua nilai satu kekunci pergi ke pengurang yang sama, akhirnya yang membantu merata pengedaran output peta ke atas pengurang

13) Terangkan apa perbezaan antara Blok Input dan Blok HDFS?

Pembahagian data secara logik dikenali sebagai Split sementara pembahagian data secara fizikal dikenali sebagai HDFS Block

14) Terangkan apa yang berlaku dalam format teks?

Dalam format input teks, setiap baris dalam fail teks adalah rekod. Nilai adalah kandungan baris sementara Kunci adalah bait mengimbangi baris. Contohnya, Kunci: panjangWritable, Nilai: teks

15) Sebutkan apakah parameter konfigurasi utama yang perlu ditentukan pengguna untuk menjalankan MapReduce Job?

Pengguna kerangka MapReduce perlu menentukan

  • Lokasi input pekerjaan dalam sistem fail diedarkan
  • Lokasi output pekerjaan dalam sistem fail diedarkan
  • Format input
  • Format output
  • Kelas yang mengandungi fungsi peta
  • Kelas yang mengandungi fungsi mengurangkan
  • Fail JAR yang mengandungi kelas mapper, reducer dan driver

16) Terangkan apa itu WebDAV di Hadoop?

Untuk menyokong penyuntingan dan pengemaskinian fail WebDAV adalah sekumpulan sambungan ke HTTP. Pada kebanyakan sistem operasi, saham WebDAV dapat dipasang sebagai sistem fail, jadi mungkin untuk mengakses HDFS sebagai sistem fail standard dengan memperlihatkan HDFS melalui WebDAV.

17) Terangkan apa itu Sqoop dalam Hadoop?

Untuk memindahkan data antara pengurusan pangkalan data Relasional (RDBMS) dan Hadoop HDFS alat digunakan dikenali sebagai Sqoop. Menggunakan data Sqoop dapat dipindahkan dari RDMS seperti MySQL atau Oracle ke HDFS serta mengeksport data dari fail HDFS ke RDBMS

18) Terangkan bagaimana JobTracker menjadualkan tugas?

Penjejak tugas menghantar mesej degupan jantung kepada Jobtracker biasanya setiap beberapa minit untuk memastikan bahawa JobTracker aktif dan berfungsi. Mesej ini juga memberitahu JobTracker mengenai jumlah slot yang tersedia, sehingga JobTracker dapat terus mengetahui di mana kerja kluster dapat didelegasikan

19) Terangkan apa itu Sequencefileinputformat?

Sequencefileinputformat digunakan untuk membaca fail mengikut urutan. Ini adalah format fail biner terkompresi khusus yang dioptimumkan untuk menyampaikan data antara output dari satu pekerjaan MapReduce ke input dari beberapa pekerjaan MapReduce yang lain.

20) Terangkan apa yang dilakukan oleh conf.setMapper Class?

Conf.setMapperclass menetapkan kelas mapper dan semua perkara yang berkaitan dengan pekerjaan peta seperti membaca data dan menghasilkan pasangan nilai-kunci dari mapper

21) Terangkan apa itu Hadoop?

Ini adalah rangka kerja perisian sumber terbuka untuk menyimpan data dan menjalankan aplikasi pada kelompok perkakasan komoditi. Ini memberikan kekuatan pemprosesan yang besar dan penyimpanan besar-besaran untuk semua jenis data.

22) Sebutkan apakah perbezaan antara RDBMS dan Hadoop?

RDBMS Hadoop
RDBMS adalah sistem pengurusan pangkalan data hubungan Hadoop adalah struktur rata berasaskan nod
Ia digunakan untuk pemprosesan OLTP sedangkan Hadoop Ia digunakan untuk analisis dan pemprosesan DATA BESAR
Dalam RDBMS, kluster pangkalan data menggunakan fail data yang sama yang disimpan dalam storan bersama Di Hadoop, data penyimpanan dapat disimpan secara bebas di setiap nod pemprosesan.
Anda perlu memproses data sebelum menyimpannya anda tidak perlu memproses data sebelum menyimpannya

23) Sebutkan komponen teras Hadoop?

Komponen teras Hadoop merangkumi,

  • HDFS
  • Pengurangan Peta

24) Apa itu NameNode di Hadoop?

NameNode di Hadoop adalah tempat Hadoop menyimpan semua maklumat lokasi fail dalam HDFS. Ini adalah node utama di mana pelacak pekerjaan dijalankan dan terdiri daripada metadata.

25) Sebutkan apakah komponen data yang digunakan oleh Hadoop?

Komponen data yang digunakan oleh Hadoop adalah

  • Babi
  • Sarang

26) Sebutkan apakah komponen penyimpanan data yang digunakan oleh Hadoop?

Komponen penyimpanan data yang digunakan oleh Hadoop adalah HBase.

27) Sebutkan apakah format input yang paling biasa yang ditentukan dalam Hadoop?

Format input yang paling biasa yang dinyatakan dalam Hadoop adalah;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Dalam Hadoop apa itu InputSplit?

Ia membelah fail input menjadi potongan dan memberikan setiap pemisahan kepada mapper untuk diproses.

29) Untuk pekerjaan Hadoop, bagaimana anda akan menulis partitioner tersuai?

Anda menulis partitioner khusus untuk pekerjaan Hadoop, anda mengikuti jalan berikut

  • Buat kelas baru yang meluaskan Partitioner Class
  • Kaedah ganti getPartition
  • Di bungkus yang menjalankan MapReduce
  • Tambahkan partitioner kustom ke pekerjaan dengan menggunakan metode set Partitioner Class atau - tambahkan partitioner kustom ke pekerjaan sebagai file konfigurasi

30) Untuk pekerjaan di Hadoop, adakah mungkin untuk mengubah jumlah pemetaan yang akan dibuat?

Tidak, tidak mustahil untuk mengubah jumlah pemetaan yang akan dibuat. Bilangan pemetaan ditentukan oleh bilangan pemisahan input.

31) Terangkan apakah fail urutan dalam Hadoop?

Untuk menyimpan pasangan kunci / nilai binari, fail urutan digunakan. Tidak seperti fail mampatan biasa, fail urutan menyokong pemisahan walaupun data di dalam fail dimampatkan.

32) Apabila Namenode dimatikan, apa yang berlaku pada pelacak pekerjaan?

Namenode adalah titik kegagalan tunggal dalam HDFS jadi ketika Namenode turun, kluster anda akan berangkat.

33) Terangkan bagaimana pengindeksan dalam HDFS dilakukan?

Hadoop mempunyai cara pengindeksan yang unik. Setelah data disimpan mengikut ukuran blok, HDFS akan terus menyimpan bahagian terakhir data yang mengatakan di mana bahagian seterusnya data akan berada.

34) Jelaskan adakah mungkin mencari fail menggunakan wildcard?

Ya, adalah mungkin untuk mencari fail menggunakan wildcard.

35) Senaraikan tiga fail konfigurasi Hadoop?

Tiga fail konfigurasi tersebut adalah

  • inti-laman web.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Terangkan bagaimana anda dapat memeriksa sama ada Namenode berfungsi selain menggunakan arahan jps?

Selain menggunakan arahan jps, untuk memeriksa sama ada Namenode berfungsi, anda juga boleh menggunakan

status /etc/init.d/hadoop-0.20-namenode.

37) Terangkan apa itu "peta" dan apa "pengurang" dalam Hadoop?

Di Hadoop, peta adalah fasa penyelesaian pertanyaan HDFS. Peta membaca data dari lokasi input, dan mengeluarkan pasangan nilai kunci mengikut jenis input.

Di Hadoop, pengurang mengumpulkan output yang dihasilkan oleh mapper, memprosesnya, dan membuat output akhir sendiri.

38) Di Hadoop, fail mana yang mengawal pelaporan di Hadoop?

Di Hadoop, fail kawalan pelaporan hadoop-metrics.properties.

39) Untuk menggunakan senarai Hadoop keperluan rangkaian?

Untuk menggunakan Hadoop senarai keperluan rangkaian adalah:

  • Sambungan SSH tanpa kata laluan
  • Secure Shell (SSH) untuk melancarkan proses pelayan

40) Sebutkan apakah kesedaran rak?

Kesadaran rak adalah cara di mana namenode menentukan cara meletakkan blok berdasarkan definisi rak.

41) Terangkan apa itu Task Tracker di Hadoop?

Task Tracker di Hadoop adalah daemon node hamba dalam kluster yang menerima tugas dari JobTracker. Ia juga mengirimkan pesan detak jantung ke JobTracker, setiap beberapa minit, untuk mengesahkan bahawa JobTracker masih hidup.

42) Sebutkan daemon yang dijalankan pada nod induk dan nod hamba?

  • Daemon yang dijalankan di Master node adalah "NameNode"
  • Daemon yang dijalankan di setiap node Slave adalah "Task Tracker" dan "Data"

43) Terangkan bagaimana anda boleh menyahpepijat kod Hadoop?

Kaedah popular untuk menyahpepijat kod Hadoop adalah:

  • Dengan menggunakan antara muka web yang disediakan oleh rangka kerja Hadoop
  • Dengan menggunakan Pembilang

44) Terangkan apa itu node penyimpanan dan pengiraan?

  • Node penyimpanan adalah mesin atau komputer tempat sistem fail anda berada untuk menyimpan data pemprosesan
  • Node komputasi adalah komputer atau mesin di mana logik perniagaan sebenar anda akan dilaksanakan.

45) Sebutkan apakah penggunaan Objek Konteks?

Objek Konteks membolehkan pemeta berinteraksi dengan Hadoop yang lain

sistem. Ini termasuk data konfigurasi untuk pekerjaan, serta antarmuka yang memungkinkannya mengeluarkan output.

46) Sebutkan apakah langkah seterusnya selepas Mapper atau MapTask?

Langkah seterusnya selepas Mapper atau MapTask ialah output dari Mapper diurutkan, dan partisi akan dibuat untuk output.

47) Sebutkan berapa bilangan partitioner lalai di Hadoop?

Di Hadoop, partitioner lalai adalah "Hash" Partitioner.

48) Terangkan apa tujuan RecordReader dalam Hadoop?

Di Hadoop, RecordReader memuat data dari sumbernya dan mengubahnya menjadi (kunci, nilai) pasangan yang sesuai untuk dibaca oleh Mapper.

49) Terangkan bagaimana data dipartisi sebelum dihantar ke pengurang jika tidak ada partitioner khusus yang ditentukan dalam Hadoop?

Sekiranya tidak ada partitioner khusus yang ditentukan dalam Hadoop, maka partitioner lalai akan mengira nilai hash untuk kunci dan memberikan partition berdasarkan hasilnya.

50) Terangkan apa yang berlaku apabila Hadoop menghasilkan 50 tugas untuk pekerjaan dan salah satu tugas gagal?

Ia akan memulakan semula tugas pada TaskTracker lain jika tugas tersebut gagal lebih daripada had yang ditentukan.

51) Sebutkan apakah kaedah terbaik untuk menyalin fail antara kluster HDFS?

Cara terbaik untuk menyalin fail antara kluster HDFS adalah dengan menggunakan beberapa nod dan arahan distcp, sehingga beban kerja dikongsi.

52) Sebutkan apakah perbezaan antara HDFS dan NAS?

Blok data HDFS diedarkan di pemacu tempatan semua mesin dalam kluster sementara data NAS disimpan pada perkakasan khusus.

53) Sebutkan bagaimana Hadoop berbeza dengan alat pemprosesan data lain?

Di Hadoop, anda boleh menambah atau menurunkan jumlah pemetaan tanpa perlu risau tentang jumlah data yang akan diproses.

54) Sebutkan pekerjaan apa yang dilakukan oleh kelas conf?

Job conf class memisahkan pelbagai pekerjaan yang dijalankan pada kluster yang sama. Ia melakukan tetapan tahap pekerjaan seperti menyatakan pekerjaan di persekitaran sebenar.

55) Sebutkan apa kontrak Hadoop MapReduce APIs untuk kelas kunci dan nilai?

Untuk kelas kunci dan nilai, terdapat dua kontrak Hadoop MapReduce APIs

  • Nilai mesti menentukan antara muka org.apache.hadoop.io.Writable
  • Kuncinya mesti menentukan antara muka org.apache.hadoop.io.WritableComparable

56) Sebutkan tiga mod di mana Hadoop dapat dijalankan?

Tiga mod di mana Hadoop dapat dijalankan adalah

  • Mod diedarkan semu
  • Mod Berdiri (tempatan)
  • Mod diedarkan sepenuhnya

57) Sebutkan apa yang dilakukan format input teks?

Format input teks akan membuat objek garis yang merupakan nombor heksadesimal. Nilai dianggap sebagai teks baris keseluruhan manakala kunci dianggap sebagai objek baris. Mapper akan menerima nilai sebagai parameter 'text' sementara kunci sebagai parameter 'longwriteable'.

58) Sebutkan berapa banyak InputSplits yang dibuat oleh Hadoop Framework?

Hadoop akan membuat 5 bahagian

  • 1 perpecahan untuk fail 64K
  • 2 perpecahan untuk 65mb fail
  • 2 bahagian untuk fail 127mb

59) Sebutkan cache yang diedarkan di Hadoop?

Cache yang diedarkan di Hadoop adalah kemudahan yang disediakan oleh rangka kerja MapReduce. Pada saat pelaksanaan pekerjaan, digunakan untuk menyimpan cache file. Rangka kerja menyalin fail yang diperlukan ke simpul hamba sebelum pelaksanaan tugas di simpul tersebut.

60) Terangkan bagaimana Hadoop Classpath memainkan peranan penting dalam menghentikan atau memulakan di daemon Hadoop?

Classpath akan terdiri daripada senarai direktori yang mengandungi fail jar untuk menghentikan atau memulakan daemon.