Cara Memasang Hadoop dengan Konfigurasi Langkah demi Langkah di Ubuntu

Isi kandungan:

Anonim

Dalam tutorial ini, kami akan membawa anda melalui proses langkah demi langkah untuk memasang Apache Hadoop pada kotak Linux (Ubuntu). Ini adalah proses 2 bahagian

  • Bahagian 1) Muat turun dan Pasang Hadoop
  • Bahagian 2) Konfigurasikan Hadoop

Terdapat 2 Prasyarat

  • Anda mesti memasang dan menjalankan Ubuntu
  • Anda mesti Memasang Java.

Bahagian 1) Muat turun dan Pasang Hadoop

Langkah 1) Tambahkan pengguna sistem Hadoop menggunakan arahan di bawah

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Masukkan kata laluan, nama dan maklumat lain.

CATATAN: Terdapat kemungkinan kesalahan yang disebutkan di bawah dalam proses penyediaan dan pemasangan ini.

"hduser tidak ada dalam fail sudoers. Kejadian ini akan dilaporkan."

Kesalahan ini dapat diatasi dengan Login sebagai pengguna root

Laksanakan perintah

sudo adduser hduser_ sudo

Re-login as hduser_

Langkah 2) Konfigurasikan SSH

Untuk menguruskan node dalam kluster, Hadoop memerlukan akses SSH

Pertama, tukar pengguna, masukkan arahan berikut

su - hduser_

Perintah ini akan membuat kunci baru.

ssh-keygen -t rsa -P ""

Dayakan akses SSH ke mesin tempatan menggunakan kunci ini.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Sekarang uji penyediaan SSH dengan menyambung ke localhost sebagai pengguna 'hduser'.

ssh localhost

Catatan: Harap maklum, jika anda melihat kesalahan di bawah sebagai tindak balas kepada 'ssh localhost', maka ada kemungkinan SSH tidak tersedia pada sistem ini-

Untuk menyelesaikan ini -

Bersihkan SSH menggunakan,

sudo apt-get purge openssh-server

Adalah baik untuk membersihkan sebelum permulaan pemasangan

Pasang SSH menggunakan arahan-

sudo apt-get install openssh-server

Langkah 3) Langkah seterusnya adalah memuat turun Hadoop

Pilih Stabil

Pilih fail tar.gz (bukan fail dengan src)

Setelah muat turun selesai, arahkan ke direktori yang mengandungi fail tar

Masukkan,

sudo tar xzf hadoop-2.2.0.tar.gz

Sekarang, namakan semula hadoop-2.2.0 sebagai hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Bahagian 2) Konfigurasikan Hadoop

Langkah 1) Ubah suai fail ~ / .bashrc

Tambahkan baris berikut ke hujung fail ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Sekarang, cari konfigurasi persekitaran ini menggunakan arahan di bawah

. ~/.bashrc

Langkah 2) Konfigurasi yang berkaitan dengan HDFS

Tetapkan JAVA_HOME di dalam fail $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Dengan

Terdapat dua parameter dalam $ HADOOP_HOME / etc / hadoop / core-site.xml yang perlu ditetapkan-

1. 'hadoop.tmp.dir' - Digunakan untuk menentukan direktori yang akan digunakan oleh Hadoop untuk menyimpan fail datanya.

2. 'fs.default.name' - Ini menentukan sistem fail lalai.

Untuk menetapkan parameter ini, buka core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Salin garis bawah di antara tag

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navigasi ke direktori $ HADOOP_HOME / etc / Hadoop

Sekarang, buat direktori yang disebut dalam core-site.xml

sudo mkdir -p 

Beri kebenaran ke direktori

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Langkah 3) Peta Kurangkan Konfigurasi

Sebelum anda memulakan konfigurasi ini, mari tetapkan jalan HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Dan Masukkan

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Masukkan seterusnya

sudo chmod +x /etc/profile.d/hadoop.sh

Keluar dari Terminal dan mulakan semula

Taip gema $ HADOOP_HOME. Untuk mengesahkan jalan

Sekarang salin fail

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Buka fail mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Tambahkan garis pengaturan di bawah di antara tag dan

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Buka $ HADOOP_HOME / etc / hadoop / hdfs-site.xml seperti di bawah,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Tambahkan garis tetapan di bawah antara tag dan

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Buat direktori yang dinyatakan dalam tetapan di atas-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Langkah 4) Sebelum kita memulakan Hadoop untuk pertama kalinya, format HDFS menggunakan arahan di bawah

$HADOOP_HOME/bin/hdfs namenode -format

Langkah 5) Mulakan kluster nod tunggal Hadoop menggunakan arahan di bawah

$HADOOP_HOME/sbin/start-dfs.sh

Keluaran arahan di atas

$HADOOP_HOME/sbin/start-yarn.sh

Dengan menggunakan alat / arahan 'jps' , sahkan sama ada semua proses berkaitan Hadoop sedang berjalan atau tidak.

Sekiranya Hadoop berjaya dimulakan maka output jps harus menunjukkan NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Langkah 6) Menghentikan Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh