Dalam tutorial ini, kami akan membawa anda melalui proses langkah demi langkah untuk memasang Apache Hadoop pada kotak Linux (Ubuntu). Ini adalah proses 2 bahagian
- Bahagian 1) Muat turun dan Pasang Hadoop
- Bahagian 2) Konfigurasikan Hadoop
Terdapat 2 Prasyarat
- Anda mesti memasang dan menjalankan Ubuntu
- Anda mesti Memasang Java.
Bahagian 1) Muat turun dan Pasang Hadoop
Langkah 1) Tambahkan pengguna sistem Hadoop menggunakan arahan di bawah
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Masukkan kata laluan, nama dan maklumat lain.
CATATAN: Terdapat kemungkinan kesalahan yang disebutkan di bawah dalam proses penyediaan dan pemasangan ini.
"hduser tidak ada dalam fail sudoers. Kejadian ini akan dilaporkan."
Kesalahan ini dapat diatasi dengan Login sebagai pengguna root
Laksanakan perintah
sudo adduser hduser_ sudo
Re-login as hduser_
Langkah 2) Konfigurasikan SSH
Untuk menguruskan node dalam kluster, Hadoop memerlukan akses SSH
Pertama, tukar pengguna, masukkan arahan berikut
su - hduser_
Perintah ini akan membuat kunci baru.
ssh-keygen -t rsa -P ""
Dayakan akses SSH ke mesin tempatan menggunakan kunci ini.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Sekarang uji penyediaan SSH dengan menyambung ke localhost sebagai pengguna 'hduser'.
ssh localhost
Catatan: Harap maklum, jika anda melihat kesalahan di bawah sebagai tindak balas kepada 'ssh localhost', maka ada kemungkinan SSH tidak tersedia pada sistem ini-
Untuk menyelesaikan ini -
Bersihkan SSH menggunakan,
sudo apt-get purge openssh-server
Adalah baik untuk membersihkan sebelum permulaan pemasangan
Pasang SSH menggunakan arahan-
sudo apt-get install openssh-server
Langkah 3) Langkah seterusnya adalah memuat turun Hadoop
Pilih Stabil
Pilih fail tar.gz (bukan fail dengan src)
Setelah muat turun selesai, arahkan ke direktori yang mengandungi fail tar
Masukkan,
sudo tar xzf hadoop-2.2.0.tar.gz
Sekarang, namakan semula hadoop-2.2.0 sebagai hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Bahagian 2) Konfigurasikan Hadoop
Langkah 1) Ubah suai fail ~ / .bashrc
Tambahkan baris berikut ke hujung fail ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Sekarang, cari konfigurasi persekitaran ini menggunakan arahan di bawah
. ~/.bashrc
Langkah 2) Konfigurasi yang berkaitan dengan HDFS
Tetapkan JAVA_HOME di dalam fail $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Dengan
Terdapat dua parameter dalam $ HADOOP_HOME / etc / hadoop / core-site.xml yang perlu ditetapkan-
1. 'hadoop.tmp.dir' - Digunakan untuk menentukan direktori yang akan digunakan oleh Hadoop untuk menyimpan fail datanya.
2. 'fs.default.name' - Ini menentukan sistem fail lalai.
Untuk menetapkan parameter ini, buka core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Salin garis bawah di antara tag
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navigasi ke direktori $ HADOOP_HOME / etc / Hadoop
Sekarang, buat direktori yang disebut dalam core-site.xml
sudo mkdir -p
Beri kebenaran ke direktori
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Langkah 3) Peta Kurangkan Konfigurasi
Sebelum anda memulakan konfigurasi ini, mari tetapkan jalan HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Dan Masukkan
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Masukkan seterusnya
sudo chmod +x /etc/profile.d/hadoop.sh
Keluar dari Terminal dan mulakan semula
Taip gema $ HADOOP_HOME. Untuk mengesahkan jalan
Sekarang salin fail
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Buka fail mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Tambahkan garis pengaturan di bawah di antara tag
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Buka $ HADOOP_HOME / etc / hadoop / hdfs-site.xml seperti di bawah,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Tambahkan garis tetapan di bawah antara tag
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Buat direktori yang dinyatakan dalam tetapan di atas-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Langkah 4) Sebelum kita memulakan Hadoop untuk pertama kalinya, format HDFS menggunakan arahan di bawah
$HADOOP_HOME/bin/hdfs namenode -format
Langkah 5) Mulakan kluster nod tunggal Hadoop menggunakan arahan di bawah
$HADOOP_HOME/sbin/start-dfs.sh
Keluaran arahan di atas
$HADOOP_HOME/sbin/start-yarn.sh
Dengan menggunakan alat / arahan 'jps' , sahkan sama ada semua proses berkaitan Hadoop sedang berjalan atau tidak.
Sekiranya Hadoop berjaya dimulakan maka output jps harus menunjukkan NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Langkah 6) Menghentikan Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh