Dalam tutorial ini, anda akan belajar -
- Memasang NLTK di Windows
- Memasang Python di Windows
- Memasang NLTK di Mac / Linux
- Memasang NLTK melalui Anaconda
- Set Data NLTK
- Cara Muat turun semua pakej NLTK
- Menjalankan Skrip NLP
- Cara Menjalankan Skrip NLTK
Memasang NLTK di Windows
Di bahagian ini, kita akan belajar bagaimana membuat setup NLTK melalui terminal (Command prompt di windows).
Arahan yang diberikan di bawah didasarkan pada anggapan bahawa anda tidak memasang python. Jadi, langkah pertama adalah memasang python.
Memasang Python di Windows:
Langkah 1) Pergi ke pautan https://www.python.org/downloads/ , dan pilih versi terbaru untuk windows.
Catatan : Sekiranya anda tidak mahu memuat turun versi terbaru, anda boleh mengunjungi tab muat turun dan melihat semua rilis.
Langkah 2) Klik pada Fail yang Dimuat turun
Langkah 3) Pilih Sesuaikan Pemasangan
Langkah 4) Klik SETERUSNYA
Langkah 5) Pada skrin seterusnya
- Pilih pilihan lanjutan
- Beri lokasi pemasangan Custom. Dalam kes saya, folder pada pemacu C dipilih untuk kemudahan dalam operasi
- Klik Pasang
Langkah 6) Klik butang Tutup setelah pemasangan selesai.
Langkah 7) Salin laluan folder Skrip anda.
Langkah 8) Di command prompt windows
- Navigasi ke lokasi folder pip
- Masukkan arahan untuk memasang NLTK
pip3 install nltk
- Pemasangan harus dilakukan dengan jayanya
CATATAN : Untuk Python2 gunakan commandlip2 install nltk
Langkah 9) Pada Menu Mula Windows, cari dan buka PythonShell
Langkah 10) Anda boleh mengesahkan sama ada pemasangan tepat memberikan arahan di bawah
import nltk
Sekiranya anda tidak melihat ralat, Pemasangan selesai.
Memasang NLTK di Mac / Linux
Memasang NLTK di Mac / Unix memerlukan pip pengurus python untuk memasang nltk. Sekiranya pip tidak dipasang, ikuti arahan di bawah untuk menyelesaikan prosesnya
Langkah 1) Kemas kini indeks pakej dengan menaip arahan di bawah
sudo apt update
Langkah 2) Memasang pip untuk Python 3:
sudo apt install python3-pip
Anda juga boleh memasang pip menggunakan easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Sekarang easy_install dipasang. Jalankan arahan di bawah untuk memasang pip
sudo easy_install pip
Langkah 3) Gunakan arahan berikut untuk memasang NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Memasang NLTK melalui Anaconda
Langkah 1) Sila pasang anaconda (yang juga dapat digunakan untuk memasang pakej yang berbeza) dengan melayari https://www.anaconda.com/products/individual dan pilih versi python yang perlu anda pasang untuk anaconda.
Catatan: Rujuk tutorial ini untuk langkah terperinci untuk memasang anaconda
Langkah 2) Dalam arahan Anaconda,
- Masukkan arahan
conda install -c anaconda nltk
- Semak peningkatan pakej, turunkan, pasang maklumat dan masukkan ya
- NLTK dimuat turun dan dipasang
Set Data NLTK
Modul NLTK mempunyai banyak set data yang perlu anda muat turun untuk digunakan. Secara teknikalnya disebut korpus . Beberapa contohnya ialah kata kunci , gutenberg , framenet_v15 , gram_ besar dan sebagainya.
Cara Muat turun semua pakej NLTK
Langkah 1) Jalankan pentafsir Python di Windows atau Linux
Langkah 2)
- Masukkan arahan
import nltknltk.download ()
- Tetingkap Dimuat turun NLTK Dibuka. Klik Butang Muat turun untuk memuat turun set data. Proses ini akan memakan masa, berdasarkan sambungan internet anda
CATATAN: Anda boleh mengubah lokasi muat turun dengan Mengklik Fail> Tukar Direktori Muat turun
Langkah 3) Untuk menguji data yang dipasang, gunakan kod berikut
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Menjalankan Skrip NLP
Kami akan membincangkan bagaimana skrip NLP akan dilaksanakan di PC tempatan kami. Terdapat banyak perpustakaan untuk Pemprosesan Bahasa Asli yang terdapat di pasaran. Oleh itu, memilih perpustakaan bergantung pada keperluan anda. Berikut adalah senarai perpustakaan NLP.
Cara Menjalankan Skrip NLTK
Langkah 1) Dalam penyunting kod kegemaran anda, salin kod dan simpan fail sebagai " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Penjelasan Kod:
- Dalam program ini, objektifnya adalah untuk menghapus semua jenis tanda baca dari teks yang diberikan. Kami mengimport "RegexpTokenizer" yang merupakan modul NLTK. Ia menghilangkan semua ungkapan, simbol, watak, angka atau apa sahaja yang anda mahukan.
- Anda baru sahaja menyampaikan Ekspresi biasa ke modul "RegexpTokenizer".
- Selanjutnya, kami memberi token pada kata menggunakan modul "tokenize". Keluaran disimpan dalam pemboleh ubah "filterdText".
- Dan mencetaknya menggunakan "print ()."
Langkah 2) Di command prompt
- Navigasi ke lokasi di mana anda telah menyimpan fail tersebut
- Jalankan arahan Python NLTKsample.py
Ini akan menunjukkan output sebagai:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'dan', 'I', 'love', ' melawat ',' anda ',' laman web ']