Masalah Penandaan dan Model Markov Tersembunyi

Menandakan Kalimat

Menandai Kalimat dalam erti kata yang lebih luas merujuk kepada penambahan label kata kerja, kata nama, dll dengan konteks ayat. Pengenalpastian tag POS adalah proses yang rumit. Oleh itu, penandaan umum POS secara manual tidak mungkin dilakukan kerana sebilangan perkataan mungkin mempunyai makna yang berbeza (samar-samar) mengikut struktur ayat. Penukaran teks dalam bentuk senarai adalah langkah penting sebelum memberi tag kerana setiap kata dalam senarai itu dilingkari dan dihitung untuk tag tertentu. Sila lihat kod di bawah untuk memahaminya dengan lebih baik

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PENGELUARAN

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Penjelasan Kod

Kod untuk mengimport nltk (Kit alat bahasa semula jadi yang mengandungi submodul seperti tokenize ayat dan tokenize kata.)
Teks yang tagnya akan dicetak.
Tokenisasi Kalimat
Untuk gelung dilaksanakan di mana kata-kata diberi token dari ayat dan tanda setiap perkataan dicetak sebagai output.

Di Corpus terdapat dua jenis tagging POS:

Berasaskan Peraturan
Penanda Stokastik POS

1. POS Tagged Berdasarkan Peraturan: Untuk kata-kata yang mempunyai makna samar-samar, pendekatan berdasarkan peraturan berdasarkan maklumat kontekstual digunakan. Ia dilakukan dengan memeriksa atau menganalisis makna perkataan sebelumnya atau berikut. Maklumat dianalisis dari sekitar perkataan atau dalam dirinya sendiri. Oleh itu kata-kata ditandai oleh peraturan tatabahasa bahasa tertentu seperti penggunaan huruf besar dan tanda baca. contohnya, penanda Brill.

2. Tagto POS Stokastik: Pendekatan berbeza seperti kekerapan atau kebarangkalian diterapkan di bawah kaedah ini. Sekiranya suatu perkataan kebanyakannya diberi tag dengan tag tertentu dalam set latihan maka dalam ayat ujian itu diberikan tag tersebut. Tag perkataan tidak hanya bergantung pada tagnya sendiri tetapi juga pada tag sebelumnya. Kaedah ini tidak selalu tepat. Cara lain adalah dengan mengira kebarangkalian terjadinya tag tertentu dalam ayat. Oleh itu, tag akhir dikira dengan memeriksa kebarangkalian tertinggi kata dengan tag tertentu.

Model Markov Tersembunyi:

Masalah Penandaan juga dapat dimodelkan menggunakan HMM. Ini memperlakukan token input sebagai urutan yang dapat diperhatikan sementara tag dianggap sebagai keadaan tersembunyi dan tujuannya adalah untuk menentukan urutan keadaan tersembunyi. Contohnya x = x ₁ , x ₂ ,…, x _n di mana x adalah urutan token manakala y = y ₁ , y ₂ , y ₃ , y ₄ … y _n adalah urutan tersembunyi.

Bagaimana Model HMM Berfungsi?

HMM menggunakan pengedaran bergabung iaitu P (x, y) di mana x adalah urutan input / urutan token dan y adalah urutan teg.

Urutan Tag untuk x akan menjadi argmax _{y1… .yn} p (x1, x2,… .xn, y1, y2, y3,…). Kami telah mengkategorikan teg dari teks, tetapi statistik tag sedemikian penting. Jadi bahagian seterusnya adalah menghitung tag ini untuk kajian statistik.