Matriks Kekeliruan dalam Pembelajaran Mesin dengan CONTOH

Isi kandungan:

Anonim

Apa itu Matriks Kekeliruan?

Matriks kekeliruan adalah teknik pengukuran prestasi untuk klasifikasi Pembelajaran mesin. Ini adalah sejenis jadual yang membantu anda mengetahui prestasi model klasifikasi pada satu set data ujian agar nilai-nilai sebenarnya dapat diketahui. Istilah matriks kekeliruan itu sendiri sangat mudah, tetapi terminologi yang berkaitan boleh sedikit membingungkan. Di sini, beberapa penjelasan ringkas diberikan untuk teknik ini.

Dalam tutorial ini, anda akan belajar,

  • Apa itu Matriks Kekeliruan?
  • Empat hasil matriks kekeliruan
  • Contoh matriks Kekeliruan:
  • Cara Mengira Matriks Kekeliruan
  • Syarat Penting lain menggunakan matriks Confusion
  • Mengapa anda memerlukan matriks Confusion?

Empat hasil matriks kekeliruan

Matriks kekeliruan menggambarkan ketepatan pengkelas dengan membandingkan kelas sebenar dan ramalan. Matriks kekeliruan binari terdiri daripada kotak:

Jadual Kekeliruan
  • TP: Positif Benar: Nilai ramalan yang diramalkan dengan betul sebagai positif sebenar
  • FP: Nilai yang diramalkan dengan betul meramalkan positif sebenar. iaitu, Nilai negatif diramalkan sebagai positif
  • FN: Negatif Salah: Nilai positif diramalkan sebagai negatif
  • TN: Negatif Benar: Nilai ramalan yang diramalkan dengan betul sebagai negatif sebenarnya

Anda boleh mengira ujian ketepatan dari matriks kekeliruan:

Contoh Matriks Kekeliruan:

Confusion Matrix adalah kaedah pembelajaran mesin yang berguna yang membolehkan anda mengukur lengkungan Recall, Precision, Accuracy, dan AUC-ROC. Di bawah ini diberikan contoh untuk mengetahui istilah True Positif, True Negative, False Negative, and True Negative.

Positif Betul:

Anda mengunjurkan positif dan ternyata benar. Sebagai contoh, anda telah meramalkan bahawa Perancis akan memenangi piala dunia, dan ia menang.

Negatif Betul:

Apabila anda meramalkan negatif, dan itu benar. Anda telah meramalkan bahawa England tidak akan menang dan ia kalah.

Positif palsu:

Ramalan anda positif, dan itu salah.

Anda telah meramalkan bahawa England akan menang, tetapi ia kalah.

Negatif Palsu:

Ramalan anda negatif, dan hasilnya juga salah.

Anda telah meramalkan bahawa Perancis tidak akan menang, tetapi menang.

Anda harus ingat bahawa kami menggambarkan nilai yang diramalkan sebagai Betul atau Salah atau Positif dan Negatif.

Cara Mengira Matriks Kekeliruan

Berikut adalah proses langkah demi langkah untuk mengira Matrix kekeliruan dalam perlombongan data

  • Langkah 1) Pertama, anda perlu menguji set data dengan nilai hasil yang diharapkan.
  • Langkah 2) Ramalkan semua baris dalam set data ujian.
  • Langkah 3) Hitung ramalan dan hasil yang diharapkan:
  1. Jumlah ramalan yang betul bagi setiap kelas.
  2. Jumlah ramalan yang tidak betul bagi setiap kelas.

Selepas itu, nombor ini disusun mengikut kaedah yang diberikan di bawah:

  • Setiap baris matriks menghubungkan ke kelas yang diramalkan.
  • Setiap lajur matriks sesuai dengan kelas sebenar.
  • Jumlah klasifikasi betul dan salah dimasukkan ke dalam jadual.
  • Jumlah ramalan yang betul untuk kelas masuk ke lajur yang diramalkan dan baris yang dijangkakan untuk nilai kelas tersebut.
  • Jumlah ramalan yang salah untuk kelas masuk ke baris yang diharapkan untuk nilai kelas itu dan lajur yang diramalkan untuk nilai kelas tertentu.

Syarat Penting lain menggunakan matriks Confusion

  • Nilai Ramalan Positif (PVV): Ini sangat hampir dengan ketepatan. Satu perbezaan yang signifikan antara jangka dua adalah PVV mempertimbangkan kelaziman. Dalam keadaan di mana kelas seimbang, nilai ramalan positif adalah sama dengan ketepatan.
  • Null Error Rate: Istilah ini digunakan untuk menentukan berapa kali ramalan anda salah sekiranya anda dapat meramalkan kelas majoriti. Anda boleh menganggapnya sebagai metrik asas untuk membandingkan pengelasan anda.
  • Skor F: Skor F1 adalah skor purata berwajaran positif (ingat semula) dan ketepatan.
  • Roc Curve: Roc curve menunjukkan kadar positif sebenar berbanding kadar positif palsu pada pelbagai titik pemotongan. Ini juga menunjukkan pertukaran antara kepekaan (ingat dan kekhususan atau kadar negatif sebenarnya).
  • Ketepatan: Metrik ketepatan menunjukkan ketepatan kelas positif. Ini mengukur kemungkinan ramalan kelas positif itu betul.

Skor maksimum adalah 1 apabila pengelasan mengelaskan dengan sempurna semua nilai positif. Ketepatan sahaja tidak begitu membantu kerana mengabaikan kelas negatif. Metrik biasanya dipasangkan dengan metrik Recall. Ingat juga disebut kepekaan atau kadar positif benar.

  • Sensitiviti : Sensitiviti mengira nisbah kelas positif yang dikesan dengan betul. Metrik ini memberikan seberapa baik model untuk mengenali kelas positif.

Mengapa anda memerlukan matriks Confusion?

Berikut adalah kebaikan / faedah menggunakan matriks kekeliruan.

  • Ini menunjukkan bagaimana mana-mana model klasifikasi bingung ketika membuat ramalan.
  • Matriks kekeliruan bukan sahaja memberi anda gambaran mengenai kesalahan yang dibuat oleh pengkelasan anda tetapi juga jenis kesalahan yang sedang dilakukan.
  • Pecahan ini membantu anda mengatasi had penggunaan ketepatan klasifikasi sahaja.
  • Setiap lajur matriks kekeliruan mewakili keadaan kelas yang diramalkan itu.
  • Setiap baris matriks kekeliruan mewakili keadaan kelas sebenar.
  • Ini memberikan pandangan bukan hanya kesalahan yang dibuat oleh pengklasifikasi tetapi juga kesalahan yang sedang dilakukan.