Pembelajaran Mesin yang Diselia: Apa itu, Algoritma, Contoh

Isi kandungan:

Anonim

Apakah Pembelajaran Mesin yang Diselia?

Dalam pembelajaran yang diawasi, anda melatih mesin menggunakan data yang "dilabel" dengan baik . Ini bermaksud beberapa data sudah ditandai dengan jawapan yang betul. Ia boleh dibandingkan dengan pembelajaran yang berlaku di hadapan pengawas atau guru.

Algoritma pembelajaran yang diawasi belajar dari data latihan berlabel, membantu anda meramalkan hasil untuk data yang tidak dijangka.

Berjaya membangun, menskalakan, dan menggunakan model pembelajaran mesin yang diawasi dengan tepat memerlukan masa dan kepakaran teknikal dari pasukan saintis data berkemahiran tinggi. Lebih-lebih lagi, saintis Data mesti membina semula model untuk memastikan pandangan yang diberikan tetap benar sehingga datanya berubah.

Dalam tutorial ini, anda akan belajar:

  • Apakah Pembelajaran Mesin yang Diselia?
  • Bagaimana Pembelajaran Diawasi Berfungsi
  • Jenis Algoritma Pembelajaran Mesin yang Diselia
  • Teknik pembelajaran Mesin yang diawasi dan tidak diawasi
  • Cabaran dalam pembelajaran mesin yang diselia
  • Kelebihan Pembelajaran yang Diawasi:
  • Kelemahan Pembelajaran yang Diselia
  • Amalan terbaik untuk Pembelajaran yang Diselia

Bagaimana Pembelajaran Diawasi Berfungsi

Contohnya, anda ingin melatih mesin untuk membantu anda meramalkan berapa lama masa yang diperlukan untuk memandu pulang dari tempat kerja anda. Di sini, anda mulakan dengan membuat sekumpulan data berlabel. Data ini merangkumi

  • Keadaan cuaca
  • Masa dalam sehari
  • Percutian

Semua butiran ini adalah input anda. Hasilnya adalah jumlah masa yang diperlukan untuk pulang ke rumah pada hari tertentu.

Anda secara naluriah tahu bahawa jika hujan di luar, maka anda akan memerlukan lebih lama untuk pulang. Tetapi mesin itu memerlukan data dan statistik.

Mari lihat sekarang bagaimana anda dapat mengembangkan model pembelajaran yang diawasi dari contoh ini yang membantu pengguna untuk menentukan masa perjalanan. Perkara pertama yang perlu anda buat adalah set latihan. Set latihan ini akan mengandungi jumlah masa perjalanan dan faktor-faktor yang sesuai seperti cuaca, waktu dan lain-lain. Berdasarkan set latihan ini, mesin anda mungkin melihat ada hubungan langsung antara jumlah hujan dan masa yang anda perlukan untuk pulang.

Oleh itu, memastikan bahawa semakin banyak hujan, semakin lama anda memandu untuk pulang ke rumah anda. Ia juga dapat melihat hubungan antara waktu anda berhenti bekerja dan waktu anda berada di jalan raya.

Semakin hampir pukul 6 petang, semakin lama masa yang anda perlukan untuk pulang. Mesin anda mungkin menjumpai beberapa hubungan dengan data berlabel anda.

Ini adalah permulaan Model Data anda. Ia mula memberi kesan bagaimana hujan mempengaruhi cara orang memandu. Ia juga mulai melihat bahawa lebih banyak orang melakukan perjalanan pada waktu tertentu dalam sehari.

Jenis Algoritma Pembelajaran Mesin yang Diselia

Regresi:

Teknik regresi meramalkan nilai output tunggal menggunakan data latihan.

Contoh : Anda boleh menggunakan regresi untuk meramalkan harga rumah dari data latihan. Pemboleh ubah input adalah lokaliti, ukuran rumah, dll.

Kekuatan : Output selalu mempunyai tafsiran probabilistik, dan algoritma dapat diatur untuk mengelakkan kelebihan.

Kelemahan : Regresi logistik mungkin berprestasi rendah apabila terdapat banyak batas keputusan atau tidak linear. Kaedah ini tidak fleksibel, jadi tidak menangkap hubungan yang lebih kompleks.

Regresi Logistik:

Kaedah regresi logistik digunakan untuk menganggar nilai diskrit berdasarkan diberikan satu set pemboleh ubah bebas. Ini membantu anda meramalkan kebarangkalian kejadian dengan memasukkan data ke fungsi logit. Oleh itu, ia juga dikenali sebagai regresi logistik. Oleh kerana ia meramalkan kebarangkalian, nilai outputnya terletak di antara 0 dan 1.

Berikut adalah beberapa jenis Algoritma Regresi

Pengelasan:

Pengelasan bermaksud mengelompokkan output di dalam kelas. Sekiranya algoritma cuba melabel input ke dalam dua kelas yang berbeza, ia dipanggil klasifikasi binari. Memilih antara lebih daripada dua kelas disebut sebagai klasifikasi multikelas.

Contoh : Menentukan sama ada seseorang akan menjadi peminjam pinjaman atau tidak.

Kekuatan : Pokok klasifikasi menunjukkan prestasi yang sangat baik

Kelemahan : Pokok individu yang tidak terkawal rentan terhadap overfitting.

Berikut adalah beberapa jenis Algoritma Pengelasan

Pengelaskan Naïve Bayes

Model Naïve Bayesian (NBN) senang dibina dan sangat berguna untuk set data yang besar. Kaedah ini terdiri daripada graf asiklik langsung dengan satu ibu bapa dan beberapa anak. Ini mengandaikan kebebasan di antara node anak yang dipisahkan dari ibu bapa mereka.

Pokok Keputusan

Pokok keputusan mengelaskan contoh dengan menyusunnya berdasarkan nilai ciri. Dalam kaedah ini, setiap mod adalah ciri contoh. Ia harus dikelaskan, dan setiap cabang mewakili nilai yang dapat diandaikan oleh simpul. Ini adalah teknik yang banyak digunakan untuk klasifikasi. Dalam kaedah ini, klasifikasi adalah pokok yang dikenali sebagai pohon keputusan.

Ini membantu anda mengira nilai sebenar (kos membeli kereta, jumlah panggilan, jumlah jualan bulanan, dll.).

Mesin Vektor Sokongan

Mesin vektor sokongan (SVM) adalah sejenis algoritma pembelajaran yang dikembangkan pada tahun 1990. Kaedah ini berdasarkan hasil dari teori pembelajaran statistik yang diperkenalkan oleh Vap Nik.

Mesin SVM juga berkaitan erat dengan fungsi kernel yang merupakan konsep utama bagi sebahagian besar tugas pembelajaran. Kerangka kernel dan SVM digunakan dalam berbagai bidang. Ia merangkumi pengambilan maklumat multimedia, bioinformatik, dan pengecaman corak.

Teknik pembelajaran Mesin yang diawasi dan tidak diawasi

Berdasarkan Teknik pembelajaran mesin yang diselia Teknik pembelajaran mesin yang tidak diselia
Data Input Algoritma dilatih menggunakan data berlabel. Algoritma digunakan terhadap data yang tidak dilabel
Kerumitan Komputasi Pembelajaran yang diselia adalah kaedah yang lebih mudah. Pembelajaran tanpa pengawasan adalah kompleks secara komputasi
Ketepatan Kaedah yang sangat tepat dan boleh dipercayai. Kaedah yang kurang tepat dan boleh dipercayai.

Cabaran dalam pembelajaran mesin yang diselia

Berikut adalah cabaran yang dihadapi dalam pembelajaran mesin yang diselia:

  • Ciri input yang tidak relevan dengan data latihan yang ada dapat memberikan hasil yang tidak tepat
  • Penyediaan dan pemprosesan data selalu menjadi cabaran.
  • Ketepatan menderita apabila mustahil, tidak mungkin, dan nilai yang tidak lengkap telah dimasukkan sebagai data latihan
  • Sekiranya pakar yang berkenaan tidak tersedia, maka pendekatan lain adalah "brute-force." Ini bermaksud anda perlu berfikir bahawa ciri yang betul (pemboleh ubah input) untuk melatih mesin dihidupkan. Ini mungkin tidak tepat.

Kelebihan Pembelajaran yang Diawasi:

  • Pembelajaran yang diawasi membolehkan anda mengumpulkan data atau menghasilkan output data dari pengalaman sebelumnya
  • Membantu anda mengoptimumkan kriteria prestasi menggunakan pengalaman
  • Pembelajaran mesin yang diselia membantu anda menyelesaikan pelbagai jenis masalah pengiraan dunia nyata.

Kelemahan Pembelajaran yang Diselia

  • Batasan keputusan mungkin dilebih-lebihkan jika set latihan anda yang tidak mempunyai contoh yang anda mahu ada di kelas
  • Anda perlu memilih banyak contoh yang baik dari setiap kelas semasa anda melatih pengkelasan.
  • Mengelaskan data besar boleh menjadi cabaran sebenar.
  • Latihan untuk pembelajaran yang diselia memerlukan banyak masa pengiraan.

Amalan terbaik untuk Pembelajaran yang Diselia

  • Sebelum melakukan perkara lain, anda perlu memutuskan jenis data apa yang akan digunakan sebagai set latihan
  • Anda perlu menentukan struktur fungsi dan algoritma pembelajaran.
  • Hasil yang sesuai untuk Gathere sama ada dari pakar manusia atau dari ukuran

Ringkasan

  • Dalam pembelajaran yang diawasi, anda melatih mesin menggunakan data yang "dilabel" dengan baik.
  • Anda ingin melatih mesin yang membantu anda meramalkan berapa lama masa yang diperlukan untuk memandu pulang dari tempat kerja anda adalah contoh pembelajaran yang diawasi
  • Regresi dan Klasifikasi adalah dua jenis teknik pembelajaran mesin yang diselia.
  • Pembelajaran yang diselia adalah kaedah yang lebih sederhana sementara pembelajaran yang tidak diawasi adalah kaedah yang kompleks.
  • Cabaran terbesar dalam pembelajaran yang diawasi adalah bahawa data input yang tidak relevan dengan data latihan yang ada dapat memberikan hasil yang tidak tepat.
  • Kelebihan utama pembelajaran yang diselia adalah bahawa ia membolehkan anda mengumpulkan data atau menghasilkan output data dari pengalaman sebelumnya.
  • Kelemahan model ini adalah bahawa batas keputusan mungkin terlampau terlampau jika set latihan anda tidak mempunyai contoh yang ingin anda miliki di kelas.
  • Sebagai amalan terbaik dalam mengawasi pembelajaran, pertama-tama anda perlu memutuskan jenis data apa yang harus digunakan sebagai set latihan.