Pembelajaran Tanpa Pengawasan
Pembelajaran Tanpa Pengawasan adalah teknik pembelajaran mesin di mana pengguna tidak perlu mengawasi model. Sebaliknya, ia membolehkan model berfungsi sendiri untuk menemui corak dan maklumat yang sebelumnya tidak dapat dikesan. Ini terutama berkaitan dengan data yang tidak berlabel.
Algoritma Pembelajaran Tanpa Pengawasan
Algoritma Pembelajaran Tanpa Pengawasan membolehkan pengguna melakukan tugas pemprosesan yang lebih kompleks berbanding dengan pembelajaran yang diselia. Walaupun, pembelajaran tanpa pengawasan dapat lebih tidak dapat diramalkan dibandingkan dengan kaedah pembelajaran semula jadi yang lain. Algoritma pembelajaran yang tidak diawasi merangkumi pengelompokan, pengesanan anomali, rangkaian saraf, dll.
Dalam tutorial ini, anda akan belajar:
- Contoh Pembelajaran Mesin Tanpa Pengawasan
- Mengapa Pembelajaran Tanpa Pengawasan?
- Jenis Pembelajaran Tanpa Pengawasan
- Penggabungan
- Jenis Penggabungan
- Persatuan
- Pembelajaran Mesin yang diselia berbanding yang tidak diselia
- Aplikasi pembelajaran mesin tanpa pengawasan
- Kelemahan Pembelajaran Tanpa Pengawasan
Contoh Pembelajaran Mesin Tanpa Pengawasan
Mari, ambil kes bayi dan anjing keluarganya.
Dia kenal dan kenal pasti anjing ini. Beberapa minggu kemudian seorang rakan keluarga membawa seekor anjing dan cuba bermain dengan bayi itu.
Bayi belum pernah melihat anjing ini. Tetapi ia menyedari banyak ciri (2 telinga, mata, berjalan dengan 4 kaki) seperti anjing peliharaannya. Dia mengenal pasti haiwan baru itu sebagai anjing. Ini adalah pembelajaran tanpa pengawasan, di mana anda tidak diajar tetapi anda belajar dari data (dalam hal ini data mengenai anjing.) Sekiranya ini diawasi pembelajaran, rakan keluarga akan memberitahu bayi bahawa itu adalah anjing.
Mengapa Pembelajaran Tanpa Pengawasan?
Berikut adalah sebab utama untuk menggunakan Pembelajaran Tanpa Pengawasan:
- Pembelajaran mesin tanpa pengawasan menemui semua jenis corak yang tidak diketahui dalam data.
- Kaedah yang tidak diselia membantu anda mencari ciri yang berguna untuk pengkategorian.
- Ia berlaku dalam waktu nyata, sehingga semua data input akan dianalisis dan dilabel di hadapan pelajar.
- Lebih mudah mendapatkan data tanpa label dari komputer daripada data berlabel, yang memerlukan campur tangan manual.
Jenis Pembelajaran Tanpa Pengawasan
Masalah pembelajaran yang tidak diawasi kemudiannya dikelompokkan menjadi masalah pengelompokan dan persatuan.
Penggabungan
Penggabungan adalah konsep penting ketika datang ke pembelajaran tanpa pengawasan. Ini terutama berkaitan dengan mencari struktur atau corak dalam pengumpulan data yang tidak dikategorikan. Algoritma pengelompokan akan memproses data anda dan mencari kelompok semula jadi (kumpulan) jika terdapat dalam data. Anda juga boleh mengubah seberapa banyak kluster yang harus dikenal pasti algoritma anda. Ini membolehkan anda menyesuaikan butiran kumpulan ini.
Terdapat pelbagai jenis pengelompokan yang dapat anda gunakan:
Eksklusif (partitioning)
Dalam kaedah pengelompokan ini, Data dikelompokkan sedemikian rupa sehingga satu data dapat menjadi milik satu kelompok saja.
Contoh: K-bermaksud
Pengagregatan
Dalam teknik kluster ini, setiap data adalah kluster. Penyatuan berulang antara dua kelompok terdekat mengurangkan bilangan kelompok.
Contoh: Pengelompokan hierarki
Bertindih
Dalam teknik ini, set kabur digunakan untuk mengumpulkan data. Setiap titik mungkin tergolong dalam dua atau lebih kelompok dengan tahap keahlian yang berasingan.
Di sini, data akan dikaitkan dengan nilai keahlian yang sesuai. Contoh: C-Means kabur
Probabilistik
Teknik ini menggunakan taburan kebarangkalian untuk membuat kluster
Contoh: Mengikuti kata kunci
- "kasut lelaki."
- "kasut wanita."
- "sarung tangan wanita."
- "sarung tangan lelaki."
dapat dikelompokkan menjadi dua kategori "kasut" dan "sarung tangan" atau "lelaki" dan "wanita."
Jenis Penggabungan
- Pengelompokan hierarki
- K-bermaksud pengelompokan
- K-NN (k jiran terdekat)
- Analisis Komponen Utama
- Penguraian Nilai Singular
- Analisis Komponen Bebas
Pengelompokan Hierarki:
Pengelompokan hierarki adalah algoritma yang membina hierarki kelompok. Ia dimulakan dengan semua data yang ditugaskan ke kelompok mereka sendiri. Di sini, dua kelompok dekat akan berada dalam kelompok yang sama. Algoritma ini berakhir apabila hanya tinggal satu kluster.
K-bermaksud Penggabungan
K bermaksud ia adalah algoritma pengelompokan berulang yang membantu anda mencari nilai tertinggi untuk setiap lelaran. Pada mulanya, bilangan kelompok yang dikehendaki dipilih. Dalam kaedah pengelompokan ini, anda perlu mengumpulkan titik data ke dalam kumpulan k. K yang lebih besar bermaksud kumpulan yang lebih kecil dengan lebih terperinci dengan cara yang sama. K yang lebih rendah bermaksud kumpulan yang lebih besar dengan butiran yang kurang.
Keluaran algoritma adalah sekumpulan "label." Ia memberikan titik data kepada salah satu kumpulan k. Dalam k-means clustering, setiap kumpulan didefinisikan dengan membuat centroid untuk setiap kumpulan. Sentroid seperti jantung kluster, yang menangkap titik yang paling dekat dengan mereka dan menambahkannya ke kluster.
Pengelompokan K-mean seterusnya menentukan dua subkumpulan:
- Pengelompokan agregatif
- Dendrogram
Pengelompokan agregatif:
Pengelompokan jenis K-bermaksud ini bermula dengan bilangan kelompok yang tetap. Ia memperuntukkan semua data ke dalam jumlah kelompok yang tepat. Kaedah pengelompokan ini tidak memerlukan bilangan kluster K sebagai input. Proses agregasi bermula dengan membentuk setiap data sebagai satu kelompok.
Kaedah ini menggunakan beberapa ukuran jarak, mengurangkan jumlah kelompok (satu dalam setiap lelaran) dengan proses penggabungan. Terakhir, kami mempunyai satu kelompok besar yang mengandungi semua objek.
Dendrogram:
Dalam kaedah pengelompokan Dendrogram, setiap tingkat akan mewakili kemungkinan kelompok. Ketinggian dendrogram menunjukkan tahap kesamaan antara dua kelompok bergabung. Semakin hampir ke bahagian bawah proses, kumpulan ini lebih serupa dengan penemuan kumpulan dari dendrogram yang tidak semula jadi dan kebanyakan subjektif.
K- Jiran terdekat
K- jiran terdekat adalah yang paling mudah dari semua pengelasan pembelajaran mesin. Ini berbeza dengan teknik pembelajaran mesin yang lain, kerana tidak menghasilkan model. Ini adalah algoritma mudah yang menyimpan semua kes yang ada dan mengklasifikasikan contoh baru berdasarkan ukuran kesamaan.
Ia berfungsi dengan baik apabila terdapat jarak antara contoh. Kelajuan belajar perlahan apabila set latihan besar, dan pengiraan jaraknya tidak biasa.
Analisis Komponen Utama:
Sekiranya anda mahukan ruang dimensi yang lebih tinggi. Anda perlu memilih asas untuk ruang itu dan hanya 200 skor paling penting dari asas itu. Pangkalan ini dikenali sebagai komponen utama. Subset yang anda pilih adalah ruang baru yang bersaiz kecil berbanding dengan ruang asal. Ia mengekalkan kerumitan data sebanyak mungkin.
Persatuan
Peraturan persatuan membolehkan anda menjalin hubungan antara objek data di dalam pangkalan data yang besar. Teknik tanpa pengawasan ini adalah mengenai menemui hubungan menarik antara pemboleh ubah dalam pangkalan data yang besar. Contohnya, orang yang membeli rumah baru kemungkinan besar akan membeli perabot baru.
Contoh lain:
- Subkumpulan pesakit barah dikelompokkan berdasarkan ukuran ekspresi gen mereka
- Kumpulan pembeli berdasarkan sejarah penyemakan imbas dan pembelian mereka
- Kumpulan filem mengikut penilaian yang diberikan oleh penonton filem
Pembelajaran Mesin yang diselia berbanding yang tidak diselia
Parameter | Teknik pembelajaran mesin yang diselia | Teknik pembelajaran mesin yang tidak diselia |
Data Input | Algoritma dilatih menggunakan data berlabel. | Algoritma digunakan terhadap data yang tidak dilabel |
Kerumitan Komputasi | Pembelajaran yang diselia adalah kaedah yang lebih mudah. | Pembelajaran tanpa pengawasan adalah kompleks secara komputasi |
Ketepatan | Kaedah yang sangat tepat dan boleh dipercayai. | Kaedah yang kurang tepat dan boleh dipercayai. |
Aplikasi pembelajaran mesin tanpa pengawasan
Beberapa aplikasi teknik pembelajaran mesin tanpa pengawasan adalah:
- Penggabungan secara automatik membahagikan kumpulan data menjadi kumpulan berdasarkan persamaannya
- Pengesanan anomali dapat menemui titik data yang tidak biasa dalam set data anda. Ia berguna untuk mencari transaksi palsu
- Perlombongan persatuan mengenal pasti set item yang sering berlaku bersama dalam set data anda
- Model pemboleh ubah laten banyak digunakan untuk pemprosesan data. Seperti mengurangkan bilangan ciri dalam set data atau menguraikan set data menjadi beberapa komponen
Kelemahan Pembelajaran Tanpa Pengawasan
- Anda tidak dapat memperoleh maklumat yang tepat mengenai penyortiran data, dan hasilnya sebagai data yang digunakan dalam pembelajaran tanpa pengawasan dilabel dan tidak diketahui
- Kurang ketepatan hasilnya adalah kerana data input tidak diketahui dan tidak dilabel oleh orang sebelumnya. Ini bermaksud bahawa mesin perlu melakukan ini sendiri.
- Kelas spektrum tidak selalu sesuai dengan kelas maklumat.
- Pengguna perlu meluangkan masa untuk menafsirkan dan melabel kelas yang mengikuti klasifikasi tersebut.
- Sifat spektral kelas juga dapat berubah dari masa ke masa sehingga anda tidak dapat memiliki maklumat kelas yang sama semasa berpindah dari satu gambar ke gambar yang lain.
Ringkasan
- Pembelajaran tanpa pengawasan adalah teknik pembelajaran mesin, di mana anda tidak perlu mengawasi model.
- Pembelajaran mesin tanpa pengawasan membantu anda mencari semua jenis corak yang tidak diketahui dalam data.
- Pengelompokan dan Perhimpunan adalah dua jenis pembelajaran Tanpa Pengawasan.
- Empat jenis kaedah pengelompokan adalah 1) Eksklusif 2) Aglomeratif 3) Bertindih 4) Probabilistik.
- Jenis pengelompokan penting ialah: 1) Pengelompokan Hierarki 2) Pengelompokan K-bermaksud 3) K-NN 4) Analisis Komponen Utama 5) Penguraian Nilai Singular 6) Analisis Komponen Bebas.
- Peraturan persatuan membolehkan anda menjalin hubungan antara objek data di dalam pangkalan data yang besar.
- Dalam pembelajaran diawasi, Algoritma dilatih menggunakan data berlabel sementara di Algoritma pembelajaran tanpa pengawasan digunakan terhadap data yang tidak dilabel.
- Pengesanan anomali dapat menemui titik data penting dalam set data anda yang berguna untuk mencari transaksi palsu.
- Kelemahan terbesar dari pembelajaran Tanpa Pengawasan adalah bahawa anda tidak dapat memperoleh maklumat yang tepat mengenai penyortiran data.