Pengelompokan atau klasifikasi yang diawasi?


22

Pertanyaan kedua adalah bahwa saya menemukan dalam suatu diskusi di suatu tempat di web berbicara tentang "pengelompokan terawasi", sejauh yang saya tahu, pengelompokan tanpa pengawasan, jadi apa sebenarnya arti di balik "pengelompokan yang diawasi"? Apa bedanya dengan "klasifikasi"?

Ada banyak tautan yang membicarakan hal itu:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

dll ...


tolong beri tautan "diskusi di suatu tempat di web"
Atilla Ozgur


1
"Clustering" adalah sinonim dengan "klasifikasi tanpa pengawasan", oleh karena itu, "clustered supervisi" adalah sebuah oxymoron. Orang bisa berpendapat bahwa Self Organizing Maps adalah teknik terawasi yang digunakan untuk klasifikasi tanpa pengawasan, yang akan menjadi hal terdekat dengan "pengelompokan terawasi".
Digio

Sejauh yang saya mengerti adalah "Kami menggunakan pengelompokan untuk mengatur data agar siap untuk diproses lebih lanjut atau setidaknya untuk membuatnya siap untuk dianalisis lebih lanjut" sehingga apa yang kami lakukan dalam pengelompokan adalah membagi data ke dalam Kelas A, B, C dan seterusnya ... Jadi sekarang data ini diawasi dalam beberapa cara. Sekarang tergantung pada persyaratan apa yang ingin Anda lakukan dengan data ini atau bagaimana data ini berguna bagi Anda apakah untuk operasi Klasifikasi atau Regresi. Perbaiki saya jika saya salah.
sak

Jawaban:


2

Pemahaman naif saya adalah bahwa klasifikasi dilakukan di mana Anda memiliki seperangkat kelas yang ditentukan dan Anda ingin mengklasifikasikan sesuatu / dataset baru ke salah satu kelas yang ditentukan.

Atau, pengelompokan tidak memiliki permulaan dan Anda menggunakan semua data (termasuk yang baru) untuk memisahkan ke dalam kelompok.

Keduanya menggunakan metrik jarak untuk memutuskan bagaimana mengelompokkan / mengklasifikasikan. Perbedaannya adalah bahwa klasifikasi didasarkan pada sekumpulan kelas yang didefinisikan sebelumnya sedangkan clustering memutuskan kelompok berdasarkan seluruh data.

Sekali lagi saya mengerti naif adalah bahwa clustering masih diawasi berdasarkan seluruh data dan dengan demikian akan clustering daripada klasifikasi.

Pada kenyataannya, saya yakin teori di balik pengelompokan dan klasifikasi saling kembar.


Dengan rendah hati saya tidak setuju. Anda menyarankan bahwa "klasifikasi" secara definisi dan secara default merupakan proses yang diawasi, yang tidak benar. Klasifikasi dibagi menjadi kasus-kasus yang diawasi dan tidak diawasi, yang terakhir identik dengan pengelompokan.
Digio

15

Saya rasa saya tidak tahu lebih banyak daripada Anda, tetapi tautan yang Anda posting menyarankan jawaban. Saya akan mengambil http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf sebagai contoh. Pada dasarnya mereka menyatakan: 1) pengelompokan tergantung pada jarak. 2) keberhasilan penggunaan k-means membutuhkan jarak yang dipilih dengan cermat. 3) Mengingat data pelatihan dalam bentuk set item dengan partisi yang diinginkan, kami menyediakan metode SVM struktural yang mempelajari ukuran jarak sehingga k-means menghasilkan pengelompokan yang diinginkan.Dalam hal ini ada tahap yang diawasi untuk pengelompokan, dengan data pelatihan dan pembelajaran. Tujuan dari tahap ini adalah untuk mempelajari fungsi jarak sehingga menerapkan k-means clustering dengan jarak ini diharapkan akan optimal, tergantung pada seberapa baik data pelatihan menyerupai domain aplikasi. Semua peringatan biasa yang sesuai dengan pembelajaran mesin dan pengelompokan masih berlaku.

Mengutip lebih lanjut dari artikel: Pengelompokan terawasi adalah tugas untuk secara otomatis mengadaptasi algoritma pengelompokan dengan bantuan satu set pelatihan yang terdiri dari set item dan partisi lengkap dari set item ini. . Itu sepertinya definisi yang masuk akal.


Masalahnya sederhana: mengapa Anda ingin mempelajari ukuran jarak dari serangkaian data pelatihan berlabel, dan kemudian menerapkan ukuran jarak ini dengan metode pengelompokan; mengapa Anda tidak hanya menggunakan metode yang diawasi. Dengan kata lain, Anda ingin melakukan pengelompokan (yaitu mempartisi dataset Anda ke dalam kelompok), tetapi Anda menganggap bahwa Anda sudah memiliki pemartisian lengkap yang diinginkan dan bahwa Anda akan menggunakannya untuk mempelajari ukuran jarak, kemudian menerapkan pengelompokan pada dataset ini menggunakan ini dipelajari jarak. Paling-paling, Anda akan mendapatkan partisi yang sama seperti yang Anda pelajari sebelumnya untuk mengukur jarak! Anda sudah memiliki
shn

Di mana Anda menulis "lalu terapkan pengelompokan pada" pengganti "datase ini lalu terapkan pengelompokan pada dataset serupa". Ini adalah skenario ini: dalam percobaan X kami memiliki data A dan B. A adalah untuk pengelompokan, B membantu mempelajari jarak. B menetapkan standar emas dan mungkin mahal untuk diperoleh. Dalam percobaan berikutnya X2, X3 .. kami mendapatkan A tetapi tidak mampu untuk mendapatkan B.
mik

Oke, sekarang ketika Anda mengatakan "belajar jarak" dari dataset B: maksud Anda "mempelajari beberapa nilai ambang jarak" atau "mempelajari fungsi metrik jarak" (semacam ukuran ketidaksamaan parametris)?
shn

1
Maksud saya yang kedua, "belajar fungsi metrik jarak". Setelah lebih banyak membaca dengan cara, formulasi A dan B saya yang sederhana di atas dapat ditemukan dalam manuskrip yang dikutip: "Diberikan contoh pelatihan set item dengan pengelompokan yang benar, tujuannya adalah untuk mempelajari ukuran kesamaan sehingga set item berikutnya dikelompokkan. dengan cara yang sama. "
micans

1
Nah, tampaknya "supervised clustering" sangat mirip dengan apa yang disebut "semi-supervised clustering". Sampai sekarang, saya tidak benar-benar melihat perbedaan. Ngomong-ngomong, dalam beberapa makalah lain, "(semi-) diawasi pengelompokan" tidak mengacu pada "menciptakan fungsi jarak yang dimodifikasi" untuk digunakan untuk mengelompokkan kumpulan data masa depan dengan cara yang sama; ini lebih tentang "memodifikasi algoritma pengelompokan itu sendiri" tanpa mengubah fungsi jarak!
shn

3

Beberapa definisi:

Pengelompokan terawasi diterapkan pada contoh-contoh rahasia dengan tujuan mengidentifikasi kluster yang memiliki kepadatan probabilitas tinggi untuk satu kelas.

Clustering tanpa pengawasan adalah kerangka kerja pembelajaran yang menggunakan fungsi objek tertentu, misalnya fungsi yang meminimalkan jarak di dalam sebuah cluster untuk menjaga cluster tetap rapat.

Pengelompokan semi-diawasi adalah untuk meningkatkan algoritma pengelompokan dengan menggunakan informasi sisi dalam proses pengelompokan.

Kemajuan dalam Jaringan Saraf Tiruan - ISNN 2010

Tanpa menggunakan terlalu banyak jargon karena saya seorang pemula di bidang ini, cara saya memahami pengelompokan terawasi lebih kurang seperti ini:

Dalam pengelompokan terawasi Anda mulai dari Top-Downdengan beberapa kelas yang telah ditentukan dan kemudian menggunakan pendekatan Bottom-Up Anda menemukan objek mana yang lebih cocok ke kelas Anda.

Misalnya, Anda melakukan penelitian tentang jenis jeruk favorit dalam suatu populasi.
Dari banyak jenis jeruk Anda menemukan bahwa 'jenis' jeruk tertentu adalah yang disukai.
Namun, jenis jeruk itu sangat rapuh dan labil terhadap infeksi, perubahan iklim, dan agen lingkungan lainnya.
Jadi Anda ingin menyeberanginya dengan spesies lain yang sangat tahan terhadap penghinaan itu.
Kemudian Anda pergi ke lab dan menemukan beberapa gen yang bertanggung jawab untuk rasa berair dan manis dari satu jenis, dan untuk kemampuan tahan dari jenis lainnya.
Anda melakukan beberapa percobaan dan diakhiri dengan katakanlah ratusan subtipe jeruk yang berbeda.
Sekarang Anda tertarik hanya pada subtipe yang cocok dengan properti yang dijelaskan.
Anda tidak ingin melakukan penelitian yang sama dalam populasi Anda lagi ...
Anda tahu properti yang Anda cari dalam warna oranye sempurna.
Jadi Anda menjalankan analisis kluster dan memilih yang paling sesuai dengan harapan Anda.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.