Bagaimana saya mendekati masalah klasifikasi di mana salah satu kelas didefinisikan oleh 'tidak ada yang lain'


9

Misalkan saya tertarik dalam tiga kelas , , . Tetapi dataset saya sebenarnya mengandung beberapa kelas nyata .c 2 c 3 ( c j ) n j = 4c1c2c3(cj)j=4n

Jawaban yang jelas adalah mendefinisikan kelas baru yang merujuk ke semua kelas , tetapi saya menduga ini bukan ide yang baik karena sampel dalam akan langka dan tidak sangat mirip satu sama lain.cjj>3 c 4c^4cjj>3c^4

Untuk memvisualisasikan apa yang saya katakan, kira saya memiliki berikut dua ruang variabel dan kelas , , , digambarkan dalam warna merah, til, hijau dan hitam masing-masing. Ini adalah bagaimana saya menduga data saya akan terlihat seperti.c 2 c 3 c 4 = n j = 4 c jc1c2c3c^4=j=4ncj

masukkan deskripsi gambar di sini

Apakah ada cara standar untuk mendekati masalah ini? Apa yang akan menjadi pengklasifikasi paling efisien dan mengapa?


Pertimbangkan untuk menggunakan satu vs. sisanya en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest
DaL

1
Anda mungkin ingin menjelajahi model yang tidak berlabel positif . Sepertinya masalah yang sama, kecuali multiclass, bukan biner karena kebanyakan masalah PU.
Ricardo Cruz

Jawaban:


4

Saya akan menggunakan pendekatan dua langkah, menggunakan gagasan kelas Anda sebutkan.c4^

Pada langkah pertama, gunakan classifier biner (dilatih pada seluruh dataset) untuk memutuskan apakah sampel milik kelas (yaitu di kelas yang tidak menarik). Untuk ini, langkah Anda juga bisa melihat metode deteksi outlier , jika sampel yang termasuk dalam kelas "menarik" jauh berbeda dari yang lain.c4^

Jika hasilnya negatif, lanjutkan ke langkah berikutnya, classifier baru dilatih hanya pada sampel yang termasuk dalam kelas dan gunakan prediksi itu sebagai yang terakhir.c1,c2,c3

Saya pikir bahkan menggunakan pendekatan pengelompokan sederhana sebagai langkah pertama (mis. 4-pengelompokan k-means menggunakan sebagai centroid awal nilai rata-rata centroid untuk setiap ), masih akan berguna.c1,c2,c3,^ c 4centj=xiD:yi=jxixiD:yi=j1c1,c2,c3,c4^


Saran Bogas sangat bagus jika Anda tidak memiliki banyak kelas yang tumpang tindih. Jika tidak, gunakan model multi-label.
Ricardo Cruz

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.