Bagaimana saya mendekati masalah klasifikasi di mana salah satu kelas didefinisikan oleh 'tidak ada yang lain'

Misalkan saya tertarik dalam tiga kelas , , . Tetapi dataset saya sebenarnya mengandung beberapa kelas nyata . $c_1$ $c_2$ $c_3$ $(c_j)_{j=4}^n$

Jawaban yang jelas adalah mendefinisikan kelas baru yang merujuk ke semua kelas , tetapi saya menduga ini bukan ide yang baik karena sampel dalam akan langka dan tidak sangat mirip satu sama lain. $\hat c_4$ $c_j$ $j>3$ $\hat c_4$

Untuk memvisualisasikan apa yang saya katakan, kira saya memiliki berikut dua ruang variabel dan kelas , , , digambarkan dalam warna merah, til, hijau dan hitam masing-masing. Ini adalah bagaimana saya menduga data saya akan terlihat seperti. $c_1$ $c_2$ $c_3$ $\hat c_4= \bigcup_{j=4}^n c_j$

Apakah ada cara standar untuk mendekati masalah ini? Apa yang akan menjadi pengklasifikasi paling efisien dan mengapa?

machine-learning classification

— h3h325
sumber

Pertimbangkan untuk menggunakan satu vs. sisanya en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest

— DaL

Anda mungkin ingin menjelajahi model yang tidak berlabel positif . Sepertinya masalah yang sama, kecuali multiclass, bukan biner karena kebanyakan masalah PU.

— Ricardo Cruz

Saya akan menggunakan pendekatan dua langkah, menggunakan gagasan kelas Anda sebutkan. $\hat{c_4}$

Pada langkah pertama, gunakan classifier biner (dilatih pada seluruh dataset) untuk memutuskan apakah sampel milik kelas (yaitu di kelas yang tidak menarik). Untuk ini, langkah Anda juga bisa melihat metode deteksi outlier , jika sampel yang termasuk dalam kelas "menarik" jauh berbeda dari yang lain. $\hat{c_4}$

Jika hasilnya negatif, lanjutkan ke langkah berikutnya, classifier baru dilatih hanya pada sampel yang termasuk dalam kelas dan gunakan prediksi itu sebagai yang terakhir. $c_1,c_2,c_3$

Saya pikir bahkan menggunakan pendekatan pengelompokan sederhana sebagai langkah pertama (mis. 4-pengelompokan k-means menggunakan sebagai centroid awal nilai rata-rata centroid untuk setiap ), masih akan berguna. $cent_j = \frac{\sum\limits_{x_i\in D: y_i=j}x_i}{\sum\limits_{x_i\in D: y_i=j}1}$ $c_1,c_2,c_3, \hat{c_4}$

— Bogas
sumber

Saran Bogas sangat bagus jika Anda tidak memiliki banyak kelas yang tumpang tindih. Jika tidak, gunakan model multi-label.

— Ricardo Cruz

Ini adalah en.wikipedia.org/wiki/Cascading_classifiers

— Emre