Kesulitan "belajar" contoh langka


8

Apakah ada hasil yang menunjukkan bahwa model (katakanlah SVM, Neural-Net, kNN, dll) akan mengalami kesulitan dalam mempelajari kejadian "langka" / fenomena ekor?


Saya pikir Anda menerima jawaban terlalu cepat - itu adalah jawaban yang baik, tetapi mungkin ada lebih banyak kemungkinan di luar sana.
usul

@ Usul, terima kasih atas komentarnya. Apakah Anda punya saran lebih lanjut? Akan senang mendengar pemikiran tambahan.
Daniel

Jawaban:


10

Dalam model pembelajaran PAC klasik (yaitu klasifikasi), instance langka tidak menjadi masalah. Ini karena titik ujian pelajar diasumsikan berasal dari distribusi yang sama dengan data pelatihan. Dengan demikian, jika suatu wilayah ruang sangat jarang sehingga kurang terwakili dalam sampel pelatihan, probabilitasnya muncul selama fase uji rendah.

Anda akan memerlukan model pembelajaran yang berbeda, yang secara eksplisit melihat kesalahan tipe-I dan tipe-II, atau mungkin beberapa skor presisi-recall gabungan. Di sini lagi, saya tidak berpikir ada hasil yang menunjukkan bahwa kelas algoritma tertentu sangat tidak cocok untuk tugas ini, tetapi saya bisa saja salah.

Yang paling dekat yang bisa saya pikirkan adalah kepekaan terhadap outlier --- AdaBoost diketahui memiliki properti ini, misalnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.