Apakah data yang tidak seimbang pengambilan sampel atas atau bawah benar-benar efektif? Mengapa?

Saya sering mendengar pengambilan sampel data atas atau bawah yang dibahas sebagai cara berurusan dengan klasifikasi data yang tidak seimbang.

Saya mengerti bahwa ini bisa berguna jika Anda bekerja dengan classifier biner (bukan berdasarkan probabilistik atau berbasis skor) dan memperlakukannya sebagai kotak hitam, jadi skema pengambilan sampel adalah satu-satunya cara Anda untuk mengubah posisinya pada "kurva ROC "(dalam tanda kutip karena jika classifier Anda secara inheren biner, saya kira itu tidak memiliki kurva ROC nyata, tetapi konsep yang sama untuk menukarkan positif palsu dan negatif palsu masih berlaku).

Tapi sepertinya pembenaran yang sama tidak berlaku jika Anda benar-benar memiliki akses ke semacam skor yang kemudian Anda ambang untuk mengambil keputusan. Dalam hal ini, bukankah mengambil sampel hanya cara ad-hoc untuk mengekspresikan pandangan tentang trade-off yang Anda inginkan antara positif palsu dan negatif palsu ketika Anda memiliki alat yang lebih baik tersedia, seperti analisis ROC aktual? Sepertinya akan aneh dalam hal ini untuk mengharapkan up-sampling atau down-sampling untuk melakukan apa pun selain mengubah "prior" classifier Anda pada setiap kelas (yaitu probabilitas tanpa syarat menjadi kelas itu, prediksi dasar) - Saya tidak akan t mengharapkannya untuk mengubah "rasio odds" pengklasifikasi (berapa banyak pengklasifikasi menyesuaikan prediksi baseline berdasarkan kovariat).

Jadi pertanyaan saya adalah: jika Anda memiliki pengklasifikasi yang bukan kotak hitam biner, apakah ada alasan untuk mengharapkan sampel naik atau turun memiliki efek yang jauh lebih baik daripada menyesuaikan ambang sesuai keinginan Anda? Gagal bahwa, apakah ada studi empiris yang menunjukkan efek yang cukup besar untuk sampel naik atau turun pada metrik kinerja yang wajar (misalnya, bukan akurasi)?

classification roc unbalanced-classes

— Ben Kuhn
sumber

Jika Anda ingin mengumpulkan sampel terlebih dahulu untuk melakukan klasifikasi berdasarkan hasil ini, undersampling mungkin diperlukan bahkan dari perspektif biaya.

Tetapi dalam hal ini metode estimasi Anda biasanya tidak mengembalikan probabilitas tingkat populasi, mereka bergantung pada skema pengambilan sampel yang digunakan.

Berikut ini contohnya:

/stats/127476/inference-possibility-for-matched-case-control-study

— Analis
sumber

Tentu. Saya lebih bertanya-tanya tentang downsampling data yang sudah Anda miliki, daripada undersampling selama pengumpulan data.

— Ben Kuhn