pendekatan pelatihan untuk kumpulan data yang sangat tidak seimbang

16

Saya memiliki set data uji yang sangat tidak seimbang. Set positif terdiri dari 100 kasus sedangkan set negatif terdiri dari 1500 kasus. Di sisi pelatihan, saya memiliki kelompok kandidat yang lebih besar: kelompok pelatihan positif memiliki 1.200 kasus dan kelompok pelatihan negatif memiliki 12.000 kasus. Untuk skenario seperti ini, saya punya beberapa pilihan:

1) Menggunakan SVM tertimbang untuk seluruh rangkaian pelatihan (P: 1200, N: 12000)

2) Menggunakan SVM berdasarkan set pelatihan sampel (P: 1200, N: 1200), 1200 kasus negatif diambil sampel dari 12000 kasus.

Apakah ada panduan teoretis untuk memutuskan pendekatan mana yang lebih baik? Karena set data tes sangat tidak seimbang, haruskah saya menggunakan set pelatihan yang tidak seimbang juga?

— pertanyaan kecil
sumber

1

silakan periksa pertanyaan-pertanyaan berikut: Pembelajaran terawasi dengan peristiwa "langka" dan Cara terbaik untuk menangani dataset multiclass tidak seimbang dengan SVM . Apakah ini membantu ? Terus terang, pertanyaan Anda terdengar agak mirip;).

— steffen

7

Dari posting terbaru di reddit, balasan oleh datapraxis akan menarik.

sunting: makalah yang disebutkan adalah Haibo He, Edwardo A. Garcia, "Belajar dari Data yang Tidak Seimbang," Transaksi IEEE tentang Pengetahuan dan Rekayasa Data, hal. 1263-1284, September, 2009 (PDF)

— pengguna728785
sumber

0

Regresi Logistik Diperluas Berpasangan, pembelajaran berbasis ROC, Meningkatkan dan Mengantongi (agregasi Bootstrap), Kumpulan gugus berbasis tautan (LCE), Bayesian Network, pengklasifikasi centroid terdekat, Teknik Bayesian, Perangkat kasar berbobot, k-NN

dan banyak metode pengambilan sampel untuk menangani ketidakseimbangan.

— Vladimir Chupakhin
sumber