Menguji Klasifikasi pada Data Ketidakseimbangan yang Berlebihan

Saya sedang mengerjakan data yang sangat tidak seimbang. Dalam literatur, beberapa metode digunakan untuk menyeimbangkan kembali data menggunakan re-sampling (over-atau under-sampling). Dua pendekatan yang baik adalah:

SMOTE: Tehnik Sintetis Minoritas Berlebih ( SMOTE )
ADASYN: Pendekatan Sampling Sintetis Adaptif untuk Pembelajaran Ketidakseimbangan ( ADASYN )

Saya telah menerapkan ADASYN karena sifatnya yang adaptif dan kemudahan untuk diperluas ke masalah multi-kelas.

Pertanyaan saya adalah bagaimana menguji data oversampled yang dihasilkan oleh ADASYN (atau metode oversampling lainnya). Tidak jelas dalam dua makalah yang disebutkan bagaimana mereka melakukan percobaan mereka. Ada dua skenario:

1- Mencicipi keseluruhan dataset, lalu membaginya menjadi set pelatihan dan pengujian (atau validasi silang).

2- Setelah memisahkan dataset asli, lakukan oversampling hanya pada set pelatihan dan uji pada set tes data asli (dapat dilakukan dengan validasi silang).

Dalam kasus pertama hasilnya jauh lebih baik daripada tanpa oversampling, tapi saya khawatir jika ada overfitting. Sementara dalam kasus kedua hasilnya sedikit lebih baik daripada tanpa oversampling dan jauh lebih buruk daripada kasus pertama. Tetapi kekhawatiran dengan kasus kedua adalah jika semua sampel kelas minoritas pergi ke set pengujian, maka tidak ada manfaat yang akan dicapai dengan oversampling.

Saya tidak yakin apakah ada pengaturan lain untuk menguji data tersebut.

— Tarif
sumber

Jawaban:

Beberapa komentar:

Opsi (1) adalah ide yang sangat buruk. Salinan dari titik yang sama dapat berakhir di kedua pelatihan dan set tes. Ini memungkinkan classifier untuk menipu, karena ketika mencoba membuat prediksi pada set tes, classifier sudah akan melihat poin yang identik di set kereta. Inti dari memiliki set tes dan set kereta adalah bahwa set tes harus independen dari set kereta.

$k$

— Stefan Taruhan
sumber

Terima kasih Stefan atas jawabannya. Tapi saya ingin menjelaskan satu hal: Metode yang saya sebutkan membuat contoh "sintetis" dari data, tidak persis sama dengan yang asli. Jadi tidak persis seperti saya menguji data pelatihan yang sama. Tapi, saya masih tidak yakin apakah opsi 1 adalah pendekatan yang valid.

— Tarif

Ok aku paham! Masalah dengan (1) masih berlaku, meskipun Anda membuat data "sintetis", karena data sintetis biasanya sangat mirip dengan data asli yang ditiru.

— Stefan Taruhan

@StefanWager bagaimana dengan distribusi set pengujian? Haruskah sama dengan kumpulan data asli?

— wannik

ada referensi artikel untuk mendukung klaim ini?

— girl101

@Stefan pendekatan benar Anda tidak pernah menambah atau mensintesis set validasi Anda karena itu bukti Anda (tes) tentang bagaimana model Anda belajar, Anda perlu data asli untuk melakukannya

— M090009

Opsi kedua (2) adalah cara yang tepat untuk melakukannya. Sampel sintetis yang Anda buat dengan teknik oversampling bukan contoh nyata melainkan sintetis. Ini tidak valid untuk tujuan pengujian sementara mereka masih ok untuk pelatihan. Mereka dimaksudkan untuk memodifikasi perilaku classifier tanpa memodifikasi algoritma.

— pengguna53909
sumber