Membuat Dataset yang Tidak Seimbang

Saya ingin menguji model saya yang terlatih pada dataset yang tidak seimbang. Apakah ada algoritma yang tersedia untuk menghasilkan data sintetis dari dataset berlabel seimbang (spam / non-spam)?

unbalanced-classes synthetic-data

— Stuart Peterson
sumber

Anda selalu dapat mengacaukan set data apa pun dengan hanya menggarisbawahi satu kelas.

— user2974951

Coba SMOTE , ini merupakan algoritma yang digunakan untuk pengambilan sampel berlebih. Ini menciptakan sampel sintetis dari kelas yang Anda inginkan sampel berlebihan.

Anda dapat menggunakan ini untuk membuat jumlah sampel yang Anda butuhkan.

— Mary93
sumber

dapatkah SMOTE digunakan untuk pengambilan sampel yang kurang juga?

— Stuart Peterson

Nah, Anda bisa mendapatkan undersampling kelas A dengan oversampling kelas notA ...

— kjetil b halvorsen

@StuartPeterson Tidak, SMOTE adalah algoritma pengambilan sampel berlebih, tetapi ada banyak algoritma pengambilan sampel lainnya

— Mary93