Membuat Dataset yang Tidak Seimbang


11

Saya ingin menguji model saya yang terlatih pada dataset yang tidak seimbang. Apakah ada algoritma yang tersedia untuk menghasilkan data sintetis dari dataset berlabel seimbang (spam / non-spam)?


Anda selalu dapat mengacaukan set data apa pun dengan hanya menggarisbawahi satu kelas.
user2974951

Jawaban:


8

Coba SMOTE , ini merupakan algoritma yang digunakan untuk pengambilan sampel berlebih. Ini menciptakan sampel sintetis dari kelas yang Anda inginkan sampel berlebihan.

Anda dapat menggunakan ini untuk membuat jumlah sampel yang Anda butuhkan.


1
dapatkah SMOTE digunakan untuk pengambilan sampel yang kurang juga?
Stuart Peterson

Nah, Anda bisa mendapatkan undersampling kelas A dengan oversampling kelas notA ...
kjetil b halvorsen

3
@StuartPeterson Tidak, SMOTE adalah algoritma pengambilan sampel berlebih, tetapi ada banyak algoritma pengambilan sampel lainnya
Mary93
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.