Saya ingin melakukan kombinasi oversampling dan undersampling untuk menyeimbangkan dataset saya dengan sekitar 4000 pelanggan dibagi menjadi dua kelompok, di mana salah satu grup memiliki proporsi sekitar 15%.
Saya telah melihat SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) dan ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), tetapi keduanya membuat sampel sintetis baru menggunakan pengamatan yang ada dan misalnya kNN.
Namun, karena banyak atribut yang terkait dengan pelanggan adalah kategorikal, saya rasa ini bukan cara yang tepat. Sebagai contoh, banyak variabel saya seperti Region_A dan Region_B saling eksklusif, tetapi menggunakan kNN pengamatan baru dapat ditempatkan di Region_A dan Region_B. Apakah Anda setuju bahwa ini merupakan masalah?
Dalam hal itu - bagaimana seseorang melakukan oversampling di R dengan hanya menduplikasi pengamatan yang ada? Atau apakah ini cara yang salah untuk melakukannya?