Saya menggunakan Python untuk menjalankan model hutan acak pada dataset tidak seimbang saya (variabel target adalah kelas biner). Ketika membagi dataset pelatihan dan pengujian, saya kesulitan apakah akan menggunakan pengambilan sampel bertingkat (seperti kode yang ditunjukkan) atau tidak. Sejauh ini, saya mengamati dalam proyek saya bahwa kasus bertingkat akan mengarah pada kinerja model yang lebih tinggi. Tapi saya pikir jika saya akan menggunakan model saya untuk memprediksi kasus-kasus baru yang mungkin sangat berbeda dalam distribusi kelas target dengan dataset saya saat ini. Jadi saya cenderung melonggarkan batasan ini dan menggunakan split yang tidak terstratifikasi. Adakah yang bisa menyarankan untuk mengklarifikasi hal ini?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)