Ketidakseimbangan tidak selalu menjadi masalah, tetapi bagaimana Anda bisa sampai di sana. Tidaklah tepat untuk mendasarkan strategi pengambilan sampel Anda pada variabel target. Karena variabel ini memasukkan keacakan dalam model regresi Anda, jika Anda mengambil sampel berdasarkan ini, Anda akan memiliki masalah besar dalam melakukan segala macam inferensi. Saya ragu mungkin untuk "membatalkan" masalah itu.
Anda dapat kelebihan atau kekurangan sampel berdasarkan variabel prediktor . Dalam hal ini, asalkan Anda dengan hati-hati memeriksa bahwa asumsi model tampak valid (mis. Homoseksualitas yang muncul dalam pikiran sama pentingnya dalam situasi ini, jika Anda memiliki regresi "biasa" dengan asumsi biasa), saya rasa Anda tidak perlu batalkan oversampling saat memprediksi. Kasing Anda sekarang akan mirip dengan analis yang telah merancang eksperimen secara eksplisit untuk memiliki rentang variabel prediktor yang seimbang.
Edit - penambahan - ekspansi tentang alasan sampel yang buruk didasarkan pada Y
Dalam pas model regresi standar yang diharapkan akan terdistribusi normal, memiliki rata-rata nol, dan menjadi independen dan terdistribusi secara identik. Jika Anda memilih sampel Anda berdasarkan nilai y (yang mencakup kontribusi dan ) e tidak akan lagi memiliki rata-rata nol atau didistribusikan secara identik. Sebagai contoh, nilai y yang rendah yang mungkin mencakup nilai e yang sangat rendah mungkin lebih kecil kemungkinannya untuk dipilih. Ini merusak setiap kesimpulan berdasarkan cara yang biasa digunakan untuk menyesuaikan model tersebut. Koreksi dapat dibuat serupa dengan yang dibuat dalam ekonometrik untuk pemasangan model terpotong, tetapi mereka menyusahkan dan memerlukan asumsi tambahan, dan hanya boleh digunakan ketika tidak ada alternatif.y= Xb + eeeXb
Perhatikan ilustrasi ekstrem di bawah ini. Jika Anda memotong data Anda pada nilai arbitrer untuk variabel respons, Anda memperkenalkan bias yang sangat signifikan. Jika Anda memotongnya untuk variabel penjelas, belum tentu ada masalah. Anda melihat bahwa garis hijau, berdasarkan subset yang dipilih karena nilai prediktornya, sangat dekat dengan garis pas yang sebenarnya; ini tidak dapat dikatakan tentang garis biru, hanya berdasarkan pada titik biru.
Hal ini meluas ke kasus underampling atau oversampling yang kurang parah (karena pemotongan dapat dilihat sebagai undersampling dibawa ke ekstrim logisnya).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")