Gagasan tentang membangun sebuah model dua tahap adalah cara yang tepat untuk pergi, namun, seseorang perlu mempertimbangkan kesulitan khusus pengaturan Anda yang merupakan korelasi negatif yang sangat kuat antara jumlah hutang dan kemungkinan melakukan pembayaran
Masalah utama membangun model dua tahap di sini adalah, bahwa model kedua (untuk prediksi utang), ketika dibangun di atas "non-nol" saja, dibangun di atas sampel populasi non-acak yang paling mungkin ( yaitu seluruh dataset), tetapi model gabungan harus diterapkan pada seluruh populasi lagi. Ini berarti bahwa model kedua harus membuat prediksi untuk bagian-bagian dari data yang belum pernah dilihat sebelumnya, yang mengakibatkan hilangnya keakuratan. Ini disebut Sampel Seleksi Bias (untuk ikhtisar dari perspektif ML saya sarankan Kerangka Jaringan Bayesian untuk Menolak Inferensi oleh Smith dan Elkan).
The KDD-Piala-98 ditangani dengan masalah yang sama di mana orang harus memprediksi apakah donor untuk organisasi veteran kemungkinan untuk menyumbangkan lagi dan berapa banyak kemungkinan untuk menyumbangkan. Dalam dataset ini, probabilitas donasi lagi berkorelasi negatif dengan jumlah uang yang diharapkan juga. Bias Pemilihan Sampel juga muncul.
Solusi yang paling mengesankan bagi saya dapat ditemukan dalam Belajar dan Membuat Keputusan Ketika Biaya dan Peluangnya Tidak Diketahui oleh Bianca Zadrozny dan Charles Elkan. Mereka telah menciptakan solusi sensitif biaya berdasarkan koreksi Heckman , yang setahu saya pendekatan sistematis pertama untuk memperbaiki bias pemilihan (sampel).