Saya sedang mengerjakan proyek Machine Learning dengan data yang sudah (berat) bias oleh pemilihan data.
Mari kita asumsikan Anda memiliki seperangkat aturan kode keras. Bagaimana Anda membangun model pembelajaran mesin untuk menggantinya, ketika semua data yang dapat digunakan adalah data yang sudah disaring oleh aturan-aturan itu?
Untuk memperjelas, saya kira contoh terbaik adalah Penilaian Risiko Kredit : Tugasnya adalah menyaring semua klien yang kemungkinan gagal melakukan pembayaran.
- Sekarang, satu-satunya (berlabel) data yang Anda miliki berasal dari klien yang telah diterima oleh seperangkat aturan, karena hanya setelah menerima Anda akan melihat apakah seseorang membayar atau tidak (jelas). Anda tidak tahu seberapa bagus seperangkat aturan itu dan seberapa besar mereka akan mempengaruhi distribusi yang dibayar ke yang tidak dibayar. Selain itu, Anda memiliki data yang tidak berlabel dari klien yang telah ditolak, lagi karena serangkaian aturan. Jadi, Anda tidak tahu apa yang akan terjadi dengan klien-klien itu jika mereka diterima.
Misalnya salah satu aturan bisa jadi: "Jika usia klien <18 tahun, maka jangan terima"
Pengklasifikasi tidak memiliki cara untuk mempelajari cara menangani klien yang telah difilter oleh aturan ini. Bagaimana classifier seharusnya mempelajari pola di sini?
Mengabaikan masalah ini, akan menyebabkan model terpapar ke data yang belum pernah ditemui sebelumnya. Pada dasarnya, saya ingin memperkirakan nilai f (x) ketika x berada di luar [a, b] di sini.