Dalam klasifikasi sederhana, kami memiliki dua kelas: kelas-0 dan kelas-1. Dalam beberapa data saya hanya memiliki nilai untuk kelas-1, jadi tidak ada untuk kelas-0. Sekarang saya berpikir untuk membuat model untuk memodelkan data untuk kelas-1. Jadi, ketika data baru datang, model ini diterapkan pada data baru dan menemukan probabilitas yang mengatakan seberapa besar kemungkinan data baru tersebut cocok dengan model ini. Kemudian membandingkan dengan ambang, saya bisa memfilter data yang tidak pantas.
Pertanyaan saya adalah:
- Apakah ini cara yang baik untuk mengatasi masalah seperti itu?
- Bisakah classifier RandomForest digunakan untuk kasus ini? Apakah saya perlu menambahkan data buatan untuk kelas-0 yang saya harap dianggap sebagai noise?
- Ada ide lain yang bisa membantu untuk masalah ini?