Saya telah membaca tulisan-tulisan berikut yang menjawab pertanyaan yang akan saya tanyakan:
Gunakan model Hutan Acak untuk membuat prediksi dari data sensor
Pohon keputusan untuk prediksi keluaran
Inilah yang telah saya lakukan sejauh ini: Saya membandingkan Regresi Logistik dengan Random Forests dan RF mengungguli Logistic. Sekarang peneliti medis yang bekerja dengan saya ingin mengubah hasil RF saya menjadi alat diagnostik medis. Sebagai contoh:
Jika Anda seorang pria Asia berusia antara 25 dan 35 tahun, memiliki Vitamin D di bawah xx dan Tekanan Darah di atas xx, Anda memiliki peluang 76% untuk terkena penyakit xxx.
Namun, RF tidak cocok untuk persamaan matematika sederhana (lihat tautan di atas). Jadi inilah pertanyaan saya: ide apa yang Anda miliki untuk menggunakan RF untuk mengembangkan alat diagnostik (tanpa harus mengekspor ratusan pohon).
Inilah beberapa ide saya:
- Gunakan RF untuk pemilihan variabel, kemudian gunakan Logistik (menggunakan semua interaksi yang mungkin) untuk membuat persamaan diagnostik.
- Entah bagaimana agregat hutan RF menjadi satu "mega-tree," yang entah bagaimana rata-rata membelah node di pohon.
- Mirip dengan # 2 dan # 1, gunakan RF untuk memilih variabel (misalkan total variabel m), lalu buat ratusan pohon klasifikasi, yang semuanya menggunakan setiap variabel m, lalu pilih satu pohon terbaik.
Ada ide lain? Juga, melakukan # 1 itu mudah, tetapi ada ide tentang bagaimana mengimplementasikan # 2 dan # 3?