Saya sedang mengembangkan model prediksi risiko asuransi. Model-model ini adalah "peristiwa langka" seperti prediksi maskapai tanpa pertunjukan, deteksi kesalahan perangkat keras, dll. Ketika saya menyiapkan kumpulan data saya, saya mencoba menerapkan klasifikasi, tetapi saya tidak dapat memperoleh pengklasifikasi yang berguna karena tingginya proporsi kasus negatif .
Saya tidak punya banyak pengalaman dalam statistik dan pemodelan data di luar kursus statistik SMA, jadi saya agak bingung.
Sebagai pemikiran pertama, saya telah berpikir untuk menggunakan model proses Poisson tidak homogen. Saya mengklasifikasikannya berdasarkan data peristiwa (tanggal, lat, lon) untuk mendapatkan perkiraan yang baik tentang kemungkinan risiko pada waktu tertentu pada hari tertentu di tempat tertentu.
Saya ingin tahu, apa metodologi / algoritma untuk memprediksi kejadian langka?
Apa yang Anda rekomendasikan sebagai pendekatan untuk mengatasi masalah ini?