Saya memiliki kumpulan data dengan variabel kontinu dan variabel target biner (0 dan 1).
Saya perlu menentukan variabel kontinu (untuk regresi logistik) sehubungan dengan variabel target dan dengan batasan bahwa frekuensi pengamatan dalam setiap interval harus seimbang. Saya mencoba algoritma pembelajaran mesin seperti Chi Merge, pohon keputusan. Chi merge memberi saya interval dengan angka yang sangat tidak seimbang di setiap interval (interval dengan 3 pengamatan dan satu lagi dengan 1000). Pohon keputusan sulit ditafsirkan.
Saya sampai pada kesimpulan bahwa diskritisasi yang optimal harus memaksimalkan statistik antara variabel diskritisasi dan variabel target dan harus memiliki interval berisi kira-kira jumlah pengamatan yang sama.
Apakah ada algoritma untuk menyelesaikan ini?
Ini terlihat seperti dalam R (def adalah variabel target dan x variabel yang akan didiskritisasi). Saya menghitung Tschuprow's untuk mengevaluasi "korelasi" antara variabel yang ditransformasikan dan target karena statistik cenderung meningkat dengan jumlah interval. Saya tidak yakin apakah ini cara yang benar.χ 2
Apakah ada cara lain untuk mengevaluasi jika diskritisasi saya optimal selain dari Tschuprow (meningkat ketika jumlah kelas menurun)?
chitest <- function(x){
interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
#Tschuprow
Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}