Saya telah menganalisis satu set data ~ 400k catatan dan 9 variabel. Variabel dependen adalah biner. Saya telah memasang regresi logistik, pohon regresi, hutan acak, dan gradien yang didorong pohon. Semuanya memberikan angka cocok virtual yang identik ketika saya memvalidasinya pada set data lain.
Kenapa begitu? Saya menduga itu karena pengamatan saya terhadap rasio variabel sangat tinggi. Jika ini benar, pada pengamatan apa rasio variabel akan model yang berbeda mulai memberikan hasil yang berbeda?