Saya mencoba memprediksi skor keseimbangan dan mencoba beberapa metode regresi yang berbeda. Satu hal yang saya perhatikan adalah bahwa nilai yang diprediksi tampaknya memiliki semacam batas atas. Yaitu, saldo aktual dalam , tetapi prediksi saya mencapai sekitar . Plot berikut menunjukkan saldo aktual vs saldo yang diprediksi (diprediksi dengan regresi linier):0.8
Dan inilah dua plot distribusi dari data yang sama:
Karena prediktor saya sangat miring (data pengguna dengan distribusi hukum daya), saya menerapkan transformasi Box-Cox, yang mengubah hasilnya sebagai berikut:
Meskipun mengubah distribusi prediksi, masih ada batas atas itu. Jadi pertanyaan saya adalah:
- Apa alasan yang mungkin untuk batas atas tersebut dalam hasil prediksi?
- Bagaimana saya bisa memperbaiki prediksi agar sesuai dengan distribusi nilai aktual?
Bonus: Karena distribusi setelah transformasi Box-Cox tampaknya mengikuti distribusi prediktor yang diubah, apakah mungkin ini terkait langsung? Jika demikian, apakah ada transformasi yang dapat saya terapkan, agar sesuai dengan distribusi ke nilai aktual?
Sunting: Saya menggunakan regresi linier sederhana dengan 5 prediktor.