Baru-baru ini saya menemukan artikel yang menarik tentang memprediksi pengembalian pasar saham di masa depan. Penulis menyajikan grafik di bawah ini dan mengutip R ^ 2 dari 0,913. Ini akan membuat metode penulis jauh lebih unggul daripada apa pun yang pernah saya lihat pada subjek (kebanyakan berpendapat bahwa pasar saham tidak dapat diprediksi).
Penulis menjelaskan metodenya dengan sangat rinci dan memberikan teori substansial untuk mendukung hasilnya. Lalu saya membaca artikel kedua, mengkritik yang merujuk makalah ini: Mitos Long-Horizon Prediktabilitas . Rupanya orang telah jatuh cinta pada ilusi ini selama beberapa dekade. Sayangnya, saya tidak begitu mengerti makalahnya.
Ini mengarahkan saya ke pertanyaan-pertanyaan berikut:
- Apakah kepercayaan salah prediksi jangka panjang muncul karena menggunakan set data yang sama untuk pelatihan dan validasi model? Apakah masalah akan hilang jika data pelatihan dan validasi ditarik dari periode waktu yang terpisah dan tidak tumpang tindih?
- Selain memvalidasi pada set pelatihan, mengapa masalah ini menjadi lebih jelas di cakrawala yang lebih panjang?
- Secara umum, bagaimana saya bisa mengatasi masalah ini ketika melatih model yang harus membuat prediksi jangka panjang?