Memasukkan variabel penjelas yang lebih rinci dari waktu ke waktu

9

Saya mencoba memahami bagaimana cara terbaik saya memodelkan variabel di mana seiring waktu saya mendapatkan prediktor yang semakin rinci. Misalnya, pertimbangkan untuk memodelkan tingkat pemulihan pada pinjaman yang gagal bayar. Misalkan kita memiliki dataset dengan data 20 tahun, dan dalam 15 tahun pertama kita hanya tahu apakah pinjaman tersebut dijamin atau tidak, tetapi tidak ada karakteristik karateristik itu. Namun, selama lima tahun terakhir, kami dapat membagi agunan ke dalam berbagai kategori yang diharapkan menjadi prediktor yang baik untuk tingkat pemulihan.

Dengan pengaturan ini, saya ingin mencocokkan suatu model dengan data, menentukan ukuran-ukuran seperti signifikansi statistik dari para prediktor, dan kemudian meramalkannya dengan model tersebut.

Kerangka kerja data apa yang tidak cocok dengan hal ini? Apakah ada pertimbangan khusus yang terkait dengan fakta bahwa variabel penjelas yang lebih rinci hanya tersedia setelah titik waktu tertentu, yang bertentangan dengan tersebar di seluruh sampel historis?

regression missing-data

— Abiel
sumber

1

OK, dari pengalaman dalam menggunakan data historis, lebih banyak riwayat dapat membuat kecocokan regresi tampak lebih baik, tetapi jika memprediksi adalah titik latihan, jawaban umum diperingatkan. Dalam kasus di mana data mencerminkan periode di mana 'dunia' sangat berbeda, stabilitas korelasi dipertanyakan. Ini terjadi terutama dalam ekonomi di mana pasar dan peraturan terus berkembang.

Ini berlaku untuk pasar real estat juga yang, di samping itu, mungkin memiliki siklus yang panjang. Penemuan sekuritas yang didukung hipotek, misalnya, mengubah pasar hipotek dan membuka pintu banjir untuk asal usul hipotek, dan juga, sayangnya, spekulasi (sebenarnya ada seluruh kelas tanpa / pinjaman dokumen rendah yang disebut pinjaman pinjaman).

Metode yang menguji perubahan rezim dapat sangat berharga dalam memutuskan secara non-subyektif kapan harus mengecualikan sejarah.

— AJKOER
sumber

1

Biasanya, ini dapat dilihat sebagai masalah nilai parameter yang dibatasi. Saat saya memahami pertanyaan Anda, Anda memiliki parameter yang kurang informatif (jaminan dengan kualitas tidak diketahui [Cu]) di awal data Anda dan lebih informatif (jaminan dengan [Ch] tinggi, [Cm] menengah, atau kualitas [Cl] rendah) di data selanjutnya.

Jika Anda percaya bahwa parameter yang tidak diamati untuk model tidak berubah seiring waktu, maka metode ini dapat menjadi sederhana di mana Anda mengasumsikan bahwa estimasi titik masing-masing adalah Cl <Cm <Ch dan Cl <= Cu <= Ch. Logikanya adalah bahwa Cl adalah yang terburuk dan Ch adalah yang terbaik, jadi ketika data tidak diketahui itu harus berada di antara atau sama dengan itu. Jika Anda bersedia sedikit membatasi dan menganggap bahwa tidak semua jaminan berkualitas tinggi atau rendah selama 15 tahun pertama, Anda dapat mengasumsikan bahwa Cl <Cu <Ch yang membuatnya secara signifikan lebih mudah untuk diperkirakan.

Secara matematis, ini dapat diperkirakan dengan sesuatu seperti:

\begin{array}{lcl} C_{l} & = & \exp (β_{1}) \\ C_{m} & = & \exp (β_{1}) + \exp (β_{2}) \\ C_{u} & = & \exp (β_{1}) + \frac{\exp (β_{3})}{1 + \exp (- β_{4})} \\ C_{h} & = & \exp (β_{1}) + \exp (β_{2}) + \exp (β_{3}) \end{array}

$\begin{array}{lcl} C_l &=& \exp(\beta_1) \\ C_m &=& \exp(\beta_1) + \exp(\beta_2) \\ C_u &=& \exp(\beta_1) + \frac{\exp(\beta_3)}{1+\exp(-\beta_4)} \\ C_h &=& \exp(\beta_1) + \exp(\beta_2) + \exp(\beta_3) \end{array}$

Di mana fungsi logit di Cu membatasi nilai antara Cl dan Ch tanpa membatasi relatif terhadap Cm. (Fungsi lain yang membatasi antara 0 dan 1 juga dapat digunakan.)

Perbedaan lain dalam model harus bahwa varians harus terstruktur sehingga varians residual tergantung pada periode waktu karena informasi dalam setiap periode berbeda.

— Bill Denney
sumber