Ketika saya menggunakan model-model regresi, saya merasa curiga untuk gagal dalam asumsi asosiasi linier; sebaliknya saya ingin mengeksplorasi bentuk fungsional hubungan antara variabel dependen dan penjelas menggunakan regresi smoothing nonparametric (misalnya model aditif umum , lowess / lowess , running line smoothers , dll.) sebelum memperkirakan model parametrik menggunakan, jika sesuai, regresi kuadrat terkecil nonlinear untuk memperkirakan parameter untuk fungsi yang disarankan oleh model nonparametric.
Apa cara yang baik untuk berpikir tentang melakukan validasi silang dalam fase regresi smoothing nonparametric dari pendekatan seperti itu? Saya bertanya-tanya apakah saya mungkin menghadapi situasi di mana dalam sampel holdout acak A hubungan yang diperkirakan oleh fungsi engsel linear "patah tongkat" mungkin terbukti, sedangkan sampel holdout B menunjukkan hubungan yang akan lebih baik didekati dengan fungsi engsel ambang parabola.
Apakah seseorang akan mengambil pendekatan non-lengkap menahan beberapa bagian data yang dipilih secara acak, melakukan regresi nonparametrik, menafsirkan bentuk-bentuk fungsional yang masuk akal untuk hasilnya, dan mengulangi ini beberapa kali (dikelola manusia) beberapa kali dan bentuk-bentuk fungsional yang masuk akal secara mental ?
Atau apakah orang akan mengambil pendekatan yang lengkap (misalnya LOOCV), dan menggunakan beberapa algoritma untuk 'menghaluskan semua smooths' dan menggunakan smooths yang paling halus untuk menginformasikan bentuk fungsional yang masuk akal? (Meskipun, pada refleksi, saya pikir LOOCV sangat tidak mungkin menghasilkan hubungan fungsional yang sangat berbeda karena bentuk fungsional pada sampel yang cukup besar tidak mungkin diubah oleh satu titik data tunggal.)
Aplikasi saya biasanya memerlukan sejumlah variabel prediktor yang dapat dikelola manusia (beberapa saja, katakan saja), tetapi ukuran sampel saya akan berkisar dari beberapa ratus hingga beberapa ratus ribu. Tujuan saya adalah untuk menghasilkan model yang dikomunikasikan secara intuitif dan mudah diterjemahkan yang dapat digunakan untuk membuat prediksi oleh orang-orang dengan set data selain milik saya, dan yang tidak termasuk variabel hasil.
Referensi dalam jawaban sangat diterima.