Saya tidak melihat ceramah, jadi saya tidak bisa mengomentari apa yang dikatakan.
My $ 0,02: Jika Anda ingin mendapatkan estimasi kinerja yang baik menggunakan resampling, Anda harus benar-benar melakukan semua operasi selama resampling alih-alih sebelumnya. Ini benar-benar berlaku untuk pemilihan fitur [1] serta operasi non-sepele seperti PCA. Jika itu menambah ketidakpastian hasil, sertakan dalam resampling.
Pikirkan tentang regresi komponen utama: PCA diikuti oleh regresi linier pada beberapa komponen. Parameter estimasi PCA (dengan noise) dan jumlah komponen juga harus dipilih (nilai yang berbeda akan menghasilkan hasil yang berbeda => lebih banyak noise).
Katakanlah kita menggunakan CV 10 kali lipat dengan skema 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
atau skema 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Itu harus jelas daripada pendekatan kedua harus menghasilkan perkiraan kesalahan yang mencerminkan ketidakpastian yang disebabkan oleh PCA, pemilihan jumlah komponen dan regresi linier. Akibatnya, CV dalam skema pertama tidak tahu apa yang mendahuluinya.
Saya bersalah karena tidak selalu melakukan semua operasi dengan resampling, tetapi hanya ketika saya tidak terlalu peduli dengan perkiraan kinerja (yang tidak biasa).
Apakah ada banyak perbedaan antara kedua skema tersebut? Itu tergantung pada data dan pra-pemrosesan. Jika Anda hanya memusatkan dan menskalakan, mungkin tidak. Jika Anda memiliki banyak data, mungkin tidak. Ketika ukuran pelatihan ditetapkan turun, risiko mendapatkan estimasi yang buruk naik, terutama jika n mendekati p.
Saya dapat mengatakan dengan pasti dari pengalaman bahwa tidak termasuk pemilihan fitur yang diawasi dalam resampling adalah ide yang sangat buruk (tanpa set pelatihan besar). Saya tidak melihat mengapa pra-pemrosesan akan kebal terhadap ini (sampai taraf tertentu).
@mchangun: Saya pikir jumlah komponen adalah parameter penyetelan dan Anda mungkin ingin memilihnya menggunakan perkiraan kinerja yang dapat digeneralisasikan. Anda dapat secara otomatis memilih K sedemikian sehingga setidaknya X% dari varians dijelaskan dan menyertakan proses itu dalam resampling sehingga kami memperhitungkan kebisingan dalam proses itu.
Maks
[1] Ambroise, C., & McLachlan, G. (2002). Bias seleksi dalam ekstraksi gen berdasarkan data ekspresi gen microarray. Prosiding National Academy of Sciences, 99 (10), 6562-6566.