Saya paling (dan paling sering) kesal oleh "validasi" yang mengarah pada kesalahan generalisasi model prediktif di mana data uji tidak independen (mis. Biasanya beberapa pengukuran per pasien dalam data, out-of-bootstrap atau lintas memecah validasi pengukuran tidak pasien ).
Bahkan lebih menjengkelkan, makalah yang memberikan hasil validasi silang cacat tersebut ditambah satu set tes independen yang menunjukkan bias optimisasi silang yang berlebihan tetapi tidak satu kata pun bahwa desain validasi silang salah ...
(Saya akan sangat senang jika data yang sama akan disajikan, "kami tahu validasi silang harus membagi pasien, tetapi kami terjebak dengan perangkat lunak yang tidak memungkinkan ini. Oleh karena itu kami menguji serangkaian pasien uji yang benar-benar independen sebagai tambahan. ")
(Saya juga sadar bahwa bootstrap = resampling dengan penggantian biasanya berkinerja lebih baik daripada cross validation = resampling tanpa penggantian. Namun, kami menemukan data spektroskopi (simulasi spektra dan pengaturan model sedikit buatan tetapi spektra nyata) yang mengulangi / mengulangi validasi silang dan keluar -of-bootstrap memiliki ketidakpastian keseluruhan yang serupa; oob memiliki lebih banyak bias tetapi lebih sedikit varians - untuk rewetting, saya melihat ini dari perspektif yang sangat pragmatis: validasi silang berulang vs out-of-bootstrap tidak masalah selama banyak makalah tidak membagi pasien-bijaksana atau melaporkan / mendiskusikan / menyebutkan ketidakpastian acak karena ukuran sampel tes terbatas.)
Selain salah, ini juga memiliki efek samping bahwa orang yang melakukan validasi yang tepat sering kali harus membela mengapa hasil mereka jauh lebih buruk daripada semua hasil lainnya dalam literatur.