Pertanyaan yang lebih produktif mungkin adalah "mengapa itu tidak digunakan dalam statistik klasik yang saya pelajari?"
Tergantung pada tingkat di mana ia diajarkan, isi kursus (dan waktu yang tersedia) pilihan itu mungkin karena kombinasi dari berbagai faktor. Seringkali topik-topik penting dikesampingkan karena materi lain harus diajarkan karena satu dan lain alasan, dengan harapan topik-topik tersebut akan dibahas dalam mata pelajaran selanjutnya.
Setidaknya dalam beberapa hal, gagasan telah lama digunakan oleh berbagai orang. Itu lebih umum di beberapa daerah daripada yang lain. Banyak penggunaan statistik tidak memiliki prediksi atau pemilihan model sebagai komponen utama (atau dalam beberapa kasus, bahkan sama sekali), dan dalam kasus itu, penggunaan sampel penahan mungkin kurang kritis daripada ketika prediksi adalah poin utama. Dapat diperdebatkan, itu seharusnya telah mendapatkan penggunaan yang lebih luas pada tahap awal dalam beberapa aplikasi yang relevan daripada itu, tapi itu tidak sama dengan tidak diketahui.
Jika Anda melihat area yang berfokus pada prediksi, gagasan penilaian model dengan memprediksi data yang tidak Anda gunakan untuk memperkirakan model Anda sudah pasti ada (meskipun tidak universal). Saya tentu saja melakukannya dengan pemodelan deret waktu yang saya lakukan pada 1980-an, misalnya, di mana kinerja prediktif out-of-sample dari data terbaru sangat penting.
Gagasan meninggalkan setidaknya beberapa data digunakan dalam regresi (residu dihapus, PRESS, jacknife, dan sebagainya), dan dalam analisis outlier, misalnya.
Beberapa dari ide-ide ini mendukung banyak hal sebelumnya. Stone (1974) [1] merujuk pada makalah tentang validasi silang (dengan kata dalam judul) dari tahun 1950-an dan 60-an. Mungkin bahkan lebih dekat dengan niat Anda, ia menyebutkan penggunaan istilah "sampel konstruksi" dan "sampel validasi" Simon (1971) - tetapi juga menunjukkan bahwa "Larson (1931) menggunakan pembagian acak sampel dalam kelipatan pendidikan. studi-regresi ".
Topik-topik seperti validasi silang, dan penggunaan statistik berdasarkan prediksi dan sebagainya, menjadi jauh lebih sering dalam literatur statistik di tahun 70-an dan melalui tahun 80-an, misalnya, tetapi banyak ide dasar telah ada selama beberapa waktu bahkan kemudian.
[1]: Stone, M., (1974)
"Pilihan Cross-Validatory dan Penilaian Prediksi Statistik,"
Jurnal Masyarakat Statistik Kerajaan. Seri B (Metodologi) , Vol. 36, No. 2., hlm. 111-147