Mengapa metode ketidaksepakatan (memisahkan data menjadi pelatihan dan pengujian) digunakan dalam statistik klasik?

12

Dalam paparan kelas saya untuk data mining, metode ketidaksepakatan diperkenalkan sebagai cara menilai kinerja model. Namun, ketika saya mengambil kelas pertama saya pada model linear, ini tidak diperkenalkan sebagai sarana validasi atau penilaian model. Penelitian online saya juga tidak menunjukkan adanya persimpangan. Mengapa metode ketidaksepakatan tidak digunakan dalam statistik klasik?

— pertanyaan
sumber

22

Pertanyaan yang lebih produktif mungkin adalah "mengapa itu tidak digunakan dalam statistik klasik yang saya pelajari?"

Tergantung pada tingkat di mana ia diajarkan, isi kursus (dan waktu yang tersedia) pilihan itu mungkin karena kombinasi dari berbagai faktor. Seringkali topik-topik penting dikesampingkan karena materi lain harus diajarkan karena satu dan lain alasan, dengan harapan topik-topik tersebut akan dibahas dalam mata pelajaran selanjutnya.

Setidaknya dalam beberapa hal, gagasan telah lama digunakan oleh berbagai orang. Itu lebih umum di beberapa daerah daripada yang lain. Banyak penggunaan statistik tidak memiliki prediksi atau pemilihan model sebagai komponen utama (atau dalam beberapa kasus, bahkan sama sekali), dan dalam kasus itu, penggunaan sampel penahan mungkin kurang kritis daripada ketika prediksi adalah poin utama. Dapat diperdebatkan, itu seharusnya telah mendapatkan penggunaan yang lebih luas pada tahap awal dalam beberapa aplikasi yang relevan daripada itu, tapi itu tidak sama dengan tidak diketahui.

Jika Anda melihat area yang berfokus pada prediksi, gagasan penilaian model dengan memprediksi data yang tidak Anda gunakan untuk memperkirakan model Anda sudah pasti ada (meskipun tidak universal). Saya tentu saja melakukannya dengan pemodelan deret waktu yang saya lakukan pada 1980-an, misalnya, di mana kinerja prediktif out-of-sample dari data terbaru sangat penting.

Gagasan meninggalkan setidaknya beberapa data digunakan dalam regresi (residu dihapus, PRESS, jacknife, dan sebagainya), dan dalam analisis outlier, misalnya.

Beberapa dari ide-ide ini mendukung banyak hal sebelumnya. Stone (1974) [1] merujuk pada makalah tentang validasi silang (dengan kata dalam judul) dari tahun 1950-an dan 60-an. Mungkin bahkan lebih dekat dengan niat Anda, ia menyebutkan penggunaan istilah "sampel konstruksi" dan "sampel validasi" Simon (1971) - tetapi juga menunjukkan bahwa "Larson (1931) menggunakan pembagian acak sampel dalam kelipatan pendidikan. studi-regresi ".

Topik-topik seperti validasi silang, dan penggunaan statistik berdasarkan prediksi dan sebagainya, menjadi jauh lebih sering dalam literatur statistik di tahun 70-an dan melalui tahun 80-an, misalnya, tetapi banyak ide dasar telah ada selama beberapa waktu bahkan kemudian.

[1]: Stone, M., (1974)
"Pilihan Cross-Validatory dan Penilaian Prediksi Statistik,"
Jurnal Masyarakat Statistik Kerajaan. Seri B (Metodologi) , Vol. 36, No. 2., hlm. 111-147

— Glen_b -Reinstate Monica
sumber

Sebagai catatan, bahwa M. Stone bukan saya, juga tidak ada yang berhubungan dengan saya, kecuali mungkin melalui Adam dan Hawa.

— Mark L. Stone

11

Untuk melengkapi jawaban oleh Glen_b, statistik klasik sering memiliki / memiliki penekanan pada penggunaan data yang optimal, tes optimal, estimator optimal, kecukupan, dan sebagainya, dan dalam kerangka teori itu sulit untuk membenarkan tidak menggunakan bagian dari informasi ! Bagian dari tradisi itu adalah penekanan pada situasi dengan sampel kecil, di mana bertahan praktis sulit.

Fisher bekerja, misalnya, terutama dengan genetika dan eksperimen pertanian, dan di bidang-bidang itu hanya ada sedikit pengamatan. Jadi dia terutama terkena masalah dengan set data kecil.

— kjetil b halvorsen
sumber

6

Saya akan menjawab dari bidang terapan yang mungkin ada di antara statistik klasik dan pembelajaran mesin: chemometrics, yaitu statistik untuk analisis kimia. Saya akan menambahkan dua skenario berbeda di mana penahanan tidak sepenting di kelas pembelajaran mesin biasa.

Skenario 1:

Saya pikir satu poin penting di sini adalah untuk menyadari bahwa ada perbedaan mendasar dalam apa ukuran sampel kecil untuk pelatihan vs pengujian:

Untuk pelatihan, biasanya rasio jumlah kasus: kompleksitas model (jumlah parameter) penting (derajat kebebasan)
Untuk pengujian, jumlah absolut kasus uji penting.
(Kualitas prosedur pengujian harus independen dari model: yang diperlakukan sebagai kotak hitam dengan validasi dengan kasus uji independen)

Poin kedua yang akan saya butuhkan untuk argumentasi saya adalah bahwa situasi di mana kasus-kasus uji independen sangat penting. Jika model tidak cukup kompleks (bias varians, jadi di bawah pas), residu dapat memberitahu Anda banyak tentang kesalahan total prediksi sebagai kasus independen. $\gg$

Sekarang, statistik perkuliahan pada model linier "klasik" sering sangat menekankan model univariat. Untuk model linear univariat, ukuran sampel pelatihan kemungkinan tidak kecil: ukuran sampel pelatihan biasanya dinilai dibandingkan dengan kompleksitas model, dan model linier hanya memiliki dua parameter, offset dan kemiringan. Dalam kimia analitik, kami sebenarnya memiliki norma yang menyatakan Anda harus memiliki setidaknya 10 sampel kalibrasi untuk kalibrasi linier univariat Anda. Ini memastikan situasi di mana ketidakstabilan model secara andal bukan merupakan masalah, jadi penahanan tidak diperlukan.

Namun, dalam pembelajaran mesin, serta dengan detektor multi-saluran modern dalam analisis kimia (kadang-kadang 10⁴ "saluran" misalnya dalam spektrometri massa), stabilitas model (yaitu varians) merupakan masalah penting. Dengan demikian, bertahan atau resampling yang lebih baik diperlukan.

Skenario 2:

Situasi yang sama sekali berbeda adalah bahwa penahanan dapat dilewati demi kombinasi yang lebih mudah (residu) plus pengukuran kinerja yang lebih canggih. Perhatikan bahwa bertahan dalam arti (secara acak) menyisihkan bagian dari kumpulan data dan mengecualikan ini dari pelatihan tidak setara dengan apa yang dapat dicapai oleh pengujian independen. Dalam kimia analitik, percobaan validasi khusus dapat dilakukan yang akan mencakup misalnya mengukur penurunan kinerja dari waktu ke waktu (instrumen drift) yang tidak dapat diukur dengan tahan dan menetapkan misalnya kinerja sensor di lingkungan industri yang sebenarnya (sedangkan kalibrasi sensor dilakukan di laboratorium pada sampel kalibrasi). Lihat juga /stats//a/104750/4598 untuk detail lebih lanjut tentang pengujian independen vs penundaan.

— cbeleites tidak senang dengan SX
sumber

Di atas, dalam sceanario 1, saya pikir Anda bermaksud mengatakan (bias << varians)? Mohon perbaiki!

— kjetil b halvorsen

1

@kjetilbhalvorsen tidak, karena dia merujuk kekurangan pada paragraf tersebut (model yang tidak cukup kompleks).

— Marc Claesen

@kjetilbhalvorsen; Marc Claesen benar, saya menekankan bahwa ini untuk situasi di mana Anda dapat memastikan masalahnya tidak sesuai.

— cbeleites tidak senang dengan SX

BAIK. beberapa surat untuk memuaskan req

— kjetil b halvorsen