Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?

10

Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin?

Saya akan memilih secara intuitif

Pelatihan menetapkan ukuran 50
Validasi silang mengatur ukuran 25, dan
Ukuran tes 25.

Tapi mungkin ini lebih atau kurang masuk akal. Bagaimana saya harus benar-benar memutuskan nilai-nilai ini? Bolehkah saya mencoba opsi yang berbeda (meskipun saya kira itu tidak begitu disukai ... peningkatan kemungkinan belajar berlebihan)?

Bagaimana jika saya memiliki lebih dari dua kelas?

— Est
sumber

2

100 terlalu kecil untukku. Saya akan memilih strategi cuti-keluar untuk validasi silang dan evaluasi tes.

— Memming

Saya belum melihat literatur tentang ini (ukuran sampel minimum untuk validasi). Tidak yakin kenapa. Sepertinya masalah penting.

— charles

15

Anda pasti menemukan pertanyaan yang sangat mirip: Pilihan K dalam validasi silang K-fold ?
(Termasuk tautan ke karya Ron Kohavi)
$k$ direkomendasikan secara umum.
Menariknya, dengan masalah klasifikasi ukuran sampel yang sangat kecil ini, validasi seringkali lebih sulit (dalam hal kebutuhan ukuran sampel) dibandingkan dengan pelatihan model yang layak. Jika Anda memerlukan literatur tentang hal ini, lihat misalnya makalah kami tentang perencanaan ukuran sampel:
Beleites, C. dan Neugebauer, U. dan Bocklitz, T. dan Krafft, C. dan Popp, J .: Perencanaan ukuran sampel untuk model klasifikasi. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
naskah diterima di arXiv: 1211.1323
Poin penting lainnya adalah memanfaatkan dengan baik kemungkinan untuk mengulangi / mengulangi validasi silang (yang merupakan salah satu alasan terhadap LOO): ini memungkinkan Anda untuk mengukur stabilitas prediksi terhadap gangguan (yaitu beberapa kasus berbeda) dari pelatihan. data.

Literatur:
- Beleites, C. & Salzer, R .: Menilai dan meningkatkan stabilitas model kemometrik dalam situasi ukuran sampel kecil Anal Bioanal Chem, 2008, 390, 1261-1271.
  DOI: 10.1007 / s00216-007-1818-6
- Dixon, SJ; Heinrich, N .; Holmboe, M .; Schaefer, ML; Reed, RR; Trevejo, J. & Brereton, RG: Penerapan metode klasifikasi ketika ukuran kelompok tidak sama dengan memasukkan probabilitas sebelumnya ke tiga pendekatan umum: Aplikasi untuk simulasi dan chemosignals urin tikus, Chemom Intell Lab Syst, 2009, 99, 111-120.
  DOI: 10.1016 / j.chemolab.2009.07.016
Jika Anda memutuskan untuk menjalankan tunggal pada set uji tahan (tidak ada iterasi / pengulangan),
- perlu diingat bahwa sebagian besar kesalahan yang dapat Anda lakukan dengan validasi silang (yang akan mengarah pada bias optimis) juga dapat terjadi dengan set uji tahan.
- periksa lebar interval kepercayaan yang dihasilkan untuk pengukuran kinerja, dan pastikan bahwa ini memungkinkan interpretasi hasil yang bermakna (lihat kertas perencanaan ukuran sampel).

— cbeleites tidak senang dengan SX
sumber

+1 murni untuk saran tentang optimasi parameter dan kompleksitas model. tetapi semua saran ini fantastis.

— charles

1

Mengingat ukuran sampel Anda kecil, praktik yang baik adalah meninggalkan bagian validasi silang dan menggunakan rasio 60 - 40 atau 70 - 30.

Seperti yang dapat Anda lihat di bagian 2.8 dari Pengantar Clementine dan Penambangan Data dan juga di Perpustakaan MSDN - Penambangan Data - Pelatihan dan Perangkat Pengujian , rasio 70 - 30 adalah umum. Menurut Andrew Ng's Machine Learning ceramah 60 - 20 - 20 rasio direkomendasikan.

Semoga saya bisa membantu. Salam Hormat.

— mrdatamx
sumber