Validasi silang dalam dimensi sangat tinggi (untuk memilih jumlah variabel yang digunakan dalam klasifikasi dimensi sangat tinggi)


8

Pertanyaan saya adalah tentang validasi silang ketika ada lebih banyak variabel daripada pengamatan. Untuk memperbaiki ide, saya mengusulkan untuk membatasi kerangka klasifikasi dalam dimensi yang sangat tinggi (lebih banyak fitur daripada pengamatan).

Masalah: Asumsikan bahwa untuk setiap variabel Anda memiliki ukuran kepentingan daripada secara tepat mengukur minat fitur untuk masalah klasifikasi. Masalah memilih subset fitur untuk mengurangi secara optimal kesalahan klasifikasi kemudian dikurangi menjadi menemukan jumlah fitur.i=1,,pT[i]i

Pertanyaan: Apa cara paling efisien untuk menjalankan validasi silang dalam kasus ini (skema validasi silang)? Pertanyaan saya bukan tentang bagaimana menulis kode tetapi pada versi validasi silang untuk digunakan ketika mencoba menemukan jumlah fitur yang dipilih (untuk meminimalkan kesalahan klasifikasi) tetapi bagaimana menangani dimensi tinggi ketika melakukan validasi silang (karenanya masalah di atas mungkin sedikit seperti 'masalah mainan' untuk membahas CV dalam dimensi tinggi).

Notasi: adalah ukuran set pembelajaran, p jumlah fitur (yaitu dimensi ruang fitur). Dimensi yang sangat tinggi maksud saya p >> n (misalnya dan ).np=10000n=100


Tapi tetap saja, apa yang ingin Anda ukur dengan CV dan untuk tujuan apa? Untuk mendapatkan cutoff nomor atribut?

@ MBb: terima kasih atas sarannya. Saya telah mengedit pertanyaan yang sesuai, semoga sekarang lebih jelas!
robin girard

Jawaban:


6

Anda melewatkan satu masalah penting - hampir tidak pernah ada yang namanya T [i]. Pikirkan masalah sederhana di mana jumlah dua atribut (dengan amplitudo yang sama) penting; jika Anda akan menghapus salah satu dari mereka, yang lain penting akan tiba-tiba turun. Juga, sejumlah besar atribut yang tidak relevan adalah akurasi dari sebagian besar pengklasifikasi, sehingga sepanjang kemampuan mereka untuk menilai kepentingan. Last but not least, algoritma stokastik akan mengembalikan hasil stokastik, dan bahkan peringkat T [i] bisa tidak stabil. Jadi pada prinsipnya Anda setidaknya harus menghitung ulang T [i] setelah masing-masing (atau setidaknya setelah masing-masing atribut non-redundan) dihapus.

Kembali ke topik, pertanyaan yang dipilih CV sebagian besar tergantung masalah; dengan jumlah kasus yang sangat kecil, LOO mungkin merupakan pilihan terbaik karena semua yang lain mulai berkurang; masih kecil agak n = 10 bukan n = 100. Jadi saya hanya akan merekomendasikan subsampling acak (yang paling sering saya gunakan) atau K-lipat (kemudian dengan menciptakan split pada setiap langkah). Namun, Anda juga harus mengumpulkan tidak hanya berarti tetapi juga standar deviasi dari perkiraan kesalahan; ini dapat digunakan untuk (kurang-lebih) menilai perubahan rata-rata yang signifikan dan membantu Anda memutuskan kapan harus menghentikan proses.


mengatakan "Anda melewatkan satu masalah penting - hampir tidak pernah ada yang namanya T [i]" Saya ingin jawaban untuk fokus pada masalah memilih jumlah variabel. Konstruksi (yang saya setuju tidak sempurna) dari T [i] dibahas di sini stats.stackexchange.com/questions/490/... Kadang-kadang, juga berguna untuk membahas masalah secara terpisah.
robin girard

1
@robin Tapi di sini Anda tidak dapat memisahkannya. Algoritma yang paling banyak menyebutkan dalam pertanyaan itu dibuat untuk mengatasi masalah ini - seleksi ke depan adalah untuk menghapus fitur yang berkorelasi, eliminasi mundur adalah untuk menstabilkan ukuran yang penting, mcmc adalah untuk memasukkan fitur yang berkorelasi ...

@robin ide membuat beberapa ukuran penting yang tepat adalah dasar untuk apa yang disebut algoritma filter yang sekarang sebagian besar ditinggalkan karena mereka terlalu lemah. Mereka memiliki keunggulan bahwa mereka secara komputasi murah, tetap ini tidak sepadan.

0

Itu pertanyaan yang bagus, dan itu cenderung lebih mengenai apa yang disebut rata-rata pembelajar dan model percontohan (saya akan memberikan tautan di bawah):

Ketika Anda berada dalam pengaturan dimensi tinggi, stabilitas solusi Anda (yaitu, fitur / variabel apa yang dipilih) mungkin kurang karena model individual dapat memilih 1 di antara banyak variabel linier, yang dapat ditukar yang oleh-dan-besar membawa sinyal yang sama ( salah satu dari banyak alasan). Di bawah ini adalah beberapa strategi tentang bagaimana mengatasinya.

Dalam model bayesian rata - rata misalnya,

Hoeting, Jennifer A., ​​et al. "Model Bayesian rata-rata: tutorial." Ilmu statistik (1999): 382-401.

Anda membangun banyak model (katakanlah 100), dan masing-masing dibangun dengan subset dari fitur asli. Kemudian, masing-masing model menentukan mana dari variabel yang dilihatnya signifikan, dan masing-masing model ditimbang oleh kemungkinan data, memberi Anda ringkasan yang bagus tentang bagaimana "menilai" efektivitas variabel dalam semacam 'validasi silang ". Anda tahu a-apriori bahwa beberapa fitur sangat berkorelasi, Anda dapat menginduksi skema pengambilan sampel sehingga mereka tidak pernah dipilih bersama-sama (atau jika Anda memiliki struktur blok-korelasi maka Anda memilih elemen blok yang berbeda dalam matriks varians-kovarians Anda)

Dalam pengaturan jenis pembelajaran mesin : lihat "pilihan fitur ensemble". Tulisan ini (satu contoh)

Neumann, Ursula, Nikita Genze, dan Dominik Heider. "EFS: alat pemilihan fitur ensemble yang diimplementasikan sebagai paket-R dan aplikasi web." Penambangan BioData 10.1 (2017): 21.

menentukan signifikansi fitur dari berbagai metrik "penting" untuk menentukan pilihan fitur terakhir.

Saya akan mengatakan bahwa rute pembelajaran mesin mungkin lebih baik model linear b / c (pemilihan fitur / w) jenuh pada p = nb / c dari formulasi ulang optimasi mereka (lihat posting ini Jika p> n, laso memilih paling banyak n variabel ). Tetapi selama Anda dapat mendefinisikan dan membenarkan kriteria objektif yang baik tentang bagaimana Anda 'memvalidasi silang' pilihan fitur, maka Anda akan memulai dengan awal yang baik.

Semoga ini membantu!

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.