Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
Variansi silang validasi keluar satu keluar yang tinggi
Saya membaca berulang-ulang bahwa validasi silang "Leave-one-out" memiliki varian yang tinggi karena tumpang tindih yang besar dari lipatan pelatihan. Namun saya tidak mengerti mengapa itu adalah: Tidak seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set pelatihan hampir identik? Atau apakah saya memiliki pemahaman yang salah tentang …

1
Bagaimana jika akurasi validasi tinggi tetapi akurasi tes rendah dalam penelitian?
Saya memiliki pertanyaan spesifik tentang validasi dalam penelitian pembelajaran mesin. Seperti yang kita ketahui, rezim pembelajaran mesin meminta para peneliti untuk melatih model mereka pada data pelatihan, memilih dari model kandidat dengan set validasi, dan melaporkan akurasi pada set tes. Dalam studi yang sangat ketat, set tes hanya dapat digunakan …


3
Bagaimana memilih jumlah optimal faktor laten dalam faktorisasi matriks non-negatif?
Dengan matriks , Factorisasi Matriks Non-negatif (NMF) menemukan dua matriks non-negatif dan ( yaitu dengan semua elemen ) untuk mewakili matriks yang diuraikan sebagai:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, misalnya dengan mensyaratkan bahwa dan yang non-negatif meminimalkan kesalahan rekonstruksiWW\mathbf …

1
Metode perbandingan multipel mana yang digunakan untuk model lmer: lsmeans atau glht?
Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya melakukan uji rasio kemungkinan model ini terhadap model tanpa efek tetap (kondisi) dan memiliki perbedaan yang signifikan. Ada …

2
Mengapa fungsi bootstrap scikit-learn membuat ulang set tes?
Saat menggunakan bootstrap untuk evaluasi model, saya selalu berpikir sampel out-of-bag langsung digunakan sebagai set tes. Namun, ini tampaknya tidak menjadi kasus untuk pendekatan scikit-learning yang sudah ketinggalan zamanBootstrap , yang tampaknya membangun set tes dari menggambar dengan penggantian dari subset data out-of-bag. Apa alasan statistik di balik ini? Adakah …

3
Bagaimana cara melakukan augmentasi data dan memvalidasi train?
Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin. Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise. Augmentaion dilakukan secara offline. Mana cara yang benar untuk …


4
Apa saja studi kasus dalam penelitian kebijakan kesehatan publik di mana studi atau model yang tidak dapat diandalkan / membingungkan / tidak valid disalahgunakan?
Saya sedang menyusun tinjauan literatur tentang masalah kesehatan masyarakat saat ini di mana data dikacaukan: Apa saja studi kasus sejarah umum yang digunakan dalam pendidikan kesehatan / epidemiologi publik di mana hubungan atau kesimpulan yang tidak benar atau membingungkan secara sengaja atau keliru dipekerjakan dalam kebijakan dan legislasi kesehatan masyarakat? …

2
Optimalisasi: Akar semua kejahatan dalam statistik?
Saya telah mendengar ungkapan berikut sebelumnya: "Optimasi adalah akar dari semua kejahatan dalam statistik". Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model. Pertanyaan pertama saya adalah sebagai berikut: Apakah kutipan ini disebabkan oleh orang tertentu? (misalnya dalam literatur statistik) …

6
Cara membagi set data untuk melakukan validasi silang 10 kali lipat
Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Sekarang saya memiliki Rkerangka data (pelatihan), adakah yang bisa memberi tahu saya cara membagi set data ini secara acak untuk melakukan validasi silang 10 kali lipat?

3
Apa fungsi biaya dalam cv.glm dalam paket boot R?
Saya sedang melakukan validasi silang menggunakan metode leave-one-out. Saya memiliki respons biner dan saya menggunakan paket boot untuk R, dan fungsi cv.glm . Masalah saya adalah saya tidak sepenuhnya memahami bagian "biaya" dalam fungsi ini. Dari apa yang saya mengerti ini adalah fungsi yang memutuskan apakah nilai estimasi harus diklasifikasikan …

2
Memesan seri waktu untuk pembelajaran mesin
Setelah membaca salah satu "Tip penelitian" RJ Hyndman tentang validasi silang dan rangkaian waktu, saya kembali ke pertanyaan lama saya yang akan saya coba rumuskan di sini. Idenya adalah bahwa dalam masalah klasifikasi atau regresi, pemesanan data tidak penting, dan karenanya k- lipatan validasi silang dapat digunakan. Di sisi lain, …

2
Scikit cara yang benar untuk mengkalibrasi pengklasifikasi dengan CalibratedClassifierCV
Scikit memiliki CalibratedClassifierCV , yang memungkinkan kita untuk mengkalibrasi model kita pada pasangan X, y tertentu. Ini juga menyatakan dengan jelas itudata for fitting the classifier and for calibrating it must be disjoint. Jika mereka harus dipisahkan, apakah sah untuk melatih pengklasifikasi dengan yang berikut? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.