Statistik dan Big Data cross-validation

2

Variansi silang validasi keluar satu keluar yang tinggi

Saya membaca berulang-ulang bahwa validasi silang "Leave-one-out" memiliki varian yang tinggi karena tumpang tindih yang besar dari lipatan pelatihan. Namun saya tidak mengerti mengapa itu adalah: Tidak seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set pelatihan hampir identik? Atau apakah saya memiliki pemahaman yang salah tentang …

15 variance cross-validation bias

1

Bagaimana jika akurasi validasi tinggi tetapi akurasi tes rendah dalam penelitian?

Saya memiliki pertanyaan spesifik tentang validasi dalam penelitian pembelajaran mesin. Seperti yang kita ketahui, rezim pembelajaran mesin meminta para peneliti untuk melatih model mereka pada data pelatihan, memilih dari model kandidat dengan set validasi, dan melaporkan akurasi pada set tes. Dalam studi yang sangat ketat, set tes hanya dapat digunakan …

15 machine-learning cross-validation reproducible-research

2

Jackknife vs LOOCV

Apakah benar-benar ada perbedaan antara jackknife dan meninggalkan satu validasi silang? Prosedurnya terlihat sama, apakah saya melewatkan sesuatu?

15 cross-validation jackknife

3

Bagaimana memilih jumlah optimal faktor laten dalam faktorisasi matriks non-negatif?

Dengan matriks , Factorisasi Matriks Non-negatif (NMF) menemukan dua matriks non-negatif dan ( yaitu dengan semua elemen ) untuk mewakili matriks yang diuraikan sebagai:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, misalnya dengan mensyaratkan bahwa dan yang non-negatif meminimalkan kesalahan rekonstruksiWW\mathbf …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

1

Metode perbandingan multipel mana yang digunakan untuk model lmer: lsmeans atau glht?

Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya melakukan uji rasio kemungkinan model ini terhadap model tanpa efek tetap (kondisi) dan memiliki perbedaan yang signifikan. Ada …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Mengapa fungsi bootstrap scikit-learn membuat ulang set tes?

Saat menggunakan bootstrap untuk evaluasi model, saya selalu berpikir sampel out-of-bag langsung digunakan sebagai set tes. Namun, ini tampaknya tidak menjadi kasus untuk pendekatan scikit-learning yang sudah ketinggalan zamanBootstrap , yang tampaknya membangun set tes dari menggambar dengan penggantian dari subset data out-of-bag. Apa alasan statistik di balik ini? Adakah …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

Bagaimana cara melakukan augmentasi data dan memvalidasi train?

Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin. Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise. Augmentaion dilakukan secara offline. Mana cara yang benar untuk …

14 machine-learning classification cross-validation dataset data-augmentation

3

Pelatihan, pengujian, validasi dalam masalah analisis kelangsungan hidup

Saya telah menjelajahi berbagai utas di sini, tetapi saya rasa pertanyaan saya yang sebenarnya tidak dijawab. Saya memiliki dataset ~ 50.000 siswa dan waktu mereka untuk putus sekolah. Saya akan melakukan regresi bahaya proporsional dengan sejumlah besar kovariat potensial. Saya juga akan melakukan regresi logistik pada dropout / tetap masuk. …

14 cross-validation survival train

4

Apa saja studi kasus dalam penelitian kebijakan kesehatan publik di mana studi atau model yang tidak dapat diandalkan / membingungkan / tidak valid disalahgunakan?

Saya sedang menyusun tinjauan literatur tentang masalah kesehatan masyarakat saat ini di mana data dikacaukan: Apa saja studi kasus sejarah umum yang digunakan dalam pendidikan kesehatan / epidemiologi publik di mana hubungan atau kesimpulan yang tidak benar atau membingungkan secara sengaja atau keliru dipekerjakan dalam kebijakan dan legislasi kesehatan masyarakat? …

14 cross-validation reliability epidemiology biostatistics

2

Optimalisasi: Akar semua kejahatan dalam statistik?

Saya telah mendengar ungkapan berikut sebelumnya: "Optimasi adalah akar dari semua kejahatan dalam statistik". Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model. Pertanyaan pertama saya adalah sebagai berikut: Apakah kutipan ini disebabkan oleh orang tertentu? (misalnya dalam literatur statistik) …

14 cross-validation optimization overfitting

6

Cara membagi set data untuk melakukan validasi silang 10 kali lipat

Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Sekarang saya memiliki Rkerangka data (pelatihan), adakah yang bisa memberi tahu saya cara membagi set data ini secara acak untuk melakukan validasi silang 10 kali lipat?

14 cross-validation

3

Apa fungsi biaya dalam cv.glm dalam paket boot R?

Saya sedang melakukan validasi silang menggunakan metode leave-one-out. Saya memiliki respons biner dan saya menggunakan paket boot untuk R, dan fungsi cv.glm . Masalah saya adalah saya tidak sepenuhnya memahami bagian "biaya" dalam fungsi ini. Dari apa yang saya mengerti ini adalah fungsi yang memutuskan apakah nilai estimasi harus diklasifikasikan …

14 r cross-validation

2

Memesan seri waktu untuk pembelajaran mesin

Setelah membaca salah satu "Tip penelitian" RJ Hyndman tentang validasi silang dan rangkaian waktu, saya kembali ke pertanyaan lama saya yang akan saya coba rumuskan di sini. Idenya adalah bahwa dalam masalah klasifikasi atau regresi, pemesanan data tidak penting, dan karenanya k- lipatan validasi silang dapat digunakan. Di sisi lain, …

14 time-series machine-learning cross-validation

2

Scikit cara yang benar untuk mengkalibrasi pengklasifikasi dengan CalibratedClassifierCV

Scikit memiliki CalibratedClassifierCV , yang memungkinkan kita untuk mengkalibrasi model kita pada pasangan X, y tertentu. Ini juga menyatakan dengan jelas itudata for fitting the classifier and for calibrating it must be disjoint. Jika mereka harus dipisahkan, apakah sah untuk melatih pengklasifikasi dengan yang berikut? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …

14 cross-validation scikit-learn validation train calibration

2

AIC, BIC dan GCV: apa yang terbaik untuk membuat keputusan dalam metode regresi yang dihukum?

Pemahaman umum saya adalah AIC berkaitan dengan pertukaran antara kebaikan model dan kompleksitas model. A IC= 2 k - 2 l n ( L )SEBUAHsayaC=2k-2ln(L)AIC =2k -2ln(L) = jumlah parameter dalam modelkkk = kemungkinanLLL Kriteria informasi Bayesian BIC terkait erat dengan AIC. AIC menghukum jumlah parameter kurang kuat daripada BIC. …

14 cross-validation lasso aic ridge-regression bic

Pertanyaan yang diberi tag «cross-validation»