Statistik dan Big Data cross-validation

3

Kurva ROC untuk pengklasifikasi diskrit seperti SVM: Mengapa kita masih menyebutnya "kurva", bukan hanya "titik"?

Dalam diskusi: bagaimana membuat kurva roc untuk klasifikasi biner , saya pikir kebingungannya adalah "binary classifier" (yang mana setiap classifier yang memisahkan 2 kelas) adalah untuk Yang yang disebut "discrete classifier" (yang menghasilkan keluaran diskrit 0/1 seperti SVM) dan bukan keluaran kontinu seperti pengklasifikasi JST atau Bayes ... dll. Jadi, …

25 cross-validation roc auc

1

Bagaimana cara validasi silang keluar satu kali bekerja? Bagaimana cara memilih model akhir dari model yang berbeda?

Saya memiliki beberapa data dan saya ingin membangun model (katakanlah model regresi linier) dari data ini. Pada langkah berikutnya, saya ingin menerapkan Validasi Cuti-Sekali-Keluar (LOOCV) pada model jadi lihat seberapa bagus kinerjanya. Jika saya mengerti LOOCV benar, saya membangun model baru untuk setiap sampel saya (set tes) menggunakan setiap sampel …

25 cross-validation

2

10 kali lipat Cross-validation vs valid-one-out cross-validation

Saya sedang melakukan validasi silang bersarang. Saya telah membaca bahwa validasi silang tinggalkan satu dapat bias (tidak ingat mengapa). Apakah lebih baik menggunakan 10 kali lipat cross-validasi atau cuti-satu-out cross-validasi terpisah dari runtime lebih lama untuk cuti-satu-out cross-validasi?

25 machine-learning cross-validation

3

Validasi silang atau bootstrap untuk mengevaluasi kinerja klasifikasi?

Apa metode pengambilan sampel yang paling tepat untuk mengevaluasi kinerja classifier pada set data tertentu dan membandingkannya dengan classifier lain? Cross-validasi tampaknya menjadi praktik standar, tetapi saya telah membaca bahwa metode seperti .632 bootstrap adalah pilihan yang lebih baik. Sebagai tindak lanjut: Apakah pilihan metrik kinerja memengaruhi jawaban (jika saya …

24 machine-learning classification predictive-models cross-validation bootstrap

1

Siapa yang menemukan validasi silang k-fold?

Saya mencari referensi ke makalah di mana validasi silang k-fold diperkenalkan (bukan hanya referensi akademis yang baik untuk subjek). Mungkin terlalu jauh ke belakang dalam kabut waktu untuk secara gamblang mengidentifikasi kertas pertama, sehingga setiap makalah awal di mana ide itu digunakan akan menarik. Yang paling awal saya sadari adalah …

24 cross-validation references

2

Mengapa lambda “dalam satu kesalahan standar dari minimum” adalah nilai yang direkomendasikan untuk lambda dalam regresi jaring elastis?

Saya mengerti apa peran lambda dalam regresi elastis-bersih. Dan saya bisa mengerti mengapa orang akan memilih lambda.min, nilai lambda yang meminimalkan kesalahan divalidasi silang. Pertanyaan saya adalah Di mana dalam literatur statistik direkomendasikan untuk menggunakan lambda.1se, yaitu nilai lambda yang meminimalkan kesalahan CV ditambah satu kesalahan standar ? Sepertinya saya …

24 regression cross-validation regularization glmnet elastic-net

1

Validasi silang (CV) dan statistik validasi silang umum (GCV)

Saya telah menemukan kemungkinan definisi yang bertentangan untuk statistik validasi silang (CV) dan untuk statistik validasi silang umum (GCV) yang terkait dengan model linier Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon (dengan vektor kesalahan homoseksual yang normal εε\boldsymbol\varepsilon ). Di satu sisi, Golub, Heath & Wahba mendefinisikan estimasi GCV λ^λ^\hat{\lambda} sebagai (hlm. …

23 cross-validation

3

Apa model peramalan umum yang dapat dilihat sebagai kasus khusus model ARIMA?

Pagi ini saya terbangun dengan bertanya-tanya (ini mungkin disebabkan oleh kenyataan bahwa tadi malam saya tidak banyak tidur): karena validasi silang tampaknya menjadi landasan peramalan seri waktu yang tepat, model apa yang harus saya "normalkan" "validasi silang terhadap? Saya datang dengan beberapa (mudah), tetapi saya segera menyadari bahwa mereka semua …

23 time-series cross-validation arima

3

AIC versus validasi silang dalam seri waktu: kasus sampel kecil

Saya tertarik pada pemilihan model dalam pengaturan deret waktu. Untuk konkret, anggaplah saya ingin memilih model ARMA dari kumpulan model ARMA dengan pesanan lag yang berbeda. Maksud utamanya adalah perkiraan . Pemilihan model dapat dilakukan oleh validasi silang, penggunaan kriteria informasi (AIC, BIC), antara metode lainnya. Rob J. Hyndman menyediakan …

23 time-series forecasting cross-validation model-selection aic

4

Mengapa peneliti menggunakan validasi silang 10 kali lipat alih-alih menguji pada set validasi?

Saya telah membaca banyak makalah penelitian tentang klasifikasi sentimen dan topik terkait. Sebagian besar dari mereka menggunakan validasi silang 10 kali lipat untuk melatih dan menguji pengklasifikasi. Itu berarti tidak ada pengujian / validasi terpisah yang dilakukan. Mengapa demikian? Apa keuntungan / kerugian dari pendekatan ini, terutama bagi mereka yang …

23 classification cross-validation

3

Model stabilitas ketika berhadapan dengan besar , kecil masalah

Pengantar: Saya memiliki dataset dengan "p besar, n kecil masalah" klasik. Jumlah sampel yang tersedia n = 150 sedangkan jumlah prediktor yang mungkin p = 400. Hasilnya adalah variabel kontinu. Saya ingin menemukan deskriptor yang paling "penting", yaitu, yang merupakan kandidat terbaik untuk menjelaskan hasil dan membantu membangun teori. Setelah …

22 regression cross-validation model-selection feature-selection elastic-net

2

Bagaimana model efek campuran harus dibandingkan dan atau divalidasi?

Bagaimana model efek campuran (linier) secara normal dibandingkan satu sama lain? Saya tahu tes rasio kemungkinan dapat digunakan, tetapi ini tidak berhasil jika satu model bukan 'bagian' dari yang lain yang benar? Apakah estimasi model selalu mudah? Jumlah efek tetap + jumlah komponen varian diperkirakan? Apakah kita mengabaikan perkiraan efek …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

2

Pendekatan terbaik untuk pemilihan model Bayesian atau validasi silang?

Ketika mencoba untuk memilih di antara berbagai model atau sejumlah fitur untuk disertakan, katakan prediksi saya dapat memikirkan dua pendekatan. Membagi data menjadi pelatihan dan set tes. Lebih baik lagi, gunakan bootstrap atau k-fold cross-validation. Latihlah set latihan setiap kali dan hitung kesalahan dari set tes. Plot test error vs. …

22 bayesian model-selection cross-validation feature-selection

5

Bagaimana cara membagi dataset untuk prediksi deret waktu?

Saya memiliki data penjualan bersejarah dari toko roti (setiap hari, lebih dari 3 tahun). Sekarang saya ingin membuat model untuk memprediksi penjualan di masa depan (menggunakan fitur seperti hari kerja, variabel cuaca, dll.). Bagaimana saya harus membagi dataset untuk pemasangan dan evaluasi model? Apakah perlu kronologis kereta / validasi / …

22 cross-validation partitioning

2

Memilih alpha optimal dalam regresi logistik net elastis

Saya melakukan regresi logistik elastis-bersih pada set data perawatan kesehatan menggunakan glmnetpaket dalam R dengan memilih nilai lambda pada kisi dari 0 hingga 1. Kode singkat saya di bawah ini:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} yang menampilkan …

22 machine-learning cross-validation glmnet elastic-net

Pertanyaan yang diberi tag «cross-validation»