Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
Statistik PRESS untuk regresi ridge
Dalam kuadrat terkecil biasa, regresi vektor target terhadap seperangkat prediktor , matriks topi dihitung sebagaiyyyXXX H=X(XtX)−1XtH=X(XtX)−1XtH = X (X^tX)^{-1} X^t dan PRESS (prediksi jumlah residu kuadrat) dihitung oleh SSP=∑i(ei1−hii)2SSP=∑i(ei1−hii)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 di mana adalah residu ke- dan adalah elemen diagonal dari matriks topi.eieie_iiiihiihiih_{ii} Dalam regresi ridge dengan koefisien …


1
Bagaimana cara mendapatkan hiperparameter optimal setelah validasi silang bersarang?
Secara umum, jika kita memiliki dataset besar, kita dapat membaginya menjadi (1) pelatihan, (2) validasi, dan (3) tes. Kami menggunakan validasi untuk mengidentifikasi hyperparameter terbaik dalam validasi silang (misalnya, C dalam SVM) dan kemudian kami melatih model menggunakan hyperparameter terbaik dengan set pelatihan dan menerapkan model yang terlatih untuk menguji …

1
Bagaimana cara menginterpretasikan plot cv.glmnet ()?
Saya melakukan laso dan kemudian meninggalkan validasi silang keluar-keluar cv<-cv.glmnet(df, df$Price, nfolds = 1500) Ketika saya merencanakan cv saya mendapatkan yang berikut: Saya juga memperhatikan bahwa saya mendapatkan 2 lambda berbeda: lambda.mindanlambda.1se Apa perbedaan antara lambda ini? Apa yang bisa saya pahami dari plot di atas secara umum (apa interval …

3
Penghentian awal vs validasi silang
Saat ini saya menggunakan penghentian awal dalam pekerjaan saya untuk mencegah pemasangan yang berlebihan. Khususnya yang diambil dari Early Stopping But When? . Saya sekarang ingin membandingkan dengan algoritma klasifikasi lain di mana tampak bahwa 10 kali validasi silang digunakan secara luas. Namun saya bingung tentang apakah validasi silang adalah …

1
Validasi silang dengan regresi smoothing nonparametric
Ketika saya menggunakan model-model regresi, saya merasa curiga untuk gagal dalam asumsi asosiasi linier; sebaliknya saya ingin mengeksplorasi bentuk fungsional hubungan antara variabel dependen dan penjelas menggunakan regresi smoothing nonparametric (misalnya model aditif umum , lowess / lowess , running line smoothers , dll.) sebelum memperkirakan model parametrik menggunakan, jika …


2
Berurusan dengan kinerja yang baik pada data pelatihan dan validasi, tetapi kinerja yang sangat buruk pada pengujian data
Saya memiliki masalah regresi dengan variabel 5-6k. Saya membagi data saya menjadi 3 set yang tidak tumpang tindih: pelatihan, validasi, dan pengujian. Saya melatih hanya menggunakan set pelatihan, dan menghasilkan banyak model regresi linier yang berbeda dengan memilih serangkaian 200 variabel yang berbeda untuk masing-masing model (saya mencoba sekitar 100k …


6
Apakah menggunakan data yang sama untuk pemilihan fitur dan validasi silang bias atau tidak?
Kami memiliki kumpulan data kecil (sekitar 250 sampel * 100 fitur) yang kami inginkan untuk membangun klasifikasi biner setelah memilih subset fitur terbaik. Katakanlah bahwa kita mempartisi data menjadi: Pelatihan, Validasi dan Pengujian Untuk pemilihan fitur, kami menerapkan model pembungkus berdasarkan pada pemilihan fitur yang mengoptimalkan kinerja pengklasifikasi X, Y …

3
Bisakah saya melakukan pencarian lengkap dengan validasi silang untuk pemilihan fitur?
Saya telah membaca beberapa posting tentang pemilihan fitur dan validasi silang tetapi saya masih memiliki pertanyaan tentang prosedur yang benar. Misalkan saya memiliki dataset dengan 10 fitur dan saya ingin memilih fitur terbaik. Anggap saya menggunakan pengelompokan tetangga terdekat. Dapatkah saya melakukan pencarian lengkap menggunakan validasi silang untuk memperkirakan tingkat …

1
Jack-knife dengan model deret waktu
pengantar Saya bertujuan untuk memperkirakan tingkat pertumbuhan tahunan untuk sejumlah indikator ekonomi makro (dilambangkan oleh ). Salah satu tugas adalah untuk menguji kinerja peramalan model deret waktu saingan dengan dan tanpa variabel eksogen ( , a matrix). Daftar model pesaing meliputi:YtYtY_tXtXtX_tT×kT×kT\times k Model AR (I) MA (tingkat pertumbuhan tahunan tidak …

3
Mendukung regresi vektor pada data miring / kurtosis tinggi
Saya menggunakan dukungan vektor regresi untuk memodelkan beberapa data yang cukup miring (dengan kurtosis tinggi). Saya sudah mencoba memodelkan data secara langsung tetapi saya mendapatkan prediksi yang salah, saya pikir terutama karena distribusi data, yang condong ke kanan dengan ekor yang sangat gemuk. Saya cukup yakin beberapa outlier (yang merupakan …

2
SVM rbf kernel - metode heuristik untuk memperkirakan gamma
Saya membaca tentang pertukaran ini metode heuristik untuk memperkirakan gamma untuk kernel rbf di SVM. Saya bertanya-tanya apakah seseorang mungkin bisa menjelaskannya kepada saya dengan sedikit lebih detail? Saya percaya Anda memilih 1000 (atau sejumlah besar) pasang titik data dari dataset kemudian menghitung norma untuk perbedaan masing-masing pasangan. Rupanya, kebalikan …

2
k-lipat CV dari peramalan seri waktu keuangan - apakah kinerja pada lipatan terakhir lebih relevan?
Saya sedang mengerjakan model peramalan berbasis JST untuk seri waktu keuangan. Saya menggunakan validasi silang 5 kali lipat dan kinerja rata-rata begitu. Kinerja pada flip terakhir (iterasi di mana segmen terakhir dihilangkan dari pelatihan dan digunakan untuk validasi) lebih baik daripada rata-rata. Apakah ini kebetulan / bergantung pada data, atau …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.