Pertanyaan yang diberi tag «resampling»

Resampling mengambil sampel dari sampel. Penggunaan umum adalah jackknifing (mengambil subsampel, misalnya semua nilai kecuali 1) & bootstrap (pengambilan sampel dengan penggantian). Teknik-teknik ini dapat memberikan perkiraan yang kuat dari distribusi sampling ketika akan sulit atau tidak mungkin untuk diturunkan secara analitis.

2
Metode resampling / simulasi: monte carlo, bootstrap, jackknifing, validasi silang, tes pengacakan, dan tes permutasi
Saya mencoba memahami perbedaan antara metode resampling yang berbeda (simulasi Monte Carlo, bootstrap parametrik, bootstrap non-parametrik, jackknifing, validasi silang, tes pengacakan, dan tes permutasi) dan implementasinya dalam konteks saya sendiri menggunakan R. Katakanlah saya memiliki situasi berikut - Saya ingin melakukan ANOVA dengan variabel Y ( Yvar) dan variabel X …

5
Bisakah Anda menyesuaikan diri dengan pelatihan algoritma pembelajaran mesin menggunakan CV / Bootstrap?
Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak. Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini umumnya dilakukan dengan semacam teknik re-sampling (bootstrap, CV dll) agar …


2
Mengapa menggunakan validasi silang bertingkat? Mengapa ini tidak merusak manfaat terkait varians?
Saya telah diberitahu bahwa bermanfaat untuk menggunakan validasi lintas bertingkat terutama ketika kelas respons tidak seimbang. Jika salah satu tujuan validasi silang adalah untuk membantu menjelaskan keacakan sampel data pelatihan asli kami, tentu membuat setiap lipatan memiliki distribusi kelas yang sama akan bekerja melawan hal ini kecuali Anda yakin set …

2
apa asumsi uji permutasi?
Sering dinyatakan bahwa tes permutasi tidak memiliki asumsi, namun ini tentu saja tidak benar. Sebagai contoh jika sampel saya entah bagaimana berkorelasi, saya dapat membayangkan bahwa mengubah label mereka tidak akan menjadi hal yang benar untuk dilakukan. Satu-satunya yang saya temukan tentang masalah ini adalah kalimat dari wikipedia ini: "Asumsi …

2
Metode pengambilan sampel caret
Saya menggunakan perpustakaan caretdi R untuk menguji berbagai prosedur pemodelan. The trainControlobjek memungkinkan seseorang untuk menentukan metode re-sampel. Metode dijelaskan dalam dokumentasi bagian 2.3 dan meliputi: boot, boot632, cv, LOOCV, LGOCV, repeatedcvdan oob. Meskipun beberapa di antaranya mudah disimpulkan, tidak semua metode ini didefinisikan dengan jelas. Apa prosedur yang sesuai …
20 r  resampling  caret 

2
Menguji Klasifikasi pada Data Ketidakseimbangan yang Berlebihan
Saya sedang mengerjakan data yang sangat tidak seimbang. Dalam literatur, beberapa metode digunakan untuk menyeimbangkan kembali data menggunakan re-sampling (over-atau under-sampling). Dua pendekatan yang baik adalah: SMOTE: Tehnik Sintetis Minoritas Berlebih ( SMOTE ) ADASYN: Pendekatan Sampling Sintetis Adaptif untuk Pembelajaran Ketidakseimbangan ( ADASYN ) Saya telah menerapkan ADASYN karena …

2
Tes untuk pengambilan sampel IID
Bagaimana Anda menguji atau memeriksa bahwa pengambilan sampel adalah IID (Independen dan Didistribusikan Secara Identik)? Perhatikan bahwa yang saya maksud bukan Gaussian dan Distributed Identically, hanya IID. Dan ide yang muncul di benak saya adalah berulang kali membagi sampel dalam dua sub-sampel dengan ukuran yang sama, melakukan tes Kolmogorov-Smirnov dan …

2
Apa prosedur untuk "validasi bootstrap" (alias "resampling cross-validation")?
"Bootstrap validation" / "resampling cross-validation" adalah hal baru bagi saya, tetapi telah dibahas oleh jawaban untuk pertanyaan ini . Saya mengumpulkannya melibatkan 2 jenis data: data nyata dan data simulasi, di mana satu set data simulasi yang dihasilkan dihasilkan dari data nyata dengan resampling-dengan-penggantian sampai data simulasi memiliki ukuran yang …


1
Apakah metode resampling time-series ini dikenal dalam literatur? Apakah itu mempunyai nama?
Saya baru-baru ini mencari cara untuk menguji ulang deret waktu, dengan cara itu Kira-kira mempertahankan auto-korelasi proses memori yang panjang. Pertahankan domain pengamatan (misalnya serangkaian bilangan bulat kali yang di-resampel masih berupa deretan bilangan bulat). Dapat memengaruhi beberapa skala saja, jika diperlukan. Saya datang dengan skema permutasi berikut untuk serangkaian …


1
Apakah pemusatan diperlukan saat bootstrap berarti sampel?
Saat membaca tentang cara memperkirakan distribusi sampel, berarti saya menemukan metode bootstrap nonparametrik. Rupanya orang dapat memperkirakan distribusi X¯n−μX¯n−μ\bar{X}_n-\mu dengan distribusi X¯∗n-X¯nX¯n∗-X¯n\bar{X}_n^*-\bar{X}_n , di mana menunjukkan rata-rata sampel dari sampel bootstrap.X¯∗nX¯n∗\bar{X}_n^* Pertanyaan saya kemudian adalah: Apakah saya perlu pemusatan? Untuk apa? Tidak bisakah saya memperkirakan oleh ? P ( ˉ …


5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.