Pertanyaan yang diberi tag «multiple-imputation»

Beberapa imputasi mengacu pada serangkaian rutinitas imputasi stokastik yang bertujuan untuk mempertahankan fitur multivariat data

5
Cara menangani data hierarkis / bersarang dalam pembelajaran mesin
Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …

4
Beberapa imputasi dan pemilihan model
Beberapa imputasi cukup mudah ketika Anda memiliki model linear apriori yang ingin Anda perkirakan. Namun, hal-hal tampaknya menjadi sedikit lebih rumit ketika Anda benar-benar ingin melakukan pemilihan model (misalnya menemukan variabel prediktor "terbaik" dari variabel kandidat yang lebih besar - saya sedang berpikir secara khusus tentang LASSO dan polinomial pecahan …


2
Beberapa imputasi untuk variabel hasil
Saya punya dataset tentang uji coba pertanian. Variabel respons saya adalah rasio respons: log (pengobatan / kontrol). Saya tertarik pada apa yang memediasi perbedaan, jadi saya menjalankan RE meta-regresi (tidak berbobot, karena tampaknya cukup jelas bahwa ukuran efek tidak berkorelasi dengan varian perkiraan). Setiap studi melaporkan hasil gabah, hasil biomassa, …

1
Plot kalibrasi pooling setelah beberapa imputasi
Saya ingin saran tentang menyatukan plot / statistik kalibrasi setelah beberapa kali imputasi. Dalam pengaturan pengembangan model statistik untuk memprediksi kejadian di masa depan (misalnya menggunakan data dari catatan rumah sakit untuk memprediksi kelangsungan hidup atau kejadian pasca pemulangan), orang dapat membayangkan ada beberapa informasi yang hilang. Beberapa imputasi adalah …

2
menggunakan informasi tetangga dalam memasukkan data atau mencari off-data (dalam R)
Saya memiliki dataset dengan asumsi bahwa tetangga terdekat adalah prediktor terbaik. Hanya contoh sempurna dari gradien dua arah divisualisasikan- Misalkan kita memiliki kasus di mana beberapa nilai hilang, kita dapat dengan mudah memprediksi berdasarkan tetangga dan tren. Matriks data yang sesuai dalam R (contoh boneka untuk latihan): miss.mat <- matrix …

5
Beberapa imputasi untuk nilai yang hilang
Saya ingin menggunakan imputasi untuk mengganti nilai yang hilang dalam kumpulan data saya di bawah batasan tertentu. Sebagai contoh, saya ingin variabel yang diperhitungkan x1menjadi lebih besar atau sama dengan jumlah dari dua variabel saya yang lain, katakan x2dan x3. Saya juga ingin x3diperhitungkan oleh salah satu 0atau >= 14dan …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Bagaimana saya bisa menyatukan nilai-p bootstrap di seluruh set data yang dilipatgandakan?
Saya prihatin dengan masalah yang ingin saya bootstrap nilai-p untuk estimasi dari data multiply imputed (MI), tetapi tidak jelas bagi saya bagaimana menggabungkan nilai-p di seluruh set MI.θθ\theta Untuk set data MI, pendekatan standar untuk mendapatkan total varian estimasi menggunakan aturan Rubin. Lihat di sini untuk ulasan tentang kumpulan data …

2
Bagaimana cara mendapatkan nilai-p yang dikumpulkan pada tes yang dilakukan dalam beberapa dataset imputed?
Dengan menggunakan Amelia di R, saya memperoleh beberapa dataset yang terkait. Setelah itu, saya melakukan tes tindakan berulang di SPSS. Sekarang, saya ingin menggabungkan hasil tes. Saya tahu bahwa saya dapat menggunakan aturan Rubin (diimplementasikan melalui beberapa paket imputasi dalam R) untuk menyatukan sarana dan kesalahan standar, tetapi bagaimana cara …

1
"Minor utama urutan 1 tidak pasti positif" kesalahan menggunakan 2l.norm pada tikus
Saya mengalami masalah menggunakan 2l.normmetode imputasi bertingkat di mice. Sayangnya saya tidak dapat memposting contoh yang dapat direproduksi karena ukuran data saya - ketika saya mengurangi ukurannya, masalahnya hilang. Untuk variabel tertentu, micebuat kesalahan dan peringatan berikut: Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : the leading minor of order …


2
Lmer dengan data yang dimasukkan multiply
Bagaimana saya bisa mendapatkan efek acak dikumpulkan untuk lmer setelah beberapa kali imputasi? Saya menggunakan mouse untuk menghubungkan beberapa frame data. Dan lme4 untuk model campuran dengan intersep acak dan kemiringan acak. Pooling lmer baik-baik saja, kecuali bahwa itu tidak mengumpulkan efek acak. Saya telah mencari banyak solusi tanpa keberuntungan. …

2
Cara meningkatkan waktu berjalan untuk imputasi data R MICE
Singkatnya pertanyaan saya: apakah ada metode untuk meningkatkan waktu berjalan R MICE (data imputasi)? Saya bekerja dengan satu set data (30 variabel, 1,3 juta baris) yang berisi (secara acak) data yang hilang. Sekitar 8% dari pengamatan di sekitar 15 dari 30 variabel mengandung NAs. Untuk memasukkan data yang hilang, saya …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.