Pertanyaan yang diberi tag «data-imputation»

Mengacu pada kelas umum metode yang digunakan untuk "mengisi" data yang hilang. Metode yang digunakan untuk melakukan ini biasanya terkait dengan interpolasi (http://en.wikipedia.org/wiki/Interpolation) dan memerlukan asumsi tentang mengapa data hilang (misalnya "hilang secara acak")

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret dan NAs
Saya sangat suka caret karena kemampuan penyetelan parameter dan antarmuka yang seragam, tetapi saya telah mengamati bahwa selalu membutuhkan set data lengkap (yaitu tanpa NAS) bahkan jika model "telanjang" yang diterapkan memungkinkan NAs. Itu sangat merepotkan, mengingat seseorang harus menerapkan metode imputasi kerja, yang pada awalnya tidak diperlukan. Bagaimana seseorang …

4
Imputasi nilai yang hilang untuk PCA
Saya menggunakan prcomp()fungsi untuk melakukan PCA (analisis komponen utama) di R. Namun, ada bug di fungsi itu sehingga na.actionparameter tidak berfungsi. Saya meminta bantuan pada stackoverflow ; dua pengguna di sana menawarkan dua cara berbeda dalam menangani NAnilai. Namun, masalah dengan kedua solusi tersebut adalah ketika ada NAnilai, baris itu …

3
Cara menggabungkan interval kepercayaan untuk komponen varians dari model efek campuran saat menggunakan beberapa imputasi
Logika multiple imputation (MI) adalah untuk menghitung nilai yang hilang tidak hanya sekali tetapi beberapa kali (biasanya M = 5) kali, menghasilkan set data selesai M. Kumpulan data M lengkap kemudian dianalisis dengan metode data lengkap tempat estimasi M dan kesalahan standarnya digabungkan menggunakan rumus Rubin untuk mendapatkan taksiran "keseluruhan" …



1
Plot kalibrasi pooling setelah beberapa imputasi
Saya ingin saran tentang menyatukan plot / statistik kalibrasi setelah beberapa kali imputasi. Dalam pengaturan pengembangan model statistik untuk memprediksi kejadian di masa depan (misalnya menggunakan data dari catatan rumah sakit untuk memprediksi kelangsungan hidup atau kejadian pasca pemulangan), orang dapat membayangkan ada beberapa informasi yang hilang. Beberapa imputasi adalah …

3
Metode untuk mengatasi masalah data yang hilang dalam pembelajaran mesin
Hampir semua basis data yang ingin kita prediksi menggunakan algoritma pembelajaran mesin akan menemukan nilai yang hilang untuk beberapa karakteristik. Ada beberapa pendekatan untuk mengatasi masalah ini, untuk mengecualikan garis yang memiliki nilai yang hilang sampai mereka mengisi dengan nilai rata-rata dari karakteristik. Saya ingin menggunakan pendekatan yang agak lebih …

5
Paket R KNutasi imputasi
Saya mencari paket imputasi KNN. Saya telah melihat paket imputasi ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) tetapi untuk beberapa alasan fungsi impute KNN (bahkan ketika mengikuti contoh dari deskripsi) hanya tampak untuk memasukkan nilai nol (sesuai di bawah ini). Saya telah melihat-lihat tetapi belum menemukan sesuatu, dan karenanya bertanya-tanya apakah ada yang punya …

2
menggunakan informasi tetangga dalam memasukkan data atau mencari off-data (dalam R)
Saya memiliki dataset dengan asumsi bahwa tetangga terdekat adalah prediktor terbaik. Hanya contoh sempurna dari gradien dua arah divisualisasikan- Misalkan kita memiliki kasus di mana beberapa nilai hilang, kita dapat dengan mudah memprediksi berdasarkan tetangga dan tren. Matriks data yang sesuai dalam R (contoh boneka untuk latihan): miss.mat <- matrix …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoost dapat menangani data yang hilang pada fase perkiraan
Baru-baru ini saya telah meninjau algoritma XGBoost dan saya perhatikan bahwa algoritma ini dapat menangani data yang hilang (tanpa memerlukan imputasi) dalam fase pelatihan. Saya bertanya-tanya apakah XGboost dapat menangani data yang hilang (tanpa memerlukan imputasi) ketika digunakan untuk meramalkan pengamatan baru atau perlu untuk menyalahkan data yang hilang. Terima …

4
Bagaimana cara menangani dengan nilai yang hilang untuk menyiapkan data untuk pemilihan fitur dengan LASSO?
Situasi saya: ukuran sampel kecil: 116 variabel hasil biner daftar panjang variabel penjelas: 44 variabel penjelas tidak datang dari atas kepala saya; pilihan mereka didasarkan pada literatur. kebanyakan kasus dalam sampel dan sebagian besar variabel memiliki nilai yang hilang. Pendekatan untuk pemilihan fitur yang dipilih: LASSO Paket glmnet R tidak …

3
Apa keuntungan dari imputasi dibandingkan membangun banyak model dalam regresi?
Saya bertanya-tanya apakah seseorang dapat memberikan beberapa wawasan jika mengapa imputasi untuk data yang hilang lebih baik daripada hanya membangun model yang berbeda untuk kasus dengan data yang hilang. Terutama dalam kasus model linier [umum] (saya mungkin bisa melihat dalam kasus-kasus non-linear hal-hal berbeda) Misalkan kita memiliki model linier dasar: …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.