Pertanyaan yang diberi tag «missing-data»

Ketika data menunjukkan kurangnya informasi (kesenjangan), yaitu, tidak lengkap. Karenanya, penting untuk mempertimbangkan fitur ini saat melakukan analisis atau pengujian.

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 




3
Bagaimana R menangani nilai yang hilang dalam lm?
Saya ingin mundur vektor B terhadap masing-masing kolom dalam matriks A. Ini sepele jika tidak ada data yang hilang, tetapi jika matriks A berisi nilai yang hilang, maka regresi saya terhadap A dibatasi untuk menyertakan hanya baris di mana semua nilai ada ( perilaku default na.omit ). Ini menghasilkan hasil …

3
R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …

3
R caret dan NAs
Saya sangat suka caret karena kemampuan penyetelan parameter dan antarmuka yang seragam, tetapi saya telah mengamati bahwa selalu membutuhkan set data lengkap (yaitu tanpa NAS) bahkan jika model "telanjang" yang diterapkan memungkinkan NAs. Itu sangat merepotkan, mengingat seseorang harus menerapkan metode imputasi kerja, yang pada awalnya tidak diperlukan. Bagaimana seseorang …

5
Algoritma pembelajaran mesin untuk menangani data yang hilang
Saya mencoba mengembangkan model prediksi menggunakan data klinis dimensi tinggi termasuk nilai-nilai laboratorium. Ruang data jarang dengan sampel 5k dan 200 variabel. Idenya adalah untuk memberi peringkat variabel menggunakan metode pemilihan fitur (IG, RF dll) dan menggunakan fitur peringkat teratas untuk mengembangkan model prediksi. Sementara pemilihan fitur berjalan baik dengan …

2
Mengapa algoritma Expectation Maximization dijamin untuk menyatu ke optimal lokal?
Saya telah membaca beberapa penjelasan tentang algoritma EM (misalnya dari Pengenalan Pola Bishop dan Pembelajaran Mesin dan dari Kursus Pertama Roger dan Gerolami tentang Pembelajaran Mesin). Derivasi EM itu ok, saya mengerti. Saya juga mengerti mengapa algoritma menutupi sesuatu: pada setiap langkah kita meningkatkan hasil dan kemungkinan dibatasi oleh 1.0, …

4
Estimasi kemungkinan maksimum EM untuk distribusi Weibull
Catatan: Saya memposting pertanyaan dari mantan mahasiswa saya yang tidak dapat memposting sendiri karena alasan teknis. Diberikan sampel iid x1,…,xnx1,…,xnx_1,\ldots,x_n dari distribusi Weibull dengan pdf fk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 apakah ada variabel yang hilang representasi berguna fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}z dan karenanya sebuah terkait EM (harapan-maksimisasi) …

4
Imputasi nilai yang hilang untuk PCA
Saya menggunakan prcomp()fungsi untuk melakukan PCA (analisis komponen utama) di R. Namun, ada bug di fungsi itu sehingga na.actionparameter tidak berfungsi. Saya meminta bantuan pada stackoverflow ; dua pengguna di sana menawarkan dua cara berbeda dalam menangani NAnilai. Namun, masalah dengan kedua solusi tersebut adalah ketika ada NAnilai, baris itu …


5
Pendekatan statistik untuk menentukan apakah data hilang secara acak
Saya memiliki satu set besar fitur vektor yang akan saya gunakan untuk menyerang masalah klasifikasi biner (menggunakan scikit belajar dengan Python). Sebelum saya mulai berpikir tentang imputasi, saya tertarik untuk mencoba menentukan dari bagian data yang tersisa apakah data yang hilang 'hilang secara acak' atau hilang bukan secara acak. Apa …

2
Bagaimana saya bisa menyatukan sarana posterior dan interval yang kredibel setelah beberapa kali imputasi?
Saya telah menggunakan beberapa imputasi untuk mendapatkan sejumlah set data yang lengkap. Saya telah menggunakan metode Bayesian pada masing-masing set data yang lengkap untuk mendapatkan distribusi posterior untuk parameter (efek acak). Bagaimana saya bisa menggabungkan / menggabungkan hasil untuk parameter ini? Lebih banyak konteks: Model saya bersifat hierarkis dalam arti …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.