Statistik dan Big Data synthetic-data

2

Apa beberapa praktik standar untuk membuat set data sintetis?

Sebagai konteks: Ketika bekerja dengan kumpulan data yang sangat besar, saya terkadang ditanya apakah kita dapat membuat kumpulan data sintetis di mana kita "mengetahui" hubungan antara prediktor dan variabel respons, atau hubungan di antara para prediktor. Selama bertahun-tahun, saya sepertinya menghadapi set data sintetis satu kali, yang sepertinya dibuat secara …

26 modeling reproducible-research synthetic-data

10

Istilah terbaik untuk data buatan?

Saya sedang menulis contoh dan telah membuat beberapa data. Saya ingin menjadi jelas bagi pembaca ini bukan data nyata, tetapi saya juga tidak ingin memberikan kesan kedengkian, karena itu hanya berfungsi sebagai contoh. Tidak ada komponen acak (pseudo) untuk data khusus ini, jadi bagi saya sepertinya 'disimulasikan' tidak sesuai. Jika …

23 terminology synthetic-data

1

Membuat Dataset yang Tidak Seimbang

Saya ingin menguji model saya yang terlatih pada dataset yang tidak seimbang. Apakah ada algoritma yang tersedia untuk menghasilkan data sintetis dari dataset berlabel seimbang (spam / non-spam)?

11 unbalanced-classes synthetic-data

1

Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?

Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

Pertanyaan yang diberi tag «synthetic-data»