Statistik dan Big Data modeling

3

Merumuskan model matematika untuk suatu masalah adalah salah satu aspek statistik yang paling subyektif, tetapi juga salah satu yang paling penting. Apa referensi terbaik yang berhubungan dengan topik penting ini tetapi sering diabaikan? Dan ahli statistik terkenal mana yang mengatakan sesuatu, "Biarkan data memandu model?"

9 modeling references

2

Bagaimana saya bisa membandingkan model tanpa pemasangan?

Regresi dan pembelajaran mesin digunakan dalam ilmu alam untuk menguji hipotesis, memperkirakan parameter, dan membuat prediksi dengan mencocokkan model dengan data. Namun, ketika saya memiliki model apriori , saya tidak ingin melakukan fitting --- misalnya, model sistem fisik deterministik yang dihitung dari prinsip pertama. Saya hanya ingin tahu seberapa baik …

8 modeling simulation goodness-of-fit model-comparison

2

Bisakah Bobot dan Offset mengarah ke hasil serupa dalam regresi poisson?

Dalam "Panduan Practioner untuk Generalized linear models" dalam paragraf 1.83 dinyatakan bahwa: "Dalam kasus khusus GLM multiplikatif Poisson dapat ditunjukkan bahwa klaim pemodelan dihitung dengan istilah offset yang sama dengan log paparan yang menghasilkan hasil yang identik dengan pemodelan frekuensi klaim dengan bobot sebelumnya yang ditetapkan sama dengan paparan setiap …

8 generalized-linear-model modeling poisson-regression weights offset

3

Bagaimana melakukan SVD untuk memasukkan nilai yang hilang, contoh konkret

Saya telah membaca komentar yang bagus mengenai bagaimana menangani nilai yang hilang sebelum menerapkan SVD, tetapi saya ingin tahu cara kerjanya dengan contoh sederhana: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Mengingat matriks di atas, jika saya …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

Statistik Kemandirian di dunia nyata

Saya membaca artikel berikut tentang independensi statistik . Singkatnya, artikel itu berpendapat bahwa "Sudah waktunya bagi sains untuk pensiun fiksi kemerdekaan statistik," dan selanjutnya menjelaskan alasan yang berbeda mengapa. Setelah membaca artikel itu, saya cenderung setuju. Saya ingin tahu yang berikut: Apa yang dipikirkan oleh pengguna lintas-valid lainnya? Apakah ada …

8 modeling independence

1

Beberapa model ARIMA cocok dengan data. Bagaimana cara menentukan pesanan? Pendekatan yang benar?

Saya punya dua seri waktu (parameter model untuk pria dan wanita) dan bertujuan untuk mengidentifikasi model ARIMA yang tepat untuk membuat perkiraan. Rangkaian waktu saya terlihat seperti: Plot dan ACF menunjukkan non-stasioner (paku ACF terputus sangat lambat). Jadi, saya menggunakan differencing dan memperoleh: Plot ini menunjukkan bahwa seri sekarang mungkin …

8 r time-series modeling arima autocorrelation

3

Temukan distribusi dan ubah ke distribusi normal

Saya memiliki data yang menggambarkan seberapa sering suatu peristiwa berlangsung selama satu jam ("angka per jam", nph) dan berapa lama acara berlangsung ("durasi dalam detik per jam", dph). Ini adalah data asli: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

Seseorang berulang kali memilih dua item paling mirip dari tiga. Bagaimana memodelkan / memperkirakan jarak persepsi antar item?

Seseorang diberikan tiga item, katakan gambar wajah, dan diminta untuk memilih mana dua dari tiga wajah yang paling mirip. Ini diulangi berkali-kali dengan kombinasi wajah yang berbeda, di mana setiap wajah dapat terjadi dalam banyak kombinasi. Dengan data seperti ini, saya ingin memodelkan / memperkirakan perbedaan / kesamaan antara wajah …

8 modeling dimensionality-reduction psychometrics similarities

1

Model keadaan tersembunyi vs model tanpa negara untuk regresi deret waktu

Ini adalah pertanyaan yang cukup umum: anggap saya ingin membangun model untuk memprediksi pengamatan berikutnya berdasarkan sebelumnya NNN pengamatan (NNNdapat menjadi parameter untuk mengoptimalkan secara eksperimental). Jadi pada dasarnya kami memiliki jendela geser fitur input untuk memprediksi pengamatan selanjutnya. Saya dapat menggunakan pendekatan Model Hidden Markov, yaitu Baum-Welch untuk memperkirakan …

8 regression time-series modeling prediction hidden-markov-model

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Post hoc test dalam ANOVA desain campuran 2x3 menggunakan SPSS?

Saya memiliki dua kelompok yang terdiri dari 10 peserta yang dinilai tiga kali selama percobaan. Untuk menguji perbedaan antara kelompok dan di tiga penilaian, saya menjalankan ANOVA desain campuran 2x3 dengan group(kontrol, eksperimental), time(pertama, kedua, tiga), dan group x time. Keduanya timedan grouphasilnya signifikan, selain itu ada interaksi yang signifikan …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Apa yang dikemukakan Lift and Gain Charts dalam konteks model turnover karyawan

Jadi saya mencoba untuk lebih memahami bagan Lift dan Penguatan sebagaimana berlaku untuk model turnover karyawan saya (yaitu digunakan CHAID dalam SPSS Modeler). Untuk data saya, ini berarti memprediksi jumlah orang yang secara sukarela meninggalkan perusahaan. Saya telah meninjau referensi di bawah ini dan memiliki dasar-dasar mengenai interpretasi: apa yang …

8 modeling predictive-models

1

Pemodelan bahasa: mengapa menambahkan hingga 1 begitu penting?

Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat …

8 distributions modeling natural-language language-models

4

Versi fleksibel dari regresi logistik

Saya mencoba menyesuaikan regresi logistik di mana ada perbedaan besar dalam jumlah poin data di kedua kelompok (70 Vs 10.000). Seorang teman ahli statistik saya mengatakan kepada saya bahwa ini adalah masalah yang diketahui dengan regresi logistik dan bahwa untuk angka-angka itu cocok dengan data dan pada dasarnya tidak berfungsi. …

8 modeling logistic binary-data

1

Apa artinya ini kabur di sekitar garis dalam grafik ini?

Saya bermain-main dengan ggplot2 menggunakan perintah berikut ini agar sesuai dengan baris ke data saya: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Titik merah adalah nilai median, biru berarti dan garis merah vertikal menunjukkan …

8 r modeling dataset data-mining ggplot2

Pertanyaan yang diberi tag «modeling»