Statistik dan Big Data residuals

2

Pertanyaan ini muncul dari kebingungan aktual saya tentang bagaimana memutuskan apakah model logistik cukup baik. Saya memiliki model yang menggunakan keadaan berpasangan-proyek individu dua tahun setelah mereka dibentuk sebagai variabel dependen. Hasilnya berhasil (1) atau tidak (0). Saya memiliki variabel independen yang diukur pada saat pembentukan pasangan. Tujuan saya adalah …

13 r logistic goodness-of-fit residuals

2

Keluarga GLM mewakili distribusi variabel respons atau residu?

Saya telah berdiskusi dengan beberapa anggota lab tentang ini, dan kami telah pergi ke beberapa sumber tetapi masih belum memiliki jawabannya: Ketika kita mengatakan GLM memiliki keluarga poisson katakanlah apakah kita berbicara tentang distribusi residu atau variabel respon? Poin pertentangan Membaca ini artikel itu menyatakan bahwa asumsi GLM adalah Independensi …

13 generalized-linear-model residuals assumptions

1

Paket GBM vs. Caret menggunakan GBM

Saya telah menggunakan model tuning caret, tetapi kemudian menjalankan kembali model menggunakan gbmpaket. Ini adalah pemahaman saya bahwa caretpaket menggunakan gbmdan hasilnya harus sama. Namun, hanya menjalankan tes cepat menggunakan data(iris)menunjukkan perbedaan dalam model sekitar 5% menggunakan RMSE dan R ^ 2 sebagai metrik evaluasi. Saya ingin menemukan kinerja model …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

Autokorelasi residual versus variabel dependen tertinggal

Ketika pemodelan seri waktu satu memiliki kemungkinan untuk (1) memodelkan struktur korelasional dari istilah kesalahan seperti misalnya proses AR (1) (2) termasuk variabel dependen tertinggal sebagai variabel penjelas (di sisi kanan) Saya mengerti bahwa mereka kadang-kadang alasan yang masuk akal (2). Namun, apa alasan metodologis untuk melakukan (1) atau (2) …

13 time-series autocorrelation residuals lags

2

Apakah X dan Y terdistribusi normal lebih mungkin menghasilkan residu terdistribusi normal?

Di sini salah tafsir dari asumsi normalitas dalam regresi linier dibahas (bahwa 'normalitas' merujuk X dan / atau Y daripada residual), dan poster bertanya apakah mungkin untuk memiliki X dan Y yang terdistribusi secara tidak normal. dan masih memiliki residu terdistribusi normal. Pertanyaan saya adalah: apakah X yang didistribusikan secara …

12 regression normal-distribution data-transformation residuals assumptions

5

Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Asumsi distribusi residu regresi

Mengapa perlu menempatkan asumsi distribusi pada kesalahan, yaitu ϵ i ∼ N ( 0 , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , dengan .ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) Kenapa tidak menulis y i ~ N ( X β , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , dengan ,yi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) …

12 regression normal-distribution residuals assumptions notation

2

Mengapa beberapa orang menguji asumsi model seperti regresi pada data mentah mereka dan orang lain mengujinya pada residu?

Saya seorang mahasiswa Phd dalam psikologi eksperimental dan saya berusaha keras untuk meningkatkan keterampilan dan pengetahuan saya tentang bagaimana menganalisis data saya. Sampai tahun ke 5 saya di Psikologi, saya berpikir bahwa model seperti regresi (misalnya, ANOVA) mengasumsikan hal-hal berikut: normalitas data homogenitas varians untuk data dan sebagainya Program sarjana …

12 regression dataset residuals assumptions

2

Berapa distribusi residu yang diharapkan dalam model linier umum?

Saya melakukan model linear umum, di mana saya harus menentukan keluarga yang berbeda dari yang normal. Berapa distribusi residu yang diharapkan? Misalnya, apakah residu harus didistribusikan secara normal?

12 generalized-linear-model residuals normality-assumption

2

Analisis residu regresi logistik

Pertanyaan ini agak umum dan bertele-tele, tapi tolong tahan dengan saya. Dalam aplikasi saya, saya memiliki banyak dataset, masing-masing terdiri dari ~ 20.000 titik data dengan ~ 50 fitur dan satu variabel biner yang tergantung. Saya mencoba untuk memodelkan dataset menggunakan regresi logistik teratur (paket R glmnet ) Sebagai bagian …

12 logistic residuals

1

Uji Tepat Fisher dan Distribusi Hipergeometrik

Saya ingin memahami uji pasti fisher dengan lebih baik, jadi saya menyusun contoh mainan berikut ini, di mana f dan m berhubungan dengan pria dan wanita, dan n dan y berhubungan dengan "konsumsi soda" seperti ini: > soda_gender f m n 0 5 y 5 0 Jelas, ini adalah penyederhanaan …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Heteroskedastisitas dan normalitas residual

Saya memiliki regresi linier yang cukup bagus, saya kira (ini untuk proyek universitas jadi saya tidak benar-benar harus super akurat). Intinya adalah, jika saya memplot residu vs nilai prediksi, ada (menurut guru saya) sedikit heteroskedastisitas. Tetapi jika saya memplot QQ-Plot dari residu, jelas bahwa mereka terdistribusi secara normal. Selain itu, …

12 regression normal-distribution residuals heteroscedasticity

2

Bagaimana cara mengetahui apakah residu dihubungkan secara otomatis dari grafik

Ketika Anda melakukan regresi OLS dan memplot residu yang dihasilkan, bagaimana Anda bisa tahu apakah residu itu autokorelasi? Saya tahu ada tes untuk ini (Durbin, Breusch-Godfrey) tapi saya bertanya-tanya apakah Anda bisa melihat plot untuk mengukur apakah autokorelasi bisa menjadi masalah (karena untuk heteroskedastisitas itu cukup mudah dilakukan).

12 regression autocorrelation residuals

2

Menyesuaikan regresi linier berganda pada R: residu autokorelasi

Saya mencoba memperkirakan regresi linier berganda dalam R dengan persamaan seperti ini: regr <- lm(rate ~ constant + askings + questions + 0) pertanyaan dan pertanyaan adalah seri waktu data triwulanan, dibangun bersama askings <- ts(...). Masalahnya sekarang adalah bahwa saya mendapat residu autokorelasi. Saya tahu bahwa adalah mungkin untuk …

11 r time-series multiple-regression autocorrelation residuals

1

Bagaimana menafsirkan warna residu pada plot mosaik?

Ini adalah plot mosaik dataset tabel kontingensi yang HairEyeColordijelaskan di sini . Bagaimana cara menafsirkan warna yang mewakili residu? Apa perbedaan antara residu Pearson tinggi dan positif (ditunjukkan dengan warna biru) versus yang rendah dan negatif yang ditunjukkan dengan warna merah?

11 data-visualization chi-squared residuals contingency-tables

Pertanyaan yang diberi tag «residuals»