Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Apa intuisi di balik distribusi bersyarat Gaussian?
Misalkan . Kemudian distribusi bersyarat dari mengingat bahwa terdistribusi multivariat yang biasanya dengan mean:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2-μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) dan varians:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Masuk akal bahwa varians akan berkurang karena kami memiliki lebih banyak informasi. Tapi apa …

8
Perangkap dalam analisis deret waktu
Saya baru memulai belajar mandiri dalam analisis deret waktu. Saya perhatikan ada beberapa potensi jebakan yang tidak berlaku untuk statistik umum. Jadi, membangun di atas Apa dosa statistik umum? , Saya ingin bertanya: Apa saja kesalahan umum atau dosa statistik dalam analisis deret waktu? Ini dimaksudkan sebagai wiki komunitas, satu …

2
Intuisi di balik mengapa paradoks Stein hanya berlaku dalam dimensi
Contoh Stein menunjukkan bahwa estimasi kemungkinan maksimum nnn variabel terdistribusi normal dengan rata-rata μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n dan varians 111 tidak dapat diterima (di bawah fungsi kuadrat kerugian) iff n≥3n≥3n\ge 3 . Untuk bukti yang rapi, lihat bab pertama Inferensi Skala Besar: Metode Empiris Bayes untuk Estimasi, Pengujian, dan Prediksi oleh Bradley Effron. …

6
Persentase wilayah yang tumpang tindih dari dua distribusi normal
Saya bertanya-tanya, mengingat dua distribusi normal dengan σ1, μ1σ1, μ1\sigma_1,\ \mu_1 dan σ2, μ2σ2, μ2\sigma_2, \ \mu_2 bagaimana saya bisa menghitung persentase daerah yang tumpang tindih dari dua distribusi? Saya kira masalah ini memiliki nama tertentu, apakah Anda mengetahui adanya nama tertentu yang menjelaskan masalah ini? Apakah Anda mengetahui adanya …

5
Bagaimana cara menghitung pseudo-
Tulisan Christopher Manning pada regresi logistik di R menunjukkan regresi logistik di R sebagai berikut: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Beberapa output: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 …

5
Memahami regresi - peran model
Bagaimana model regresi dapat digunakan jika Anda tidak tahu fungsi yang Anda cari parameternya? Saya melihat sebuah penelitian yang mengatakan bahwa ibu yang menyusui anak-anak mereka cenderung menderita diabetes di kemudian hari. Penelitian ini berasal dari survei terhadap sekitar 1.000 ibu dan dikontrol untuk faktor-faktor lain-lain dan model loglinear digunakan. …

4
Apa itu matriks kontras?
Apa sebenarnya matriks kontras (istilah, yang berkaitan dengan analisis dengan prediktor kategoris) dan bagaimana tepatnya matriks kontras ditentukan? Yaitu apa kolom, apa baris, apa kendala pada matriks itu dan apa arti angka dalam kolom jdan baris i? Saya mencoba melihat ke dalam dokumen dan web tetapi tampaknya semua orang menggunakannya …


1
Perbedaan KL antara duaausa multivarian
Saya mengalami kesulitan memperoleh rumus divergensi KL dengan asumsi dua distribusi normal multivariat. Saya sudah melakukan kasus univariat dengan cukup mudah. Namun, sudah cukup lama sejak saya mengambil statistik matematika, jadi saya mengalami kesulitan untuk memperluasnya ke kasus multivarian. Saya yakin saya hanya melewatkan sesuatu yang sederhana. Inilah yang saya …




6
Apa alternatif dari Gradient Descent?
Gradient Descent memiliki masalah terjebak di Minima Lokal. Kita perlu menjalankan gradient descent kali eksponensial untuk menemukan minimum global. Adakah yang bisa memberi tahu saya tentang alternatif penurunan gradien seperti yang diterapkan dalam pembelajaran jaringan saraf, bersama dengan pro dan kontra mereka.

3
Interpretasi dari prediktor dan / atau respons yang diubah log
Saya bertanya-tanya apakah itu membuat perbedaan dalam interpretasi apakah hanya dependen, baik dependen dan independen, atau hanya variabel independen yang ditransformasikan log. Pertimbangkan kasus log(DV) = Intercept + B1*IV + Error Saya bisa menafsirkan IV sebagai peningkatan persen tetapi bagaimana ini berubah ketika saya punya log(DV) = Intercept + B1*log(IV) …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Dari mana datangnya kesalahpahaman bahwa Y harus didistribusikan secara normal?
Tampaknya sumber yang memiliki reputasi baik menyatakan bahwa variabel dependen harus didistribusikan secara normal: Asumsi model: terdistribusi secara normal, kesalahan terdistribusi normal, , dan independen, dan diperbaiki, dan varians konstan .e i ∼ N ( 0 , σ 2 ) X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 Analisis …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.