Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


1
Apa perbedaan antara Metropolis Hastings, Gibbs, Pentingnya, dan sampel Penolakan?
Saya telah mencoba mempelajari metode MCMC dan telah menemukan Metropolis Hastings, Gibbs, Importance, dan Rejection sampling. Sementara beberapa perbedaan ini jelas, yaitu, bagaimana Gibbs adalah kasus khusus dari Metropolis Hastings ketika kita memiliki persyaratan penuh, yang lain kurang jelas, seperti ketika kita ingin menggunakan MH dalam sampler Gibbs, dll. Adakah …

6
Bagaimana para ilmuwan mengetahui bentuk fungsi kepadatan probabilitas distribusi normal?
Ini mungkin pertanyaan amatir, tetapi saya tertarik pada bagaimana para ilmuwan menghasilkan bentuk fungsi kepadatan probabilitas distribusi normal? Pada dasarnya yang menggangguku adalah bahwa bagi seseorang mungkin akan lebih intuitif bahwa fungsi probabilitas dari data yang terdistribusi secara normal memiliki bentuk segitiga sama kaki dan bukan kurva lonceng, dan bagaimana …

1
Kapan validasi silang bersarang benar-benar diperlukan dan dapat membuat perbedaan praktis?
Ketika menggunakan validasi silang untuk melakukan pemilihan model (seperti misalnya penyetelan hyperparameter) dan untuk menilai kinerja model terbaik, seseorang harus menggunakan validasi silang bersarang . Loop luar adalah untuk menilai kinerja model, dan loop dalam adalah untuk memilih model terbaik; model dipilih pada setiap set latihan luar (menggunakan loop CV …

6
Mengapa penyebut penaksir kovarians tidak menjadi n-2 daripada n-1?
Penyebut penduga varians (tidak bias) adalah n−1n−1n-1 karena ada nnn pengamatan dan hanya satu parameter yang diperkirakan. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Dengan cara yang sama saya bertanya-tanya mengapa penyebut kovarians tidak menjadi n−2n−2n-2 ketika dua parameter diperkirakan? Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}


5
Apakah nilai p pada dasarnya tidak berguna dan berbahaya untuk digunakan?
Artikel ini " The Odds, Continuous Updated" dari NY Times kebetulan menarik perhatian saya. Singkatnya, ini menyatakan itu [Statistik Bayesian] terbukti sangat berguna dalam mendekati masalah kompleks, termasuk pencarian seperti yang digunakan Coast Guard pada 2013 untuk menemukan nelayan yang hilang, John Aldridge (meskipun tidak, sejauh ini, dalam perburuan untuk …

2
Seberapa tepercaya interval kepercayaan untuk objek lmer melalui paket efek?
Effectspaket menyediakan cara yang sangat cepat dan mudah untuk memplot hasil model efek campuran linier yang diperoleh melalui lme4paket . The effectinterval fungsi menghitung kepercayaan (CI) sangat cepat, tapi bagaimana dapat dipercaya adalah interval keyakinan ini? Sebagai contoh: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | …


5
Arti "ketergantungan positif" sebagai syarat untuk menggunakan metode biasa untuk kontrol FDR
Benjamini dan Hochberg mengembangkan metode pertama (dan masih paling banyak digunakan, saya pikir) untuk mengendalikan tingkat penemuan palsu (FDR). Saya ingin memulai dengan sekelompok nilai P, masing-masing untuk perbandingan yang berbeda, dan memutuskan mana yang cukup rendah untuk disebut "penemuan", mengendalikan FDR ke nilai yang ditentukan (katakanlah 10%). Salah satu …

4
Bagaimana menafsirkan koefisien dari model polinomial?
Saya mencoba membuat polinomial orde kedua untuk beberapa data yang saya miliki. Katakanlah saya merencanakan ini dengan ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Saya mendapat: Jadi, urutan kedua cocok dengan cukup baik. Saya menghitungnya dengan R: summary(lm(data$bar ~ poly(data$foo, 2))) Dan saya mendapatkan: lm(formula = data$bar …

10
Mengapa waktu bertahan hidup diasumsikan terdistribusi secara eksponensial?
Saya belajar analisis bertahan hidup dari pos ini pada UCLA IDRE dan tersandung di bagian 1.2.1. Tutorial mengatakan: ... jika waktu bertahan hidup diketahui terdistribusi secara eksponensial , maka kemungkinan mengamati waktu bertahan hidup ... Mengapa waktu bertahan hidup diasumsikan terdistribusi secara eksponensial? Sepertinya sangat tidak alami bagi saya. Mengapa …



3
Cara mendapatkan matriks varians-kovarians dari koefisien dalam regresi linier
Saya membaca buku tentang regresi linier dan mengalami kesulitan memahami matriks varians-kovarians dari :bb\mathbf{b} Item diagonal cukup mudah, tetapi item off-diagonal sedikit lebih sulit, yang membingungkan saya adalah σ( b0, b1) = E( b0b1) - E( b0) E( b1) = E( b0b1) - β0β1σ(b0,b1)=E(b0b1)-E(b0)E(b1)=E(b0b1)-β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - …
36 regression 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.