Statistik dan Big Data

3

PCA dianggap sebagai prosedur linier, namun: P C A (X) ≠ P C A ( X1) + P C A ( X2) + ... + P C A ( Xn) ,PCSEBUAH(X)≠PCSEBUAH(X1)+PCSEBUAH(X2)+...+PCSEBUAH(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), di mana . Ini untuk mengatakan bahwa vektor eigen yang diperoleh PCA pada matriks data tidak meringkaskan sama …

35 pca linear

5

Berpikirlah seperti bayesian, periksa seperti yang sering: Apa artinya itu?

Saya sedang melihat beberapa slide kuliah tentang kursus ilmu data yang dapat ditemukan di sini: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Sayangnya, saya tidak dapat melihat video untuk ceramah ini dan pada satu titik di slide, presenter memiliki teks berikut: Beberapa Prinsip Utama Berpikir seperti orang Bayesian, periksa seperti seorang Frequentist (rekonsiliasi) Adakah yang tahu …

35 bayesian data-mining frequentist

3

Bagaimana cara memilih metode pengelompokan? Bagaimana memvalidasi solusi cluster (untuk menjamin pilihan metode)?

Salah satu masalah terbesar dengan analisis kluster adalah bahwa kita mungkin harus mendapatkan kesimpulan yang berbeda ketika mendasarkan pada metode pengelompokan yang berbeda yang digunakan (termasuk metode keterkaitan yang berbeda dalam pengelompokan hierarkis). Saya ingin tahu pendapat Anda tentang ini - metode mana yang akan Anda pilih, dan bagaimana caranya. …

35 clustering validation model-evaluation hierarchical-clustering

2

Peningkatan Gradien untuk Regresi Linier - mengapa tidak bekerja?

Saat belajar tentang Peningkatan Gradien, saya belum pernah mendengar tentang kendala mengenai sifat-sifat "classifier lemah" yang digunakan metode untuk membangun dan membuat model ansambel. Namun, saya tidak bisa membayangkan aplikasi GB yang menggunakan regresi linier, dan sebenarnya ketika saya telah melakukan beberapa tes - tidak berhasil. Saya sedang menguji pendekatan …

35 regression machine-learning boosting ensemble gradient

7

Mengapa hipotesis nol sering kali ingin ditolak?

Saya harap saya masuk akal dengan judulnya. Seringkali, hipotesis nol dibentuk dengan tujuan untuk menolaknya. Apakah ada alasan untuk ini, atau itu hanya sebuah konvensi?

35 hypothesis-testing

4

Bagaimana LSTM mencegah masalah gradien hilang?

LSTM diciptakan khusus untuk menghindari masalah gradien hilang. Seharusnya melakukan itu dengan Constant Error Carousel (CEC), yang pada diagram di bawah ini (dari Greff et al. ) Sesuai dengan loop di sekitar sel . (sumber: deeplearning4j.org ) Dan saya mengerti bahwa bagian itu dapat dilihat sebagai semacam fungsi identitas, sehingga …

35 neural-networks lstm

2

Apa itu regularisasi jaring elastis, dan bagaimana cara mengatasi kelemahan Ridge ( ) dan Lasso ( )?

Apakah regularisasi jaring elastis selalu lebih disukai daripada Lasso & Ridge karena tampaknya mengatasi kelemahan dari metode ini? Apa intuisi dan apa matematika di balik jaring elastis?

35 regression lasso regularization ridge-regression elastic-net

11

Mengapa menghasilkan 8 bit acak yang seragam pada (0, 255)?

Saya menghasilkan 8 bit acak (0 atau 1) dan menggabungkannya bersama-sama untuk membentuk angka 8-bit. Simulasi Python sederhana menghasilkan distribusi yang seragam pada set diskrit [0, 255]. Saya mencoba membenarkan mengapa ini masuk akal di kepala saya. Jika saya membandingkan ini dengan membalik 8 koin, bukankah nilai yang diharapkan sekitar …

35 binomial random-generation uniform

6

Apakah semua metode simulasi semacam Monte Carlo?

Apakah ada metode simulasi yang bukan Monte Carlo? Semua metode simulasi melibatkan penggantian angka acak ke dalam fungsi untuk menemukan rentang nilai untuk fungsi tersebut. Jadi, apakah semua metode simulasi pada dasarnya adalah metode Monte Carlo?

35 monte-carlo

6

Metode terbaik untuk seri waktu pendek

Saya punya pertanyaan terkait pemodelan seri waktu pendek. Ini bukan pertanyaan jika model mereka , tetapi bagaimana. Metode apa yang akan Anda rekomendasikan untuk pemodelan (sangat) seri-waktu pendek (katakanlah panjang )? Yang saya maksud dengan "terbaik" di sini adalah yang paling kuat, yang paling rentan terhadap kesalahan karena fakta jumlah …

35 time-series forecasting small-sample

4

Bagaimana suatu distribusi memiliki mean dan varian yang tak terbatas?

Akan dihargai jika contoh-contoh berikut dapat diberikan: Distribusi dengan rerata tak terbatas dan ragam tak terbatas. Distribusi dengan rerata tak terbatas dan varian terbatas. Distribusi dengan rerata terbatas dan varian tak terbatas. Distribusi dengan rerata terbatas dan varian terbatas. Itu datang dari saya melihat istilah-istilah asing ini (mean tak terbatas, …

35 distributions variance mean

5

Pengujian untuk autokorelasi: Ljung-Box versus Breusch-Godfrey

Saya terbiasa melihat uji Ljung-Box cukup sering digunakan untuk menguji autokorelasi dalam data mentah atau dalam residual model. Saya hampir lupa bahwa ada tes lain untuk autokorelasi, yaitu, tes Breusch-Godfrey. Pertanyaan: apa perbedaan dan persamaan utama dari tes Ljung-Box dan Breusch-Godfrey, dan kapan satu lebih disukai daripada yang lain? (Referensi …

35 time-series hypothesis-testing autocorrelation

2

Tujuan dari fungsi tautan dalam model linier umum

Apa tujuan dari fungsi tautan sebagai komponen dari model linier umum? Mengapa kita membutuhkannya? Negara Wikipedia: Lebih mudah mencocokkan domain fungsi tautan dengan kisaran rata-rata fungsi distribusi Apa keuntungan melakukan ini?

35 regression generalized-linear-model link-function irls

2

Regresi berganda atau koefisien korelasi parsial? Dan hubungan keduanya

Saya bahkan tidak tahu apakah pertanyaan ini masuk akal, tetapi apa perbedaan antara regresi berganda dan korelasi parsial (terlepas dari perbedaan yang jelas antara korelasi dan regresi, yang bukan tujuan saya)? Saya ingin mencari tahu yang berikut: Saya memiliki dua variabel independen ( x1x1x_1 , x2x2x_2 ) dan satu variabel …

35 multiple-regression regression-coefficients partial-correlation

1

Regresi kuantitatif: Kesalahan standar apa?

The summary.rqfungsi dari sketsa quantreg menyediakan banyak pilihan untuk perkiraan standard error dari koefisien regresi kuantil. Apa skenario khusus di mana masing-masing menjadi optimal / diinginkan? "peringkat" yang menghasilkan interval kepercayaan untuk parameter yang diestimasi dengan membalikkan tes peringkat seperti yang dijelaskan dalam Koenker (1994). Opsi default mengasumsikan bahwa kesalahan …

35 r standard-error quantile-regression estimators