Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Linearitas PCA
PCA dianggap sebagai prosedur linier, namun: P C A (X) ≠ P C A ( X1) + P C A ( X2) + ... + P C A ( Xn) ,PCSEBUAH(X)≠PCSEBUAH(X1)+PCSEBUAH(X2)+...+PCSEBUAH(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), di mana . Ini untuk mengatakan bahwa vektor eigen yang diperoleh PCA pada matriks data tidak meringkaskan sama …
35 pca  linear 

5
Berpikirlah seperti bayesian, periksa seperti yang sering: Apa artinya itu?
Saya sedang melihat beberapa slide kuliah tentang kursus ilmu data yang dapat ditemukan di sini: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Sayangnya, saya tidak dapat melihat video untuk ceramah ini dan pada satu titik di slide, presenter memiliki teks berikut: Beberapa Prinsip Utama Berpikir seperti orang Bayesian, periksa seperti seorang Frequentist (rekonsiliasi) Adakah yang tahu …

3
Bagaimana cara memilih metode pengelompokan? Bagaimana memvalidasi solusi cluster (untuk menjamin pilihan metode)?
Salah satu masalah terbesar dengan analisis kluster adalah bahwa kita mungkin harus mendapatkan kesimpulan yang berbeda ketika mendasarkan pada metode pengelompokan yang berbeda yang digunakan (termasuk metode keterkaitan yang berbeda dalam pengelompokan hierarkis). Saya ingin tahu pendapat Anda tentang ini - metode mana yang akan Anda pilih, dan bagaimana caranya. …

2
Peningkatan Gradien untuk Regresi Linier - mengapa tidak bekerja?
Saat belajar tentang Peningkatan Gradien, saya belum pernah mendengar tentang kendala mengenai sifat-sifat "classifier lemah" yang digunakan metode untuk membangun dan membuat model ansambel. Namun, saya tidak bisa membayangkan aplikasi GB yang menggunakan regresi linier, dan sebenarnya ketika saya telah melakukan beberapa tes - tidak berhasil. Saya sedang menguji pendekatan …


4
Bagaimana LSTM mencegah masalah gradien hilang?
LSTM diciptakan khusus untuk menghindari masalah gradien hilang. Seharusnya melakukan itu dengan Constant Error Carousel (CEC), yang pada diagram di bawah ini (dari Greff et al. ) Sesuai dengan loop di sekitar sel . (sumber: deeplearning4j.org ) Dan saya mengerti bahwa bagian itu dapat dilihat sebagai semacam fungsi identitas, sehingga …


11
Mengapa menghasilkan 8 bit acak yang seragam pada (0, 255)?
Saya menghasilkan 8 bit acak (0 atau 1) dan menggabungkannya bersama-sama untuk membentuk angka 8-bit. Simulasi Python sederhana menghasilkan distribusi yang seragam pada set diskrit [0, 255]. Saya mencoba membenarkan mengapa ini masuk akal di kepala saya. Jika saya membandingkan ini dengan membalik 8 koin, bukankah nilai yang diharapkan sekitar …

6
Apakah semua metode simulasi semacam Monte Carlo?
Apakah ada metode simulasi yang bukan Monte Carlo? Semua metode simulasi melibatkan penggantian angka acak ke dalam fungsi untuk menemukan rentang nilai untuk fungsi tersebut. Jadi, apakah semua metode simulasi pada dasarnya adalah metode Monte Carlo?

6
Metode terbaik untuk seri waktu pendek
Saya punya pertanyaan terkait pemodelan seri waktu pendek. Ini bukan pertanyaan jika model mereka , tetapi bagaimana. Metode apa yang akan Anda rekomendasikan untuk pemodelan (sangat) seri-waktu pendek (katakanlah panjang )? Yang saya maksud dengan "terbaik" di sini adalah yang paling kuat, yang paling rentan terhadap kesalahan karena fakta jumlah …

4
Bagaimana suatu distribusi memiliki mean dan varian yang tak terbatas?
Akan dihargai jika contoh-contoh berikut dapat diberikan: Distribusi dengan rerata tak terbatas dan ragam tak terbatas. Distribusi dengan rerata tak terbatas dan varian terbatas. Distribusi dengan rerata terbatas dan varian tak terbatas. Distribusi dengan rerata terbatas dan varian terbatas. Itu datang dari saya melihat istilah-istilah asing ini (mean tak terbatas, …




1
Regresi kuantitatif: Kesalahan standar apa?
The summary.rqfungsi dari sketsa quantreg menyediakan banyak pilihan untuk perkiraan standard error dari koefisien regresi kuantil. Apa skenario khusus di mana masing-masing menjadi optimal / diinginkan? "peringkat" yang menghasilkan interval kepercayaan untuk parameter yang diestimasi dengan membalikkan tes peringkat seperti yang dijelaskan dalam Koenker (1994). Opsi default mengasumsikan bahwa kesalahan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.