Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

6
Seleksi variabel untuk pemodelan prediktif benar-benar diperlukan pada tahun 2016?
Pertanyaan ini telah ditanyakan pada CV beberapa tahun yang lalu, sepertinya layak untuk dikirim kembali mengingat 1) urutan teknologi komputasi yang lebih baik (mis. Komputasi paralel, HPC dll) dan 2) teknik yang lebih baru, misalnya [3]. Pertama, beberapa konteks. Mari kita asumsikan tujuannya bukan pengujian hipotesis, bukan estimasi efek, tetapi …

10
Apakah ada * dasar * matematika untuk perdebatan Bayesian vs frequentist?
Dikatakan di Wikipedia bahwa: matematika [probabilitas] sebagian besar tidak tergantung pada interpretasi probabilitas. Pertanyaan: Lalu jika kita ingin menjadi matematis benar, seharusnya tidak kita melarang setiap interpretasi probabilitas? Yaitu, apakah Bayesian dan frequentism secara matematis salah? Saya tidak suka filsafat, tetapi saya suka matematika, dan saya ingin bekerja secara eksklusif …



6
Konvergensi dalam probabilitas vs konvergensi yang hampir pasti
Saya tidak pernah benar-benar memahami perbedaan antara dua ukuran konvergensi ini. (Atau, pada kenyataannya, salah satu dari jenis konvergensi yang berbeda, tetapi saya menyebutkan keduanya secara khusus karena Lemah dan Hukum Kuat dari Sejumlah Besar.) Tentu, saya bisa mengutip definisi masing-masing dan memberikan contoh di mana mereka berbeda, tetapi saya …


5
Bagaimana tepatnya para ahli statistik setuju untuk menggunakan (n-1) sebagai penaksir tidak bias untuk varians populasi tanpa simulasi?
Rumus untuk varian komputasi memiliki dalam penyebut:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Saya selalu bertanya-tanya mengapa. Namun, membaca dan menonton beberapa video bagus tentang "mengapa" itu tampaknya adalah penduga yang baik dan tidak bias dari varians populasi. Sedangkan meremehkan dan melebih-lebihkan varians populasi.(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) Yang saya ingin tahu, adalah bahwa …


5
Memuat vs vektor eigen di PCA: kapan harus menggunakan satu atau yang lain?
Dalam analisis komponen utama (PCA), kami mendapatkan vektor eigen (vektor satuan) dan nilai eigen. Sekarang, mari kita mendefinisikan pemuatan sebagaiLoadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. Saya tahu bahwa vektor eigen hanya arah dan pemuatan (seperti yang didefinisikan di atas) juga termasuk varian di sepanjang arah ini. Tetapi untuk pemahaman saya yang …
67 pca 


1
Korelasi apa yang menjadikan matriks singular dan apa implikasi singularitas atau hampir singularitas?
Saya melakukan beberapa perhitungan pada matriks yang berbeda (terutama dalam regresi logistik) dan saya biasanya mendapatkan kesalahan "Matriks singular", di mana saya harus kembali dan menghapus variabel yang berkorelasi. Pertanyaan saya di sini adalah apa yang Anda anggap sebagai matriks berkorelasi "sangat"? Apakah ada nilai ambang korelasi untuk mewakili kata …

4
Lihatlah dan Anda akan menemukan (korelasi)
Saya memiliki beberapa ratus pengukuran. Sekarang, saya mempertimbangkan untuk menggunakan beberapa jenis perangkat lunak untuk menghubungkan setiap ukuran dengan setiap ukuran. Ini berarti ada ribuan korelasi. Di antara ini harus ada (secara statistik) ada korelasi yang tinggi, bahkan jika data benar-benar acak (masing-masing ukuran hanya memiliki sekitar 100 titik data). …


7
Berapa yang harus dibayar? Masalah praktis
Ini bukan pertanyaan pekerjaan rumah tetapi masalah nyata yang dihadapi oleh perusahaan kami. Baru-baru ini (2 hari yang lalu) kami memesan untuk pembuatan 10.000 label produk ke dealer. Dealer adalah orang yang mandiri. Dia mendapatkan label yang diproduksi dari luar dan perusahaan melakukan pembayaran ke dealer. Setiap label harganya tepat …

7
Mengapa mengoptimalkan kemungkinan log maksimum dan bukannya probabilitas
Di sebagian besar tugas pembelajaran mesin di mana Anda dapat merumuskan beberapa probabilitas yang harus dimaksimalkan, kami sebenarnya akan mengoptimalkan probabilitas alih-alih probabilitas untuk beberapa parameter . Misalnya dalam pelatihan kemungkinan maksimum, biasanya log-kemungkinan. Ketika melakukan ini dengan beberapa metode gradien, ini melibatkan faktor:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.