Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


7
Bias dan varians dalam validasi lintas keluar-keluar-vs vs K-fold
Bagaimana metode validasi silang berbeda dibandingkan dalam hal varian model dan bias? Pertanyaan saya sebagian dimotivasi oleh utas ini: Jumlah lipatan yang optimal dalam validasi silang lipat: apakah CV cuti-keluar-selalu merupakan pilihan terbaik? KKKK. Jawaban di sana menunjukkan bahwa model yang dipelajari dengan validasi silang tinggalkan-keluar-satu memiliki varians yang lebih …


14
Mengapa statistik yang kuat (dan tahan) tidak menggantikan teknik klasik?
Saat memecahkan masalah bisnis menggunakan data, sudah umum bahwa setidaknya satu asumsi utama bahwa statistik klasik under-pin tidak valid. Sebagian besar waktu, tidak ada yang mengganggu untuk memeriksa asumsi-asumsi itu sehingga Anda tidak pernah benar-benar tahu. Misalnya, bahwa begitu banyak metrik web umum "berekor panjang" (relatif terhadap distribusi normal), saat …

8
Garis yang paling cocok tidak terlihat seperti yang cocok. Mengapa?
Lihatlah grafik Excel ini: Garis 'akal sehat' paling cocok akan muncul menjadi garis hampir vertikal lurus melalui pusat poin (diedit dengan tangan berwarna merah). Namun garis tren linier yang ditentukan oleh Excel adalah garis hitam diagonal yang ditunjukkan. Mengapa Excel menghasilkan sesuatu yang (bagi mata manusia) tampak salah? Bagaimana saya …

2
fungsi aktivasi tanh vs fungsi aktivasi sigmoid
Fungsi aktivasi tanh adalah: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Di mana , fungsi sigmoid, didefinisikan sebagai: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Pertanyaan: Apakah benar-benar penting antara menggunakan kedua fungsi aktivasi (tanh vs sigma)? Fungsi mana yang lebih baik dalam hal …

5
Apa yang dimaksud dengan "solusi bentuk tertutup"?
Saya sering menemukan istilah "solusi bentuk tertutup". Apa yang dimaksud dengan solusi bentuk-tertutup? Bagaimana cara menentukan apakah solusi bentuk dekat ada untuk masalah yang diberikan? Pencarian online, saya menemukan beberapa informasi, tetapi tidak ada dalam konteks mengembangkan model / solusi statistik atau probabilistik. Saya memahami regresi dengan sangat baik, jadi …



4
Apa perbedaan antara model zero-inflated dan hurdle?
Saya bertanya-tanya apakah ada perbedaan yang jelas antara apa yang disebut sebagai distribusi nol (model) dan apa yang disebut distribusi hurdle-at-zero (model)? Istilah-istilah itu cukup sering muncul dalam literatur dan saya menduga itu tidak sama, tetapi bisakah Anda menjelaskan kepada saya perbedaannya dalam istilah yang sederhana?

10
Memahami "varians" secara intuitif
Apa cara paling bersih dan termudah untuk menjelaskan konsep varians kepada seseorang? Apa artinya secara intuitif? Jika seseorang menjelaskan hal ini kepada anak mereka, bagaimana ia akan melakukannya? Ini adalah konsep yang saya sulit mengartikulasikan - terutama ketika menghubungkan varians dengan risiko. Saya memahaminya secara matematis dan bisa menjelaskannya juga. …


6
Adakah contoh di mana interval kredibel Bayesian jelas lebih rendah daripada interval kepercayaan yang sering terjadi
Sebuah pertanyaan baru tentang perbedaan antara interval kepercayaan dan interval yang dapat dipercaya membuat saya mulai membaca kembali artikel Edwin Jaynes tentang topik itu: Jaynes, ET, 1976. `Interval Keyakinan vs Interval Bayesian, 'dalam Fondasi Teori Probabilitas, Statistik Inferensi, dan Teori Statistik Sains, WL Harper dan CA Hooker (eds.), D. Reidel, …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.