Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

15
Mengapa statistik parametrik lebih disukai daripada nonparametrik?
Dapatkah seseorang menjelaskan kepada saya mengapa ada orang yang memilih parametrik daripada metode statistik nonparametrik untuk pengujian hipotesis atau analisis regresi? Dalam pikiran saya, ini seperti pergi untuk arung jeram dan memilih arloji tahan air, karena Anda mungkin tidak membuatnya basah. Mengapa tidak menggunakan alat yang berfungsi pada setiap kesempatan?

4
Mengapa menyertakan garis lintang dan bujur dalam akun GAM untuk autokorelasi spasial?
Saya telah menghasilkan model aditif umum untuk deforestasi. Untuk menjelaskan autokorelasi spasial, saya telah memasukkan garis lintang dan garis bujur sebagai istilah interaksi yang dihaluskan (yaitu s (x, y)). Saya mendasarkan ini pada membaca banyak makalah di mana penulis mengatakan 'untuk menjelaskan autokorelasi spasial, koordinat poin dimasukkan sebagai istilah yang …



8
Bagaimana saya bisa membantu memastikan data pengujian tidak bocor ke dalam data pelatihan?
Misalkan kita memiliki seseorang yang membangun model prediktif, tetapi seseorang belum tentu berpengalaman dalam prinsip-prinsip statistik atau pembelajaran mesin yang tepat. Mungkin kita membantu orang itu saat mereka sedang belajar, atau mungkin orang itu menggunakan semacam paket perangkat lunak yang membutuhkan pengetahuan minimal untuk digunakan. Sekarang orang ini mungkin sangat …

9
Apa kerugian menggunakan laso untuk pemilihan variabel untuk regresi?
Dari yang saya tahu, menggunakan laso untuk pemilihan variabel menangani masalah input berkorelasi. Juga, karena ini setara dengan Least Angle Regression, itu tidak lambat secara komputasi. Namun, banyak orang (misalnya orang yang saya kenal melakukan bio-statistik) tampaknya masih mendukung pemilihan variabel secara bertahap atau bertahap. Apakah ada kerugian praktis menggunakan …



2
Apa perbedaan antara ZCA whitening dan PCA whitening?
Saya bingung tentang ZCA whitening dan normal whitening (yang diperoleh dengan membagi komponen utama dengan akar kuadrat dari nilai eigen PCA). Sejauh yang aku tahu, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, mana adalah vektor eigen PCA.UU\mathbf U Apa kegunaan dari ZCA whitening? Apa perbedaan antara pemutihan normal dan pemutihan …

3
Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?
Saya mengerti bahwa estimasi regresi ridge adalah yang meminimalkan jumlah sisa kuadrat dan penalti pada ukuranββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Namun, saya tidak sepenuhnya memahami pentingnya fakta bahwa βridgeβridge\beta_\text{ridge} berbeda dari βOLSβOLS\beta_\text{OLS} dengan hanya menambahkan konstanta kecil ke diagonal X′XX′XX'X . Memang, …



6
Kemana perginya debat frequentist-Bayesian?
Dunia statistik dibagi antara frequentis dan Bayesians. Saat ini tampaknya semua orang melakukan keduanya. Bagaimana ini bisa terjadi? Jika pendekatan yang berbeda cocok untuk masalah yang berbeda, mengapa para pendiri statistik tidak melihat ini? Atau, apakah debat dimenangkan oleh Frequentists dan orang Bayesian subjektif sejati pindah ke teori keputusan?



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.