Statistik dan Big Data

15

Mengapa statistik parametrik lebih disukai daripada nonparametrik?

Dapatkah seseorang menjelaskan kepada saya mengapa ada orang yang memilih parametrik daripada metode statistik nonparametrik untuk pengujian hipotesis atau analisis regresi? Dalam pikiran saya, ini seperti pergi untuk arung jeram dan memilih arloji tahan air, karena Anda mungkin tidak membuatnya basah. Mengapa tidak menggunakan alat yang berfungsi pada setiap kesempatan?

60 regression hypothesis-testing mathematical-statistics estimation nonparametric

4

Mengapa menyertakan garis lintang dan bujur dalam akun GAM untuk autokorelasi spasial?

Saya telah menghasilkan model aditif umum untuk deforestasi. Untuk menjelaskan autokorelasi spasial, saya telah memasukkan garis lintang dan garis bujur sebagai istilah interaksi yang dihaluskan (yaitu s (x, y)). Saya mendasarkan ini pada membaca banyak makalah di mana penulis mengatakan 'untuk menjelaskan autokorelasi spasial, koordinat poin dimasukkan sebagai istilah yang …

60 r modeling spatial autocorrelation gam

5

Mengapa mengumpulkan data sampai memperoleh hasil yang signifikan meningkatkan tingkat kesalahan Tipe I?

Saya bertanya-tanya persis mengapa mengumpulkan data sampai hasil yang signifikan (misalnya, ) diperoleh (yaitu, p-hacking) meningkatkan tingkat kesalahan Tipe I?p<.05p<.05p \lt .05 Saya juga akan sangat menghargai Rdemonstrasi fenomena ini.

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

11

Apa arti ortogonal dalam konteks statistik?

Dalam konteks lain, ortogonal berarti "pada sudut kanan" atau "tegak lurus". Apa arti ortogonal dalam konteks statistik? Terima kasih atas klarifikasi.

60 descriptive-statistics

8

Bagaimana saya bisa membantu memastikan data pengujian tidak bocor ke dalam data pelatihan?

Misalkan kita memiliki seseorang yang membangun model prediktif, tetapi seseorang belum tentu berpengalaman dalam prinsip-prinsip statistik atau pembelajaran mesin yang tepat. Mungkin kita membantu orang itu saat mereka sedang belajar, atau mungkin orang itu menggunakan semacam paket perangkat lunak yang membutuhkan pengetahuan minimal untuk digunakan. Sekarang orang ini mungkin sangat …

60 machine-learning classification predictive-models cross-validation out-of-sample

9

Apa kerugian menggunakan laso untuk pemilihan variabel untuk regresi?

Dari yang saya tahu, menggunakan laso untuk pemilihan variabel menangani masalah input berkorelasi. Juga, karena ini setara dengan Least Angle Regression, itu tidak lambat secara komputasi. Namun, banyak orang (misalnya orang yang saya kenal melakukan bio-statistik) tampaknya masih mendukung pemilihan variabel secara bertahap atau bertahap. Apakah ada kerugian praktis menggunakan …

60 regression feature-selection lasso

9

Bagaimana cara memvisualisasikan apa yang dilakukan ANOVA?

Cara apa (cara?) Yang ada untuk menjelaskan secara visual apa itu ANOVA? Setiap referensi, tautan (paket R?) Akan disambut.

60 data-visualization anova teaching

3

Jelaskan komik jelly bean xkcd: Apa yang membuatnya lucu?

Saya melihat bahwa satu waktu dari dua puluh keseluruhan tes yang mereka jalankan, , sehingga mereka keliru menganggap bahwa selama salah satu dari dua puluh tes, hasilnya adalah signifikan ( 0,05 = 1 / 20 ).p<0.05p<0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd jelly bean comic - "Significant" Judul: Signifikan Arahkan kursor: …

60 hypothesis-testing statistical-significance confidence-interval p-value humor

2

Apa perbedaan antara ZCA whitening dan PCA whitening?

Saya bingung tentang ZCA whitening dan normal whitening (yang diperoleh dengan membagi komponen utama dengan akar kuadrat dari nilai eigen PCA). Sejauh yang aku tahu, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, mana adalah vektor eigen PCA.UU\mathbf U Apa kegunaan dari ZCA whitening? Apa perbedaan antara pemutihan normal dan pemutihan …

60 pca dimensionality-reduction image-processing

3

Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?

Saya mengerti bahwa estimasi regresi ridge adalah yang meminimalkan jumlah sisa kuadrat dan penalti pada ukuranββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Namun, saya tidak sepenuhnya memahami pentingnya fakta bahwa βridgeβridge\beta_\text{ridge} berbeda dari βOLSβOLS\beta_\text{OLS} dengan hanya menambahkan konstanta kecil ke diagonal X′XX′XX'X . Memang, …

59 regression least-squares ridge-regression shrinkage

7

Optimalisasi ketika Fungsi Biaya Lambat untuk Mengevaluasi

Keturunan gradien dan banyak metode lain berguna untuk menemukan minimum lokal dalam fungsi biaya. Mereka dapat menjadi efisien ketika fungsi biaya dapat dievaluasi dengan cepat di setiap titik, baik secara numerik atau analitik. Saya memiliki apa yang bagi saya merupakan situasi yang tidak biasa. Setiap evaluasi fungsi biaya saya mahal. …

59 gradient-descent optimization bayesian-optimization

13

Jika kita gagal menolak hipotesis nol dalam penelitian besar, bukankah itu bukti nol?

Keterbatasan dasar pengujian signifikansi hipotesis nol adalah bahwa hal itu tidak memungkinkan peneliti untuk mengumpulkan bukti yang mendukung nol ( Sumber ) Saya melihat klaim ini berulang di banyak tempat, tetapi saya tidak dapat menemukan pembenaran untuk itu. Jika kita melakukan penelitian besar dan kita tidak menemukan bukti signifikan secara …

59 hypothesis-testing

6

Kemana perginya debat frequentist-Bayesian?

Dunia statistik dibagi antara frequentis dan Bayesians. Saat ini tampaknya semua orang melakukan keduanya. Bagaimana ini bisa terjadi? Jika pendekatan yang berbeda cocok untuk masalah yang berbeda, mengapa para pendiri statistik tidak melihat ini? Atau, apakah debat dimenangkan oleh Frequentists dan orang Bayesian subjektif sejati pindah ke teori keputusan?

59 bayesian frequentist history philosophical

4

Penjelasan intuitif tentang Informasi Fisher dan Cramer-Rao terikat

Saya tidak nyaman dengan informasi Fisher, apa yang diukur dan bagaimana itu membantu. Juga hubungannya dengan Cramer-Rao terikat tidak jelas bagi saya. Bisakah seseorang tolong berikan penjelasan intuitif tentang konsep-konsep ini?

59 estimation intuition fisher-information

6

Apa itu model "jenuh"?

Apa yang dimaksud ketika kita mengatakan kita memiliki model jenuh?

59 modeling regression