Statistik dan Big Data

16

Apa istilah statistik yang disalahgunakan yang perlu diperbaiki?

Statistik ada di mana-mana; Namun, penggunaan istilah statistik yang umum sering tidak jelas. Istilah probabilitas dan peluang digunakan secara bergantian dalam bahasa Inggris awam meskipun ekspresi matematisnya berbeda dan berbeda. Tidak memisahkan istilah kemungkinan dari probabilitas secara rutin membingungkan dokter yang mencoba mengukur kemungkinan kanker payudara dengan mamografi positif, “Oh, …

103 terminology

5

Perbedaan antara validasi silang dan bootstrap untuk memperkirakan kesalahan prediksi

Saya ingin pemikiran Anda tentang perbedaan antara validasi silang dan bootstrap untuk memperkirakan kesalahan prediksi. Apakah seseorang bekerja lebih baik untuk ukuran dataset kecil atau dataset besar?

103 cross-validation predictive-models bootstrap

19

Bagaimana cara mengganggu wasit statistik?

Baru-baru ini saya mengajukan pertanyaan mengenai prinsip-prinsip umum seputar peninjauan statistik di makalah . Apa yang sekarang ingin saya tanyakan adalah apa yang secara khusus membuat Anda jengkel ketika meninjau sebuah makalah, yaitu apa cara terbaik untuk benar-benar mengganggu seorang wasit statistik! Tolong, satu contoh per jawaban.

102 references referee

2

Penghapusan istilah intersepsi yang signifikan secara statistik meningkatkan dalam model linier

Dalam model linier sederhana dengan variabel penjelas tunggal, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Saya menemukan bahwa menghapus istilah intersepsi sangat meningkatkan kecocokan (nilai berubah dari 0,3 menjadi 0,9). Namun, istilah intersepsi tampaknya signifikan secara statistik.R2R2R^2 Dengan mencegat: Call: lm(formula = alpha ~ delta, data = cf) Residuals: …

101 r linear-model interpretation r-squared intercept

3

Penurunan gradien batch dibandingkan penurunan gradien stokastik

Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …

101 optimization gradient-descent sgd

8

ASA membahas batasan nilai- - apa saja alternatifnya?

Kami telah memiliki beberapa utas yang ditandai sebagai nilai-p yang mengungkapkan banyak kesalahpahaman tentangnya. Sepuluh bulan yang lalu kami memiliki thread tentang jurnal psikologis yang "dilarang" -valueshalppp , sekarang Amerika statistik Association (2016) mengatakan bahwa dengan analisis kita "tidak harus diakhiri dengan perhitungan dari -nilai".halpp American Statistics Association (ASA) percaya …

100 hypothesis-testing bayesian p-value frequentist

14

Buku untuk analisis deret waktu belajar mandiri?

Saya mulai dengan Time Series Analysis oleh Hamilton, tetapi saya tersesat. Buku ini benar-benar terlalu teoretis untuk saya pelajari sendiri. Adakah yang punya rekomendasi untuk buku teks tentang analisis deret waktu yang cocok untuk belajar sendiri?

99 time-series self-study references

10

Apa perbedaan antara korelasi dan regresi linier sederhana?

Secara khusus, saya mengacu pada koefisien korelasi product-moment Pearson.

99 correlation regression

25

Menemukan sampel data yang tersedia secara bebas

Saya telah bekerja pada metode baru untuk menganalisis dan mengurai dataset untuk mengidentifikasi dan mengisolasi subkelompok populasi tanpa mengetahui karakteristik subkelompok mana pun. Sementara metode ini bekerja cukup baik dengan sampel data buatan (yaitu kumpulan data yang dibuat khusus untuk tujuan mengidentifikasi dan memisahkan subset populasi), saya ingin mencoba mengujinya …

98 dataset sample population teaching

9

Apakah ini benar-benar cara kerja nilai-p? Bisakah sejuta makalah penelitian per tahun didasarkan pada keacakan murni?

Saya sangat baru dalam statistik, dan saya baru belajar untuk memahami dasar-dasarnya, termasuk nilai- . Tetapi ada tanda tanya besar di pikiran saya saat ini, dan saya agak berharap pemahaman saya salah. Inilah proses pemikiran saya:halpp Tidak semua penelitian di seluruh dunia agak seperti monyet di "teorema monyet tak terbatas"? …

98 hypothesis-testing statistical-significance p-value

4

Bagaimana cara menjelaskan kernel secara intuitif?

Banyak pengklasifikasi pembelajaran mesin (mis. Mesin vektor dukungan) memungkinkan seseorang untuk menentukan kernel. Apa yang akan menjadi cara intuitif untuk menjelaskan apa itu kernel? Satu aspek yang telah saya pikirkan adalah perbedaan antara kernel linear dan non-linear. Secara sederhana, saya dapat berbicara tentang 'fungsi keputusan linier' dan 'fungsi keputusan non-linear'. …

98 machine-learning svm references kernel-trick intuition

1

Pohon inferensi bersyarat vs pohon keputusan tradisional

Adakah yang bisa menjelaskan perbedaan utama antara pohon inferensi bersyarat ( ctreedari partypaket dalam R) dibandingkan dengan algoritma pohon keputusan yang lebih tradisional (seperti rpartdalam R)? Apa yang membuat pohon CI berbeda? Kekuatan dan kelemahan? Pembaruan: Saya telah melihat makalah oleh Horthorn et al yang dimaksud Chi dalam komentar. Saya …

97 r machine-learning cart

6

Mengapa norma L1 untuk model jarang

Saya membaca buku-buku tentang regresi linier. Ada beberapa kalimat tentang norma L1 dan L2. Saya tahu mereka, hanya tidak mengerti mengapa norma L1 untuk model jarang. Bisakah seseorang menggunakan memberikan penjelasan sederhana?

97 regression lasso regularization ridge-regression

9

Apa perbedaan antara regresi linier pada y dengan x dan x dengan y?

Koefisien korelasi Pearson dari x dan y adalah sama, baik Anda menghitung pearson (x, y) atau pearson (y, x). Ini menunjukkan bahwa melakukan regresi linier dari y diberikan x atau x diberikan y harus sama, tetapi saya tidak berpikir itu masalahnya. Dapatkah seseorang menjelaskan ketika hubungannya tidak simetris, dan bagaimana …

97 regression correlation linear-model pearson-r

3

Penjelasan intuitif tentang root unit

Bagaimana Anda menjelaskan secara intuitif apa itu unit root, dalam konteks uji unit root? Saya berpikir dengan cara menjelaskan seperti yang saya temukan dalam pertanyaan ini . Kasus dengan unit root adalah bahwa saya tahu (sedikit, omong-omong) bahwa tes root unit digunakan untuk menguji stasioneritas dalam deret waktu, tetapi hanya …

97 intuition unit-root