Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

16
Apa istilah statistik yang disalahgunakan yang perlu diperbaiki?
Statistik ada di mana-mana; Namun, penggunaan istilah statistik yang umum sering tidak jelas. Istilah probabilitas dan peluang digunakan secara bergantian dalam bahasa Inggris awam meskipun ekspresi matematisnya berbeda dan berbeda. Tidak memisahkan istilah kemungkinan dari probabilitas secara rutin membingungkan dokter yang mencoba mengukur kemungkinan kanker payudara dengan mamografi positif, “Oh, …
103 terminology 


19
Bagaimana cara mengganggu wasit statistik?
Baru-baru ini saya mengajukan pertanyaan mengenai prinsip-prinsip umum seputar peninjauan statistik di makalah . Apa yang sekarang ingin saya tanyakan adalah apa yang secara khusus membuat Anda jengkel ketika meninjau sebuah makalah, yaitu apa cara terbaik untuk benar-benar mengganggu seorang wasit statistik! Tolong, satu contoh per jawaban.

2
Penghapusan istilah intersepsi yang signifikan secara statistik meningkatkan dalam model linier
Dalam model linier sederhana dengan variabel penjelas tunggal, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Saya menemukan bahwa menghapus istilah intersepsi sangat meningkatkan kecocokan (nilai berubah dari 0,3 menjadi 0,9). Namun, istilah intersepsi tampaknya signifikan secara statistik.R2R2R^2 Dengan mencegat: Call: lm(formula = alpha ~ delta, data = cf) Residuals: …

3
Penurunan gradien batch dibandingkan penurunan gradien stokastik
Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …

8
ASA membahas batasan nilai- - apa saja alternatifnya?
Kami telah memiliki beberapa utas yang ditandai sebagai nilai-p yang mengungkapkan banyak kesalahpahaman tentangnya. Sepuluh bulan yang lalu kami memiliki thread tentang jurnal psikologis yang "dilarang" -valueshalppp , sekarang Amerika statistik Association (2016) mengatakan bahwa dengan analisis kita "tidak harus diakhiri dengan perhitungan dari -nilai".halpp American Statistics Association (ASA) percaya …



25
Menemukan sampel data yang tersedia secara bebas
Saya telah bekerja pada metode baru untuk menganalisis dan mengurai dataset untuk mengidentifikasi dan mengisolasi subkelompok populasi tanpa mengetahui karakteristik subkelompok mana pun. Sementara metode ini bekerja cukup baik dengan sampel data buatan (yaitu kumpulan data yang dibuat khusus untuk tujuan mengidentifikasi dan memisahkan subset populasi), saya ingin mencoba mengujinya …

9
Apakah ini benar-benar cara kerja nilai-p? Bisakah sejuta makalah penelitian per tahun didasarkan pada keacakan murni?
Saya sangat baru dalam statistik, dan saya baru belajar untuk memahami dasar-dasarnya, termasuk nilai- . Tetapi ada tanda tanya besar di pikiran saya saat ini, dan saya agak berharap pemahaman saya salah. Inilah proses pemikiran saya:halpp Tidak semua penelitian di seluruh dunia agak seperti monyet di "teorema monyet tak terbatas"? …

4
Bagaimana cara menjelaskan kernel secara intuitif?
Banyak pengklasifikasi pembelajaran mesin (mis. Mesin vektor dukungan) memungkinkan seseorang untuk menentukan kernel. Apa yang akan menjadi cara intuitif untuk menjelaskan apa itu kernel? Satu aspek yang telah saya pikirkan adalah perbedaan antara kernel linear dan non-linear. Secara sederhana, saya dapat berbicara tentang 'fungsi keputusan linier' dan 'fungsi keputusan non-linear'. …

1
Pohon inferensi bersyarat vs pohon keputusan tradisional
Adakah yang bisa menjelaskan perbedaan utama antara pohon inferensi bersyarat ( ctreedari partypaket dalam R) dibandingkan dengan algoritma pohon keputusan yang lebih tradisional (seperti rpartdalam R)? Apa yang membuat pohon CI berbeda? Kekuatan dan kelemahan? Pembaruan: Saya telah melihat makalah oleh Horthorn et al yang dimaksud Chi dalam komentar. Saya …



3
Penjelasan intuitif tentang root unit
Bagaimana Anda menjelaskan secara intuitif apa itu unit root, dalam konteks uji unit root? Saya berpikir dengan cara menjelaskan seperti yang saya temukan dalam pertanyaan ini . Kasus dengan unit root adalah bahwa saya tahu (sedikit, omong-omong) bahwa tes root unit digunakan untuk menguji stasioneritas dalam deret waktu, tetapi hanya …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.