Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

17
Mesin belajar buku masak / kartu referensi / cheatsheet?
Saya menemukan sumber daya seperti Buku Catatan Probabilitas dan Statistik dan Kartu Referensi R untuk Penambangan Data yang sangat berguna. Mereka jelas berfungsi dengan baik sebagai referensi tetapi juga membantu saya untuk mengatur pikiran saya pada suatu subjek dan mendapatkan awam dari tanah. T: Apakah ada sumber daya seperti ini …

8
Apakah masuk akal untuk memperlakukan data kategorikal sebagai berkelanjutan?
Dalam menjawab pertanyaan ini pada data diskrit dan kontinu, saya dengan tegas menyatakan bahwa jarang masuk akal untuk memperlakukan data kategorikal sebagai kontinu. Di muka itu yang tampak jelas, tetapi intuisi sering menjadi panduan yang buruk untuk statistik, atau setidaknya milikku. Jadi sekarang saya bertanya-tanya: apakah itu benar? Atau adakah …

2
Bayes regression: bagaimana cara dilakukan dibandingkan dengan regresi standar?
Saya mendapat beberapa pertanyaan tentang regresi Bayesian: Diberikan regresi standar sebagai . Jika saya ingin mengubahnya menjadi regresi Bayesian, apakah saya perlu distribusi sebelumnya baik untuk β 0 dan β 1 (atau tidakkah cara ini berhasil)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 Dalam regresi standar seseorang akan mencoba untuk …

3
Kapan skala log cocok?
Saya pernah membaca bahwa menggunakan skala log ketika membuat grafik / grafik sesuai dalam keadaan tertentu, seperti sumbu y dalam bagan seri waktu. Namun, saya belum dapat menemukan penjelasan yang pasti mengapa itu yang terjadi, atau kapan lagi itu akan sesuai. Harap diingat, saya bukan ahli statistik jadi saya mungkin …


3
Mengapa standar deviasi sampel merupakan penaksir bias ?
Menurut artikel Wikipedia tentang estimasi bias dari standar deviasi sampel SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} adalah penaksir yang bias dari SD populasi. Ini menyatakan bahwa .E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB. Variabel acak independen dan setiapxi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) Pertanyaan saya ada dua: Apa bukti dari bias itu? Bagaimana seseorang …


7
Tantangan Industri vs Kaggle. Apakah mengumpulkan lebih banyak pengamatan dan memiliki akses ke lebih banyak variabel lebih penting daripada pemodelan mewah?
Saya harap judulnya cukup jelas. Di Kaggle, sebagian besar pemenang menggunakan susun dengan kadang-kadang ratusan model dasar, untuk memeras beberapa% ekstra MSE, keakuratan ... Secara umum, menurut pengalaman Anda, seberapa pentingkah pemodelan mewah seperti menumpuk vs sekadar mengumpulkan lebih banyak data dan lebih banyak fitur untuk data?

9
Apakah salah untuk menguraikan kembali “1 dari 80 kematian disebabkan oleh kecelakaan mobil” karena “1 dari 80 orang meninggal akibat kecelakaan mobil?”
Pernyataan Satu (S1): "Satu dari 80 kematian disebabkan oleh kecelakaan mobil." Pernyataan Dua (S2): "Satu dari 80 orang meninggal akibat kecelakaan mobil." Sekarang, saya pribadi tidak melihat banyak perbedaan sama sekali antara kedua pernyataan ini. Saat menulis, saya akan menganggapnya dapat dipertukarkan dengan audiens awam. Namun, saya ditantang oleh dua …

6
Regulator L2 setara dengan Gaussian Prior
Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus.


1
Regresi logistik pada R menghasilkan pemisahan sempurna (fenomena Hauck-Donner). Sekarang apa?
Saya mencoba untuk memprediksi hasil biner menggunakan 50 variabel penjelas kontinu (kisaran sebagian besar variabel adalah hingga ∞ ). Kumpulan data saya memiliki hampir 24.000 baris. Ketika saya menjalankan di R, saya mendapatkan:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred …

6
Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"?
Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah "mishmash yang tidak koheren". Saya akan memberikan daftar pustaka dan beberapa kutipan di …


4
Apakah semua nilai dalam interval kepercayaan 95% sama-sama mungkin?
Saya telah menemukan informasi sumbang pada pertanyaan: " Jika seseorang membangun interval kepercayaan 95% (CI) dari perbedaan dalam cara atau perbedaan dalam proporsi, apakah semua nilai dalam CI sama kemungkinannya? Atau, apakah estimasi titik adalah yang paling mungkin , dengan nilai di dekat "ekor" CI lebih kecil kemungkinannya dibandingkan dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.