Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


8
Menghitung jumlah optimal tempat sampah dalam histogram
Saya tertarik menemukan metode seoptimal mungkin untuk menentukan berapa banyak nampan yang harus saya gunakan dalam histogram. Data saya harus berkisar antara 30 hingga 350 objek paling banyak, dan khususnya saya mencoba menerapkan ambang (seperti metode Otsu) di mana objek "baik", yang saya harus memiliki lebih sedikit dan harus lebih …

2
Perbedaan KL antara duaausa univariat
Saya perlu menentukan KL-divergence antara dua Gaussians. Saya membandingkan hasil saya dengan ini , tetapi saya tidak dapat mereproduksi hasilnya. Hasil saya jelas salah, karena KL bukan 0 untuk KL (p, p). Saya bertanya-tanya di mana saya melakukan kesalahan dan bertanya apakah ada yang bisa menemukannya. Biarkan dan . Dari …

9
Probabilitas satu peristiwa masa depan kehidupan nyata tunggal: Apa artinya ketika mereka mengatakan bahwa "Hillary memiliki peluang 75% untuk menang"?
Karena pemilihan adalah acara satu kali, itu bukan percobaan yang dapat diulang. Jadi, apa tepatnya arti dari pernyataan "Hillary yang memiliki peluang 75% untuk menang" ? Saya mencari definisi yang benar secara statistik, bukan yang intuitif atau konseptual. Saya adalah penggemar statistik amatir yang mencoba menjawab pertanyaan ini yang muncul …

7
The Book of Why oleh Judea Pearl: Mengapa dia memukul statistik?
Saya sedang membaca The Book of Why karya Judea Pearl, dan itu sudah masuk ke kulit saya 1 . Secara khusus, tampak bagi saya bahwa ia tanpa syarat menghantam statistik "klasik" dengan mengemukakan argumen orang bodoh bahwa statistik tidak pernah dapat menyelidiki hubungan sebab akibat, bahwa ia tidak pernah tertarik …
79 causality 

5
Apa perbedaan antara pembelajaran di luar kebijakan dan pembelajaran di luar kebijakan?
Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut: "Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari nilai kebijakan yang dilakukan oleh agen termasuk langkah-langkah eksplorasi . " Saya …

6
Bagaimana cara mengetahui apakah data "berkerumun" cukup untuk algoritma pengelompokan untuk menghasilkan hasil yang bermakna?
Bagaimana Anda tahu jika data Anda (dimensi tinggi) menunjukkan pengelompokan yang cukup sehingga hasil dari kmeans atau algoritma pengelompokan lainnya benar-benar bermakna? Khususnya untuk algoritma k-means, berapa banyak pengurangan dalam varians dalam-cluster yang seharusnya ada untuk hasil clustering aktual menjadi bermakna (dan tidak palsu)? Haruskah pengelompokan terlihat ketika bentuk data …


5
Cara menghitung Area Di Bawah Kurva (AUC), atau statistik-c, dengan tangan
Saya tertarik menghitung area di bawah kurva (AUC), atau c-statistik, dengan tangan untuk model regresi logistik biner. Misalnya, dalam dataset validasi, saya memiliki nilai sebenarnya untuk variabel dependen, retensi (1 = dipertahankan; 0 = tidak dipertahankan), serta status retensi yang diprediksi untuk setiap pengamatan yang dihasilkan oleh analisis regresi saya …

7
Apa manfaat memecah variabel prediktor kontinu?
Saya bertanya-tanya apa nilainya dalam mengambil variabel prediktor kontinu dan memecahnya (misalnya, menjadi kuintil), sebelum menggunakannya dalam model. Sepertinya saya bahwa dengan binning variabel kita kehilangan informasi. Apakah ini hanya agar kita dapat memodelkan efek non-linear? Jika kita menyimpan variabel kontinu dan itu bukan hubungan linear yang lurus, apakah kita …

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Clustering pada output t-SNE
Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak informasi. Saya kemudian mencoba t-SNE (untuk pertama …


3
Bagaimana cara menghasilkan plot yang bagus dari hasil analisis klaster k-means?
Saya menggunakan R untuk melakukan pengelompokan K-means. Saya menggunakan 14 variabel untuk menjalankan K-means Apa cara yang bagus untuk memplot hasil K-means? Apakah ada implementasi yang ada? Apakah memiliki 14 variabel menyulitkan merencanakan hasilnya? Saya menemukan sesuatu yang disebut GGcluster yang terlihat keren tetapi masih dalam pengembangan. Saya juga membaca …

3
Kapan R kuadrat negatif?
Pemahaman saya adalah bahwa tidak dapat negatif karena merupakan persegi R. Namun aku berlari regresi linier sederhana dalam SPSS dengan satu variabel bebas dan variabel terikat. Output SPSS saya memberi saya nilai negatif untuk R 2 . Jika saya menghitung ini dengan tangan dari R maka R 2 akan positif. …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.