Statistik dan Big Data

17

Mesin belajar buku masak / kartu referensi / cheatsheet?

Saya menemukan sumber daya seperti Buku Catatan Probabilitas dan Statistik dan Kartu Referensi R untuk Penambangan Data yang sangat berguna. Mereka jelas berfungsi dengan baik sebagai referensi tetapi juga membantu saya untuk mengatur pikiran saya pada suatu subjek dan mendapatkan awam dari tanah. T: Apakah ada sumber daya seperti ini …

57 machine-learning references

8

Apakah masuk akal untuk memperlakukan data kategorikal sebagai berkelanjutan?

Dalam menjawab pertanyaan ini pada data diskrit dan kontinu, saya dengan tegas menyatakan bahwa jarang masuk akal untuk memperlakukan data kategorikal sebagai kontinu. Di muka itu yang tampak jelas, tetapi intuisi sering menjadi panduan yang buruk untuk statistik, atau setidaknya milikku. Jadi sekarang saya bertanya-tanya: apakah itu benar? Atau adakah …

57 categorical-data data-transformation ordinal-data continuous-data

2

Bayes regression: bagaimana cara dilakukan dibandingkan dengan regresi standar?

Saya mendapat beberapa pertanyaan tentang regresi Bayesian: Diberikan regresi standar sebagai . Jika saya ingin mengubahnya menjadi regresi Bayesian, apakah saya perlu distribusi sebelumnya baik untuk β 0 dan β 1 (atau tidakkah cara ini berhasil)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 Dalam regresi standar seseorang akan mencoba untuk …

57 regression bayesian

3

Kapan skala log cocok?

Saya pernah membaca bahwa menggunakan skala log ketika membuat grafik / grafik sesuai dalam keadaan tertentu, seperti sumbu y dalam bagan seri waktu. Namun, saya belum dapat menemukan penjelasan yang pasti mengapa itu yang terjadi, atau kapan lagi itu akan sesuai. Harap diingat, saya bukan ahli statistik jadi saya mungkin …

57 data-visualization data-transformation

3

Variabel sering disesuaikan (misalnya standar) sebelum membuat model - kapan ini ide yang baik, dan kapan itu yang buruk?

Dalam keadaan apa yang ingin Anda, atau tidak ingin skala atau standarisasi variabel sebelum pemasangan model? Dan apa keuntungan / kerugian dari penskalaan variabel?

57 modeling predictive-models feature-selection theory standardization

3

Mengapa standar deviasi sampel merupakan penaksir bias ?

Menurut artikel Wikipedia tentang estimasi bias dari standar deviasi sampel SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} adalah penaksir yang bias dari SD populasi. Ini menyatakan bahwa .E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB. Variabel acak independen dan setiapxi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) Pertanyaan saya ada dua: Apa bukti dari bias itu? Bagaimana seseorang …

57 estimation standard-deviation

11

Sumber daya untuk mempelajari rantai Markov dan model Markov tersembunyi

Saya mencari sumber daya (tutorial, buku teks, webcast, dll) untuk belajar tentang Markov Chain dan HMMs. Latar belakang saya adalah sebagai ahli biologi, dan saya saat ini terlibat dalam proyek yang berhubungan dengan bioinformatika. Juga, apa latar belakang matematika yang perlu saya perlu memiliki pemahaman yang memadai tentang model Markov …

57 references markov-process hidden-markov-model bioinformatics

7

Tantangan Industri vs Kaggle. Apakah mengumpulkan lebih banyak pengamatan dan memiliki akses ke lebih banyak variabel lebih penting daripada pemodelan mewah?

Saya harap judulnya cukup jelas. Di Kaggle, sebagian besar pemenang menggunakan susun dengan kadang-kadang ratusan model dasar, untuk memeras beberapa% ekstra MSE, keakuratan ... Secara umum, menurut pengalaman Anda, seberapa pentingkah pemodelan mewah seperti menumpuk vs sekadar mengumpulkan lebih banyak data dan lebih banyak fitur untuk data?

56 large-data stacking collecting-data kaggle

9

Apakah salah untuk menguraikan kembali “1 dari 80 kematian disebabkan oleh kecelakaan mobil” karena “1 dari 80 orang meninggal akibat kecelakaan mobil?”

Pernyataan Satu (S1): "Satu dari 80 kematian disebabkan oleh kecelakaan mobil." Pernyataan Dua (S2): "Satu dari 80 orang meninggal akibat kecelakaan mobil." Sekarang, saya pribadi tidak melihat banyak perbedaan sama sekali antara kedua pernyataan ini. Saat menulis, saya akan menganggapnya dapat dipertukarkan dengan audiens awam. Namun, saya ditantang oleh dua …

56 interpretation risk

6

Regulator L2 setara dengan Gaussian Prior

Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus.

56 regression references regularization

4

Apa perbedaan antara PCA dan autoencoder?

Baik PCA dan autoencoder dapat melakukan pengurangan demensi, jadi apa perbedaan di antara mereka? Dalam situasi apa saya harus menggunakan satu sama lain?

56 machine-learning pca neural-networks autoencoders

1

Regresi logistik pada R menghasilkan pemisahan sempurna (fenomena Hauck-Donner). Sekarang apa?

Saya mencoba untuk memprediksi hasil biner menggunakan 50 variabel penjelas kontinu (kisaran sebagian besar variabel adalah hingga ∞ ). Kumpulan data saya memiliki hampir 24.000 baris. Ketika saya menjalankan di R, saya mendapatkan:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred …

56 r regression logistic separation

6

Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"?

Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah "mishmash yang tidak koheren". Saya akan memberikan daftar pustaka dan beberapa kutipan di …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

8

R perpustakaan untuk pembelajaran yang mendalam

Saya bertanya-tanya apakah ada perpustakaan R yang bagus di luar sana untuk mempelajari jaringan saraf yang dalam? Aku tahu ada yang nnet, neuralnetdan RSNNS, namun tidak satupun dari ini tampaknya menerapkan metode pembelajaran yang mendalam. Saya terutama tertarik pada yang tidak diawasi diikuti oleh pembelajaran yang diawasi, dan menggunakan dropout …

56 r neural-networks deep-learning rbm deep-belief-networks

4

Apakah semua nilai dalam interval kepercayaan 95% sama-sama mungkin?

Saya telah menemukan informasi sumbang pada pertanyaan: " Jika seseorang membangun interval kepercayaan 95% (CI) dari perbedaan dalam cara atau perbedaan dalam proporsi, apakah semua nilai dalam CI sama kemungkinannya? Atau, apakah estimasi titik adalah yang paling mungkin , dengan nilai di dekat "ekor" CI lebih kecil kemungkinannya dibandingkan dengan …

56 confidence-interval