Statistik dan Big Data

3

Apakah kemandirian statistik berarti kurangnya sebab-akibat?

Dua variabel acak A dan B secara statistik independen. Itu berarti bahwa dalam DAG proses: dan tentu saja . Tetapi apakah itu juga berarti bahwa tidak ada pintu depan dari B ke A?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) Karena dengan begitu kita harus mendapatkan . Jadi jika itu masalahnya, apakah independensi statistik secara …

40 independence causality bayesian-network dag

4

Mengapa fungsi sigmoid bukan yang lain?

Mengapa fungsi sigmoid standar de-facto, , begitu populer di jaringan saraf dan regresi logistik (tidak dalam)?11 + e- x11+e-x\frac{1}{1+e^{-x}} Mengapa kita tidak menggunakan banyak fungsi turunan lainnya, dengan waktu perhitungan yang lebih cepat atau peluruhan yang lebih lambat (sehingga gradien menghilang lebih sedikit). Beberapa contoh ada di Wikipedia tentang fungsi …

40 logistic neural-networks least-squares

6

Kapan menggunakan simulasi?

Jadi ini pertanyaan yang sangat sederhana dan bodoh. Namun, ketika saya masih di sekolah, saya sangat sedikit memperhatikan seluruh konsep simulasi di kelas dan itu membuat saya sedikit takut dengan proses itu. Bisakah Anda menjelaskan proses simulasi dalam istilah awam? (bisa untuk menghasilkan data, koefisien regresi, dll) Apa sajakah situasi …

40 simulation

5

Peringatan dalam perkiraan R - Chi-squared mungkin salah

Saya memiliki data yang menunjukkan hasil ujian masuk pemadam kebakaran. Saya menguji hipotesis bahwa hasil ujian dan etnis tidak saling independen. Untuk menguji ini, saya menjalankan uji chi-square Pearson di R. Hasilnya menunjukkan apa yang saya harapkan, tetapi itu memberi peringatan bahwa " In chisq.test(a) : Chi-squared approximation may be …

40 r categorical-data chi-squared small-sample error-message

4

Ingat dan presisi dalam klasifikasi

Saya membaca beberapa definisi mengingat dan presisi, meskipun setiap kali dalam konteks pengambilan informasi. Saya bertanya-tanya apakah seseorang dapat menjelaskan ini sedikit lebih banyak dalam konteks klasifikasi dan mungkin menggambarkan beberapa contoh. Katakanlah misalnya saya memiliki classifier biner yang memberi saya presisi 60% dan recall 95%, apakah ini classifier yang …

40 machine-learning metric

5

Bagaimana cara mendapatkan solusi regresi ridge?

Saya mengalami beberapa masalah dengan derivasi solusi untuk regresi ridge. Saya tahu solusi regresi tanpa ketentuan regularisasi: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Tetapi setelah menambahkan istilah L2 ke fungsi biaya, mengapa solusinya menjadiλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

3

Bagaimana cara mempresentasikan hasil Lasso menggunakan glmnet?

Saya ingin mencari prediktor untuk variabel dependen kontinu dari 30 variabel independen. Saya menggunakan regresi Lasso seperti yang diterapkan dalam paket glmnet di R. Berikut adalah beberapa kode dummy: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to …

40 r multiple-regression lasso glmnet communication

2

Bagaimana cara membaca plot jarak Cook?

Adakah yang tahu bagaimana cara menentukan apakah poin 7, 16 dan 29 adalah poin yang berpengaruh atau tidak? Saya membaca di suatu tempat bahwa karena jarak Cook lebih rendah dari 1, mereka tidak. Apakah saya benar?

40 r regression residuals diagnostic cooks-distance

3

Pertimbangkan jumlah distribusi seragam pada , atau . Mengapa puncak dalam PDF menghilang untuk ?

Saya sudah lama bertanya-tanya tentang yang ini; Saya merasa sedikit aneh betapa tiba-tiba itu terjadi. Pada dasarnya, mengapa kita hanya perlu tiga seragam untuk untuk memuluskan seperti itu? Dan mengapa smoothing-out terjadi begitu cepat?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (gambar dicuri tanpa malu-malu dari blog John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) Mengapa …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

3

Apa perbedaan antara model Markov tersembunyi dan jaringan saraf?

Saya hanya basah karena statistik, jadi saya minta maaf jika pertanyaan ini tidak masuk akal. Saya telah menggunakan model Markov untuk memprediksi keadaan tersembunyi (kasino tidak adil, gulungan dadu, dll.) Dan jaringan saraf untuk mempelajari klik pengguna pada mesin pencari. Keduanya memiliki status tersembunyi yang kami coba cari tahu menggunakan …

40 data-mining algorithms neural-networks markov-process

1

Bagaimana menentukan komponen utama yang signifikan menggunakan pendekatan bootstrap atau Monte Carlo?

Saya tertarik untuk menentukan jumlah pola signifikan yang keluar dari Analisis Komponen Utama (PCA) atau Analisis Fungsi Orthogonal Empiris (EOF). Saya khususnya tertarik menerapkan metode ini pada data iklim. Bidang data adalah matriks MxN dengan M sebagai dimensi waktu (misalnya hari) dan N menjadi dimensi spasial (misalnya lokasi lon / …

40 r pca bootstrap monte-carlo

15

Praktik terbaik apa yang harus saya ikuti saat menyiapkan plot?

Saya biasanya membuat pilihan istimewa saya sendiri ketika menyiapkan plot. Namun, saya bertanya-tanya apakah ada praktik terbaik untuk menghasilkan plot. Catatan: Komentar Rob untuk jawaban atas pertanyaan ini sangat relevan di sini.

40 data-visualization references

13

Masalah Monty Hall - di mana intuisi kita mengecewakan kita?

Dari Wikipedia: Misalkan Anda berada di sebuah acara permainan, dan Anda diberi pilihan tiga pintu: Di belakang satu pintu adalah mobil; di belakang yang lain, kambing. Anda memilih pintu, katakan Nomor 1, dan tuan rumah, yang tahu apa yang ada di balik pintu, membuka pintu lain, katakan Nomor 3, yang …

40 probability intuition puzzle

3

Apa yang dikatakan deviasi standar kepada kita dalam distribusi tidak normal

Dalam distribusi normal, aturan 68-95-99.7 memberikan banyak standar deviasi, tetapi apa yang akan berarti deviasi standar dalam distribusi non-normal (multimodal atau condong)? Apakah semua nilai data masih berada dalam 3 standar deviasi? Apakah kita memiliki aturan seperti 68-95-99.7 yang untuk distribusi tidak normal?

40 normal-distribution standard-deviation skewness

5

Clustering Warping Waktu dinamis

Apa yang akan menjadi pendekatan untuk menggunakan Dynamic Time Warping (DTW) untuk melakukan clustering time series? Saya telah membaca tentang DTW sebagai cara untuk menemukan kesamaan antara dua seri waktu, sementara mereka dapat digeser waktu. Bisakah saya menggunakan metode ini sebagai ukuran kesamaan untuk algoritma pengelompokan seperti k-means?

40 time-series clustering