Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
Seberapa baik regresi berganda dapat benar-benar “mengendalikan” kovariat?
Kita semua akrab dengan penelitian observasional yang berupaya membangun hubungan sebab akibat antara prediktor X yang tidak diacak dan hasil dengan memasukkan setiap perancu potensial yang dapat dibayangkan dalam model regresi berganda. Dengan demikian "mengendalikan" semua pembaur, argumen berjalan, kami mengisolasi efek dari penaksir bunga. Saya mengembangkan rasa tidak nyaman …

1
Bagaimana menafsirkan tipe I, tipe II, dan tipe III ANOVA dan MANOVA?
Pertanyaan utama saya adalah bagaimana menginterpretasikan output (koefisien, F, P) saat melakukan ANOVA Tipe I (berurutan)? Masalah penelitian spesifik saya sedikit lebih kompleks, jadi saya akan memecah contoh saya menjadi beberapa bagian. Pertama, jika saya tertarik pada efek kepadatan laba-laba (X1) pada pertumbuhan tanaman (Y1) dan saya menanam bibit di …

6
Motivasi untuk jarak Kolmogorov antara distribusi
Ada banyak cara untuk mengukur seberapa mirip dua distribusi probabilitas. Di antara metode yang populer (di lingkaran yang berbeda) adalah: jarak Kolmogorov: jarak antara fungsi distribusi; jarak Kantorovich-Rubinstein: perbedaan maksimum antara ekspektasi dengan dua distribusi fungsi dengan konstanta Lipschitz , yang juga ternyata merupakan jarak antara fungsi distribusi;111L1L1L^1 jarak dibatasi-Lipschitz: …

8
Apakah semua model tidak berguna? Apakah model yang tepat mungkin - atau berguna?
Pertanyaan ini telah membekas di benak saya selama lebih dari sebulan. Amstat News edisi Februari 2015 memuat artikel oleh Profesor Berkeley Mark van der Laan yang memarahi orang-orang karena menggunakan model yang tidak tepat. Dia menyatakan bahwa dengan menggunakan model, statistik lebih merupakan seni daripada sains. Menurutnya, kita selalu dapat …

10
Apa itu Big Data?
Saya telah ditanya beberapa kali pertanyaan: Apa itu Big-Data? Baik oleh siswa dan kerabat saya yang mengambil buzz di sekitar statistik dan ML. Saya menemukan posting CV ini . Dan saya merasa saya setuju dengan satu-satunya jawaban di sana. The halaman Wikipedia juga memiliki beberapa komentar tentang itu, tapi saya …
44 large-data 


4
Bagaimana kernel diterapkan pada peta fitur untuk menghasilkan peta fitur lainnya?
Saya mencoba untuk memahami bagian konvolusi dari jaringan saraf convolutional. Melihat gambar berikut: Saya tidak memiliki masalah memahami lapisan konvolusi pertama di mana kami memiliki 4 kernel yang berbeda (ukuran ), yang kami gabungkan dengan gambar input untuk mendapatkan 4 peta fitur.k×kk×kk \times k Yang tidak saya mengerti adalah lapisan …

4
Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol?
Uji statistik tradisional, seperti dua uji-t sampel, fokus pada upaya menghilangkan hipotesis bahwa tidak ada perbedaan antara fungsi dua sampel independen. Kemudian, kita memilih tingkat kepercayaan dan mengatakan bahwa jika perbedaan rata-rata di atas tingkat 95%, kita dapat menolak hipotesis nol. Jika tidak, kami "tidak dapat menolak hipotesis nol". Ini …

6
Apa grafik statistik favorit Anda?
Ini adalah favorit saya Contoh ini berada dalam nada humor (penghargaan diberikan kepada mantan profesor saya, Steven Gortmaker), tetapi saya juga tertarik pada grafik yang Anda rasa dengan indah menangkap dan mengomunikasikan wawasan atau metode statistik, bersama dengan ide-ide Anda yang hampir sama. Satu entri per jawaban. Tentu saja, pertanyaan …

5
Statistik diterbitkan dalam makalah akademik
Saya membaca banyak makalah akademis evolusi / ekologis, kadang-kadang dengan tujuan khusus untuk melihat bagaimana statistik digunakan 'di dunia nyata' di luar buku teks. Saya biasanya mengambil statistik dalam makalah sebagai Injil dan menggunakan makalah untuk membantu dalam pembelajaran statistik saya. Lagi pula, jika sebuah makalah telah menghabiskan waktu bertahun-tahun …

1
Varian produk dari beberapa variabel acak
Kami tahu jawaban untuk dua variabel independen: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 Namun, jika kita mengambil produk lebih dari dua variabel, , apa jawabannya dalam hal varian dan nilai yang diharapkan dari masing-masing variabel?Var(X1X2⋯Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

3
Saat menggabungkan nilai-p, mengapa tidak hanya rata-rata?
Baru-baru ini saya belajar tentang metode Fisher untuk menggabungkan nilai-p. Ini didasarkan pada fakta bahwa nilai-p di bawah nol mengikuti distribusi yang seragam, dan bahwa yang menurut saya jenius. Tetapi pertanyaan saya adalah mengapa pergi dengan cara berbelit-belit ini? dan mengapa tidak (apa yang salah dengan) hanya menggunakan nilai rata-rata …

1
Menghitung varians Kappa Cohen (dan kesalahan standar)
Statistik Kappa ( ) diperkenalkan pada tahun 1960 oleh Cohen [1] untuk mengukur kesepakatan antara dua penilai. Perbedaannya, bagaimanapun, telah menjadi sumber kontradiksi untuk beberapa waktu.κκ\kappa Pertanyaan saya adalah tentang perhitungan varians mana yang terbaik untuk digunakan dengan sampel besar. Saya cenderung percaya bahwa yang diuji dan diverifikasi oleh Fleiss …

7
Mengapa seseorang menggunakan pendekatan Bayesian dengan cara 'noninformatif' yang tidak patut daripada pendekatan klasik?
Jika bunga hanya memperkirakan parameter model (estimasi pointwise dan / atau interval) dan informasi sebelumnya tidak dapat diandalkan, lemah, (saya tahu ini agak kabur tetapi saya mencoba untuk membangun skenario di mana pilihan suatu sebelumnya sulit) ... Mengapa seseorang memilih untuk menggunakan pendekatan Bayesian dengan prior yang tidak tepat 'bukan …

8
Apa kontra dari analisis Bayesian?
Apa saja keberatan praktis untuk penggunaan metode statistik Bayesian dalam konteks apa pun? Tidak, saya tidak bermaksud peduli tentang pilihan sebelumnya. Saya akan senang jika ini tidak mendapat jawaban.
44 bayesian 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.