Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
Regresi logistik multinomial vs regresi logistik biner satu-vs-istirahat
Katakanlah kita memiliki variabel dependen YYY dengan beberapa kategori dan set variabel independen. Apa keuntungan dari regresi logistik multinomial daripada serangkaian regresi logistik biner (yaitu skema one-vs-rest )? Dengan set regresi logistik biner yang saya maksud bahwa untuk setiap kategori yi∈Yyi∈Yy_{i} \in Y kita membangun model regresi logistik biner terpisah …

6
Bagaimana saya dapat membuktikan secara analitik bahwa membagi jumlah secara acak menghasilkan distribusi eksponensial (misalnya pendapatan dan kekayaan)?
Dalam artikel saat ini di SCIENCE berikut ini diusulkan: Misalkan Anda membagi secara acak 500 juta pendapatan di antara 10.000 orang. Hanya ada satu cara untuk memberi setiap orang bagian yang sama, 50.000 saham. Jadi, jika Anda membagikan penghasilan secara acak, kesetaraan sangat tidak mungkin. Tetapi ada banyak cara untuk …

4
Metode yang baik untuk plot kerapatan variabel non-negatif dalam R?
plot(density(rexp(100)) Jelas semua kepadatan di sebelah kiri nol merupakan bias. Saya ingin meringkas beberapa data untuk non-statistik, dan saya ingin menghindari pertanyaan tentang mengapa data non-negatif memiliki kepadatan di sebelah kiri nol. Plot-plot tersebut untuk pengecekan pengacakan; Saya ingin menunjukkan distribusi variabel berdasarkan kelompok perlakuan dan kontrol. Distribusi seringkali eksponensial-ish. …

3
Interpretasi nilai-p dalam pengujian hipotesis
Saya baru-baru ini menemukan kertas "The Signifikansi Null Hypothesis Significance Testing", Jeff Gill (1999) . Penulis mengemukakan beberapa kesalahpahaman umum mengenai pengujian hipotesis dan nilai-p, yang saya punya dua pertanyaan spesifik: Nilai-p secara teknis , yang, sebagaimana ditunjukkan oleh makalah, umumnya tidak memberi tahu kita apa-apa tentang , kecuali kita …

6
Mengapa "menjelaskan" masuk akal secara intuitif?
Baru-baru ini saya belajar tentang prinsip penalaran probabilistik yang disebut " menjelaskan ," dan saya mencoba memahami intuisi untuk itu. Biarkan saya mengatur skenario. Biarkan menjadi peristiwa gempa bumi terjadi. Biarkan acara menjadi acara dimana raksasa hijau periang itu berjalan-jalan di sekitar kota. Biarkan menjadi peristiwa bahwa tanah bergetar. Mari …

3
Hal yang perlu dipertimbangkan tentang program master dalam statistik
Ini adalah musim penerimaan untuk sekolah pascasarjana. Saya (dan banyak siswa seperti saya) sekarang mencoba memutuskan program statistik mana yang akan dipilih. Apa sajakah hal-hal di antara Anda yang bekerja dengan statistik menyarankan kami pertimbangkan tentang program master dalam statistik? Adakah kesalahan atau kesalahan umum yang dilakukan siswa (mungkin terkait …

3
Bagaimana cara memperkirakan parameter penyusutan di Lasso atau regresi ridge dengan> 50K variabel?
Saya ingin menggunakan Lasso atau regresi ridge untuk model dengan lebih dari 50.000 variabel. Saya ingin melakukannya menggunakan paket perangkat lunak dalam R. Bagaimana saya bisa memperkirakan parameter penyusutan ( )?λλ\lambda Suntingan: Inilah poin yang ingin saya sampaikan: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace …



3
Membuat “skor kepastian” dari suara di hutan acak?
Saya mencari untuk melatih classifier yang akan membedakan antara Type Adan Type Bobjek dengan set pelatihan yang cukup besar sekitar 10.000 objek, sekitar setengah dari yang ada Type Adan setengahnya adalah Type B. Dataset terdiri dari 100 fitur kontinu yang merinci sifat fisik sel (ukuran, radius rata-rata, dll). Memvisualisasikan data …


5
Fungsi pengaturan waktu dalam R [ditutup]
Saya ingin mengukur waktu yang diperlukan untuk mengulangi menjalankan suatu fungsi. Apakah replicate()dan menggunakan for-loop setara? Sebagai contoh: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); Yang merupakan metode yang disukai. Dalam output system.time(), apakah sys+userwaktu CPU sebenarnya untuk menjalankan program? Apakah elapsedukuran kinerja waktu program yang baik?
36 r 

4
Dari mana berasal dari teorema limit pusat (CLT)?
Versi yang sangat sederhana dari teorema terbatas pusat seperti di bawah ini yang merupakan Lindeberg-Lévy CLT. Saya tidak mengerti mengapa ada di sebelah kiri. Dan Lyapunov CLT mengatakan tetapi mengapa bukan ? Adakah yang bisa memberitahu saya apa saja faktor-faktor ini, seperti dan ? bagaimana kita mendapatkannya di teorema?n−−√((1n∑i=1nXi)−μ) →d …

5
Angkat ukuran dalam penambangan data
Saya mencari di banyak situs web untuk mengetahui apa yang sebenarnya akan dilakukan lift? Hasil yang saya temukan semua tentang menggunakannya dalam aplikasi tidak dengan sendirinya. Saya tahu tentang fungsi dukungan dan kepercayaan diri. Dari Wikipedia, dalam penggalian data, lift adalah ukuran kinerja model dalam memprediksi atau mengklasifikasikan kasus, mengukur …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.