Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
Regresi Poisson untuk memperkirakan risiko relatif untuk hasil biner
Ringkasan singkat Mengapa regresi logistik (dengan rasio odds) lebih umum digunakan dalam studi kohort dengan hasil biner, dibandingkan dengan regresi Poisson (dengan risiko relatif)? Latar Belakang Statistik sarjana dan pascasarjana dan kursus epidemiologi, dalam pengalaman saya, umumnya mengajarkan bahwa regresi logistik harus digunakan untuk memodelkan data dengan hasil biner, dengan …

5
Apakah pembelajaran mesin kurang bermanfaat untuk memahami hubungan sebab akibat, sehingga kurang menarik untuk ilmu sosial?
Pemahaman saya tentang perbedaan antara pembelajaran mesin / teknik prediksi statistik lainnya vs jenis statistik yang digunakan ilmuwan sosial (misalnya, ekonom) adalah bahwa ekonom tampaknya sangat tertarik untuk memahami efek dari satu atau beberapa variabel - baik dalam hal besarnya dan mendeteksi apakah hubungan itu kausal. Untuk ini, Anda berakhir …

3
Apa fungsi objektif PCA?
Analisis komponen utama dapat menggunakan dekomposisi matriks, tetapi itu hanya alat untuk sampai ke sana. Bagaimana Anda menemukan komponen utama tanpa menggunakan aljabar matriks? Apa fungsi objektif (goal), dan apa saja kendalanya?
42 pca 

5
Apa pentingnya koefisien regresi logistik?
Saat ini saya sedang membaca makalah tentang lokasi pemilihan dan preferensi pemilihan dalam pemilihan 2000 dan 2004. Di dalamnya, ada grafik yang menampilkan koefisien regresi logistik. Dari kursus bertahun-tahun yang lalu dan sedikit membacaSaya memahami regresi logistik sebagai cara untuk menggambarkan hubungan antara beberapa variabel independen dan variabel respon biner. …

2
Interval kepercayaan untuk pengambilan sampel Bernoulli
Saya memiliki sampel acak variabel acak Bernoulli , di mana adalah iidrv dan , dan adalah parameter yang tidak diketahui.X1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp Jelas, satu dapat menemukan perkiraan untuk : .pppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N Pertanyaan saya adalah bagaimana saya bisa membangun interval kepercayaan untuk ?ppp






6
Mengapa downsample?
Misalkan saya ingin mempelajari classifier yang memprediksi jika email adalah spam. Dan anggaplah hanya 1% dari email adalah spam. Hal termudah untuk dilakukan adalah mempelajari pengklasifikasi sepele yang mengatakan tidak ada email yang merupakan spam. Penggolong ini akan memberi kita akurasi 99%, tetapi tidak akan mempelajari sesuatu yang menarik, dan …


2
Berbagai cara untuk menulis istilah interaksi dalam lm?
Saya punya pertanyaan tentang yang merupakan cara terbaik untuk menentukan interaksi dalam model regresi. Pertimbangkan data berikut: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, …

5
Korelasi antara variabel kontinyu dan kategorikal (nominal)
Saya ingin menemukan korelasi antara variabel kontinu (variabel dependen) dan variabel kategori (nominal: jenis kelamin, variabel independen). Data kontinu tidak terdistribusi normal. Sebelumnya, saya telah dihitung dengan menggunakan Spearman . Namun, saya telah diberitahu bahwa itu tidak benar.ρρ\rho Saat mencari di internet, saya menemukan bahwa boxplot dapat memberikan gambaran tentang …

5
Bagaimana cara menafsirkan bobot fitur SVM?
Saya mencoba menafsirkan bobot variabel yang diberikan dengan memasang SVM linear. (Saya menggunakan scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Saya tidak dapat menemukan apa pun dalam dokumentasi yang secara khusus menyatakan bagaimana bobot ini dihitung atau ditafsirkan. Apakah tanda bobot itu ada hubungannya dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.