Statistik dan Big Data

2

Regresi Poisson untuk memperkirakan risiko relatif untuk hasil biner

Ringkasan singkat Mengapa regresi logistik (dengan rasio odds) lebih umum digunakan dalam studi kohort dengan hasil biner, dibandingkan dengan regresi Poisson (dengan risiko relatif)? Latar Belakang Statistik sarjana dan pascasarjana dan kursus epidemiologi, dalam pengalaman saya, umumnya mengajarkan bahwa regresi logistik harus digunakan untuk memodelkan data dengan hasil biner, dengan …

42 logistic poisson-distribution epidemiology odds-ratio relative-risk

5

Apakah pembelajaran mesin kurang bermanfaat untuk memahami hubungan sebab akibat, sehingga kurang menarik untuk ilmu sosial?

Pemahaman saya tentang perbedaan antara pembelajaran mesin / teknik prediksi statistik lainnya vs jenis statistik yang digunakan ilmuwan sosial (misalnya, ekonom) adalah bahwa ekonom tampaknya sangat tertarik untuk memahami efek dari satu atau beberapa variabel - baik dalam hal besarnya dan mendeteksi apakah hubungan itu kausal. Untuk ini, Anda berakhir …

42 machine-learning econometrics

3

Apa fungsi objektif PCA?

Analisis komponen utama dapat menggunakan dekomposisi matriks, tetapi itu hanya alat untuk sampai ke sana. Bagaimana Anda menemukan komponen utama tanpa menggunakan aljabar matriks? Apa fungsi objektif (goal), dan apa saja kendalanya?

42 pca

5

Apa pentingnya koefisien regresi logistik?

Saat ini saya sedang membaca makalah tentang lokasi pemilihan dan preferensi pemilihan dalam pemilihan 2000 dan 2004. Di dalamnya, ada grafik yang menampilkan koefisien regresi logistik. Dari kursus bertahun-tahun yang lalu dan sedikit membacaSaya memahami regresi logistik sebagai cara untuk menggambarkan hubungan antara beberapa variabel independen dan variabel respon biner. …

42 regression logistic interpretation

2

Interval kepercayaan untuk pengambilan sampel Bernoulli

Saya memiliki sampel acak variabel acak Bernoulli , di mana adalah iidrv dan , dan adalah parameter yang tidak diketahui.X1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp Jelas, satu dapat menemukan perkiraan untuk : .pppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N Pertanyaan saya adalah bagaimana saya bisa membangun interval kepercayaan untuk ?ppp

42 confidence-interval binomial bernoulli-distribution

8

Bagaimana cara deteksi komunitas dalam jaringan / grafik sosial tertimbang?

Saya bertanya-tanya apakah seseorang dapat menyarankan apa yang merupakan titik awal yang baik untuk melakukan deteksi komunitas / partisi / pengelompokan grafik pada grafik yang memiliki bobot , tepi yang tidak terarah . Grafik yang dimaksud memiliki sekitar 3 juta tepi dan masing-masing tepi menyatakan tingkat kesamaan antara dua simpul …

42 clustering data-visualization networks partitioning modularity

5

Bagaimana cara membuat seri waktu stasioner?

Selain mengambil perbedaan, apa teknik lain untuk membuat deret waktu non-stasioner, stasioner? Biasanya orang menyebut seri sebagai " order p terintegrasi " jika dapat dibuat diam melalui operator lag .(1−L)PXt(1−L)PXt(1-L)^P X_t

42 time-series stationarity

5

Menggugat prior dari para ahli

Bagaimana saya harus memperoleh distribusi sebelumnya dari para ahli ketika memasang model Bayesian?

42 bayesian prior elicitation

8

Bagaimana cara membuat orang lain merawat data dengan lebih baik?

Tempat kerja saya memiliki karyawan dari berbagai disiplin ilmu, jadi kami menghasilkan data dalam berbagai bentuk. Akibatnya, setiap tim telah mengembangkan sistemnya sendiri untuk menyimpan data. Beberapa menggunakan Access atau database SQL; beberapa tim (ngeri saya) hampir sepenuhnya bergantung pada lembar kerja Excel. Seringkali, format data berubah dari proyek ke …

42 dataset reproducible-research quality-control

6

Algoritma apa yang digunakan dalam regresi linier?

Saya biasanya mendengar tentang "kotak paling tidak biasa". Apakah itu algoritma yang paling banyak digunakan digunakan untuk regresi linier? Apakah ada alasan untuk menggunakan yang berbeda?

42 regression least-squares algorithms computational-statistics numerics

6

Mengapa downsample?

Misalkan saya ingin mempelajari classifier yang memprediksi jika email adalah spam. Dan anggaplah hanya 1% dari email adalah spam. Hal termudah untuk dilakukan adalah mempelajari pengklasifikasi sepele yang mengatakan tidak ada email yang merupakan spam. Penggolong ini akan memberi kita akurasi 99%, tetapi tidak akan mempelajari sesuatu yang menarik, dan …

42 machine-learning classification

3

Apakah penting untuk menghitung korelasi Pearson atau Spearman antara dua vektor Boolean?

Ada dua vektor Boolean, yang hanya berisi 0 dan 1. Jika saya menghitung korelasi Pearson atau Spearman, apakah itu bermakna atau masuk akal?

42 correlation binary-data pearson-r spearman-rho

2

Berbagai cara untuk menulis istilah interaksi dalam lm?

Saya punya pertanyaan tentang yang merupakan cara terbaik untuk menentukan interaksi dalam model regresi. Pertimbangkan data berikut: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, …

42 r regression interaction

5

Korelasi antara variabel kontinyu dan kategorikal (nominal)

Saya ingin menemukan korelasi antara variabel kontinu (variabel dependen) dan variabel kategori (nominal: jenis kelamin, variabel independen). Data kontinu tidak terdistribusi normal. Sebelumnya, saya telah dihitung dengan menggunakan Spearman . Namun, saya telah diberitahu bahwa itu tidak benar.ρρ\rho Saat mencari di internet, saya menemukan bahwa boxplot dapat memberikan gambaran tentang …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Bagaimana cara menafsirkan bobot fitur SVM?

Saya mencoba menafsirkan bobot variabel yang diberikan dengan memasang SVM linear. (Saya menggunakan scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Saya tidak dapat menemukan apa pun dalam dokumentasi yang secara khusus menyatakan bagaimana bobot ini dihitung atau ditafsirkan. Apakah tanda bobot itu ada hubungannya dengan …

42 svm feature-selection python scikit-learn