Statistik dan Big Data binary-data

1

Bagaimana menafsirkan koefisien tahap kedua dalam regresi variabel instrumental dengan instrumen biner dan variabel endogen biner?

(posting yang cukup panjang, maaf. Ini termasuk banyak info latar belakang, jadi silakan lewati ke pertanyaan di bagian bawah.) Intro: Saya sedang mengerjakan sebuah proyek di mana kami mencoba mengidentifikasi efek dari variabel endogen biner, , pada hasil yang berkelanjutan, y . Kami memiliki datang dengan instrumen, z 1 , …

11 econometrics interpretation binary-data instrumental-variables

3

Variabel indikator untuk data biner: {-1,1} vs {0,1}

Saya tertarik pada interaksi perlakuan-kovariat dalam konteks eksperimen / percobaan terkontrol acak, dengan perawatan tugas indikator biner .TTT Bergantung pada metode / sumber spesifik, saya telah melihat masing-masing dan masing-masing untuk subjek yang dirawat dan yang tidak diobati.T={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} Apakah ada aturan praktis kapan harus menggunakan atau ?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} Apa …

10 binary-data categorical-encoding

1

Memodelkan deret waktu biner yang berkorelasi otomatis

Apa pendekatan yang biasa untuk pemodelan deret waktu biner? Apakah ada kertas atau buku teks di mana ini dirawat? Saya memikirkan proses biner dengan korelasi otomatis yang kuat. Sesuatu seperti tanda proses AR (1) mulai dari nol. Katakan dan dengan white noise . Kemudian deret waktu biner didefinisikan oleh akan …

10 regression time-series logistic binary-data autoregressive

1

Apakah pernah merupakan ide yang baik untuk memberikan "kredit parsial" (hasil terus menerus) dalam pelatihan regresi logistik?

Saya sedang melatih regresi logistik untuk memprediksi pelari mana yang paling mungkin menyelesaikan lomba ketahanan yang melelahkan. Sangat sedikit pelari yang menyelesaikan lomba ini, jadi saya memiliki ketidakseimbangan kelas yang parah dan sejumlah kecil keberhasilan (mungkin beberapa lusin). Saya merasa seperti saya bisa mendapatkan "sinyal" yang bagus dari lusinan pelari …

10 logistic binary-data continuous-data

1

Apa bahaya menghitung korelasi Pearson (bukan yang tetrachoric) untuk variabel biner dalam analisis faktor?

Saya melakukan penelitian tentang game edukasi, dan beberapa proyek saya saat ini melibatkan menggunakan data dari BoardGameGeek ( BGG ) dan VideoGameGeek (VGG) untuk menguji hubungan antara elemen desain game (yaitu, "diatur dalam Perang Dunia II", "melibatkan rolling dadu" ) dan peringkat pemain dari game-game tersebut (yaitu skor dari 10). …

10 r categorical-data factor-analysis binary-data

3

Bagaimana memvisualisasikan kebaikan Bayesian of fit untuk regresi logistik

Untuk masalah regresi logistik Bayesian, saya telah membuat distribusi prediksi posterior. Saya sampel dari distribusi prediktif dan menerima ribuan sampel (0,1) untuk setiap pengamatan yang saya miliki. Memvisualisasikan kebaikan tidak terlalu menarik, misalnya: Plot ini menunjukkan 10 000 sampel + titik datum yang diamati (cara di sebelah kiri dapat melihat …

10 bayesian data-visualization classification goodness-of-fit binary-data

2

Prosedur yang disarankan untuk analisis faktor pada data dikotomis dengan R

Saya harus menjalankan analisis faktor pada dataset yang terdiri dari variabel dikotomis (0 = ya, 1 = tidak) dan saya tidak tahu apakah saya berada di jalur yang benar. Menggunakan tetrachoric()saya membuat matriks korelasi, yang saya jalankan fa(data,factors=1). Hasilnya cukup dekat dengan hasil yang saya terima ketika menggunakan MixFactor , …

10 r factor-analysis psychometrics binary-data

1

Nilai variabel tersembunyi regresi linear R "bernilai"

Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan menjadi seperti: …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

Untuk masalah klasifikasi jika variabel kelas memiliki distribusi yang tidak sama teknik mana yang harus kita gunakan?

untuk mis. jika saya memiliki penilaian kredit variabel kelas dengan dua kelas baik dan buruk, di mana # (baik) = 700 dan # (buruk) = 300. Saya tidak ingin mempersingkat data saya. teknik mana yang harus saya gunakan? Saya menggunakan SVM tetapi memberikan semua prediksi buruk.

10 classification binary-data

4

Bagaimana saya harus mendekati masalah prediksi biner ini?

Saya punya dataset dengan format berikut. Ada kanker hasil biner / tidak ada kanker. Setiap dokter dalam dataset telah melihat setiap pasien dan memberikan penilaian independen pada apakah pasien menderita kanker atau tidak. Para dokter kemudian memberikan tingkat kepercayaan mereka dari 5 bahwa diagnosis mereka benar, dan tingkat kepercayaan ditampilkan …

9 forecasting binary-data psychometrics

5

Bagaimana mengukur kinerja classifier ketika hampir 100% label kelas milik satu kelas?

Dalam data saya, saya memiliki variabel kelas, dilambangkan sebagai . Nilai variabel kelas ini adalah (biner). Hampir semua pengamatan adalah 0 (mendekati 100%, lebih tepatnya, 97%). Saya ingin tes "kinerja" pada model klasifikasi yang berbeda (bisa jadi akurasi). Apa yang saya takutkan terjadi adalah bahwa jika saya memiliki model klasifikasi …

9 classification binary-data model-evaluation

3

Menghitung Jaccard atau koefisien asosiasi lainnya untuk data biner menggunakan perkalian matriks

Saya ingin tahu apakah ada cara yang mungkin untuk menghitung koefisien Jaccard menggunakan perkalian matriks. Saya menggunakan kode ini jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) …

9 r matrix binary-data association-measure similarities

2

Hitung kurva ROC untuk data

Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

5

Apakah nominal, ordinal, & biner untuk data kuantitatif, data kualitatif, atau keduanya?

Saya mendapatkan berbagai tipe data dan saya butuh bantuan: Jika Anda melihat gambar di atas (diambil dari sini ), ia memiliki tipe data seperti ini: Kuantitatif (Terpisah, Berkelanjutan) Kualitatif (Nominal (N), Ordinal (O), Binary (B)). Tetapi jika Anda melihat gambar berikut ini (dari sini ), kategorinya adalah: Kuantitatif (Diskrit (NOB)) …

9 categorical-data dataset ordinal-data binary-data

3

Seri waktu biner

Saya memiliki seri waktu biner: Kami memiliki 2160 data (0 = tidak terjadi, 1 = terjadi) untuk periode satu jam dalam 90 hari. Saya ingin memperkirakan setelah 90 hari ini, di mana 1 berikutnya akan terjadi, dan juga Perpanjang ketentuan ini untuk satu bulan ke depan.

8 time-series binary-data

Pertanyaan yang diberi tag «binary-data»