Statistik dan Big Data

5

Mengapa sebagian orang menggunakan -999 atau -9999 untuk menggantikan nilai yang hilang?

Saya punya dataset. Ada banyak nilai yang hilang. Untuk beberapa kolom, nilai yang hilang diganti dengan -999, tetapi kolom lainnya, nilai yang hilang ditandai sebagai 'NA'. Mengapa kita menggunakan -999 untuk menggantikan nilai yang hilang?

32 missing-data

3

Mengapa inversi dari matriks kovarians menghasilkan korelasi parsial antara variabel acak?

Saya mendengar bahwa korelasi parsial antara variabel acak dapat ditemukan dengan membalikkan matriks kovarians dan mengambil sel yang sesuai dari matriks presisi yang dihasilkan (fakta ini disebutkan dalam http://en.wikipedia.org/wiki/Partial_correlation , tetapi tanpa bukti) . Mengapa demikian?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

5

Mengapa ada dua ejaan "heteroskedastik" atau "heteroskedastik"?

Saya sering melihat kedua ejaan "heteroskedastik" dan "heteroskedastik", dan juga untuk "homoskedastik" dan "homoskedastik". Tampaknya tidak ada perbedaan makna antara varian "c" dan "k", hanya perbedaan ortografis yang terkait dengan etimologi kata Yunani. Apa asal dari dua ejaan yang berbeda? Apakah salah satu penggunaan lebih umum daripada yang lain, dan …

32 terminology heteroscedasticity etymology

7

Mengapa koma merupakan pemisah / pembatas catatan buruk dalam file CSV?

Saya sedang membaca artikel ini dan saya ingin tahu jawaban yang tepat untuk pertanyaan ini. Satu-satunya hal yang terlintas di pikiran saya mungkin di beberapa negara pemisah desimal adalah koma, dan mungkin ada masalah saat berbagi data dalam CSV , tapi saya tidak begitu yakin dengan jawaban saya.

32 project-management

2

Apakah versi sampel ketidaksetaraan Chebyshev satu sisi ada?

Saya tertarik pada versi Cantelli satu sisi tentang ketidaksetaraan Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Pada dasarnya, jika Anda mengetahui mean dan varians populasi, Anda dapat menghitung batas atas pada probabilitas mengamati nilai tertentu. (Setidaknya itu adalah pemahaman saya.) Namun, …

32 probability mathematical-statistics probability-inequalities mean

1

Tautan Deteksi Anomali di Jaringan Temporal

Saya menemukan makalah ini yang menggunakan deteksi anomali tautan untuk memprediksi topik yang sedang tren, dan saya merasa sangat menarik: Makalah ini adalah "Menemukan Topik Muncul di Streaming Sosial melalui Tautan Anomali Deteksi" . Saya ingin mereplikasi pada kumpulan data yang berbeda, tapi saya tidak cukup akrab dengan metode untuk …

32 time-series machine-learning outliers python change-point

5

Pedoman AIC dalam pemilihan model

Saya biasanya menggunakan BIC karena pemahaman saya adalah bahwa nilai-nilai parsimony lebih kuat daripada AIC. Namun, saya telah memutuskan untuk menggunakan pendekatan yang lebih komprehensif sekarang dan ingin menggunakan AIC juga. Saya tahu bahwa Raftery (1995) menyajikan pedoman yang bagus untuk perbedaan BIC: 0-2 lemah, 2-4 adalah bukti positif untuk …

32 r model-selection references aic bic

3

Kumpulan data dibuat untuk tujuan yang serupa dengan kuartet Anscombe

Saya baru saja menemukan kuartet Anscombe (empat dataset yang memiliki statistik deskriptif yang hampir tidak dapat dibedakan tetapi terlihat sangat berbeda ketika diplot) dan saya ingin tahu apakah ada dataset lain yang kurang lebih terkenal yang telah dibuat untuk menunjukkan pentingnya aspek-aspek tertentu analisis statistik.

32 regression data-visualization dataset

2

Regresi Logistik: Variabel Respon Bernoulli vs Binomial

Saya ingin melakukan regresi logistik dengan respon binomial berikut dan dengan X1X1X_1 dan sebagai prediktor saya. X2X2X_2 Saya dapat menyajikan data yang sama dengan respons Bernoulli dalam format berikut. Output regresi logistik untuk 2 set data ini sebagian besar sama. Residual penyimpangan dan AIC berbeda. (Perbedaan antara penyimpangan nol dan …

32 logistic binomial aic bernoulli-distribution deviance

1

Membandingkan dua model menggunakan fungsi anova () di R

Dari dokumentasi untuk anova(): Ketika diberi urutan objek, 'anova' menguji model terhadap satu sama lain dalam urutan yang ditentukan ... Apa artinya menguji model terhadap satu sama lain? Dan mengapa pesanan itu penting? Ini adalah contoh dari tutorial GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec …

32 r anova

3

Apakah mungkin untuk mengubah hipotesis agar sesuai dengan data yang diamati (alias ekspedisi memancing) dan menghindari peningkatan kesalahan Tipe I?

Sudah diketahui bahwa para peneliti harus menghabiskan waktu mengamati dan mengeksplorasi data dan penelitian yang ada sebelum membentuk hipotesis dan kemudian mengumpulkan data untuk menguji hipotesis itu (merujuk pada pengujian signifikansi null-hipotesis). Banyak buku statistik dasar memperingatkan bahwa hipotesis harus dibentuk secara apriori dan tidak dapat diubah setelah pengumpulan data …

32 hypothesis-testing

6

Seperti apa model Bayesian yang kuat untuk memperkirakan skala distribusi normal?

Ada sejumlah penaksir skala yang kuat . Contoh penting adalah deviasi absolut median yang berhubungan dengan deviasi standar sebagai σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 . Dalam kerangka kerja Bayesian ada sejumlah cara untuk memperkirakan dengan kuat lokasi distribusi yang kira-kira normal (misalnya, Normal yang terkontaminasi oleh pencilan), misalnya, dapat diasumsikan bahwa data …

32 r bayesian estimation standard-deviation robust

4

Implementasi CRF dalam python

Apakah ada implementasi populer bidang acak bersyarat di Python ? Sepertinya saya tidak dapat menemukan yang banyak digunakan dan populer!

32 machine-learning classification python conditional-random-field

6

Bagaimana cara memulai dengan jaringan saraf

Saya benar-benar baru di jaringan saraf tetapi sangat tertarik untuk memahaminya. Namun tidak mudah sama sekali untuk memulai. Adakah yang bisa merekomendasikan buku yang bagus atau sumber daya lainnya? Apakah ada yang harus dibaca? Saya berterima kasih atas segala tip.

32 machine-learning neural-networks references

1

Mengapa R mengembalikan NA sebagai koefisien lm ()?

Saya menyesuaikan lm()model ke set data yang mencakup indikator untuk kuartal keuangan (Q1, Q2, Q3, menjadikan Q4 sebagai default). Menggunakan lm(Y~., data = data) Saya mendapatkan NAsebagai koefisien untuk Q3, dan peringatan bahwa satu variabel dikeluarkan karena singularitas. Apakah saya perlu menambahkan kolom Q4?

32 r regression