Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data





2
Apakah versi sampel ketidaksetaraan Chebyshev satu sisi ada?
Saya tertarik pada versi Cantelli satu sisi tentang ketidaksetaraan Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Pada dasarnya, jika Anda mengetahui mean dan varians populasi, Anda dapat menghitung batas atas pada probabilitas mengamati nilai tertentu. (Setidaknya itu adalah pemahaman saya.) Namun, …


5
Pedoman AIC dalam pemilihan model
Saya biasanya menggunakan BIC karena pemahaman saya adalah bahwa nilai-nilai parsimony lebih kuat daripada AIC. Namun, saya telah memutuskan untuk menggunakan pendekatan yang lebih komprehensif sekarang dan ingin menggunakan AIC juga. Saya tahu bahwa Raftery (1995) menyajikan pedoman yang bagus untuk perbedaan BIC: 0-2 lemah, 2-4 adalah bukti positif untuk …



1
Membandingkan dua model menggunakan fungsi anova () di R
Dari dokumentasi untuk anova(): Ketika diberi urutan objek, 'anova' menguji model terhadap satu sama lain dalam urutan yang ditentukan ... Apa artinya menguji model terhadap satu sama lain? Dan mengapa pesanan itu penting? Ini adalah contoh dari tutorial GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec …
32 r  anova 

3
Apakah mungkin untuk mengubah hipotesis agar sesuai dengan data yang diamati (alias ekspedisi memancing) dan menghindari peningkatan kesalahan Tipe I?
Sudah diketahui bahwa para peneliti harus menghabiskan waktu mengamati dan mengeksplorasi data dan penelitian yang ada sebelum membentuk hipotesis dan kemudian mengumpulkan data untuk menguji hipotesis itu (merujuk pada pengujian signifikansi null-hipotesis). Banyak buku statistik dasar memperingatkan bahwa hipotesis harus dibentuk secara apriori dan tidak dapat diubah setelah pengumpulan data …

6
Seperti apa model Bayesian yang kuat untuk memperkirakan skala distribusi normal?
Ada sejumlah penaksir skala yang kuat . Contoh penting adalah deviasi absolut median yang berhubungan dengan deviasi standar sebagai σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 . Dalam kerangka kerja Bayesian ada sejumlah cara untuk memperkirakan dengan kuat lokasi distribusi yang kira-kira normal (misalnya, Normal yang terkontaminasi oleh pencilan), misalnya, dapat diasumsikan bahwa data …



1
Mengapa R mengembalikan NA sebagai koefisien lm ()?
Saya menyesuaikan lm()model ke set data yang mencakup indikator untuk kuartal keuangan (Q1, Q2, Q3, menjadikan Q4 sebagai default). Menggunakan lm(Y~., data = data) Saya mendapatkan NAsebagai koefisien untuk Q3, dan peringatan bahwa satu variabel dikeluarkan karena singularitas. Apakah saya perlu menambahkan kolom Q4?
32 r  regression 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.