Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


14
Algoritma sederhana untuk deteksi outlier online dari deret waktu umum
Saya bekerja dengan sejumlah besar deret waktu. Rangkaian waktu ini pada dasarnya adalah pengukuran jaringan yang datang setiap 10 menit, dan beberapa di antaranya periodik (yaitu bandwidth), sementara beberapa lainnya tidak (yaitu jumlah lalu lintas perutean). Saya ingin algoritma sederhana untuk melakukan "deteksi outlier" online. Pada dasarnya, saya ingin menyimpan …

2
Betapa takutnya kita tentang peringatan konvergensi di lme4
Jika kita memasang glmer, kita mungkin mendapat peringatan yang memberitahu kita bahwa model tersebut mengalami kesulitan untuk berkumpul ... misalnya >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Cara lain untuk memeriksa konvergensi yang dibahas di utas …



2
Mengingat kekuatan komputer akhir-akhir ini, adakah alasan untuk melakukan uji chi-squared daripada tes Fisher?
Mengingat bahwa perangkat lunak dapat melakukan perhitungan tes Fisher dengan sangat mudah saat ini , apakah ada keadaan di mana, secara teoritis atau praktis, tes chi-squared sebenarnya lebih disukai daripada tes eksak Fisher? Keuntungan dari uji eksak Fisher meliputi: skala untuk tabel kontingensi lebih besar dari 2x2 (yaitu setiap r …

3
Apa contoh di mana "bootstrap naif" gagal?
Misalkan saya memiliki satu set data sampel dari distribusi yang tidak diketahui atau kompleks, dan saya ingin melakukan beberapa kesimpulan pada statistik dari data tersebut. Kecenderungan default saya adalah untuk hanya menghasilkan sekelompok sampel bootstrap dengan penggantian, dan menghitung statistik saya pada setiap sampel bootstrap untuk membuat distribusi diperkirakan untuk …

9
Apa, tepatnya, interval kepercayaan?
Saya tahu secara kasar dan tidak resmi apa itu interval kepercayaan diri. Namun, sepertinya saya tidak bisa membungkus kepala saya di sekitar satu detail yang agak penting: Menurut Wikipedia: Interval kepercayaan tidak memprediksi bahwa nilai sebenarnya dari parameter memiliki probabilitas tertentu berada dalam interval kepercayaan mengingat data benar-benar diperoleh. Saya …

9
Apakah ada penjelasan intuitif mengapa multikolinearitas merupakan masalah dalam regresi linier?
Wiki membahas masalah yang muncul ketika multikolinieritas merupakan masalah dalam regresi linier. Masalah dasarnya adalah hasil multikolinieritas dalam estimasi parameter yang tidak stabil yang membuatnya sangat sulit untuk menilai pengaruh variabel independen terhadap variabel dependen. Saya mengerti alasan teknis di balik masalah (mungkin tidak dapat membalikkan , - dikondisikan dll) …


24
Aturan praktis untuk statistik "modern"
Saya suka buku G van Belle tentang Aturan Statistik Thumb , dan pada tingkat lebih rendah Kesalahan Umum dalam Statistik (dan Cara Menghindari Mereka) dari Phillip I Good dan James W. Hardin. Mereka mengatasi perangkap umum ketika menafsirkan hasil dari studi eksperimental dan pengamatan dan memberikan rekomendasi praktis untuk inferensi …

16
Dalam kondisi apa korelasi menyiratkan penyebab?
Kita semua tahu mantra "korelasi tidak menyiratkan sebab akibat" yang dimasukkan ke dalam semua siswa statistik tahun pertama. Ada beberapa contoh bagus di sini untuk menggambarkan ide tersebut. Tetapi kadang-kadang korelasi memang menyiratkan sebab-akibat. Contoh berikut diambil dari halaman Wikipedia ini Misalnya, seseorang dapat menjalankan percobaan pada kembar identik yang …

4
Bagaimana memilih perpustakaan nlme atau lme4 R untuk model efek campuran?
Saya muat beberapa model efek campuran (terutama model longitudinal) menggunakan lme4di Rtetapi ingin benar-benar menguasai model dan kode yang terjadi dengan mereka. Namun, sebelum menyelam dengan kedua kaki (dan membeli beberapa buku) saya ingin memastikan bahwa saya belajar perpustakaan yang tepat. Saya telah menggunakan lme4sampai sekarang karena saya baru saja …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.