Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data



2
Jumlah lipatan optimal dalam validasi silang lipat: apakah CV cuti-keluar selalu merupakan pilihan terbaik?
Selain pertimbangan daya komputasi, adakah alasan untuk meyakini bahwa meningkatkan jumlah lipatan dalam validasi silang mengarah pada pemilihan model yang lebih baik / validasi (yaitu bahwa semakin tinggi jumlah lipatan semakin baik)? Mengambil argumen ke ekstrem, apakah validasi silang meninggalkan-satu-keluar harus mengarah ke model yang lebih baik daripada lipat lintas-validasi?KKK …




2
Apakah splines overfitting data?
Masalah saya : Baru-baru ini saya bertemu dengan ahli statistik yang memberi tahu saya bahwa splines hanya berguna untuk mengeksplorasi data dan mengalami overfitting, sehingga tidak berguna dalam prediksi. Dia lebih suka menjelajahi dengan polinomial sederhana ... Karena saya penggemar berat spline, dan ini bertentangan dengan intuisi saya, saya tertarik …

4
Mengapa harapan sama dengan rata-rata aritmatika?
Hari ini saya menemukan topik baru yang disebut Ekspektasi Matematika. Buku yang saya ikuti mengatakan, harapan adalah rata-rata aritmatika dari variabel acak yang berasal dari setiap distribusi probabilitas. Tetapi, ia mendefinisikan ekspektasi sebagai jumlah produk dari beberapa data dan probabilitasnya. Bagaimana keduanya (rata-rata dan harapan) bisa sama? Bagaimana jumlah probabilitas …

6
Tutorial statistik Bayesian
Saya mencoba meningkatkan kecepatan di Bayesian Statistics. Saya memiliki sedikit latar belakang statistik (STAT 101) tetapi tidak terlalu banyak - saya pikir saya bisa mengerti sebelumnya, posterior, dan kemungkinan: D. Saya tidak ingin membaca buku teks Bayesian dulu. Saya lebih suka membaca dari sumber (situs web pilihan) yang akan meningkatkan …

4
Bagaimana cara melakukan pemilihan subset regresi logistik?
Saya cocok dengan keluarga binomial glm di R, dan saya memiliki seluruh kelompok variabel penjelas, dan saya perlu menemukan yang terbaik (R-kuadrat sebagai ukuran baik-baik saja). Singkat penulisan skrip untuk mengulang melalui kombinasi acak yang berbeda dari variabel penjelas dan kemudian merekam yang melakukan yang terbaik, saya benar-benar tidak tahu …
47 r  logistic 

5
Kode sumber paket R pertama yang akan dipelajari untuk persiapan menulis paket sendiri
Saya berencana untuk mulai menulis paket R. Saya pikir akan lebih baik untuk mempelajari kode sumber paket yang ada untuk mempelajari konvensi pembangunan paket. Kriteria saya untuk paket yang baik untuk dipelajari: Gagasan statistik / teknis yang sederhana : Intinya adalah mempelajari mekanisme pembuatan paket. Memahami paket seharusnya tidak membutuhkan …
47 r 

15
Istilah statistik yang paling membingungkan
Kami ahli statistik menggunakan banyak kata dengan cara yang sedikit berbeda dari cara orang lain menggunakannya. Ini menyebabkan banyak masalah ketika kita mengajar atau menjelaskan apa yang sedang kita lakukan. Saya akan memulai daftar (dan sekarang saya akan menambahkan beberapa definisi, per komentar): Kekuatan adalah kemampuan untuk menolak hipotesis nol …



14
Klarifikasi tentang penafsiran interval kepercayaan?
Pemahaman saya saat ini tentang gagasan "interval kepercayaan dengan tingkat kepercayaan " adalah bahwa jika kita mencoba menghitung interval kepercayaan berkali-kali (setiap kali dengan sampel baru), itu akan berisi parameter dari waktu.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Meskipun saya menyadari bahwa ini tidak sama dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.