Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Berarti kesalahan absolut ATAU root berarti kesalahan kuadrat?
Mengapa menggunakan Root Mean Squared Error (RMSE) alih-alih Mean Absolute Error (MAE) ?? Hai Saya telah menyelidiki kesalahan yang dihasilkan dalam perhitungan - Saya awalnya menghitung kesalahan sebagai Root Mean Normalized Squared Error. Melihat sedikit lebih dekat, saya melihat efek kuadrat kesalahan memberikan bobot lebih besar untuk kesalahan yang lebih …
59 least-squares  mean  rms  mae 



6
Cara berprinsip untuk mengecilkan variabel kategori dengan banyak tingkatan?
Teknik apa yang tersedia untuk mengelompokkan (atau mengelompokkan) banyak kategori menjadi beberapa, untuk tujuan menggunakannya sebagai input (prediktor) dalam model statistik? Pertimbangkan variabel seperti jurusan mahasiswa (disiplin yang dipilih oleh mahasiswa sarjana). Itu tidak teratur dan kategorikal, tetapi berpotensi memiliki lusinan tingkat yang berbeda. Katakanlah saya ingin menggunakan jurusan sebagai …


11
Brain teaser: Bagaimana cara menghasilkan 7 bilangan bulat dengan probabilitas yang sama menggunakan koin bias yang memiliki pr (head) = p?
Ini adalah pertanyaan yang saya temukan di Glassdoor : Bagaimana cara menghasilkan 7 bilangan bulat dengan probabilitas yang sama menggunakan koin yang memiliki ?P r ( Head ) = p ∈ ( 0 , 1 )Pr(Kepala)=hal∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) Pada dasarnya, Anda memiliki koin yang mungkin atau mungkin tidak adil, dan …


2
Bagaimana saya bisa mengubah judul legenda di ggplot2? [Tutup]
Saya punya plot yang saya buat di ggplot2 untuk merangkum data yang berasal dari dataset sel 2 x 4 x 3. Saya sudah bisa membuat panel untuk variabel 2-leveled menggunakan facet_grid(. ~ Age)dan untuk mengatur sumbu x dan y menggunakan aes(x=4leveledVariable, y=DV). Saya dulu aes(group=3leveledvariable, lty=3leveledvariable)memproduksi plot sejauh ini. Ini …

1
Memahami kurva ROC
Saya mengalami kesulitan memahami kurva ROC. Apakah ada keuntungan / peningkatan di area di bawah kurva ROC jika saya membangun model yang berbeda dari setiap subset unik dari set pelatihan dan menggunakannya untuk menghasilkan probabilitas? Sebagai contoh, jika memiliki nilai-nilai { a , a , a , a , b …
57 r  roc 


13
Apakah 10 kepala berturut-turut meningkatkan kemungkinan lemparan berikutnya menjadi ekor?
Saya berasumsi bahwa yang berikut ini benar: mengasumsikan koin yang adil, mendapatkan 10 kepala berturut-turut sementara melempar koin tidak meningkatkan peluang lemparan koin berikutnya menjadi ekor , tidak peduli berapa jumlah probabilitas dan / atau jargon statistik yang dilemparkan ke sekitar (permisi permainan kata-kata). Dengan asumsi itu yang terjadi, pertanyaan …

1
Mengapa transformasi akar kuadrat direkomendasikan untuk menghitung data?
Sering disarankan untuk mengambil akar kuadrat ketika Anda memiliki data hitungan. (Untuk beberapa contoh pada CV, lihat jawaban @ HarveyMotulsky di sini , atau jawaban @ whuber di sini .) Di sisi lain, ketika memasang model linear umum dengan variabel respons yang didistribusikan sebagai Poisson, log adalah tautan kanonik . …

7
Contoh di mana metode momen dapat mengalahkan kemungkinan maksimum dalam sampel kecil?
Penaksir kemungkinan maksimum (MLE) efisien secara asimptotik; kami melihat hasil praktis dalam hal mereka sering melakukan lebih baik daripada estimasi metode saat (MoM) (ketika mereka berbeda), bahkan pada ukuran sampel kecil Di sini 'lebih baik daripada' berarti dalam arti biasanya memiliki varians yang lebih kecil ketika keduanya tidak bias, dan …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.