Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
ImageNet: berapa tingkat kesalahan top-1 dan top-5?
Dalam makalah klasifikasi ImageNet tingkat kesalahan top-1 dan top-5 adalah unit penting untuk mengukur keberhasilan beberapa solusi, tetapi apa tingkat kesalahan itu? Dalam Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam oleh Krizhevsky et al. setiap solusi berdasarkan pada satu CNN (halaman 7) tidak memiliki tingkat kesalahan top-5 sedangkan yang dengan …


2
Apakah tidak biasa bagi MEAN mengungguli ARIMA?
Saya baru-baru ini menerapkan serangkaian metode peramalan (MEAN, RWF, ETS, ARIMA dan MLP) dan menemukan bahwa MEAN ternyata bekerja dengan sangat baik. (BERARTI: di mana semua prediksi masa depan diprediksi sama dengan rata-rata aritmatika dari nilai-nilai yang diamati.) MEAN bahkan mengungguli ARIMA pada tiga seri yang saya gunakan. Yang ingin …



1
dihitung secara manual tidak cocok dengan randomForest () untuk menguji data baru
Saya tahu ini adalah Rpertanyaan yang cukup spesifik , tetapi saya mungkin berpikir tentang perbedaan proporsi yang dijelaskan, , salah. Ini dia.R2R2R^2 Saya mencoba menggunakan Rpaket randomForest. Saya memiliki beberapa data pelatihan dan data pengujian. Ketika saya cocok dengan model hutan acak, randomForestfungsi ini memungkinkan Anda untuk memasukkan data pengujian …

3
Pembelajaran online vs offline?
Apa perbedaan antara pembelajaran offline dan online ? Apakah ini hanya masalah mempelajari seluruh dataset (offline) vs belajar secara bertahap (satu contoh pada satu waktu)? Apa contoh algoritma yang digunakan di keduanya?

3
Terapkan embeddings kata ke seluruh dokumen, untuk mendapatkan vektor fitur
Bagaimana cara saya menggunakan kata embedding untuk memetakan dokumen ke vektor fitur, cocok untuk digunakan dengan pembelajaran yang diawasi? Sebuah embedding kata memetakan setiap kata ke vektor , dimana adalah beberapa nomor yang tidak terlalu besar (misalnya, 500). Kata embeddings yang populer termasuk word2vec dan Glove .wwwv∈Rdv∈Rdv \in \mathbb{R}^dddd Saya …


4
Apa yang dimaksud dengan invarian terjemahan dalam visi komputer dan jaringan saraf convolutional?
Saya tidak memiliki latar belakang visi komputer, namun ketika saya membaca beberapa pemrosesan gambar dan jaringan saraf terkait artikel dan makalah, saya terus-menerus menghadapi istilah translation invariance,, atau translation invariant. Atau saya banyak membaca bahwa operasi konvolusi menyediakan translation invariance? !! Apa artinya ini? Saya sendiri selalu menerjemahkannya ke diri …

3
Apa perbedaan antara 'epoch', 'batch', dan 'minibatch'?
Sejauh yang saya tahu, ketika mengadopsi Stochastic Gradient Descent sebagai algoritma pembelajaran, seseorang menggunakan 'epoch' untuk dataset lengkap, dan 'batch' untuk data yang digunakan dalam langkah pembaruan tunggal, sementara yang lain menggunakan 'batch' dan 'minibatch' masing-masing, dan yang lain menggunakan 'zaman' dan 'minibatch'. Ini membawa banyak kebingungan saat berdiskusi. Jadi, …

1
PCA dan analisis Korespondensi dalam hubungannya dengan Biplot
Biplot sering digunakan untuk menampilkan hasil analisis komponen utama (dan teknik terkait). Ini adalah scatterplot ganda atau overlay yang menunjukkan pemuatan komponen dan skor komponen secara bersamaan. Saya diberitahu oleh @amoeba hari ini bahwa dia telah memberikan jawaban yang berangkat dari komentar saya ke pertanyaan yang menanyakan tentang bagaimana koordinat …

3
Nomor acak-Set.seed (N) dalam R [duplikat]
Pertanyaan ini sudah ada jawabannya di sini: Apa sebenarnya benih dalam generator angka acak? 3 jawaban Saya menyadari bahwa seseorang menggunakan set.seed()R untuk pembuatan angka pseudo-acak. Saya juga menyadari bahwa menggunakan nomor yang sama, seperti set.seed(123)memastikan Anda dapat mereproduksi hasil. Tapi yang tidak saya dapatkan adalah apa arti nilai-nilai itu …

2
Interpretasi output R untuk regresi binomial
Saya cukup baru dalam hal ini dengan tes data binomial, tetapi perlu melakukan satu dan sekarang saya tidak yakin bagaimana menafsirkan hasilnya. Variabel y, variabel respons, adalah binomial dan faktor penjelasnya adalah kontinu. Inilah yang saya dapatkan ketika merangkum hasilnya: glm(formula = leaves.presence ~ Area, family = binomial, data = …

3
Turunkan Varians koefisien regresi dalam regresi linier sederhana
Dalam regresi linier sederhana, kita memiliki y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u , di mana u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2) . Saya menurunkan estimator: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , manax¯x¯\bar{x} dany¯y¯\bar{y} adalah alat sampelxxxdanyyy. Sekarang saya ingin mencari varians …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.