Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


2
Apa yang dimaksud dengan lapisan embedding dalam jaringan saraf?
Di banyak perpustakaan jaringan saraf, ada 'lapisan embedding', seperti di Keras atau Lasagne . Saya tidak yakin saya mengerti fungsinya, meskipun membaca dokumentasi. Misalnya, dalam dokumentasi Keras tertulis: Ubah bilangan bulat positif (indeks) menjadi vektor padat ukuran tetap, misalnya. [[4], [20]] -> [[0,25, 0,1], [0,6, -0,2]] Bisakah orang yang berpengetahuan …

3
Validasi silang bersarang untuk pemilihan model
Bagaimana cara menggunakan validasi silang bersarang untuk pemilihan model ? Dari apa yang saya baca online, CV bersarang berfungsi sebagai berikut: Ada loop CV dalam, di mana kami dapat melakukan pencarian grid (misalnya menjalankan K-fold untuk setiap model yang tersedia, misalnya kombinasi hyperparameter / fitur) Ada lingkaran CV luar, di …

3
Apakah mungkin untuk memiliki sepasang variabel acak Gaussian yang distribusi bersamanya bukan Gaussian?
Seseorang bertanya kepada saya pertanyaan ini dalam wawancara kerja dan saya menjawab bahwa distribusi bersama mereka selalu Gaussian. Saya pikir saya selalu bisa menulis Gaussian bivariat dengan sarana dan varians serta kovarian mereka. Saya bertanya-tanya apakah mungkin ada kasus di mana probabilitas gabungan dari dua Gaussians bukan Gaussian?

5
Mengapa ANOVA diajarkan / digunakan seolah-olah itu adalah metodologi penelitian yang berbeda dibandingkan dengan regresi linier?
ANOVA setara dengan regresi linier dengan penggunaan variabel dummy yang sesuai. Kesimpulannya tetap sama terlepas dari apakah Anda menggunakan ANOVA atau regresi linier. Mengingat kesetaraan mereka, apakah ada alasan mengapa ANOVA digunakan daripada regresi linier? Catatan: Saya sangat tertarik mendengar alasan teknis untuk penggunaan ANOVA alih-alih regresi linier. Sunting Berikut …
91 regression  anova 

11
Kapan seharusnya regresi linier disebut "pembelajaran mesin"?
Dalam kolokium baru-baru ini, abstrak pembicara mengklaim mereka menggunakan pembelajaran mesin. Selama pembicaraan, satu-satunya hal yang terkait dengan pembelajaran mesin adalah bahwa mereka melakukan regresi linier pada data mereka. Setelah menghitung koefisien paling cocok dalam ruang parameter 5D, mereka membandingkan koefisien ini dalam satu sistem dengan koefisien paling cocok dari …

6
Jika saya memiliki peluang 58% untuk memenangkan satu poin, apa peluang saya untuk memenangkan pertandingan pingpong ke 21, menang dengan 2?
Saya bertaruh dengan rekan kerja yang dari 50 pertandingan pingpong (pertama menang 21 poin, menang 2), saya akan memenangkan semua 50. Sejauh ini kami telah memainkan 15 pertandingan dan rata-rata saya menang 58% dari poin, ditambah saya sudah memenangkan semua game sejauh ini. Jadi kita bertanya-tanya apakah saya memiliki peluang …

4
PCA dan proporsi varian dijelaskan
Secara umum, apa yang dimaksud dengan mengatakan bahwa fraksi xxx varian dalam analisis seperti PCA dijelaskan oleh komponen utama pertama? Dapatkah seseorang menjelaskan hal ini secara intuitif tetapi juga memberikan definisi matematis yang tepat tentang apa yang dimaksud "varians dijelaskan" dalam hal analisis komponen utama (PCA)? Untuk regresi linier sederhana, …


7
Bagaimana cara mengelola proyek analisis statistik secara efisien?
Kita sering mendengar tentang manajemen proyek dan pola desain dalam ilmu komputer, tetapi lebih jarang dalam analisis statistik. Namun, tampaknya langkah yang menentukan untuk merancang proyek statistik yang efektif dan tahan lama adalah menjaga semuanya tetap teratur. Saya sering menganjurkan penggunaan R dan organisasi file yang konsisten dalam folder terpisah …

1
Menafsirkan plot.lm ()
Saya punya pertanyaan tentang menafsirkan grafik yang dihasilkan oleh plot (lm) dalam R. Saya bertanya-tanya apakah kalian bisa memberi tahu saya bagaimana menafsirkan lokasi skala dan plot leverage-residual? Setiap komentar akan dihargai. Asumsikan pengetahuan dasar tentang statistik, regresi dan ekonometrika.

4
Mengapa menormalkan gambar dengan mengurangi rata-rata gambar dataset, alih-alih gambar saat ini berarti dalam pembelajaran mendalam?
Ada beberapa variasi tentang cara menormalkan gambar tetapi sebagian besar tampaknya menggunakan dua metode ini: Kurangi rata-rata per saluran yang dihitung atas semua gambar (mis. VGG_ILSVRC_16_layers ) Kurangi dengan piksel / saluran yang dihitung atas semua gambar (mis. CNN_S , lihat juga jaringan referensi Caffe ) Pendekatan alami akan dalam …

1
Efek acak disilangkan vs bersarang: bagaimana perbedaannya dan bagaimana mereka ditentukan dengan benar di lme4?
Inilah cara saya memahami efek acak bersarang vs. bersilangan: Efek acak bersarang terjadi ketika faktor level yang lebih rendah hanya muncul dalam level tertentu dari faktor level atas. Misalnya, siswa dalam kelas pada titik waktu tertentu. Dalam lme4saya pikir kami mewakili efek acak untuk data bersarang dalam salah satu dari …

4
Plot diagnostik untuk regresi jumlah
Plot diagnostik apa (dan mungkin tes formal) yang menurut Anda paling informatif untuk regresi di mana hasilnya adalah variabel hitungan? Saya terutama tertarik pada Poisson dan model binomial negatif, serta rekan-rekan nol-inflated dan rintangan masing-masing. Sebagian besar sumber yang saya temukan hanya memplot nilai residual vs nilai tanpa diskusi tentang …

4
Kapan menggunakan GLM gamma?
Distribusi gamma dapat mengambil berbagai bentuk yang cukup luas, dan mengingat hubungan antara rata-rata dan varians melalui dua parameternya, tampaknya cocok untuk berurusan dengan heteroskedastisitas dalam data non-negatif, dengan cara yang dapat diubah log OLS dapat dapat dilakukan tanpa WLS atau semacam penaksir VCV yang heteroskedastisitas-konsisten. Saya akan menggunakannya lebih …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.