Statistik dan Big Data

11

Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam

Adakah yang bisa menjelaskan kepada saya secara rinci tentang estimasi kemungkinan maksimum (MLE) dalam istilah awam? Saya ingin tahu konsep yang mendasari sebelum masuk ke derivasi atau persamaan matematika.

92 mathematical-statistics maximum-likelihood intuition definition philosophical

2

Apa yang dimaksud dengan lapisan embedding dalam jaringan saraf?

Di banyak perpustakaan jaringan saraf, ada 'lapisan embedding', seperti di Keras atau Lasagne . Saya tidak yakin saya mengerti fungsinya, meskipun membaca dokumentasi. Misalnya, dalam dokumentasi Keras tertulis: Ubah bilangan bulat positif (indeks) menjadi vektor padat ukuran tetap, misalnya. [[4], [20]] -> [[0,25, 0,1], [0,6, -0,2]] Bisakah orang yang berpengetahuan …

92 machine-learning neural-networks python word-embeddings

3

Validasi silang bersarang untuk pemilihan model

Bagaimana cara menggunakan validasi silang bersarang untuk pemilihan model ? Dari apa yang saya baca online, CV bersarang berfungsi sebagai berikut: Ada loop CV dalam, di mana kami dapat melakukan pencarian grid (misalnya menjalankan K-fold untuk setiap model yang tersedia, misalnya kombinasi hyperparameter / fitur) Ada lingkaran CV luar, di …

91 cross-validation model-selection

3

Apakah mungkin untuk memiliki sepasang variabel acak Gaussian yang distribusi bersamanya bukan Gaussian?

Seseorang bertanya kepada saya pertanyaan ini dalam wawancara kerja dan saya menjawab bahwa distribusi bersama mereka selalu Gaussian. Saya pikir saya selalu bisa menulis Gaussian bivariat dengan sarana dan varians serta kovarian mereka. Saya bertanya-tanya apakah mungkin ada kasus di mana probabilitas gabungan dari dua Gaussians bukan Gaussian?

91 normal-distribution multivariate-analysis copula bivariate

5

Mengapa ANOVA diajarkan / digunakan seolah-olah itu adalah metodologi penelitian yang berbeda dibandingkan dengan regresi linier?

ANOVA setara dengan regresi linier dengan penggunaan variabel dummy yang sesuai. Kesimpulannya tetap sama terlepas dari apakah Anda menggunakan ANOVA atau regresi linier. Mengingat kesetaraan mereka, apakah ada alasan mengapa ANOVA digunakan daripada regresi linier? Catatan: Saya sangat tertarik mendengar alasan teknis untuk penggunaan ANOVA alih-alih regresi linier. Sunting Berikut …

91 regression anova

11

Kapan seharusnya regresi linier disebut "pembelajaran mesin"?

Dalam kolokium baru-baru ini, abstrak pembicara mengklaim mereka menggunakan pembelajaran mesin. Selama pembicaraan, satu-satunya hal yang terkait dengan pembelajaran mesin adalah bahwa mereka melakukan regresi linier pada data mereka. Setelah menghitung koefisien paling cocok dalam ruang parameter 5D, mereka membandingkan koefisien ini dalam satu sistem dengan koefisien paling cocok dari …

90 regression machine-learning multiple-regression terminology definition

6

Jika saya memiliki peluang 58% untuk memenangkan satu poin, apa peluang saya untuk memenangkan pertandingan pingpong ke 21, menang dengan 2?

Saya bertaruh dengan rekan kerja yang dari 50 pertandingan pingpong (pertama menang 21 poin, menang 2), saya akan memenangkan semua 50. Sejauh ini kami telah memainkan 15 pertandingan dan rata-rata saya menang 58% dari poin, ditambah saya sudah memenangkan semua game sejauh ini. Jadi kita bertanya-tanya apakah saya memiliki peluang …

90 probability games

4

PCA dan proporsi varian dijelaskan

Secara umum, apa yang dimaksud dengan mengatakan bahwa fraksi xxx varian dalam analisis seperti PCA dijelaskan oleh komponen utama pertama? Dapatkah seseorang menjelaskan hal ini secara intuitif tetapi juga memberikan definisi matematis yang tepat tentang apa yang dimaksud "varians dijelaskan" dalam hal analisis komponen utama (PCA)? Untuk regresi linier sederhana, …

90 regression pca linear-model dimensionality-reduction

11

Serangkaian warna "Terbaik" untuk digunakan untuk membedakan seri dalam plot berkualitas publikasi

Apakah ada penelitian yang telah dilakukan pada set warna apa yang terbaik untuk digunakan untuk menunjukkan beberapa seri pada plot yang sama? Saya baru saja menggunakan default di matplotlib, dan mereka terlihat sedikit kekanak-kanakan karena mereka semua cerah, warna primer.

89 data-visualization

7

Bagaimana cara mengelola proyek analisis statistik secara efisien?

Kita sering mendengar tentang manajemen proyek dan pola desain dalam ilmu komputer, tetapi lebih jarang dalam analisis statistik. Namun, tampaknya langkah yang menentukan untuk merancang proyek statistik yang efektif dan tahan lama adalah menjaga semuanya tetap teratur. Saya sering menganjurkan penggunaan R dan organisasi file yang konsisten dalam folder terpisah …

89 project-management

1

Menafsirkan plot.lm ()

Saya punya pertanyaan tentang menafsirkan grafik yang dihasilkan oleh plot (lm) dalam R. Saya bertanya-tanya apakah kalian bisa memberi tahu saya bagaimana menafsirkan lokasi skala dan plot leverage-residual? Setiap komentar akan dihargai. Asumsikan pengetahuan dasar tentang statistik, regresi dan ekonometrika.

89 r regression data-visualization residuals outliers

4

Mengapa menormalkan gambar dengan mengurangi rata-rata gambar dataset, alih-alih gambar saat ini berarti dalam pembelajaran mendalam?

Ada beberapa variasi tentang cara menormalkan gambar tetapi sebagian besar tampaknya menggunakan dua metode ini: Kurangi rata-rata per saluran yang dihitung atas semua gambar (mis. VGG_ILSVRC_16_layers ) Kurangi dengan piksel / saluran yang dihitung atas semua gambar (mis. CNN_S , lihat juga jaringan referensi Caffe ) Pendekatan alami akan dalam …

88 deep-learning image-processing

1

Efek acak disilangkan vs bersarang: bagaimana perbedaannya dan bagaimana mereka ditentukan dengan benar di lme4?

Inilah cara saya memahami efek acak bersarang vs. bersilangan: Efek acak bersarang terjadi ketika faktor level yang lebih rendah hanya muncul dalam level tertentu dari faktor level atas. Misalnya, siswa dalam kelas pada titik waktu tertentu. Dalam lme4saya pikir kami mewakili efek acak untuk data bersarang dalam salah satu dari …

88 r mixed-model multilevel-analysis lme4-nlme

4

Plot diagnostik untuk regresi jumlah

Plot diagnostik apa (dan mungkin tes formal) yang menurut Anda paling informatif untuk regresi di mana hasilnya adalah variabel hitungan? Saya terutama tertarik pada Poisson dan model binomial negatif, serta rekan-rekan nol-inflated dan rintangan masing-masing. Sebagian besar sumber yang saya temukan hanya memplot nilai residual vs nilai tanpa diskusi tentang …

88 generalized-linear-model residuals negative-binomial zero-inflation poisson-regression

4

Kapan menggunakan GLM gamma?

Distribusi gamma dapat mengambil berbagai bentuk yang cukup luas, dan mengingat hubungan antara rata-rata dan varians melalui dua parameternya, tampaknya cocok untuk berurusan dengan heteroskedastisitas dalam data non-negatif, dengan cara yang dapat diubah log OLS dapat dapat dilakukan tanpa WLS atau semacam penaksir VCV yang heteroskedastisitas-konsisten. Saya akan menggunakannya lebih …

88 generalized-linear-model gamma-distribution