Pertanyaan yang diberi tag «gaussian-mixture»

Jenis distribusi atau model campuran yang mengasumsikan subpopulasi mengikuti distribusi Gaussian.


2
Jika k-means clustering adalah suatu bentuk pemodelan campuran Gaussian, dapatkah itu digunakan ketika data tidak normal?
Saya membaca Bishop pada algoritma EM untuk GMM dan hubungan antara GMM dan k-means. Dalam buku ini dikatakan bahwa k-means adalah versi GMM yang sulit. Saya bertanya-tanya apakah itu menyiratkan bahwa jika data yang saya coba kluster bukan Gaussian, saya tidak dapat menggunakan k-means (atau setidaknya itu tidak cocok untuk …

2
Algoritma EM diimplementasikan secara manual
Saya ingin menerapkan algoritma EM manual dan kemudian membandingkannya dengan hasil normalmixEMdari mixtoolspaket. Tentu saja, saya akan senang jika keduanya menghasilkan hasil yang sama. Referensi utama adalah Geoffrey McLachlan (2000), Finite Mixture Models . Saya memiliki kerapatan campuran dari dua Gaussians, dalam bentuk umum, log-likelihood diberikan oleh (McLachlan halaman 48): …

2
Mengapa mengoptimalkan campuran Gaussian secara langsung sulit secara komputasi?
Pertimbangkan kemungkinan log campuran Gaussians: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Saya bertanya-tanya mengapa sulit secara komputasi untuk memaksimalkan persamaan itu secara langsung? Saya mencari intuisi yang jelas tentang mengapa harus jelas bahwa itu sulit atau mungkin penjelasan yang lebih keras mengapa sulit. Apakah ini masalah NP-complete …

2
Mengapa Maksimalisasi Ekspektasi penting untuk model campuran?
Ada banyak literatur yang menekankan metode Maksimalisasi Ekspektasi pada model campuran (Campuran Gaussian, Hidden Markov Model, dll.). Mengapa EM itu penting? EM hanyalah cara untuk melakukan optimasi dan tidak banyak digunakan sebagai metode berbasis gradien (layak gradien atau metode newton / quasi-newton) atau metode bebas gradien lain yang dibahas di …

2
Cara menyesuaikan model campuran untuk pengelompokan
Saya memiliki dua variabel - X dan Y dan saya perlu membuat kluster maksimum (dan optimal) = 5. Mari plot variabel yang ideal adalah seperti berikut: Saya ingin membuat 5 kelompok ini. Sesuatu seperti ini: Jadi saya pikir ini adalah model campuran dengan 5 kluster. Setiap kelompok memiliki titik pusat …

1
Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?
Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan menyebabkan lebih banyak informasi hilang. Namun, satu dan hanya satu asumsi yang tidak …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
Masalah singularitas dalam model campuran Gaussian
Dalam bab 9 buku Pengenalan pola dan pembelajaran mesin, ada bagian ini tentang model campuran Gaussian: Sejujurnya saya tidak begitu mengerti mengapa ini akan menciptakan singularitas. Adakah yang bisa menjelaskan hal ini kepada saya? Maaf, saya hanya sarjana dan pemula dalam pembelajaran mesin, jadi pertanyaan saya mungkin terdengar sedikit konyol, …

3
Referensi yang membenarkan penggunaan Campuran Gaussian
Model campuran Gaussian (GMM) menarik karena mudah digunakan baik secara analitis maupun dalam praktik, dan mampu memodelkan beberapa distribusi eksotis tanpa terlalu banyak kerumitan. Ada beberapa sifat analitik yang harus kita pegang yang umumnya tidak jelas. Khususnya: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? Katakanlah kita memiliki distribusi kontinu dan kami telah menemukan …



1
Kuantitas dari kombinasi distribusi normal
Saya memiliki informasi tentang distribusi dimensi antropometrik (seperti rentang bahu) untuk anak-anak dari berbagai usia. Untuk setiap usia dan dimensi, maksud saya, standar deviasi. (Saya juga punya delapan kuantil, tetapi saya pikir saya tidak akan bisa mendapatkan yang saya inginkan dari mereka.) Untuk setiap dimensi, saya ingin memperkirakan kuantil tertentu …

1
Pemilihan model Mclust
Paket R mclustmenggunakan BIC sebagai kriteria untuk pemilihan model klaster. Dari pemahaman saya, model dengan BIC terendah harus dipilih daripada model lain (jika Anda hanya peduli tentang BIC). Namun, ketika nilai BIC semuanya negatif, Mclustfungsi tersebut default ke model dengan nilai BIC tertinggi. Pemahaman saya secara keseluruhan dari berbagai uji …

1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Jarak antara dua campuran Gaussian untuk mengevaluasi solusi cluster
Saya sedang menjalankan simulasi cepat untuk membandingkan metode pengelompokan yang berbeda, dan saat ini mengalami kesulitan mencoba untuk mengevaluasi solusi cluster. Saya tahu berbagai metrik validasi (banyak ditemukan di cluster.stats () di R), tetapi saya menganggap itu paling baik digunakan jika perkiraan jumlah cluster sebenarnya sama dengan jumlah sebenarnya dari …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.