Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

8
Ukuran kualitas pengelompokan
Saya memiliki algoritma clustering (bukan k-means) dengan input parameter (jumlah cluster). Setelah melakukan pengelompokan, saya ingin mendapatkan ukuran kuantitatif kualitas pengelompokan ini. Algoritma pengelompokan memiliki satu properti penting. Untuk k = 2 jika saya memberi makan titik data N tanpa perbedaan yang signifikan di antara mereka dengan algoritma ini sebagai …
17 clustering 

2
Analisis Bayesian nonparametrik dalam R
Saya mencari tutorial yang baik tentang pengelompokan data dalam Rmenggunakan proses hierarchical dirichlet (HDP) (salah satu metode Bayesian nonparametrik populer dan terbaru). Ada DPpackage(IMHO, yang paling komprehensif dari semua yang tersedia) Runtuk analisis Bayesian nonparametrik. Tetapi saya tidak dapat memahami contoh-contoh yang diberikan dalam R Newsatau dalam manual referensi paket …


5
Mengapa k-means tidak memberikan minimum global?
Saya membaca bahwa algoritma k-means hanya konvergen ke minimum lokal dan bukan ke minimum global. Kenapa ini? Saya secara logis dapat memikirkan bagaimana inisialisasi dapat mempengaruhi pengelompokan akhir dan ada kemungkinan pengelompokan sub-optimal, tetapi saya tidak menemukan apa pun yang secara matematis akan membuktikannya. Juga, mengapa k-berarti proses berulang? Tidak …


3
Algoritma apa yang diterapkan ward.D dalam hclust () jika bukan kriteria Ward?
Yang digunakan oleh opsi "ward.D" (setara dengan satu-satunya pilihan Ward "ward" dalam versi R <= 3.0.3) tidak menerapkan kriteria pengelompokan Ward (1963), sedangkan opsi "ward.D2" menerapkan kriteria tersebut ( Murtagh dan Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Rupanya bangsal.D tidak menerapkan kriteria Ward dengan benar. Meskipun demikian tampaknya melakukan pekerjaan yang …
16 r  clustering  ward 

4
Mengelompokkan data 1D
Saya memiliki dataset, saya ingin membuat kelompok data berdasarkan hanya satu variabel (tidak ada nilai yang hilang). Saya ingin membuat 3 cluster berdasarkan satu variabel itu. Algoritma pengelompokan mana yang digunakan, k-means, EM, DBSCAN dll.? Pertanyaan utama saya adalah, dalam keadaan apa saya harus menggunakan k-means di atas EM atau …
16 clustering 

2
Kapan kita menggabungkan reduksi dimensi dengan pengelompokan?
Saya mencoba melakukan pengelompokan tingkat dokumen. Saya membangun matriks frekuensi istilah-dokumen dan saya mencoba mengelompokkan vektor-vektor dimensi tinggi ini menggunakan k-means. Alih-alih langsung mengelompokkan, apa yang saya lakukan adalah pertama-tama menerapkan dekomposisi vektor singular LSA (Latent Semantic Analysis) untuk mendapatkan matriks U, S, Vt, memilih ambang yang sesuai menggunakan plot …

4
Asumsi analisis kluster
Permintaan maaf untuk pertanyaan mendasar, saya baru dalam bentuk analisis ini dan memiliki pemahaman yang sangat terbatas tentang prinsip-prinsip sejauh ini. Saya hanya ingin tahu apakah banyak asumsi parametrik untuk uji multivariat / univariat yang berlaku untuk analisis Cluster? Banyak sumber informasi yang saya baca mengenai analisis klaster gagal untuk …


4
Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat
Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Penambangan Teks: bagaimana cara mengelompokkan teks (misalnya artikel berita) dengan kecerdasan buatan?
Saya telah membangun beberapa jaringan saraf (MLP (terhubung penuh), Elman (berulang)) untuk tugas yang berbeda, seperti bermain Pong, mengklasifikasikan angka tulisan tangan dan lainnya ... Selain itu saya mencoba untuk membangun beberapa jaringan saraf convolutional pertama, misalnya untuk mengklasifikasikan catatan tulisan tangan multi-digit, tetapi saya benar-benar baru untuk menganalisis dan …

2
Cara menyesuaikan model campuran untuk pengelompokan
Saya memiliki dua variabel - X dan Y dan saya perlu membuat kluster maksimum (dan optimal) = 5. Mari plot variabel yang ideal adalah seperti berikut: Saya ingin membuat 5 kelompok ini. Sesuatu seperti ini: Jadi saya pikir ini adalah model campuran dengan 5 kluster. Setiap kelompok memiliki titik pusat …

1
Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?
Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan menyebabkan lebih banyak informasi hilang. Namun, satu dan hanya satu asumsi yang tidak …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Deret waktu dan deteksi anomali
Saya ingin menyiapkan algoritme untuk mendeteksi anomali dalam deret waktu, dan saya berencana menggunakan pengelompokan untuk itu. Mengapa saya harus menggunakan matriks jarak untuk pengelompokan dan bukan data deret waktu mentah ?, Untuk mendeteksi anomali, saya akan menggunakan pengelompokan berbasis kepadatan, algoritma sebagai DBscan, jadi apakah itu akan berhasil dalam …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.