Pertanyaan yang diberi tag «k-means»

k-means adalah metode untuk mempartisi data ke dalam kluster dengan menemukan sejumlah cara, k, st ketika data ditugaskan ke kluster dengan rata-rata terdekat, jumlah kluster w / i kuadrat diminimalkan

2
Menafsirkan hasil k-means clustering di R
Saya menggunakan kmeansinstruksi R untuk melakukan algoritma k-means pada dataset iris Anderson. Saya punya pertanyaan tentang beberapa parameter yang saya dapatkan. Hasilnya adalah: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Dalam hal ini, apa arti "Cluster berarti"? Apakah rata-rata jarak semua objek di dalam kluster? Juga …



1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Algoritma apa yang harus saya gunakan untuk mengelompokkan dataset biner besar ke dalam beberapa kategori?
Saya memiliki matriks besar (650K baris * 62 kolom) data biner (hanya 0-1 entri). Matriksnya sebagian besar jarang: sekitar 8% diisi. Saya ingin mengelompokkannya menjadi 5 grup - misalnya dinamai dari 1 hingga 5. Saya telah mencoba pengelompokan hierarkis dan tidak dapat menangani ukurannya. Saya juga telah menggunakan algoritma clustering …

2
Pengelompokan yang sangat miring, hitung data: ada saran untuk ditindaklanjuti (mengubah dll)?
Masalah dasar Inilah masalah dasar saya: Saya mencoba mengelompokkan dataset yang berisi beberapa variabel yang sangat miring dengan jumlah. Variabel mengandung banyak nol dan karenanya tidak terlalu informatif untuk prosedur pengelompokan saya - yang kemungkinan merupakan algoritma k-means. Baik, Anda berkata, hanya mengubah variabel menggunakan akar kuadrat, kotak cox, atau …


3
Metode inisialisasi K-means clustering
Saya tertarik pada kondisi terkini untuk memilih benih awal (pusat cluster) untuk K-means. Googling mengarah ke dua pilihan populer: pemilihan awal benih secara acak, dan, menggunakan teknik pemilihan KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Keuntungan Pembibitan Hati-Hati Apakah ada metode lain yang menjanjikan yang diketahui oleh siapa pun …

3
K-means pada persamaan cosinus vs. Euclidean distance (LSA)
Saya menggunakan analisis semantik laten untuk mewakili kumpulan dokumen di ruang dimensi yang lebih rendah. Saya ingin mengelompokkan dokumen-dokumen ini menjadi dua kelompok menggunakan k-means. Beberapa tahun yang lalu, saya melakukan ini menggunakan gensim Python dan menulis algoritma k-means saya sendiri. Saya menentukan cluster centroid menggunakan jarak Euclidean, tetapi kemudian …

3
Menetapkan label kelas untuk klaster k-means
Saya punya pertanyaan yang sangat mendasar tentang pengelompokan. Setelah saya menemukan k cluster dengan centroid mereka, bagaimana cara menafsirkan kelas poin data yang telah saya klaster (memberikan label kelas yang bermakna untuk masing-masing cluster). Saya tidak berbicara tentang validasi cluster yang ditemukan. Dapatkah itu dilakukan dengan diberikan satu set kecil …
10 k-means 

1
Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?
Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 




3
Clustering sebagai reduksi dimensi
Saya membaca buku "Machine learning with Spark" oleh Nick Pentreath, dan di halaman 224-225 penulis membahas tentang penggunaan K-means sebagai bentuk pengurangan dimensionalitas. Saya belum pernah melihat pengurangan dimensi seperti ini, apakah ada nama atau / dan berguna untuk bentuk data tertentu ? Saya mengutip buku yang menggambarkan algoritma: Asumsikan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.