Pertanyaan yang diberi tag «k-means»

k-means adalah metode untuk mempartisi data ke dalam kluster dengan menemukan sejumlah cara, k, st ketika data ditugaskan ke kluster dengan rata-rata terdekat, jumlah kluster w / i kuadrat diminimalkan

5
Bagaimana memahami kelemahan K-means
K-means adalah metode yang banyak digunakan dalam analisis cluster. Dalam pemahaman saya, metode ini TIDAK memerlukan asumsi APAPUN, yaitu, beri saya dataset dan jumlah cluster yang ditentukan sebelumnya, k, dan saya hanya menerapkan algoritma ini yang meminimalkan jumlah kesalahan kuadrat (SSE), dalam cluster cluster kuadrat kesalahan. Jadi k-means pada dasarnya …


6
Bagaimana cara mengetahui apakah data "berkerumun" cukup untuk algoritma pengelompokan untuk menghasilkan hasil yang bermakna?
Bagaimana Anda tahu jika data Anda (dimensi tinggi) menunjukkan pengelompokan yang cukup sehingga hasil dari kmeans atau algoritma pengelompokan lainnya benar-benar bermakna? Khususnya untuk algoritma k-means, berapa banyak pengurangan dalam varians dalam-cluster yang seharusnya ada untuk hasil clustering aktual menjadi bermakna (dan tidak palsu)? Haruskah pengelompokan terlihat ketika bentuk data …

6
Clustering pada output t-SNE
Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak informasi. Saya kemudian mencoba t-SNE (untuk pertama …

3
Bagaimana cara menghasilkan plot yang bagus dari hasil analisis klaster k-means?
Saya menggunakan R untuk melakukan pengelompokan K-means. Saya menggunakan 14 variabel untuk menjalankan K-means Apa cara yang bagus untuk memplot hasil K-means? Apakah ada implementasi yang ada? Apakah memiliki 14 variabel menyulitkan merencanakan hasilnya? Saya menemukan sesuatu yang disebut GGcluster yang terlihat keren tetapi masih dalam pengembangan. Saya juga membaca …

6
Mengapa algoritme k-means hanya menggunakan metrik jarak Euclidean?
Apakah ada tujuan khusus dalam hal efisiensi atau fungsionalitas mengapa algoritma k-means tidak menggunakan misalnya cosine (dis) kesamaan sebagai metrik jarak, tetapi hanya dapat menggunakan norma Euclidean? Secara umum, akankah metode K-means patuh dan benar ketika jarak selain Euclidean dipertimbangkan atau digunakan? [Tambahan oleh @ttnphns. Pertanyaannya adalah dua kali lipat. …

5
Apa hubungan antara k-means clustering dan PCA?
Ini adalah praktik umum untuk menerapkan PCA (analisis komponen utama) sebelum algoritma pengelompokan (seperti k-means). Diyakini bahwa ini meningkatkan hasil pengelompokan dalam praktik (pengurangan kebisingan). Namun saya tertarik pada studi komparatif dan mendalam tentang hubungan antara PCA dan k-means. Sebagai contoh, Chris Ding dan Xiaofeng He, 2004, K-means Clustering melalui …

10
Bagaimana cara memutuskan jumlah cluster yang benar?
Kami menemukan pusat-pusat klaster dan menetapkan poin ke k tempat-tempat klaster yang berbeda dalam klaster k-means yang merupakan algoritma yang sangat terkenal dan ditemukan hampir di setiap paket pembelajaran mesin di internet. Tetapi bagian yang hilang dan paling penting menurut saya adalah pilihan k yang benar. Apa nilai terbaik untuk …



5
Apakah penting untuk mengukur data sebelum pengelompokan?
Saya menemukan tutorial ini , yang menunjukkan bahwa Anda harus menjalankan fungsi skala pada fitur sebelum pengelompokan (saya percaya itu mengubah data menjadi z-skor). Saya bertanya-tanya apakah itu perlu. Saya bertanya sebagian besar karena ada titik siku yang bagus ketika saya tidak menskala data, tetapi menghilang ketika diskalakan. :)


1
Bagaimana PCA membantu dengan analisis pengelompokan k-means?
Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin memahami berapa banyak kelompok yang berbeda di daerah perumahan dapat dibagi …


5
Cara menangani data hierarkis / bersarang dalam pembelajaran mesin
Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.