Pertanyaan yang diberi tag «k-means»

k-means adalah metode untuk mempartisi data ke dalam kluster dengan menemukan sejumlah cara, k, st ketika data ditugaskan ke kluster dengan rata-rata terdekat, jumlah kluster w / i kuadrat diminimalkan

1
Perbedaan antara algoritma k-means standar dan spheris
Saya ingin memahami, apa perbedaan implementasi utama antara algoritma klaster standar dan k-means. Dalam setiap langkah, k-means menghitung jarak antara vektor elemen dan centroid cluster, dan menugaskan kembali dokumen ke cluster ini, yang centroid adalah yang terdekat. Kemudian, semua centroid dihitung ulang. Dalam k-means bola, semua vektor dinormalisasi, dan ukuran …

2
Bagaimana cara menggunakan variabel biner dan kontinu bersama dalam clustering?
Saya perlu menggunakan variabel biner (nilai 0 & 1) dalam k-means. Tetapi k-means hanya bekerja dengan variabel kontinu. Saya tahu beberapa orang masih menggunakan variabel-variabel biner ini dalam k-means mengabaikan fakta bahwa k-means hanya dirancang untuk variabel kontinu. Bagi saya ini tidak bisa diterima. Pertanyaan: Jadi apa cara yang benar …

5
Prosedur pengelompokan di mana setiap kelompok memiliki jumlah poin yang sama?
Saya memiliki beberapa poin dalam , dan saya ingin mengelompokkan poin sehingga:R halX= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RhalRhalR^p Setiap cluster berisi jumlah elemen . (Asumsikan bahwa jumlah cluster dibagi .)nXXXnnn Setiap cluster "kohesif spasial" dalam beberapa hal, seperti cluster dari berarti.kkk Sangat mudah untuk memikirkan banyak prosedur pengelompokan …

3
Menentukan berbagai kelompok data 1d dari basis data
Saya memiliki tabel transfer data antara node yang berbeda. Ini adalah basis data yang sangat besar (dengan hampir 40 juta transfer). Salah satu atribut adalah jumlah byte (nbytes) transfer yang berkisar dari 0 byte hingga 2 tera byte. Saya ingin mengelompokkan nbytes sehingga diberikan k cluster beberapa transfer x1 milik …

8
Lakukan pengelompokan K-means (atau kerabat dekatnya) dengan hanya matriks jarak, bukan data poin demi fitur
Saya ingin melakukan pengelompokan K-means pada objek yang saya miliki, tetapi objek tidak digambarkan sebagai titik dalam ruang, yaitu dengan objects x featuresdataset. Namun, saya dapat menghitung jarak antara dua objek (didasarkan pada fungsi kesamaan). Jadi, saya membuang matriks jarak objects x objects. Saya sudah mengimplementasikan K-means sebelumnya, tapi itu …

2
Jika k-means clustering adalah suatu bentuk pemodelan campuran Gaussian, dapatkah itu digunakan ketika data tidak normal?
Saya membaca Bishop pada algoritma EM untuk GMM dan hubungan antara GMM dan k-means. Dalam buku ini dikatakan bahwa k-means adalah versi GMM yang sulit. Saya bertanya-tanya apakah itu menyiratkan bahwa jika data yang saya coba kluster bukan Gaussian, saya tidak dapat menggunakan k-means (atau setidaknya itu tidak cocok untuk …

4
Mengelompokkan matriks korelasi
Saya memiliki matriks korelasi yang menyatakan bagaimana setiap item berkorelasi dengan item lainnya. Karenanya untuk item N, saya sudah memiliki matriks korelasi N * N. Dengan menggunakan matriks korelasi ini, bagaimana cara mengelompokkan item N dalam M bin sehingga saya dapat mengatakan bahwa Item Nk di kth bin berperilaku sama. …

2
Bukti konvergensi k-means
Untuk suatu tugas, saya diminta untuk memberikan bukti bahwa k-means menyatu dalam sejumlah langkah yang terbatas. Inilah yang saya tulis: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Langkah 2 mengacu pada langkah yang memberi label setiap titik data dengan pusat klaster terdekat, dan langkah 3 adalah langkah di mana pusat diperbarui dengan mengambil rata-rata. …

4
Bagaimana cara memahami kelemahan Hierarchical Clustering?
Adakah yang bisa menjelaskan pro dan kontra Hierarchical Clustering? Apakah Hierarchical Clustering memiliki kelemahan yang sama dengan K means? Apa keuntungan dari Hierarchical Clustering over K means? Kapan kita harus menggunakan K means lebih dari Hierarchical Clustering & sebaliknya? Jawaban untuk posting ini menjelaskan kelemahan k sangat baik. Bagaimana memahami …




5
Mengapa k-means tidak memberikan minimum global?
Saya membaca bahwa algoritma k-means hanya konvergen ke minimum lokal dan bukan ke minimum global. Kenapa ini? Saya secara logis dapat memikirkan bagaimana inisialisasi dapat mempengaruhi pengelompokan akhir dan ada kemungkinan pengelompokan sub-optimal, tetapi saya tidak menemukan apa pun yang secara matematis akan membuktikannya. Juga, mengapa k-berarti proses berulang? Tidak …

4
Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat
Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Apakah kutukan Dimensi mempengaruhi beberapa model lebih dari yang lain?
Tempat saya telah membaca tentang kutukan dimensionalitas menjelaskannya dalam hubungannya dengan kNN terutama, dan model linier secara umum. Saya secara teratur melihat peringkat teratas di Kaggle menggunakan ribuan fitur pada dataset yang hampir tidak memiliki 100k titik data. Mereka terutama menggunakan pohon Boosted dan NN, antara lain. Banyak fitur yang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.