Pertanyaan yang diberi tag «k-means»

k-means adalah metode untuk mempartisi data ke dalam kluster dengan menemukan sejumlah cara, k, st ketika data ditugaskan ke kluster dengan rata-rata terdekat, jumlah kluster w / i kuadrat diminimalkan

2
k-means vs k-median?
Saya tahu ada algoritma pengelompokan k-means dan k-median. Satu yang menggunakan mean sebagai pusat cluster dan yang lainnya menggunakan median. Pertanyaan saya adalah: kapan / di mana menggunakannya?

2
Mengapa k-means tidak dioptimalkan menggunakan gradient descent?
Saya tahu k-means biasanya dioptimalkan menggunakan Expectation Maximization . Namun kami dapat mengoptimalkan fungsi kerugiannya dengan cara yang sama kami mengoptimalkan lainnya! Saya menemukan beberapa makalah yang benar-benar menggunakan keturunan gradien stokastik untuk k-means skala besar, tapi saya tidak bisa menjawab pertanyaan saya. Jadi, ada yang tahu kenapa begitu? Apakah …

3
Mengapa kita menggunakan k-means daripada algoritma lainnya?
Saya meneliti tentang k-means dan ini adalah apa yang saya dapatkan: k-means adalah salah satu algoritma paling sederhana yang menggunakan metode pembelajaran tanpa pengawasan untuk memecahkan masalah pengelompokan yang diketahui. Ini bekerja sangat baik dengan kumpulan data besar. Namun, ada juga kekurangan K-Means yaitu: Sensitivitas yang kuat terhadap pencilan dan …


3
Kesesuaian ANOVA setelah analisis klaster k-means
Pemberitahuan setelah tabel ANOVA setelah analisis K-means menunjukkan bahwa tingkat signifikansi tidak boleh dilihat sebagai uji sarana yang sama, karena solusi klaster telah diturunkan berdasarkan jarak Euclidean untuk memaksimalkan jarak. Tes apa yang harus saya gunakan untuk menunjukkan apakah rata-rata variabel pengelompokan berbeda di antara kluster? Saya telah melihat peringatan …
14 anova  k-means 

2
Apakah ada fungsi dalam R yang mengambil pusat-pusat cluster yang ditemukan dan menetapkan cluster ke set data baru
Saya memiliki dua bagian dari kumpulan data multidimensi, sebut saja traindan test. Dan saya ingin membangun model berdasarkan pada set data kereta dan kemudian memvalidasinya pada set data uji. Jumlah cluster diketahui. Saya mencoba menerapkan k-means clustering di R dan saya mendapatkan objek yang berisi pusat-pusat cluster: kClust <- kmeans(train, …
14 r  clustering  k-means 



4
Menginisialisasi pusat K-means dengan cara subsampel acak dari dataset?
Jika saya memiliki dataset tertentu, seberapa pintarkah untuk menginisialisasi pusat cluster dengan menggunakan sampel acak dari dataset tersebut? Misalnya, saya ingin 5 clusters. Saya 5 random sampleskatakan, size=20%dari dataset asli. Bisakah saya mengambil rata-rata dari masing-masing 5 sampel acak ini dan menggunakan rata-rata tersebut sebagai 5 pusat klaster awal saya? …


2
Menggunakan BIC untuk memperkirakan jumlah k dalam KMEANS
Saat ini saya mencoba menghitung BIC untuk kumpulan data mainan saya (ofc iris (:). Saya ingin mereproduksi hasil seperti yang ditunjukkan di sini (Gbr. 5). Makalah itu juga merupakan sumber saya untuk formula BIC. Saya memiliki 2 masalah dengan ini: Notasi: nsayanin_i = jumlah elemen dalam klastersayaii CsayaCiC_i = pusat …

3
Apakah saya perlu membuang variabel yang berkorelasi / collinear sebelum menjalankan kmeans?
Saya menjalankan kmeans untuk mengidentifikasi kelompok pelanggan. Saya memiliki sekitar 100 variabel untuk mengidentifikasi cluster. Masing-masing variabel ini mewakili% pengeluaran oleh pelanggan pada suatu kategori. Jadi, jika saya memiliki 100 kategori, saya memiliki 100 variabel ini sehingga jumlah dari variabel-variabel ini adalah 100% untuk setiap pelanggan. Sekarang, variabel-variabel ini sangat …

3
Distribusi probabilitas pengelompokan - metode & metrik?
Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya hukum (1 hingga 0, kurang lebih).) Saya mencari untuk menggunakan …

1
k-means || alias Scalable K-Means ++
Bahman Bahmani et al. memperkenalkan k-means ||, yang merupakan versi lebih cepat dari k-means ++. Algoritma ini diambil dari halaman 4 makalah mereka , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). K-means yang dapat diskalakan ++. Prosiding Endowment VLDB , 5 (7), 622-633. Sayangnya saya …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.