Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

5
Bagaimana memahami kelemahan K-means
K-means adalah metode yang banyak digunakan dalam analisis cluster. Dalam pemahaman saya, metode ini TIDAK memerlukan asumsi APAPUN, yaitu, beri saya dataset dan jumlah cluster yang ditentukan sebelumnya, k, dan saya hanya menerapkan algoritma ini yang meminimalkan jumlah kesalahan kuadrat (SSE), dalam cluster cluster kuadrat kesalahan. Jadi k-means pada dasarnya …

8
Mengapa jarak Euclidean bukan metrik yang baik dalam dimensi tinggi?
Saya membaca bahwa 'jarak Euclidean bukan jarak yang baik dalam dimensi tinggi'. Saya kira pernyataan ini ada hubungannya dengan kutukan dimensi, tetapi apa sebenarnya? Selain itu, apa itu 'dimensi tinggi'? Saya telah menerapkan pengelompokan hierarkis menggunakan jarak Euclidean dengan 100 fitur. Hingga berapa banyak fitur yang aman untuk menggunakan metrik …

8
Mendeteksi wajah tertentu dalam database gambar wajah
Saya sedang mengerjakan proyek kecil yang melibatkan wajah pengguna twitter melalui foto profil mereka. Masalah yang saya temui adalah bahwa setelah saya memfilter semua kecuali gambar yang merupakan foto potret yang jelas, sebagian kecil tapi signifikan pengguna twitter menggunakan gambar Justin Bieber sebagai gambar profil mereka. Untuk memfilternya, bagaimana saya …

6
Bagaimana cara mengetahui apakah data "berkerumun" cukup untuk algoritma pengelompokan untuk menghasilkan hasil yang bermakna?
Bagaimana Anda tahu jika data Anda (dimensi tinggi) menunjukkan pengelompokan yang cukup sehingga hasil dari kmeans atau algoritma pengelompokan lainnya benar-benar bermakna? Khususnya untuk algoritma k-means, berapa banyak pengurangan dalam varians dalam-cluster yang seharusnya ada untuk hasil clustering aktual menjadi bermakna (dan tidak palsu)? Haruskah pengelompokan terlihat ketika bentuk data …

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Clustering pada output t-SNE
Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak informasi. Saya kemudian mencoba t-SNE (untuk pertama …

6
Memilih metode pengelompokan
Ketika menggunakan analisis klaster pada kumpulan data untuk mengelompokkan kasus-kasus serupa, seseorang perlu memilih di antara sejumlah besar metode pengelompokan dan ukuran jarak. Terkadang, satu pilihan mungkin memengaruhi yang lain, tetapi ada banyak kemungkinan kombinasi metode. Apakah ada yang punya rekomendasi tentang bagaimana memilih di antara berbagai algoritma / metode …


6
Mengapa algoritme k-means hanya menggunakan metrik jarak Euclidean?
Apakah ada tujuan khusus dalam hal efisiensi atau fungsionalitas mengapa algoritma k-means tidak menggunakan misalnya cosine (dis) kesamaan sebagai metrik jarak, tetapi hanya dapat menggunakan norma Euclidean? Secara umum, akankah metode K-means patuh dan benar ketika jarak selain Euclidean dipertimbangkan atau digunakan? [Tambahan oleh @ttnphns. Pertanyaannya adalah dua kali lipat. …

6
Di mana harus memotong dendrogram?
Pengelompokan hierarki dapat diwakili oleh dendrogram. Memotong dendrogram pada tingkat tertentu memberikan satu set cluster. Pemotongan di tingkat lain memberikan kelompok cluster lain. Bagaimana Anda memilih tempat memotong dendrogram? Adakah sesuatu yang bisa kita pertimbangkan sebagai titik optimal? Jika saya melihat dendrogram dari waktu ke waktu karena berubah, haruskah saya …

5
Apa hubungan antara k-means clustering dan PCA?
Ini adalah praktik umum untuk menerapkan PCA (analisis komponen utama) sebelum algoritma pengelompokan (seperti k-means). Diyakini bahwa ini meningkatkan hasil pengelompokan dalam praktik (pengurangan kebisingan). Namun saya tertarik pada studi komparatif dan mendalam tentang hubungan antara PCA dan k-means. Sebagai contoh, Chris Ding dan Xiaofeng He, 2004, K-means Clustering melalui …

10
Bagaimana cara memutuskan jumlah cluster yang benar?
Kami menemukan pusat-pusat klaster dan menetapkan poin ke k tempat-tempat klaster yang berbeda dalam klaster k-means yang merupakan algoritma yang sangat terkenal dan ditemukan hampir di setiap paket pembelajaran mesin di internet. Tetapi bagian yang hilang dan paling penting menurut saya adalah pilihan k yang benar. Apa nilai terbaik untuk …

2
Bagaimana JST jaringan saraf tiruan, digunakan untuk pengelompokan tanpa pengawasan?
Saya mengerti bagaimana sebuah artificial neural network (ANN), dapat dilatih dengan cara yang diawasi menggunakan backpropogation untuk meningkatkan pemasangan dengan mengurangi kesalahan dalam prediksi. Saya telah mendengar bahwa JST dapat digunakan untuk pembelajaran yang tidak diawasi tetapi bagaimana hal ini dapat dilakukan tanpa fungsi biaya untuk memandu tahap optimasi? Dengan …

10
Clustering dengan matriks jarak
Saya memiliki matriks (simetris) Myang mewakili jarak antara setiap pasangan node. Sebagai contoh, ABCD EFGH IJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …
52 clustering 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.