Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

3
Distribusi probabilitas pengelompokan - metode & metrik?
Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya hukum (1 hingga 0, kurang lebih).) Saya mencari untuk menggunakan …


1
k-means || alias Scalable K-Means ++
Bahman Bahmani et al. memperkenalkan k-means ||, yang merupakan versi lebih cepat dari k-means ++. Algoritma ini diambil dari halaman 4 makalah mereka , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). K-means yang dapat diskalakan ++. Prosiding Endowment VLDB , 5 (7), 622-633. Sayangnya saya …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Bisakah Anda membandingkan metode pengelompokan berbeda pada dataset tanpa kebenaran dasar dengan validasi silang?
Saat ini, saya mencoba untuk menganalisis dataset dokumen teks yang tidak memiliki kebenaran dasar. Saya diberitahu bahwa Anda dapat menggunakan validasi silang k-fold untuk membandingkan berbagai metode pengelompokan. Namun, contoh-contoh yang saya lihat di masa lalu menggunakan kebenaran dasar. Apakah ada cara untuk menggunakan cara k-fold pada dataset ini untuk …

5
Bisakah saya menggunakan PCA untuk melakukan pemilihan variabel untuk analisis klaster?
Saya harus mengurangi jumlah variabel untuk melakukan analisis cluster. Variabel saya sangat berkorelasi, jadi saya berpikir untuk melakukan Analisis Faktor PCA (analisis komponen utama). Namun, jika saya menggunakan skor yang dihasilkan, cluster saya tidak terlalu benar (dibandingkan dengan klasifikasi sebelumnya dalam literatur). Pertanyaan: Dapatkah saya menggunakan matriks rotasi untuk memilih …

2
Pengelompokan data spasial di R
Saya memiliki satu set data bulanan suhu permukaan laut (SST) dan saya ingin menerapkan beberapa metodologi cluster untuk mendeteksi daerah dengan pola SST yang serupa. Saya memiliki satu set file data bulanan yang berjalan dari tahun 1985 hingga 2009 dan ingin menerapkan pengelompokan ke setiap bulan sebagai langkah pertama. Setiap …
12 r  clustering  spatial 


1

2
Menafsirkan hasil k-means clustering di R
Saya menggunakan kmeansinstruksi R untuk melakukan algoritma k-means pada dataset iris Anderson. Saya punya pertanyaan tentang beberapa parameter yang saya dapatkan. Hasilnya adalah: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Dalam hal ini, apa arti "Cluster berarti"? Apakah rata-rata jarak semua objek di dalam kluster? Juga …

1
Metode cluster kuat untuk data campuran di R
Saya mencari untuk mengelompokkan satu set data kecil (64 pengamatan dari 4 variabel interval dan satu variabel kategori tiga faktor). Sekarang, saya cukup baru dalam analisis klaster, tetapi saya sadar bahwa telah ada banyak kemajuan sejak zaman ketika hierarkis clustering atau k-means adalah satu-satunya pilihan yang tersedia. Secara khusus, nampak …

3
Bagaimana saya bisa menguji apakah pengelompokan data biner saya signifikan
Saya sedang melakukan analisis keranjang belanja dataset saya adalah kumpulan vektor transaksi, dengan item-item produk yang dibeli. Ketika menerapkan k-means pada transaksi, saya akan selalu mendapatkan beberapa hasil. Matriks acak mungkin juga akan menampilkan beberapa kluster. Apakah ada cara untuk menguji apakah pengelompokan yang saya temukan adalah signifikan, atau itu …

1
Apa yang harus dilakukan ketika sampel matriks kovarians tidak dapat dibalik?
Saya sedang mengerjakan beberapa teknik pengelompokan, di mana untuk kluster vektor d-dimensi yang diberikan, saya mengasumsikan distribusi normal multivariat dan menghitung sampel vektor rata-rata d-dimensi dan matriks kovarian sampel. Kemudian ketika mencoba untuk memutuskan apakah baru, tak terlihat, d-dimensi vektor milik klaster ini saya memeriksa jarak melalui ukuran ini: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,-hal2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) …


1
Pemilihan model Mclust
Paket R mclustmenggunakan BIC sebagai kriteria untuk pemilihan model klaster. Dari pemahaman saya, model dengan BIC terendah harus dipilih daripada model lain (jika Anda hanya peduli tentang BIC). Namun, ketika nilai BIC semuanya negatif, Mclustfungsi tersebut default ke model dengan nilai BIC tertinggi. Pemahaman saya secara keseluruhan dari berbagai uji …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.