Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

2
Pengelompokan yang sangat miring, hitung data: ada saran untuk ditindaklanjuti (mengubah dll)?
Masalah dasar Inilah masalah dasar saya: Saya mencoba mengelompokkan dataset yang berisi beberapa variabel yang sangat miring dengan jumlah. Variabel mengandung banyak nol dan karenanya tidak terlalu informatif untuk prosedur pengelompokan saya - yang kemungkinan merupakan algoritma k-means. Baik, Anda berkata, hanya mengubah variabel menggunakan akar kuadrat, kotak cox, atau …

4
Memahami dan Menerapkan model Proses Dirichlet
Saya mencoba menerapkan dan mempelajari Proses Dirichlet untuk mengelompokkan data saya (atau ketika orang belajar mesin berbicara, perkirakan kepadatannya). Saya membaca banyak makalah di topik dan semacam mendapat ide. Tapi saya masih bingung; di sini adalah serangkaian pertanyaan, 1) Apa perbedaan antara Chinese Restaurant Model dan DP? 2) Apa perbedaan …

1
Bagaimana cara mengelompokkan U-Matrix secara otomatis?
Setelah melatih peta yang dapat diatur sendiri, seseorang dapat menghitung U-Matriks . Ada beberapa alat untuk memvisualisasikannya secara manual dan mengidentifikasi cluster, tetapi saya bertanya-tanya apakah ada algoritma untuk melakukan proses ini secara otomatis (yaitu tidak ada manusia yang melihat gambar untuk mengidentifikasi cluster). Apakah ada cara untuk melakukan ini? …

3
Metode inisialisasi K-means clustering
Saya tertarik pada kondisi terkini untuk memilih benih awal (pusat cluster) untuk K-means. Googling mengarah ke dua pilihan populer: pemilihan awal benih secara acak, dan, menggunakan teknik pemilihan KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Keuntungan Pembibitan Hati-Hati Apakah ada metode lain yang menjanjikan yang diketahui oleh siapa pun …

3
Apa metode statistik yang dapat saya gunakan untuk menemukan kombinasi populer atau umum dari variabel kategori?
Saya sedang melakukan studi tentang penggunaan polydrug. Saya memiliki set data 400 pecandu narkoba, yang masing-masing menyatakan narkoba yang mereka penyalahgunaan. Ada lebih dari 10 obat dan karenanya ada kemungkinan kombinasi yang besar. Saya telah mencatat ulang sebagian besar obat yang mereka konsumsi menjadi variabel biner (yaitu heroin adalah 1 …

1
Memahami penggunaan logaritma dalam logaritma TF-IDF
Saya sedang membaca: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu. Apa yang saya Pahami: iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering. Dari perspektif itu saya D F( …

3
Pendekatan dan contoh pengelompokan grafik di "R"
Saya mencari untuk mengelompokkan / menggabungkan node dalam grafik menggunakan pengelompokan grafik di 'r'. Ini adalah variasi mainan yang menakjubkan dari masalah saya. Ada dua "cluster" Ada "jembatan" yang menghubungkan cluster Berikut ini adalah jaringan kandidat: Ketika saya melihat jarak koneksi, "hopcount", jika Anda mau, maka saya bisa mendapatkan matriks …

1
Bagaimana saya harus menginterpretasikan statistik GAP?
Saya menggunakan statistik GAP untuk memperkirakan k cluster di R. Namun saya tidak yakin apakah saya menafsirkannya dengan baik. Dari plot di atas saya berasumsi bahwa saya harus menggunakan 3 cluster. Dari plot kedua saya harus memilih 6 cluster. Benarkah interpretasi statistik GAP? Saya akan berterima kasih atas penjelasan apa …
10 clustering 


2
PyMC untuk pengelompokan nonparametrik: Proses Dirichlet untuk memperkirakan parameter campuran Gaussian gagal dikelompokkan
Pengaturan masalah Salah satu masalah mainan pertama yang ingin saya terapkan pada PyMC adalah pengelompokan nonparametrik: diberi beberapa data, modelkan sebagai campuran Gaussian, dan pelajari jumlah cluster dan rata-rata dan kovarian setiap cluster. Sebagian besar yang saya ketahui tentang metode ini berasal dari ceramah video oleh Michael Jordan dan Yee …

3
Cara mendapatkan interval kepercayaan pada perubahan populasi r-square
Demi contoh sederhana berasumsi bahwa ada dua model regresi linier Model 1 memiliki tiga prediktor, x1a, x2b, danx2c Model 2 memiliki tiga prediktor dari model 1 dan dua prediktor tambahan x2adanx2b Ada persamaan regresi populasi di mana varians populasi yang dijelaskan adalah untuk Model 1 dan untuk Model 2. Varian …


1
Apakah lebar siluet rendah berarti data hanya memiliki sedikit struktur mendasar?
Saya baru dalam analisis sekuens, dan saya bertanya-tanya bagaimana Anda bereaksi jika rata-rata lebar siluet (ASW) dari analisis kluster dari matriks ketidaksamaan berbasis Pencocokan Optimal rendah (sekitar.25). Apakah akan tepat untuk menyimpulkan bahwa ada sedikit struktur mendasar yang akan memungkinkan urutan untuk dikelompokkan? Mungkinkah Anda mengabaikan ASW rendah berdasarkan ukuran …

1
Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?
Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Mengevaluasi kelompok rantai Markov orde pertama
Saya mengelompokkan dataset saya dari beberapa ribu rantai Markov orde pertama menjadi sekitar 10 cluster. Apakah ada beberapa cara yang direkomendasikan bagaimana saya dapat mengevaluasi kluster ini dan mencari tahu item apa yang ada di kluster dan bagaimana mereka berbeda dari kluster lain? Jadi saya dapat membuat pernyataan seperti "Proses …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.