Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

3
Pengelompokan yang efisien ruang
Kebanyakan algoritma pengelompokan yang saya lihat dimulai dengan membuat jarak masing-masing untuk setiap titik, yang menjadi masalah pada kumpulan data yang lebih besar. Apakah ada yang tidak melakukannya? Atau apakah itu dalam semacam pendekatan parsial / perkiraan / terhuyung-huyung? Algoritma / implementasi clustering mana yang membutuhkan waktu kurang dari O …

4
Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?
Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …

2
Memulai dengan biclustering
Saya telah melakukan beberapa penelitian internet kasual tentang biclusters. (Saya telah membaca artikel Wiki beberapa kali.) Sejauh ini, sepertinya ada beberapa definisi atau terminologi standar. Saya ingin tahu apakah ada makalah standar atau buku yang harus dibaca oleh siapa pun yang tertarik dengan algoritma untuk menemukan pengendara sepeda. Apakah mungkin …

2
Hitung kurva ROC untuk data
Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
Cara terbaik untuk mengelompokkan matriks adjacency
Saya mengalami kesulitan menafsirkan cluster yang dihasilkan dari matriks adjacency. Saya memiliki 200 matriks yang relatif besar yang mewakili mata pelajaran yang berisi korelasi parsial (skor z) dari deret waktu (data saraf). Tujuannya adalah untuk mengelompokkan 210 matriks tersebut dan mendeteksi potensi komunitas yang belum ditemukan. Jadi saya melakukan perhitungan …


1
Kriteria siku untuk menentukan jumlah cluster
Disebutkan di sini bahwa salah satu metode untuk menentukan jumlah cluster optimal dalam satu set data adalah "metode siku". Di sini persentase varians dihitung sebagai rasio varians antara-kelompok dengan total varians. Saya merasa sulit memahami perhitungan ini. Adakah yang bisa menjelaskan bagaimana cara menghitung persentase varian untuk set data yang …

3
Bagaimana melakukan SVD untuk memasukkan nilai yang hilang, contoh konkret
Saya telah membaca komentar yang bagus mengenai bagaimana menangani nilai yang hilang sebelum menerapkan SVD, tetapi saya ingin tahu cara kerjanya dengan contoh sederhana: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Mengingat matriks di atas, jika saya …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

4
Algoritma pengelompokan grafik yang mempertimbangkan bobot negatif
Saya memiliki instance grafik dengan tepi terarah tertimbang yang nilainya dapat berada dalam kisaran [-1,1]. Saya perlu melakukan pengelompokan pada grafik ini, untuk mengetahui kelompok-kelompok di mana simpul lebih berkorelasi. Saya mencari beberapa algoritma berbasis pengelompokan atau deteksi komunitas grafik, tetapi kebanyakan dari mereka tidak bekerja karena bobot negatif. Sampai …

1
Kapan menggunakan LDA daripada GMM untuk pengelompokan?
Saya memiliki dataset yang berisi aktivitas pengguna dengan 168 dimensi, di mana saya ingin mengekstraksi kluster menggunakan pembelajaran tanpa pengawasan. Tidak jelas bagi saya apakah akan menggunakan pendekatan pemodelan topik dalam alokasi Latent Dirichlet (LDA) atau Gaussian Mixture Model (GMM), yang lebih merupakan pendekatan Bayesian. Dalam hal itu saya punya …


3
Menggunakan k-means dengan metrik lainnya
Jadi saya menyadari ini telah ditanyakan sebelumnya: misalnya Apa kasus penggunaan terkait dengan analisis cluster metrik jarak yang berbeda? tetapi saya telah menemukan jawaban yang agak kontradiktif dengan apa yang disarankan harus dimungkinkan dalam literatur. Baru-baru ini saya telah membaca dua makalah yang menyebutkan menggunakan algoritma kmeans dengan metrik lain, …

2
Pengelompokan data yang memiliki campuran variabel kontinu dan kategori
Saya memiliki data yang mewakili beberapa aspek perilaku manusia. Saya ingin mengelompokkannya (tanpa pengawasan) ke dalam beberapa profil perilaku. sekarang, beberapa variabel saya adalah kategorikal (dengan 2 kategori atau lebih), dan ada pula yang kontinu (sebagian besar adalah persentase). Beberapa variabel bahkan lebih kompleks karena satu kategori memiliki kontinu lebih …

1
Model dan cluster campuran nonparametrik
Saya punya pertanyaan tentang cluster yang saya rencanakan untuk diobati dengan pendekatan campuran nonparametrik (saya pikir). Saya sedang mengerjakan penjelasan tentang pelampiasan manusia. Setiap baris basis data saya berisi: ID seseorang beberapa parameter lingkungan X (contoh: suhu, angin, dll.) variabel biner Y yang mewakili reaksi orang tersebut terhadap parameter (contoh: …

4
Clusterings yang bisa disebabkan oleh K-means
Saya mendapatkan pertanyaan berikut sebagai pertanyaan ujian untuk ujian saya dan saya tidak bisa memahami jawabannya. Plot sebar data yang diproyeksikan ke dua komponen utama pertama ditunjukkan di bawah ini. Kami ingin memeriksa apakah ada beberapa struktur grup dalam kumpulan data. Untuk melakukan ini, kami telah menjalankan algoritma k-means dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.