Statistik dan Big Data clustering

2

Pengelompokan yang sangat miring, hitung data: ada saran untuk ditindaklanjuti (mengubah dll)?

Masalah dasar Inilah masalah dasar saya: Saya mencoba mengelompokkan dataset yang berisi beberapa variabel yang sangat miring dengan jumlah. Variabel mengandung banyak nol dan karenanya tidak terlalu informatif untuk prosedur pengelompokan saya - yang kemungkinan merupakan algoritma k-means. Baik, Anda berkata, hanya mengubah variabel menggunakan akar kuadrat, kotak cox, atau …

11 clustering data-transformation k-means count-data compositional-data

4

Memahami dan Menerapkan model Proses Dirichlet

Saya mencoba menerapkan dan mempelajari Proses Dirichlet untuk mengelompokkan data saya (atau ketika orang belajar mesin berbicara, perkirakan kepadatannya). Saya membaca banyak makalah di topik dan semacam mendapat ide. Tapi saya masih bingung; di sini adalah serangkaian pertanyaan, 1) Apa perbedaan antara Chinese Restaurant Model dan DP? 2) Apa perbedaan …

11 machine-learning clustering dirichlet-process

1

Bagaimana cara mengelompokkan U-Matrix secara otomatis?

Setelah melatih peta yang dapat diatur sendiri, seseorang dapat menghitung U-Matriks . Ada beberapa alat untuk memvisualisasikannya secara manual dan mengidentifikasi cluster, tetapi saya bertanya-tanya apakah ada algoritma untuk melakukan proses ini secara otomatis (yaitu tidak ada manusia yang melihat gambar untuk mengidentifikasi cluster). Apakah ada cara untuk melakukan ini? …

10 clustering image-processing self-organizing-maps

3

Metode inisialisasi K-means clustering

Saya tertarik pada kondisi terkini untuk memilih benih awal (pusat cluster) untuk K-means. Googling mengarah ke dua pilihan populer: pemilihan awal benih secara acak, dan, menggunakan teknik pemilihan KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Keuntungan Pembibitan Hati-Hati Apakah ada metode lain yang menjanjikan yang diketahui oleh siapa pun …

10 clustering k-means

3

Apa metode statistik yang dapat saya gunakan untuk menemukan kombinasi populer atau umum dari variabel kategori?

Saya sedang melakukan studi tentang penggunaan polydrug. Saya memiliki set data 400 pecandu narkoba, yang masing-masing menyatakan narkoba yang mereka penyalahgunaan. Ada lebih dari 10 obat dan karenanya ada kemungkinan kombinasi yang besar. Saya telah mencatat ulang sebagian besar obat yang mereka konsumsi menjadi variabel biner (yaitu heroin adalah 1 …

10 hypothesis-testing clustering combinatorics association-measure association-rules

1

Memahami penggunaan logaritma dalam logaritma TF-IDF

Saya sedang membaca: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu. Apa yang saya Pahami: iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering. Dari perspektif itu saya D F( …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Pendekatan dan contoh pengelompokan grafik di "R"

Saya mencari untuk mengelompokkan / menggabungkan node dalam grafik menggunakan pengelompokan grafik di 'r'. Ini adalah variasi mainan yang menakjubkan dari masalah saya. Ada dua "cluster" Ada "jembatan" yang menghubungkan cluster Berikut ini adalah jaringan kandidat: Ketika saya melihat jarak koneksi, "hopcount", jika Anda mau, maka saya bisa mendapatkan matriks …

10 r clustering data-visualization numerics

1

Bagaimana saya harus menginterpretasikan statistik GAP?

Saya menggunakan statistik GAP untuk memperkirakan k cluster di R. Namun saya tidak yakin apakah saya menafsirkannya dengan baik. Dari plot di atas saya berasumsi bahwa saya harus menggunakan 3 cluster. Dari plot kedua saya harus memilih 6 cluster. Benarkah interpretasi statistik GAP? Saya akan berterima kasih atas penjelasan apa …

10 clustering

1

Apa arti total ss dan antar ss dalam pengelompokan k-means?

Saya sangat baru dalam analisis cluster. Saya menggunakan R untuk k-means clustering dan saya bertanya-tanya apa itu. Dan apa yang lebih baik jika rasio mereka lebih kecil atau lebih besar?

10 clustering

2

PyMC untuk pengelompokan nonparametrik: Proses Dirichlet untuk memperkirakan parameter campuran Gaussian gagal dikelompokkan

Pengaturan masalah Salah satu masalah mainan pertama yang ingin saya terapkan pada PyMC adalah pengelompokan nonparametrik: diberi beberapa data, modelkan sebagai campuran Gaussian, dan pelajari jumlah cluster dan rata-rata dan kovarian setiap cluster. Sebagian besar yang saya ketahui tentang metode ini berasal dari ceramah video oleh Michael Jordan dan Yee …

10 bayesian clustering python pymc nonparametric-bayes

3

Cara mendapatkan interval kepercayaan pada perubahan populasi r-square

Demi contoh sederhana berasumsi bahwa ada dua model regresi linier Model 1 memiliki tiga prediktor, x1a, x2b, danx2c Model 2 memiliki tiga prediktor dari model 1 dan dua prediktor tambahan x2adanx2b Ada persamaan regresi populasi di mana varians populasi yang dijelaskan adalah untuk Model 1 dan untuk Model 2. Varian …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

Menemukan sejumlah pusat lingkaran yang diketahui yang memaksimalkan jumlah titik dalam jarak yang tetap

Saya memiliki satu set data 2-D di mana saya ingin menemukan pusat dari sejumlah pusat lingkaran ( ) yang memaksimalkan jumlah total poin dalam jarak yang ditentukan ( R ).NNNRRR misalnya saya memiliki 10.000 titik data dan saya ingin menemukan pusat-pusat N = 5 lingkaran yang menangkap poin sebanyak mungkin …

10 r clustering distance

1

Apakah lebar siluet rendah berarti data hanya memiliki sedikit struktur mendasar?

Saya baru dalam analisis sekuens, dan saya bertanya-tanya bagaimana Anda bereaksi jika rata-rata lebar siluet (ASW) dari analisis kluster dari matriks ketidaksamaan berbasis Pencocokan Optimal rendah (sekitar.25). Apakah akan tepat untuk menyimpulkan bahwa ada sedikit struktur mendasar yang akan memungkinkan urutan untuk dikelompokkan? Mungkinkah Anda mengabaikan ASW rendah berdasarkan ukuran …

10 clustering traminer

1

Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?

Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Mengevaluasi kelompok rantai Markov orde pertama

Saya mengelompokkan dataset saya dari beberapa ribu rantai Markov orde pertama menjadi sekitar 10 cluster. Apakah ada beberapa cara yang direkomendasikan bagaimana saya dapat mengevaluasi kluster ini dan mencari tahu item apa yang ada di kluster dan bagaimana mereka berbeda dari kluster lain? Jadi saya dapat membuat pernyataan seperti "Proses …

10 data-visualization clustering markov-process

Pertanyaan yang diberi tag «clustering»