Statistik dan Big Data clustering

1

Saya menemukan tutorial yang sangat membantu mengenai algoritma EM . Contoh dan gambar dari tutorial ini sangat brilian. Pertanyaan terkait tentang menghitung probabilitas bagaimana cara kerja maksimalisasi harapan? Saya punya pertanyaan lain tentang bagaimana menghubungkan teori yang dijelaskan dalam tutorial ke contoh. Selama langkah-E, EM memilih fungsi yang menurunkan batas …

11 machine-learning clustering algorithms natural-language

3

Apakah modularitas jaringan Newman berfungsi untuk grafik bertanda tangan dan berbobot?

Modularitas grafik didefinisikan pada halaman Wikipedia . Dalam posting yang berbeda , seseorang menjelaskan bahwa modularitas dapat dengan mudah dihitung (dan dimaksimalkan) untuk jaringan tertimbang karena matriks adjacency dapat mengandung ikatan yang dihargai. Namun, saya ingin tahu apakah ini juga akan bekerja dengan tepian yang ditandatangani dan dinilai, berkisar, misalnya, …

11 clustering data-visualization networks partitioning modularity

1

Apa intuisi di balik variasi informasi (VI) metrik untuk validasi cluster?

Untuk non-ahli statistik seperti saya, sangat sulit untuk menangkap ide VImetrik (variasi informasi) bahkan setelah membaca makalah yang relevan oleh Marina Melia " Membandingkan pengelompokan - Jarak berbasis informasi " (Journal of Multivariate Analysis, 2007). Bahkan, saya tidak akrab dengan banyak istilah pengelompokan di luar sana. Di bawah ini adalah …

11 r clustering validation intuition

2

Berapa jarak antar variabel yang membuat matriks kovarians?

Saya memiliki matriks kovariansi dan ingin variabel partisi ke k cluster menggunakan hirarki pengelompokan (misalnya, untuk memilah matriks kovarians).n × nn×nn \times nkkk Apakah ada fungsi jarak yang khas antara variabel (yaitu antara kolom / baris dari matriks kovarians kuadrat)? Atau jika ada lebih banyak, apakah ada referensi yang bagus …

11 clustering covariance distance-functions distance

2

Bagaimana menemukan pengelompokan (lintasan) di antara data longitudinal?

Konteks Saya ingin mengatur adegan sebelum sedikit memperluas pertanyaan. Saya memiliki data longitudinal, pengukuran dilakukan pada subjek kira-kira setiap 3 bulan, hasil primer adalah numerik (seperti dalam kontinu hingga 1dp) dalam kisaran 5 hingga 14 dengan bulk (dari semua titik data) antara 7 dan 10. Jika saya melakukan plot spaghetti …

11 clustering panel-data

4

Apakah ada kasus di mana tidak ada k optimal dalam k-means?

Ini sudah ada dalam pikiran saya selama setidaknya beberapa jam. Saya mencoba menemukan k yang optimal untuk output dari algoritma k-means (dengan metrik kesamaan cosine ) jadi saya akhirnya merencanakan distorsi sebagai fungsi dari jumlah cluster. Dataset saya adalah kumpulan 800 dokumen dalam ruang 600 dimensi. Dari apa yang saya …

11 machine-learning clustering k-means

5

SOM clustering untuk variabel nominal / melingkar

Hanya ingin tahu apakah ada yang akrab dengan pengelompokan input nominal. Saya telah melihat SOM sebagai solusi tetapi ternyata itu hanya bekerja dengan fitur numerik. Apakah ada ekstensi untuk fitur kategorikal? Secara khusus saya bertanya-tanya tentang 'Days of the Week' sebagai fitur yang mungkin. Tentu saja dimungkinkan untuk mengubahnya menjadi …

11 clustering unsupervised-learning self-organizing-maps

2

Visualisasi data multi dimensi (LSI) dalam 2D

Saya menggunakan pengindeksan semantik laten untuk menemukan kesamaan antara dokumen ( terima kasih, JMS! ) Setelah pengurangan dimensi, saya sudah mencoba k-means clustering untuk mengelompokkan dokumen menjadi cluster, yang berfungsi dengan sangat baik. Tapi saya ingin melangkah lebih jauh, dan memvisualisasikan dokumen sebagai satu set node, di mana jarak antara …

11 data-visualization clustering python multidimensional-scaling

1

R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?

The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Algoritma apa yang harus saya gunakan untuk mengelompokkan dataset biner besar ke dalam beberapa kategori?

Saya memiliki matriks besar (650K baris * 62 kolom) data biner (hanya 0-1 entri). Matriksnya sebagian besar jarang: sekitar 8% diisi. Saya ingin mengelompokkannya menjadi 5 grup - misalnya dinamai dari 1 hingga 5. Saya telah mencoba pengelompokan hierarkis dan tidak dapat menangani ukurannya. Saya juga telah menggunakan algoritma clustering …

11 clustering dataset k-means binary-data

1

Tetapkan bobot untuk variabel dalam analisis kluster

Saya ingin menetapkan bobot yang berbeda untuk variabel dalam analisis kluster saya, tetapi program saya (Stata) tampaknya tidak memiliki opsi untuk ini, jadi saya harus melakukannya secara manual. Bayangkan 4 variabel A, B, C, D. Bobot untuk variabel-variabel tersebut seharusnya w(A)=50% w(B)=25% w(C)=10% w(D)=15% Saya bertanya-tanya apakah salah satu dari …

11 clustering stata

3

Jarak antara dua campuran Gaussian untuk mengevaluasi solusi cluster

Saya sedang menjalankan simulasi cepat untuk membandingkan metode pengelompokan yang berbeda, dan saat ini mengalami kesulitan mencoba untuk mengevaluasi solusi cluster. Saya tahu berbagai metrik validasi (banyak ditemukan di cluster.stats () di R), tetapi saya menganggap itu paling baik digunakan jika perkiraan jumlah cluster sebenarnya sama dengan jumlah sebenarnya dari …

11 clustering kullback-leibler gaussian-mixture

2

Bagaimana cara 'secara cerdas' membuang koleksi data yang diurutkan?

Saya mencoba untuk secara cerdas membuang koleksi yang diurutkan. Saya punya koleksi data. Tapi aku tahu bahwa data ini cocok dalam m merata berukuran sampah. Saya tidak tahu bagaimana memilih titik akhir secara cerdas agar sesuai dengan data. sebagai contoh:nnnmmm Katakanlah saya memiliki 12 item dalam koleksi saya, dan saya …

11 clustering histogram binning

5

Clustering sebagai cara untuk memisahkan data untuk regresi logistik

Saya mencoba memprediksi keberhasilan atau kegagalan siswa berdasarkan beberapa fitur dengan model regresi logistik. Untuk meningkatkan kinerja model, saya sudah berpikir untuk membagi siswa menjadi kelompok yang berbeda berdasarkan perbedaan yang jelas dan membangun model yang terpisah untuk masing-masing kelompok. Tetapi saya pikir mungkin sulit untuk mengidentifikasi kelompok-kelompok ini dengan …

11 clustering data-mining logistic

4

Bagaimana Anda menguji implementasi k-means?

Penafian: Saya memposting pertanyaan ini di Stackoverflow, tapi saya pikir mungkin ini lebih cocok untuk platform ini. Bagaimana Anda menguji implementasi k-means Anda sendiri untuk set data multidimensi? Saya sedang berpikir untuk menjalankan implementasi yang sudah ada (yaitu, Matlab) pada data dan membandingkan hasilnya dengan algoritma saya. Tetapi ini akan …

11 clustering algorithms

Pertanyaan yang diberi tag «clustering»