Statistik dan Big Data clustering

3

Distribusi probabilitas pengelompokan - metode & metrik?

Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya hukum (1 hingga 0, kurang lebih).) Saya mencari untuk menggunakan …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Bagaimana jarak Gower menghitung perbedaan antara variabel biner '?

Saya memiliki 17 numerik dan 5 variabel biner (0-1), dengan 73 sampel dalam dataset saya. Saya perlu menjalankan analisis kluster. Saya tahu bahwa jarak Gower adalah metrik yang baik untuk kumpulan data dengan variabel campuran. Namun, saya tidak bisa mengerti bagaimana jarak Gower menghitung perbedaan antara variabel biner . Tampak …

13 clustering distance mixed-type-data

1

k-means || alias Scalable K-Means ++

Bahman Bahmani et al. memperkenalkan k-means ||, yang merupakan versi lebih cepat dari k-means ++. Algoritma ini diambil dari halaman 4 makalah mereka , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). K-means yang dapat diskalakan ++. Prosiding Endowment VLDB , 5 (7), 622-633. Sayangnya saya …

12 clustering k-means

5

Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Bisakah Anda membandingkan metode pengelompokan berbeda pada dataset tanpa kebenaran dasar dengan validasi silang?

Saat ini, saya mencoba untuk menganalisis dataset dokumen teks yang tidak memiliki kebenaran dasar. Saya diberitahu bahwa Anda dapat menggunakan validasi silang k-fold untuk membandingkan berbagai metode pengelompokan. Namun, contoh-contoh yang saya lihat di masa lalu menggunakan kebenaran dasar. Apakah ada cara untuk menggunakan cara k-fold pada dataset ini untuk …

12 machine-learning clustering cross-validation unsupervised-learning

5

Bisakah saya menggunakan PCA untuk melakukan pemilihan variabel untuk analisis klaster?

Saya harus mengurangi jumlah variabel untuk melakukan analisis cluster. Variabel saya sangat berkorelasi, jadi saya berpikir untuk melakukan Analisis Faktor PCA (analisis komponen utama). Namun, jika saya menggunakan skor yang dihasilkan, cluster saya tidak terlalu benar (dibandingkan dengan klasifikasi sebelumnya dalam literatur). Pertanyaan: Dapatkah saya menggunakan matriks rotasi untuk memilih …

12 clustering pca feature-selection factor-analysis

2

Pengelompokan data spasial di R

Saya memiliki satu set data bulanan suhu permukaan laut (SST) dan saya ingin menerapkan beberapa metodologi cluster untuk mendeteksi daerah dengan pola SST yang serupa. Saya memiliki satu set file data bulanan yang berjalan dari tahun 1985 hingga 2009 dan ingin menerapkan pengelompokan ke setiap bulan sebagai langkah pertama. Setiap …

12 r clustering spatial

6

Buku atau artikel yang direkomendasikan sebagai pengantar Analisis Cluster?

Saya sedang mengerjakan korpus teks kecil (200 juta), yang ingin saya jelajahi dengan beberapa analisis kluster. Buku atau artikel apa tentang hal itu yang akan Anda rekomendasikan?

12 machine-learning references clustering

1

Uji Tepat Fisher dan Distribusi Hipergeometrik

Saya ingin memahami uji pasti fisher dengan lebih baik, jadi saya menyusun contoh mainan berikut ini, di mana f dan m berhubungan dengan pria dan wanita, dan n dan y berhubungan dengan "konsumsi soda" seperti ini: > soda_gender f m n 0 5 y 5 0 Jelas, ini adalah penyederhanaan …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Menafsirkan hasil k-means clustering di R

Saya menggunakan kmeansinstruksi R untuk melakukan algoritma k-means pada dataset iris Anderson. Saya punya pertanyaan tentang beberapa parameter yang saya dapatkan. Hasilnya adalah: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Dalam hal ini, apa arti "Cluster berarti"? Apakah rata-rata jarak semua objek di dalam kluster? Juga …

12 r machine-learning clustering interpretation k-means

1

Metode cluster kuat untuk data campuran di R

Saya mencari untuk mengelompokkan satu set data kecil (64 pengamatan dari 4 variabel interval dan satu variabel kategori tiga faktor). Sekarang, saya cukup baru dalam analisis klaster, tetapi saya sadar bahwa telah ada banyak kemajuan sejak zaman ketika hierarkis clustering atau k-means adalah satu-satunya pilihan yang tersedia. Secara khusus, nampak …

12 clustering model-based-clustering mixed-type-data

3

Bagaimana saya bisa menguji apakah pengelompokan data biner saya signifikan

Saya sedang melakukan analisis keranjang belanja dataset saya adalah kumpulan vektor transaksi, dengan item-item produk yang dibeli. Ketika menerapkan k-means pada transaksi, saya akan selalu mendapatkan beberapa hasil. Matriks acak mungkin juga akan menampilkan beberapa kluster. Apakah ada cara untuk menguji apakah pengelompokan yang saya temukan adalah signifikan, atau itu …

12 clustering statistical-significance binary-data

1

Apa yang harus dilakukan ketika sampel matriks kovarians tidak dapat dibalik?

Saya sedang mengerjakan beberapa teknik pengelompokan, di mana untuk kluster vektor d-dimensi yang diberikan, saya mengasumsikan distribusi normal multivariat dan menghitung sampel vektor rata-rata d-dimensi dan matriks kovarian sampel. Kemudian ketika mencoba untuk memutuskan apakah baru, tak terlihat, d-dimensi vektor milik klaster ini saya memeriksa jarak melalui ukuran ini: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,-hal2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

Bagaimana saya tahu algoritma klaster k-means saya menderita kutukan dimensi?

Saya percaya bahwa judul pertanyaan ini mengatakan semuanya.

12 clustering k-means high-dimensional

1

Pemilihan model Mclust

Paket R mclustmenggunakan BIC sebagai kriteria untuk pemilihan model klaster. Dari pemahaman saya, model dengan BIC terendah harus dipilih daripada model lain (jika Anda hanya peduli tentang BIC). Namun, ketika nilai BIC semuanya negatif, Mclustfungsi tersebut default ke model dengan nilai BIC tertinggi. Pemahaman saya secara keseluruhan dari berbagai uji …

11 r clustering gaussian-mixture bic model-based-clustering

Pertanyaan yang diberi tag «clustering»