Statistik dan Big Data clustering

8

Saya memiliki algoritma clustering (bukan k-means) dengan input parameter (jumlah cluster). Setelah melakukan pengelompokan, saya ingin mendapatkan ukuran kuantitatif kualitas pengelompokan ini. Algoritma pengelompokan memiliki satu properti penting. Untuk k = 2 jika saya memberi makan titik data N tanpa perbedaan yang signifikan di antara mereka dengan algoritma ini sebagai …

17 clustering

2

Analisis Bayesian nonparametrik dalam R

Saya mencari tutorial yang baik tentang pengelompokan data dalam Rmenggunakan proses hierarchical dirichlet (HDP) (salah satu metode Bayesian nonparametrik populer dan terbaru). Ada DPpackage(IMHO, yang paling komprehensif dari semua yang tersedia) Runtuk analisis Bayesian nonparametrik. Tetapi saya tidak dapat memahami contoh-contoh yang diberikan dalam R Newsatau dalam manual referensi paket …

17 r bayesian clustering nonparametric

1

Jenks Natural Breaks in Python: Bagaimana menemukan jumlah istirahat optimal?

Saya menemukan implementasi Python ini dari algoritma Jenks Natural Breaks dan saya bisa membuatnya berjalan di mesin Windows 7 saya. Ini cukup cepat dan menemukan jeda dalam beberapa waktu, mengingat ukuran geodata saya. Sebelum menggunakan algoritma pengelompokan ini untuk data saya, saya menggunakan algoritma sklearn.clustering.KMeans (di sini) . Masalah yang …

17 python clustering optimization

5

Mengapa k-means tidak memberikan minimum global?

Saya membaca bahwa algoritma k-means hanya konvergen ke minimum lokal dan bukan ke minimum global. Kenapa ini? Saya secara logis dapat memikirkan bagaimana inisialisasi dapat mempengaruhi pengelompokan akhir dan ada kemungkinan pengelompokan sub-optimal, tetapi saya tidak menemukan apa pun yang secara matematis akan membuktikannya. Juga, mengapa k-berarti proses berulang? Tidak …

17 clustering k-means convergence gradient-descent minimum

4

Metode pengelompokan yang tidak memerlukan pra-penetapan jumlah cluster

Adakah metode pengelompokan "non-parametrik" yang tidak perlu kita tentukan jumlah clusternya? Dan parameter lain seperti jumlah titik per cluster, dll.

17 clustering

3

Algoritma apa yang diterapkan ward.D dalam hclust () jika bukan kriteria Ward?

Yang digunakan oleh opsi "ward.D" (setara dengan satu-satunya pilihan Ward "ward" dalam versi R <= 3.0.3) tidak menerapkan kriteria pengelompokan Ward (1963), sedangkan opsi "ward.D2" menerapkan kriteria tersebut ( Murtagh dan Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Rupanya bangsal.D tidak menerapkan kriteria Ward dengan benar. Meskipun demikian tampaknya melakukan pekerjaan yang …

16 r clustering ward

4

Mengelompokkan data 1D

Saya memiliki dataset, saya ingin membuat kelompok data berdasarkan hanya satu variabel (tidak ada nilai yang hilang). Saya ingin membuat 3 cluster berdasarkan satu variabel itu. Algoritma pengelompokan mana yang digunakan, k-means, EM, DBSCAN dll.? Pertanyaan utama saya adalah, dalam keadaan apa saya harus menggunakan k-means di atas EM atau …

16 clustering

2

Kapan kita menggabungkan reduksi dimensi dengan pengelompokan?

Saya mencoba melakukan pengelompokan tingkat dokumen. Saya membangun matriks frekuensi istilah-dokumen dan saya mencoba mengelompokkan vektor-vektor dimensi tinggi ini menggunakan k-means. Alih-alih langsung mengelompokkan, apa yang saya lakukan adalah pertama-tama menerapkan dekomposisi vektor singular LSA (Latent Semantic Analysis) untuk mendapatkan matriks U, S, Vt, memilih ambang yang sesuai menggunakan plot …

16 clustering pca dimensionality-reduction text-mining svd

4

Asumsi analisis kluster

Permintaan maaf untuk pertanyaan mendasar, saya baru dalam bentuk analisis ini dan memiliki pemahaman yang sangat terbatas tentang prinsip-prinsip sejauh ini. Saya hanya ingin tahu apakah banyak asumsi parametrik untuk uji multivariat / univariat yang berlaku untuk analisis Cluster? Banyak sumber informasi yang saya baca mengenai analisis klaster gagal untuk …

16 clustering assumptions

2

Apa metode yang baik untuk pengelompokan teks pendek?

Saya sedang mengerjakan masalah pengelompokan teks. Data berisi beberapa kalimat. Apakah ada algoritma yang baik yang mencapai akurasi tinggi pada teks pendek? Bisakah Anda memberikan referensi yang bagus? Algoritma seperti KMeans, spektral clustering tidak berfungsi dengan baik untuk masalah ini.

15 machine-learning clustering text-mining

4

Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat

Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Penambangan Teks: bagaimana cara mengelompokkan teks (misalnya artikel berita) dengan kecerdasan buatan?

Saya telah membangun beberapa jaringan saraf (MLP (terhubung penuh), Elman (berulang)) untuk tugas yang berbeda, seperti bermain Pong, mengklasifikasikan angka tulisan tangan dan lainnya ... Selain itu saya mencoba untuk membangun beberapa jaringan saraf convolutional pertama, misalnya untuk mengklasifikasikan catatan tulisan tangan multi-digit, tetapi saya benar-benar baru untuk menganalisis dan …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

Cara menyesuaikan model campuran untuk pengelompokan

Saya memiliki dua variabel - X dan Y dan saya perlu membuat kluster maksimum (dan optimal) = 5. Mari plot variabel yang ideal adalah seperti berikut: Saya ingin membuat 5 kelompok ini. Sesuatu seperti ini: Jadi saya pikir ini adalah model campuran dengan 5 kluster. Setiap kelompok memiliki titik pusat …

15 r clustering gaussian-mixture

1

Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?

Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan menyebabkan lebih banyak informasi hilang. Namun, satu dan hanya satu asumsi yang tidak …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Deret waktu dan deteksi anomali

Saya ingin menyiapkan algoritme untuk mendeteksi anomali dalam deret waktu, dan saya berencana menggunakan pengelompokan untuk itu. Mengapa saya harus menggunakan matriks jarak untuk pengelompokan dan bukan data deret waktu mentah ?, Untuk mendeteksi anomali, saya akan menggunakan pengelompokan berbasis kepadatan, algoritma sebagai DBscan, jadi apakah itu akan berhasil dalam …

15 time-series clustering trend

Pertanyaan yang diberi tag «clustering»