Statistik dan Big Data clustering

1

Clustering: Haruskah saya menggunakan Jensen-Shannon Divergence atau kuadratnya?

Saya mengelompokkan distribusi probabilitas menggunakan algoritme Affinity Propagation , dan saya berencana untuk menggunakan Jensen-Shannon Divergence sebagai metrik jarak saya. Apakah benar menggunakan JSD itu sendiri sebagai jarak, atau JSD kuadrat? Mengapa? Apa perbedaan yang dihasilkan dari memilih satu atau yang lain?

15 machine-learning clustering entropy distance-functions

3

Apakah boleh menggunakan jarak Manhattan dengan tautan antar-klaster Ward dalam hierarki klaster?

I am using hierarchical clustering to analyze time series data. My code is implemented using the Mathematica function DirectAgglomerate[...], which generates hierarchical clusters given the following inputs: a distance matrix D the name of the method used to determine inter-cluster linkage. I have calculated the distance matrix D using Manhattan …

15 clustering distance-functions ward

1

Bagaimana cara menghitung kemurnian?

Dalam analisis kluster bagaimana kita menghitung kemurnian? Apa persamaannya? Saya tidak mencari kode untuk melakukannya untuk saya. Biarkan menjadi cluster k, dan c_j menjadi kelas j.c jωkωk\omega_kcjcjc_j Jadi apakah kemurnian bisa dibilang akurat? sepertinya menjumlahkan jumlah kelas yang benar-benar diklasifikasikan per cluster di atas ukuran sampel. sumber persamaan Pertanyaannya adalah …

15 clustering

3

Bagaimana memplot output data clustering?

Saya mencoba mengelompokkan satu set data (satu set tanda) dan mendapat 2 kluster. Saya ingin menggambarkannya secara grafis. Agak bingung dengan representasi, karena saya tidak punya koordinat (x, y). Juga mencari fungsi MATLAB / Python untuk melakukannya. EDIT Saya pikir memposting data membuat pertanyaan menjadi lebih jelas. Saya punya dua …

15 clustering data-visualization python

1

Metode perbandingan multipel mana yang digunakan untuk model lmer: lsmeans atau glht?

Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya melakukan uji rasio kemungkinan model ini terhadap model tanpa efek tetap (kondisi) dan memiliki perbedaan yang signifikan. Ada …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Dirichlet Proses untuk pengelompokan: bagaimana cara menangani label?

T: Apa cara standar untuk mengelompokkan data menggunakan Proses Dirichlet? Saat menggunakan cluster sampel Gibbs, muncul dan menghilang selama pengambilan sampel. Selain itu, kami memiliki masalah pengidentifikasian karena distribusi posterior tidak berbeda dengan relabeling cluster. Dengan demikian, kita tidak bisa mengatakan mana yang merupakan kluster dari seorang pengguna melainkan bahwa …

14 bayesian clustering mcmc dirichlet-process identifiability

2

k-means vs k-median?

Saya tahu ada algoritma pengelompokan k-means dan k-median. Satu yang menggunakan mean sebagai pusat cluster dan yang lainnya menggunakan median. Pertanyaan saya adalah: kapan / di mana menggunakannya?

14 clustering k-means

2

Bagaimana saya bisa mengelompokkan data numerik menjadi “kurung” alami? (mis. penghasilan)

Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya: aku ingin bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata kelompok tidak terlalu kecil bandingkan distribusi yang diperoleh pada akhirnya dengan …

14 clustering relative-distribution

3

Mengapa kita menggunakan k-means daripada algoritma lainnya?

Saya meneliti tentang k-means dan ini adalah apa yang saya dapatkan: k-means adalah salah satu algoritma paling sederhana yang menggunakan metode pembelajaran tanpa pengawasan untuk memecahkan masalah pengelompokan yang diketahui. Ini bekerja sangat baik dengan kumpulan data besar. Namun, ada juga kekurangan K-Means yaitu: Sensitivitas yang kuat terhadap pencilan dan …

14 clustering data-mining algorithms k-means

4

Bagaimana cara mengukur bentuk cluster?

Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D). Apakah ada ukuran nonlinier (atau "bentuk") dari kluster? Perhatikan bahwa dalam ruang 2D dan 3D, bukan …

14 unsupervised-learning clustering

3

Dapatkah seseorang tolong jelaskan pembengkokan waktu dinamis untuk menentukan kesamaan deret waktu?

Saya mencoba memahami ukuran kelengkungan waktu dinamis untuk membandingkan deret waktu bersama. Saya memiliki tiga dataset deret waktu seperti ini: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, …

14 r time-series clustering

8

Apa "algoritme panas" untuk pembelajaran mesin?

Ini adalah pertanyaan naif dari seseorang yang mulai belajar belajar mesin. Saya membaca hari ini buku "Pembelajaran Mesin: Perspektif algoritmik" dari Marsland. Saya merasa buku ini bermanfaat sebagai pengantar, tetapi sekarang saya ingin membahas algoritma canggih, yang saat ini memberikan hasil terbaik. Saya sebagian besar tertarik pada bioinformatika: pengelompokan jaringan …

14 machine-learning clustering bioinformatics

3

Metrik

Apakah ada yang menggunakan metrik atau L .5 untuk pengelompokan, bukan L 2 ? Aggarwal et al., Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi mengatakan (pada 2001) ituL1L1L_1L.5L.5L_.5L2L2L_2 secara konsisten lebih disukai daripada metrik jarak Euclidean L 2 untuk aplikasi penambangan data dimensi tinggiL1L1L_1L2L2L_2 dan mengklaim bahwa atau …

14 clustering distance-functions rule-of-thumb

9

Perangkat lunak visualisasi untuk pengelompokan

Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Saya ingin mengelompokkan ~ 22.000 poin. Banyak algoritma pengelompokan bekerja lebih baik dengan tebakan awal kualitas yang lebih tinggi. Alat apa yang ada yang dapat memberi …

14 data-visualization clustering software

4

Apakah ada algoritma pengelompokan berbasis non-jarak?

Tampaknya untuk K-means dan algoritma terkait lainnya, pengelompokan didasarkan pada penghitungan jarak antara titik. Apakah ada yang berfungsi tanpanya?

14 machine-learning clustering data-mining k-means

Pertanyaan yang diberi tag «clustering»