Pertanyaan yang diberi tag «clustering»

Analisis Cluster adalah tugas mempartisi data menjadi himpunan bagian objek sesuai dengan "kesamaan" mereka, tanpa menggunakan pengetahuan yang sudah ada sebelumnya seperti label kelas. [Clustered-standard-error dan / atau cluster-samples harus ditandai seperti itu; JANGAN gunakan tag "clustering" untuk mereka.]

2
Apakah ada fungsi dalam R yang mengambil pusat-pusat cluster yang ditemukan dan menetapkan cluster ke set data baru
Saya memiliki dua bagian dari kumpulan data multidimensi, sebut saja traindan test. Dan saya ingin membangun model berdasarkan pada set data kereta dan kemudian memvalidasinya pada set data uji. Jumlah cluster diketahui. Saya mencoba menerapkan k-means clustering di R dan saya mendapatkan objek yang berisi pusat-pusat cluster: kClust <- kmeans(train, …
14 r  clustering  k-means 


5
Clustering (k-means, atau sebaliknya) dengan batasan ukuran cluster minimum
Saya perlu mengelompokkan unit ke dalam cluster untuk meminimalkan sum-kuadrat dalam-grup (WSS), tetapi saya perlu memastikan bahwa masing-masing cluster mengandung setidaknya unit. Adakah yang tahu jika ada salah satu fungsi pengelompokan R yang memungkinkan pengelompokan ke dalam cluster tunduk pada batasan ukuran cluster minimum? kmeans () tampaknya tidak menawarkan opsi …
14 r  clustering 


1
Terdepan dalam deduplikasi
Apa metode mutakhir dalam deduplikasi rekor? Deduplikasi juga kadang-kadang disebut: record linkage, resolusi entitas, resolusi identitas, gabungan / pembersihan. Saya tahu misalnya tentang CBLOCK [1]. Saya akan sangat menghargai jika jawaban juga termasuk referensi ke perangkat lunak yang ada yang menerapkan metode ini. Saya tahu misalnya bahwa Mahout mengimplementasikan kanopi-clustering …

1
Rutin untuk memilih eps dan minPts untuk DBSCAN
DBSCAN adalah algoritma pengelompokan yang paling banyak dikutip menurut beberapa literatur dan dapat menemukan bentuk cluster berdasarkan kepadatan. Ini memiliki dua parameter eps (sebagai radius lingkungan) dan minPts (sebagai tetangga minimum untuk mempertimbangkan titik sebagai titik inti) yang saya percaya sangat tergantung pada mereka. Apakah ada metode rutin atau umum …


5
Teknik pengelompokan yang sesuai untuk data temporal?
Saya memiliki data sementara frekuensi aktivitas. Saya ingin mengidentifikasi cluster dalam data yang menunjukkan periode waktu yang berbeda dengan tingkat aktivitas yang sama. Idealnya saya ingin mengidentifikasi kluster tanpa menentukan jumlah kluster apriori. Apa teknik pengelompokan yang tepat? Jika pertanyaan saya tidak mengandung informasi yang cukup untuk dijawab, informasi apa …

4
Menginisialisasi pusat K-means dengan cara subsampel acak dari dataset?
Jika saya memiliki dataset tertentu, seberapa pintarkah untuk menginisialisasi pusat cluster dengan menggunakan sampel acak dari dataset tersebut? Misalnya, saya ingin 5 clusters. Saya 5 random sampleskatakan, size=20%dari dataset asli. Bisakah saya mengambil rata-rata dari masing-masing 5 sampel acak ini dan menggunakan rata-rata tersebut sebagai 5 pusat klaster awal saya? …

2
Menggunakan uji signifikansi statistik untuk memvalidasi hasil analisis kluster
Saya mensurvei penggunaan uji signifikansi statistik (SST) untuk memvalidasi hasil analisis cluster. Saya telah menemukan beberapa makalah tentang topik ini, seperti " Signifikansi Statistik Clustering untuk Dimensi Tinggi, Data Ukuran Sampel Kecil " oleh Liu, Yufeng et al. (2008) " Pada beberapa tes signifikansi dalam analisis klaster ", oleh Bock …

2
Memahami perbandingan hasil pengelompokan
Saya bereksperimen dengan mengklasifikasikan data ke dalam kelompok. Saya cukup baru dalam topik ini, dan mencoba memahami output dari beberapa analisis. Menggunakan contoh dari Quick-R , beberapa Rpaket disarankan. Saya telah mencoba menggunakan dua paket ini ( fpcmenggunakan kmeansfungsi, dan mclust). Salah satu aspek dari analisis ini yang saya tidak …
13 r  clustering 

1
LARS vs koordinate descent untuk laso
Apa pro dan kontra dari menggunakan LARS [1] dibandingkan menggunakan penurunan koordinat untuk menyesuaikan regresi linier yang diatur L1? Saya terutama tertarik pada aspek kinerja (masalah saya cenderung ada Ndalam ratusan ribu dan p<20.) Namun, wawasan lainnya juga akan dihargai. sunting: Karena saya telah memposting pertanyaan, chl telah dengan ramah …

4
Apakah ketimpangan segitiga terpenuhi untuk jarak berbasis korelasi ini?
Untuk pengelompokan hierarkis saya sering melihat dua "metrik" berikut (mereka tidak berbicara) untuk mengukur jarak antara dua variabel acak XXX dan YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} Apakah juga satu memenuhi ketidaksetaraan segitiga? Jika demikian, bagaimana saya harus membuktikannya selain hanya melakukan perhitungan bruteforce? …


3
Apakah saya perlu membuang variabel yang berkorelasi / collinear sebelum menjalankan kmeans?
Saya menjalankan kmeans untuk mengidentifikasi kelompok pelanggan. Saya memiliki sekitar 100 variabel untuk mengidentifikasi cluster. Masing-masing variabel ini mewakili% pengeluaran oleh pelanggan pada suatu kategori. Jadi, jika saya memiliki 100 kategori, saya memiliki 100 variabel ini sehingga jumlah dari variabel-variabel ini adalah 100% untuk setiap pelanggan. Sekarang, variabel-variabel ini sangat …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.