Mencari data buatan 2D untuk menunjukkan properti algoritma pengelompokan


9

Saya mencari dataset datapoint 2 dimensi (setiap datapoint adalah vektor dari dua nilai (x, y)) mengikuti distribusi dan bentuk yang berbeda. Kode untuk menghasilkan data seperti itu juga akan sangat membantu. Saya ingin menggunakannya untuk merencanakan / memvisualisasikan kinerja beberapa algoritma pengelompokan. Berikut ini beberapa contohnya:


Saya memilih cw;)
steffen

Sebuah pertanyaan serupa di baris dataset tertentu telah ditutup sini: stats.stackexchange.com/questions/38928/...
mobil jenazah

Untuk SPSS, saya telah menulis makro yang menghasilkan cluster (kunjungi halaman saya, lihat "Hasilkan cluster"). Namun, itu tidak menghasilkan bentuk megah seperti cincin atau spiral.
ttnphns

Jawaban:


11

R hadir dengan banyak kumpulan data, dan sepertinya itu bukan masalah besar untuk mereproduksi sebagian besar contoh yang Anda kutip dengan beberapa baris kode. Anda juga dapat menemukan paket mlbench berguna, khususnya kumpulan data sintetis yang dimulai dengan mlbench.*. Beberapa ilustrasi diberikan di bawah ini.

masukkan deskripsi gambar di sini

Anda akan menemukan contoh tambahan dengan melihat Tampilan Tugas Cluster di CRAN. Sebagai contoh, paket fpc memiliki generator bawaan untuk dataset benchmark clustered "face-shaped" ( rFace).

masukkan deskripsi gambar di sini

Pertimbangan serupa berlaku untuk Python, di mana Anda akan menemukan tes benchmark yang menarik dan kumpulan data untuk pengelompokan dengan scikit-learn .

Repositori Mesin Pembelajaran UCI juga menyimpan banyak set data , tetapi Anda lebih baik mensimulasikan data sendiri dengan bahasa pilihan Anda.



2

Benchmark pengelompokan mainan ini berisi berbagai set data dalam format ARFF (dapat dengan mudah dikonversi ke CSV), sebagian besar dengan label kebenaran dasar. Patokan harus memvalidasi sifat dasar yang diinginkan dari algoritma pengelompokan. Sebagian besar set data berasal dari makalah pengelompokan seperti:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan, dan Miron Livny. "BIRCH: metode pengelompokan data yang efisien untuk database yang sangat besar." ACM SIGMOD Record. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi, dan Kyuseok Shim. "CURE: algoritma pengelompokan yang efisien untuk database besar." ACM SIGMOD Record. Vol. 27. No. 2. ACM, 1998.
  • Bunglon - Karypis, George, Eui-Hong Han, dan Vipin Kumar. "Chameleon: Pengelompokan hierarki menggunakan pemodelan dinamis." Komputer 32.8 (1999): 68-75.
  • The Problem Fundamental Clustering Suite - Ultsch, A .: Clustering dengan SOM: U * C, In Proc. Lokakarya tentang Self-Organizing Maps, Paris, France, (2005), hlm. 75-82
  • MOCK - Handl, Julia, dan Joshua Knowles. "Suatu pendekatan evolusi untuk pengelompokan multi-tujuan." Komputasi Evolusi, Transaksi IEEE pada 11.1 (2007): 56-76.
  • Pengelompokan spektral berbasis jalur yang kuat - Chang, Hong, dan Dit-Yan Yeung. "Pengelompokan spektral berbasis jalur yang kuat." Pengenalan Pola 41.1 (2008): 191-203.

data karypis data cluto


1

ELKI dilengkapi dengan beberapa set data (periksa juga tes unit, mereka berisi lebih banyak daripada yang ada di situs web, bersama dengan pengaturan parameter).

Ini juga termasuk generator data yang cukup fleksibel.


1

Berikut adalah generator klaster yang dapat disesuaikan. Ini hanya membahas kelas set data tertentu, tetapi pasti dapat digunakan untuk investigasi algoritma cluster.

Berikut adalah contoh jenis cluster yang dapat dibuat:

http://i.stack.imgur.com/vrCG5.png

Afiliasi cluster disimpan dalam file teks. Kode ini open source di bawah lisensi MIT.


1

Skrip Matlab ini menghasilkan data 2D untuk pengelompokan. Ini menerima beberapa parameter sehingga data yang dihasilkan sesuai dengan kebutuhan pengguna.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.