Bagaimana cara mengukur bentuk cluster?


14

Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D).

Apakah ada ukuran nonlinier (atau "bentuk") dari kluster?

Perhatikan bahwa dalam ruang 2D dan 3D, bukan masalah untuk melihat bentuk cluster mana pun, tetapi di ruang dimensi yang lebih tinggi, masalah untuk mengatakan sesuatu tentang bentuk. Secara khusus, apakah ada langkah-langkah bagaimana cluster cembung itu?

Saya terinspirasi untuk pertanyaan ini oleh banyak pertanyaan pengelompokan di mana orang berbicara tentang cluster tetapi tidak ada yang bisa melihatnya (dalam ruang dimensi yang lebih tinggi). Selain itu, saya tahu bahwa ada beberapa ukuran nonlinier untuk kurva 2D.


1
en.wikipedia.org/wiki/Topological_data_analysis dapat membantu, di mana bentuknya tidak persis seperti yang Anda maksud.
ziyuang

1
Mungkin Anda bisa mengadaptasi konsep kekompakan untuk tujuan Anda.
user12719

Jawaban:


4

Saya suka model Gaussian Mixture (GMM).

Salah satu fitur mereka adalah bahwa, dalam domain probit , mereka bertindak seperti interpolator piecewise. Salah satu implikasi dari hal ini adalah mereka dapat bertindak seperti basis pengganti, penaksir universal. Ini berarti bahwa untuk distribusi non-gaussian, seperti lognormal, weibull, atau non-analitik yang lebih gila, selama beberapa kriteria terpenuhi - GMM dapat memperkirakan distribusi.

Jadi jika Anda tahu parameter dari AICc atau BIC perkiraan optimal menggunakan GMM maka Anda dapat memproyeksikan ke dimensi yang lebih kecil. Anda dapat memutarnya, dan melihat sumbu utama dari komponen GMM yang mendekati.

Konsekuensinya akan menjadi cara yang informatif dan dapat diakses secara visual untuk melihat bagian paling penting dari data dimensi yang lebih tinggi menggunakan persepsi visual menonton 3d kami.

EDIT: (tentu saja, whuber)

Ada beberapa cara untuk melihat bentuknya.

  • Anda dapat melihat tren di sarana. Lognormal diperkirakan oleh serangkaian Gaussi yang berarti semakin dekat dan bobotnya semakin kecil di sepanjang perkembangan. Jumlahnya mendekati ekor yang lebih berat. Dalam dimensi-n, urutan komponen tersebut akan membuat lobus. Anda dapat melacak jarak antara rata-rata (konversi ke dimensi tinggi) dan cosinus arah juga. Ini akan dikonversi ke dimensi yang jauh lebih mudah diakses.
  • Anda dapat membuat sistem 3d yang kapaknya adalah berat, besarnya rata-rata, dan besarnya varians / kovarians. Jika Anda memiliki jumlah cluster yang sangat tinggi, ini adalah cara untuk melihatnya dibandingkan satu sama lain. Ini adalah cara yang berharga untuk mengubah bagian 50k dengan langkah 2k masing-masing menjadi beberapa awan dalam ruang 3d. Saya dapat menjalankan kontrol proses di ruang itu, jika saya memilih. Saya suka rekursi menggunakan kontrol campuran model gaussian berdasarkan komponen model campuran gaussian cocok untuk parameter bagian.
  • Dalam hal de-cluttering Anda dapat membuang dengan berat yang sangat kecil, atau dengan berat per kovarian, atau semacamnya.
  • R2
  • Anda bisa melihatnya seperti gelembung berpotongan . Lokasi probabilitas yang sama (nol Kullback-Leibler divergence) ada di antara setiap pasangan cluster GMM. Jika Anda melacak posisi itu, Anda dapat memfilter berdasarkan kemungkinan keanggotaan di lokasi itu. Ini akan memberi Anda poin batas klasifikasi. Ini akan membantu Anda mengisolasi "penyendiri". Anda dapat menghitung jumlah batas tersebut di atas ambang batas per anggota dan mendapatkan daftar "keterhubungan" per komponen. Anda juga dapat melihat sudut dan jarak antar lokasi.
  • Anda bisa membuat ulang ruang menggunakan angka acak yang diberikan Gaussian PDF, dan kemudian melakukan analisis komponen utama, dan melihat bentuk eigen, serta nilai eigen yang terkait dengannya.

EDIT:

Apa arti bentuk? Mereka mengatakan kekhususan adalah jiwa dari semua komunikasi yang baik. Apa yang Anda maksud dengan "ukuran"?

Gagasan tentang apa artinya:

  • Norma bola mata merasakan / terasa dari bentuk umum. (sangat kualitatif, aksesibilitas visual)
  • ukuran bentuk GD&T (coplanarity, concentricity, dll) (sangat kuantitatif)
  • sesuatu yang numerik (nilai eigen, kovarian, dll ...)
  • koordinat dimensi dikurangi yang bermanfaat (seperti parameter GMM menjadi dimensi)
  • sistem kebisingan berkurang (dihaluskan dalam beberapa cara, lalu disajikan)

Sebagian besar "beberapa cara" adalah beberapa variasi.


3

Ini mungkin agak sederhana, tetapi Anda mungkin mendapatkan wawasan dengan melakukan analisis nilai eigen pada masing-masing cluster Anda.

Apa yang akan saya coba adalah untuk mengambil semua poin yang ditugaskan ke sebuah cluster dan menyesuaikannya dengan Gaussian multivarian. Kemudian Anda dapat menghitung nilai eigen dari matriks kovarian yang dipasang dan memplotnya. Ada banyak cara untuk melakukan ini; mungkin yang paling terkenal dan banyak digunakan disebut analisis komponen utama atau PCA .

Setelah Anda memiliki nilai eigen (juga disebut spektrum), Anda dapat memeriksa ukuran relatifnya untuk menentukan seberapa "terentang" cluster dalam dimensi tertentu. Semakin sedikit seragam spektrumnya, semakin banyak "bentuk cerutu" klusternya, dan semakin seragam spektrumnya, semakin bulat klasternya. Anda bahkan dapat mendefinisikan semacam metrik untuk menunjukkan seberapa tidak seragamnya nilai eigennya (entropi spektral?); lihat http://en.wikipedia.org/wiki/Spectral_flatness .

Sebagai manfaat sampingan, Anda dapat memeriksa komponen utama (vektor eigen yang terkait dengan nilai eigen besar) untuk melihat "di mana" cluster "berbentuk cerutu" menunjuk di ruang data Anda.

Secara alami ini adalah perkiraan kasar untuk kluster yang sewenang-wenang, karena hanya memodelkan titik-titik dalam kluster sebagai ellipsoid tunggal. Tapi, seperti yang saya katakan, itu mungkin memberi Anda wawasan.


+1 Sederhana, mungkin; tetapi ini terlihat efektif dan praktis. Tampaknya tidak ada keuntungan untuk pemasangan Gaussian multivariat: cukup gunakan SVD dari data dalam-cluster terpusat (yang pada dasarnya PCA pada cluster).
whuber

@whuber ya, saya pikir mereka melakukan hal yang sama! Pemasangan lebih sesuai dengan apa yang teori katakan terjadi di balik layar, sementara PCA merupakan implementasi konkret dari proses itu. Saya akan mengedit jawaban saya untuk membuatnya lebih jelas.
lmjohns3

2

Algoritma pengelompokan korelasi seperti 4C, ERiC atau LMCLUS biasanya menganggap cluster sebagai manifold linier. Yakni hyperplanes k-dimensional dalam ruang d-dimensional. Nah, untuk 4C dan ERiC hanya linier secara lokal, sehingga sebenarnya bisa non-cembung. Tetapi mereka masih mencoba untuk mendeteksi kelompok dimensi lokal yang berkurang.

Menemukan cluster berbentuk sewenang-wenang dalam data dimensi tinggi adalah masalah yang cukup sulit. Khususnya, karena kutukan dimensi yang memungkinkan ruang pencarian meledak dan pada saat yang sama juga mengharuskan Anda memiliki data input yang jauh lebih besar jika Anda masih menginginkan hasil yang signifikan . Terlalu banyak algoritma tidak memperhatikan apakah apa yang mereka temukan masih signifikan atau bisa juga acak.

Jadi sebenarnya saya percaya ada masalah lain untuk dipecahkan sebelum berpikir tentang cembung non-cembung cluster kompleks di ruang dimensi tinggi.

Lihat juga kompleksitas komputasi cembung lambung dalam dimensi yang lebih tinggi ...

Juga, apakah Anda memiliki kasus penggunaan yang sebenarnya untuk itu di luar rasa ingin tahu?


2

Jika dimensi Anda tidak jauh lebih tinggi dari 2 atau 3, maka dimungkinkan untuk memproyeksikan gugus minat ke ruang 2D beberapa kali dan memvisualisasikan hasil atau menggunakan pengukuran 2D nonlinier Anda. Saya memikirkan hal ini karena metode Proyeksi Acak http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Proyeksi acak dapat digunakan untuk mengurangi dimensi untuk membangun indeks. Teorinya adalah bahwa jika dua titik dekat dalam dimensi D dan Anda mengambil proyeksi acak ke dalam dimensi d dengan d

Untuk konkret, Anda bisa memikirkan memproyeksikan bola dunia ke permukaan yang rata. Tidak peduli bagaimana Anda memproyeksikannya, New York dan New Jersey akan bersama, tetapi jarang Anda akan menyatukan New York dan London.

Saya tidak tahu apakah ini dapat membantu Anda dengan keras tetapi mungkin ini cara cepat untuk memvisualisasikan kluster.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.