Saya suka model Gaussian Mixture (GMM).
Salah satu fitur mereka adalah bahwa, dalam domain probit , mereka bertindak seperti interpolator piecewise. Salah satu implikasi dari hal ini adalah mereka dapat bertindak seperti basis pengganti, penaksir universal. Ini berarti bahwa untuk distribusi non-gaussian, seperti lognormal, weibull, atau non-analitik yang lebih gila, selama beberapa kriteria terpenuhi - GMM dapat memperkirakan distribusi.
Jadi jika Anda tahu parameter dari AICc atau BIC perkiraan optimal menggunakan GMM maka Anda dapat memproyeksikan ke dimensi yang lebih kecil. Anda dapat memutarnya, dan melihat sumbu utama dari komponen GMM yang mendekati.
Konsekuensinya akan menjadi cara yang informatif dan dapat diakses secara visual untuk melihat bagian paling penting dari data dimensi yang lebih tinggi menggunakan persepsi visual menonton 3d kami.
EDIT: (tentu saja, whuber)
Ada beberapa cara untuk melihat bentuknya.
- Anda dapat melihat tren di sarana. Lognormal diperkirakan oleh serangkaian Gaussi yang berarti semakin dekat dan bobotnya semakin kecil di sepanjang perkembangan. Jumlahnya mendekati ekor yang lebih berat. Dalam dimensi-n, urutan komponen tersebut akan membuat lobus. Anda dapat melacak jarak antara rata-rata (konversi ke dimensi tinggi) dan cosinus arah juga. Ini akan dikonversi ke dimensi yang jauh lebih mudah diakses.
- Anda dapat membuat sistem 3d yang kapaknya adalah berat, besarnya rata-rata, dan besarnya varians / kovarians. Jika Anda memiliki jumlah cluster yang sangat tinggi, ini adalah cara untuk melihatnya dibandingkan satu sama lain. Ini adalah cara yang berharga untuk mengubah bagian 50k dengan langkah 2k masing-masing menjadi beberapa awan dalam ruang 3d. Saya dapat menjalankan kontrol proses di ruang itu, jika saya memilih. Saya suka rekursi menggunakan kontrol campuran model gaussian berdasarkan komponen model campuran gaussian cocok untuk parameter bagian.
- Dalam hal de-cluttering Anda dapat membuang dengan berat yang sangat kecil, atau dengan berat per kovarian, atau semacamnya.
- R2
- Anda bisa melihatnya seperti gelembung berpotongan . Lokasi probabilitas yang sama (nol Kullback-Leibler divergence) ada di antara setiap pasangan cluster GMM. Jika Anda melacak posisi itu, Anda dapat memfilter berdasarkan kemungkinan keanggotaan di lokasi itu. Ini akan memberi Anda poin batas klasifikasi. Ini akan membantu Anda mengisolasi "penyendiri". Anda dapat menghitung jumlah batas tersebut di atas ambang batas per anggota dan mendapatkan daftar "keterhubungan" per komponen. Anda juga dapat melihat sudut dan jarak antar lokasi.
- Anda bisa membuat ulang ruang menggunakan angka acak yang diberikan Gaussian PDF, dan kemudian melakukan analisis komponen utama, dan melihat bentuk eigen, serta nilai eigen yang terkait dengannya.
EDIT:
Apa arti bentuk? Mereka mengatakan kekhususan adalah jiwa dari semua komunikasi yang baik.
Apa yang Anda maksud dengan "ukuran"?
Gagasan tentang apa artinya:
- Norma bola mata merasakan / terasa dari bentuk umum. (sangat kualitatif, aksesibilitas visual)
- ukuran bentuk GD&T (coplanarity, concentricity, dll) (sangat kuantitatif)
- sesuatu yang numerik (nilai eigen, kovarian, dll ...)
- koordinat dimensi dikurangi yang bermanfaat (seperti parameter GMM menjadi dimensi)
- sistem kebisingan berkurang (dihaluskan dalam beberapa cara, lalu disajikan)
Sebagian besar "beberapa cara" adalah beberapa variasi.