Distribusi probabilitas pengelompokan - metode & metrik?


13

Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya hukum (1 hingga 0, kurang lebih).)

Saya mencari untuk menggunakan algoritma pengelompokan seperti K-Means untuk menempatkan setiap titik data ke dalam kelompok berdasarkan atribut dari distribusi 5 komponennya. Saya bertanya-tanya apakah ada metrik jarak yang ditetapkan yang akan elegan untuk tujuan ini. Saya sudah memiliki tiga ide sejauh ini, tapi saya bukan ahli statistik berpengalaman (lebih dari ilmuwan komputer data-mining awal) jadi saya tidak tahu seberapa jauh saya keluar jalur.

  1. Karena saya tidak tahu persis apa jenis distribusi yang saya hadapi, pendekatan brute-force saya untuk masalah ini adalah memotong masing-masing distribusi (saya punya 5 per poin) ke masing-masing nilai data diskrit masing-masing (I pad masing-masing sesuai dengan panjang yang sama dengan nol di akhir) dan menggunakan masing-masing nilai-nilai ini sebagai atribut terpisah untuk titik data itu sendiri. Saya mencoba menggunakan jarak Manhattan dan jarak Euclidean sebagai metrik berdasarkan atribut-atribut ini, untuk PDF dan CDF.

  2. Sekali lagi, karena saya tidak tahu jenis distribusi apa yang saya miliki, saya pikir jika saya akan mengukur jarak antara distribusi keseluruhan saya bisa menggunakan semacam tes non-parametrik berpasangan berpasangan antar distribusi, seperti uji KS , untuk menemukan kemungkinan bahwa distribusi yang diberikan dihasilkan oleh PDF yang berbeda. Saya berpikir bahwa pilihan pertama saya (di atas) menggunakan jarak Manhattan akan menjadi semacam batas atas pada apa yang mungkin saya dapatkan dengan menggunakan pendekatan ini (karena statistik KS adalah nilai absolut maksimum dari perbedaan CDF, di mana jarak Manhattan adalah jumlah nilai absolut dari perbedaan dalam PDF). Saya kemudian mempertimbangkan untuk menggabungkan KS-Statistics atau P-values ​​yang berbeda dalam setiap titik data, mungkin menggunakan jarak Euclidean, tetapi mungkin hanya mengambil maks semua nilai-nilai ini.

  3. Terakhir, dalam upaya untuk menggunakan sedikit apa yang bisa saya tafsirkan tentang bentuk distribusi, saya pikir saya mungkin mencoba memperkirakan parameter distribusi sesuai dengan kurva Weibull. Saya kemudian dapat mengelompokkan distribusi berdasarkan perbedaan dalam dua parameter dari distribusi Weibull, lambda dan k (skala dan bentuk), mungkin dinormalisasi berdasarkan varians dari parameter ini atau semacamnya. Ini adalah satu-satunya kasus di mana saya pikir saya mungkin punya ide tentang cara menormalkan parameter.

Jadi pertanyaan saya adalah, ukuran / metode apa yang akan Anda rekomendasikan untuk pengelompokan distribusi? Apakah saya bahkan berada di jalur yang benar dengan semua ini? Apakah K-Means bahkan algoritma yang baik untuk digunakan?

Edit: Klarifikasi data.

Setiap titik data (setiap objek Objyang ingin saya klaster) sebenarnya secara harfiah berisi 5 vectorsdata. Saya tahu persis ada 5 fase tempat objek-objek ini berada. Kami akan mengatakan (untuk tujuan penyederhanaan) bahwa masing-masing vektor dibuat length N.

Masing-masing dari vektor-vektor ini (menyebutnya vector i) adalah distribusi probabilitas dengan bilangan bulat x-valuesdari 1 sampai N, di mana masing-masing sesuai y-nilai merupakan probabilitas mengukur value xdi phase iobjek Obj. N adalah nilai x maksimum yang saya harapkan untuk diukur dalam fase apa pun dari objek (ini sebenarnya bukan angka tetap dalam analisis saya).

Saya menentukan probabilitas ini dengan cara berikut:

  1. Aku mengambil satu Objdan memasukkannya ke dalam phase iuntuk k trials, mengambil pengukuran di setiap percobaan. Setiap pengukuran adalah bilangan bulat tunggal. Saya melakukan ini untuk masing-masing 5 fase dari satu objek, dan pada gilirannya untuk setiap objek. Data pengukuran mentah saya untuk objek tunggal mungkin terlihat seperti:

    Vektor 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Vektor 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Vektor 5. [16, ... ..., 0]

  2. Kemudian saya menormalkan masing-masing vektor sendiri, sehubungan dengan jumlah total pengukuran dalam vektor yang diberikan. Ini memberi saya distribusi probabilitas dalam vektor itu, di mana masing-masing sesuai y-nilai merupakan probabilitas mengukur value xdi phase i.


1
Tidak jelas bagi saya bagaimana titik data Anda dapat "mengandung" distribusi. Bisakah Anda memberi contoh? Lebih jauh, Weibull bukan distribusi probabilitas yang terpisah, sehingga beberapa klarifikasi tambahan diperlukan.
mpiktas

@mpiktas: Setiap titik data mewakili objek yang memiliki 5 fase berbeda. Perilaku setiap fase objek secara teoritis dapat diwakili oleh fungsi distribusi probabilitas kontinu, tetapi data saya hanya berisi sampel diskrit. Distribusi Weibull mungkin adalah fungsi "teoretis" di belakang data saya, tetapi data itu sendiri hanya pengukuran kepadatan selama interval diskrit.
Kerinduan mesin

Jawaban:


5

(Komputasi) Informasi Geometri adalah bidang yang menangani masalah-masalah semacam ini. K-means memiliki ekstensi yang disebut Bregman k-means yang menggunakan divergensi (yang kuadratnya Euclidean dari standar K-means adalah kasus khusus, tetapi juga Kullback-Leibler). Divergensi tertentu dikaitkan dengan distribusi, misalnya kuadrat Euclidean ke Gaussian.

Anda juga dapat melihat karya Frank Nielsen , misalnya

Anda juga dapat melihat jarak Wasserstein (transportasi optimal) , yang disebut sebagai Earth Mover Distance pada posting sebelumnya.


3

Dalam makalah mereka tentang algoritma EP-Means , Henderson et al meninjau pendekatan untuk masalah ini dan memberikan masalah mereka sendiri. Mereka mempertimbangkan:

  1. Pengelompokan parameter - tentukan parameter untuk distribusi berdasarkan pengetahuan sebelumnya tentang distribusi, dan klaster berdasarkan pada parameter tersebut
    • perhatikan bahwa di sini, Anda sebenarnya bisa menggunakan fungsional apa pun pada data, bukan hanya perkiraan parameter, yang berguna jika Anda tahu data Anda berasal dari distribusi yang berbeda
  2. Binning histogram - pisahkan data menjadi nampan, dan pertimbangkan setiap nampan sebagai dimensi yang akan digunakan dalam pengelompokan spasial
  3. L1

Teknik lain yang telah saya gunakan dengan sukses adalah mengelompokkan semua titik yang diamati dari semua distribusi secara individual, dan kemudian menetapkan untuk mendistribusikan i probabilitas lunak sesuai dengan proporsi titik-titiknya yang berakhir di setiap kelompok. Pada sisi negatifnya, jauh lebih sulit untuk memisahkan distribusi dengan cara itu. Sisi baiknya, ini semacam pengaturan otomatis dan mengasumsikan bahwa semua distribusi adalah sama. Saya hanya akan menggunakannya ketika properti regularisasi diinginkan, meskipun.


1
$i$saya$l_2$l2

1

Anda harus melanjutkan dalam dua langkah. (1) Pengurangan data dan (2) Clustering.

Untuk langkah (1), Anda harus hati-hati memeriksa data Anda dan menentukan distribusi probabilitas yang masuk akal untuk data Anda. Anda sepertinya sudah memikirkan langkah ini. Langkah selanjutnya adalah memperkirakan parameter distribusi ini. Anda mungkin menyesuaikan model secara terpisah untuk setiap unit yang akan dikelompokkan, atau mungkin sesuai untuk menggunakan model yang lebih canggih seperti model campuran linier umum.

Untuk langkah (2), Anda dapat mengelompokkan berdasarkan estimasi parameter ini. Pada tahap ini Anda harus memiliki sejumlah kecil estimasi parameter per unit. Seperti yang dijelaskan dalam jawaban untuk posting ini , Anda kemudian dapat mengelompokkan estimasi parameter ini.

Jawaban ini tentu agak kabur - tidak ada solusi "kalengan" di sini, dan banyak wawasan statistik diperlukan untuk setiap langkah untuk memilih dari sejumlah metode yang hampir tak terbatas yang mungkin relevan, tergantung pada masalah unik Anda. Pernyataan pertanyaan Anda menunjukkan bahwa Anda memiliki diri sendiri banyak pengetahuan statistik, yang patut dipuji, tetapi Anda masih memiliki beberapa kesalahpahaman mendasar konsep-konsep statistik inti, seperti perbedaan antara distribusi probabilitas dan pengamatan dari distribusi probabilitas . Pertimbangkan untuk mengambil / mengaudit satu atau dua kursus statistik matematika.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.