Membandingkan pengelompokan: Indeks Rand vs Variasi Informasi

Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan.

Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate Analysis, 2007), tetapi, selain memperhatikan perbedaan dalam definisi, saya tidak mengerti apa itu variasi informasi menangkap bahwa indeks rand tidak menangkap.

machine-learning clustering metric

— Amelio Vazquez-Reina
sumber

Perbedaan antara kedua metode ini tidak kentara. Cara terbaik untuk memikirkannya adalah dengan mempertimbangkan kisi-kisi yang didefinisikan oleh operasi gabungan-penggabungan pada pengelompokan. Kedua ukuran ini dapat direkonstruksi dengan mendefinisikan fungsi pada pengelompokan, dan kemudian mendefinisikan jarak antara dua pengelompokan dengan rumus: $f$

d (C, C^{'}) = f (C) + f (C^{'}) - 2 f (C \land C^{'})

$d(C, C') = f(C) + f(C') - 2f(C \wedge C')$ mana adalah gabungan dari dua pengelompokan dalam kisi.

C \land C^{'}

$C \wedge C'$

Sekarang, biarkan dan biarkan. Pengaturan menghasilkan indeks rand, dan pengaturan menghasilkan VI. $C = \{ C_1, C_2, \ldots, C_k\}$ $n_i = |C_i|$ $f(C) = \sum n_i^2$ $f(C) = \sum n_i \log n_i$

— Suresh Venkatasubramanian
sumber

Suresh terima kasih! Apakah Anda tahu jika (dan bagaimana) perbedaan dalam rumus-rumus ini menjelaskan mengapa indeks rand dan variasi informasi menghukum konsistensi (seberapa banyak salah satu pengelompokan adalah subkluster dari yang lain) di antara pengelompokan berbeda? (menurut micans'answer)

— Amelio Vazquez-Reina

Seperti yang ditunjukkan oleh micans, Rand Index memiliki perilaku kuadratik, sehingga lebih sensitif terhadap perubahan penahanan daripada fungsi entropi, yang dekat dengan linear.

— Suresh Venkatasubramanian

Maaf, tapi saya masih tidak melihat bagaimana penahanan mempengaruhi istilah kuadrat lebih dari jenis perbedaan lainnya di antara pengelompokan. Maukah Anda menjelaskan lebih jauh tentang ini?

— Amelio Vazquez-Reina

@ user023472 Halo pengguna023472. Saya tertarik dengan temuan Anda, sepertinya Anda menanyakan pertanyaan ini beberapa waktu lalu. Sudahkah Anda mempelajari perbedaan antara kedua metode itu? Terima kasih.

— Creatron

Menurut pendapat saya, ada perbedaan besar. Indeks Rand sangat dipengaruhi oleh granularity dari pengelompokan di mana ia beroperasi. Dalam apa yang saya ikuti saya akan menggunakan jarak Mirkin, yang merupakan bentuk disesuaikan dari indeks Rand (mudah dilihat, tetapi lihat misalnya Meila). Saya juga akan menggunakan jarak split / join, yang juga disebutkan dalam beberapa makalah Meila (penafian: split / join distance diusulkan oleh saya). Misalkan alam semesta seratus elemen. Saya akan menggunakan Top untuk menunjukkan pengelompokan dengan satu klaster yang berisi semua elemen, Bawah untuk menunjukkan pengelompokan di mana semua node dalam set singleton terpisah, Kiri untuk menunjukkan pengelompokan {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , dan Hak untuk menunjukkan pengelompokan {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

Menurut saya, Bawah dan Atas adalah kelompok yang konsisten (bersarang), sedangkan Kiri dan Kanan adalah kelompok yang saling bertentangan secara maksimal. Jarak dari metrik yang disebutkan untuk dua perbandingan berpasangan ini adalah sebagai berikut:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Oleh karena itu Mirkin / Rand menganggap pasangan Top-Bottom konsisten jauh lebih jauh daripada pasangan Kiri-Kanan yang saling bertentangan. Ini adalah contoh ekstrim untuk menggambarkan hal ini, tetapi Mirkin / Rand secara umum sangat dipengaruhi oleh granularity dari pengelompokan di mana ia beroperasi. Alasan yang mendasari ini adalah hubungan kuadratik antara ukuran metrik dan kluster ini, dijelaskan oleh fakta bahwa penghitungan pasangan node terlibat. Akibatnya, jarak Mirkin adalah jarak Hamming antara set tepi serikat grafik lengkap yang disebabkan oleh pengelompokan (ini adalah jawaban untuk pertanyaan Anda saya pikir).

Mengenai perbedaan antara Variasi Informasi dan Split / Gabung, yang pertama lebih sensitif terhadap situasi konflik tertentu seperti yang ditunjukkan oleh Meila. Yaitu, Split / Bergabung hanya menganggap yang paling cocok untuk setiap cluster, dan mengabaikan fragmentasi yang mungkin terjadi pada bagian yang tersisa dari cluster itu, sedangkan Variasi Informasi akan mengambil ini. Yang mengatakan, Split / Bergabung mudah ditafsirkan sebagai jumlah node yang perlu dipindahkan untuk mendapatkan satu cluster dari yang lain , dan dalam hal ini jangkauannya lebih mudah dipahami; dalam praktiknya masalah fragmentasi mungkin juga tidak terlalu umum.

Masing-masing metrik ini dapat dibentuk sebagai jumlah dari dua jarak, yaitu jarak dari masing-masing dua pengelompokan ke subkluster umum terbesar mereka. Saya merasa sering bermanfaat untuk bekerja dengan bagian-bagian yang terpisah itu daripada hanya jumlah mereka. Tabel di atas kemudian menjadi:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Hubungan subsumsi antara Atas dan Bawah menjadi jelas dengan segera. Seringkali cukup berguna untuk mengetahui apakah dua pengelompokan konsisten (yaitu satu (hampir) merupakan subkluster dari yang lain) sebagai pelonggaran dari pertanyaan apakah mereka dekat . Pengelompokan bisa sangat jauh dari standar emas, tetapi masih konsisten atau hampir konsisten. Dalam kasus seperti itu, mungkin tidak ada alasan untuk menganggap clustering buruk sehubungan dengan standar emas itu. Tentu saja, pengelompokan sepele Atas dan Bawah akan konsisten dengan pengelompokan apa pun , jadi ini harus diperhitungkan.

Akhirnya, saya percaya bahwa metrik seperti Mirkin, Variasi Informasi, dan Split / Gabung adalah alat alami untuk membandingkan pengelompokan. Untuk sebagian besar aplikasi, metode yang mencoba menggabungkan kemandirian statistik dan mengoreksi kemungkinan terlalu dibuat-buat dan dikaburkan daripada diklarifikasi.

Contoh kedua Pertimbangkan pasangan pengelompokan berikut: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} dengan C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 14, 15, 16}}

dan C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} dengan {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Di sini C2 dapat dibentuk dari C1 dengan memindahkan node 9 dan 10 dan C3 dapat dibentuk dari C3 dengan memindahkan node 11 dan 12. Kedua perubahan itu identik ("pindahkan dua node") kecuali kenyataan bahwa ukuran cluster yang terlibat berbeda . Tabel metrik pengelompokan untuk dua contoh ini adalah ini:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Dapat dilihat bahwa Mirkin / Rand dan Variasi informasi dipengaruhi oleh ukuran cluster (dan Mirkin pada tingkat yang lebih besar; ini akan lebih diucapkan sebagai ukuran cluster berbeda), sedangkan jarak Split / Join tidak (nilainya 4 karena "memindahkan" node dari satu pengelompokan ke yang lainnya selalu melalui subkluster umum terbesar). Ini mungkin sifat yang diinginkan tergantung pada keadaan. Interpretasi sederhana dari Split / Bergabung (jumlah node untuk bergerak) dan independensi ukuran cluster layak disadari. Antara Mirkin dan Variasi Informasi Saya pikir yang terakhir sangat disukai.

— micans
sumber

Terima kasih micans, ini sangat mendalam. Saya tidak yakin saya mengerti tabel kedua. Mengapa ada dua angka yang dipisahkan oleh koma untuk setiap entri dalam tabel? Juga, tahukah Anda bagaimana kaitan argumen ini dengan @ Suresh?

— Amelio Vazquez-Reina

Jika A dan B adalah pengelompokan, maka d (A, B) dapat dibagi menjadi d (A, B) = d (A, X) + d (B, X) di mana X adalah pengelompokan terbesar yang merupakan subkluster dari kedua. Dalam notasi Suresh kita memiliki d (A, B) = f (A) + f (B) -2f (X). Ini dapat ditulis ulang sebagai f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Di atas saya telah menulis dua komponen d (A, X) dan d (B, X) dipisahkan oleh koma. Perbedaan terbesar antara keduanya sejauh ini adalah karakteristik kuadrat Mirkin / Rand. Jika Anda melihat contoh Atas / Bawah dan Kiri / Kanan, jarak Atas-Bawah sangat besar; ini sepenuhnya karena ukuran Top.

— micans