Dengan satu atau lain cara, setiap algoritma pengelompokan bergantung pada beberapa gagasan "kedekatan" poin. Tampaknya secara intuitif jelas bahwa Anda dapat menggunakan gagasan relatif (invarian skala) atau gagasan kedekatan mutlak (konsisten), tetapi tidak keduanya .
Pertama saya akan mencoba mengilustrasikan ini dengan sebuah contoh, dan kemudian melanjutkan untuk mengatakan bagaimana intuisi ini cocok dengan Teorema Kleinberg.
Contoh ilustratif
Misalkan kita memiliki dua set dan S 2 dari 270 poin masing-masing, diatur dalam pesawat seperti ini:S1S2270
Anda mungkin tidak melihat poin di salah satu dari foto-foto ini, tapi itu hanya karena banyak poin yang sangat berdekatan. Kami melihat lebih banyak poin ketika memperbesar:270
Anda mungkin akan secara spontan setuju bahwa, dalam kedua set data, poin-poin tersebut diatur dalam tiga kelompok. Namun, ternyata jika Anda memperbesar salah satu dari tiga kelompok , Anda melihat yang berikut:S2
Jika Anda percaya pada gagasan kedekatan mutlak, atau konsistensi, Anda akan tetap mempertahankannya, terlepas dari apa yang baru saja Anda lihat di bawah mikroskop, hanya terdiri dari tiga cluster. Memang, satu-satunya perbedaan antara S 1 dan S 2 adalah bahwa, di dalam setiap kluster, beberapa titik sekarang lebih dekat satu sama lain. Di lain pihak, jika Anda meyakini gagasan tentang kedekatan, atau invariansi skala, Anda akan cenderung berpendapat bahwa S 2 tidak terdiri dari 3 tetapi dari 3 × 3 = 9 cluster. Tidak satu pun dari sudut pandang ini yang salah, tetapi Anda harus membuat pilihan dengan satu atau lain cara.S2S1S2S233×3=9
Kasus untuk invarian isometri
Jika Anda membandingkan intuisi di atas dengan Teorema Kleinberg, Anda akan menemukan bahwa mereka sedikit berselisih. Memang, Teorema Kleinberg tampaknya mengatakan bahwa Anda dapat mencapai skala invarian dan konsistensi secara bersamaan selama Anda tidak peduli dengan properti ketiga yang disebut kekayaan. Namun, kekayaan bukan satu-satunya properti yang hilang jika Anda secara bersamaan bersikeras pada invarian skala dan konsistensi. Anda juga kehilangan properti lain yang lebih mendasar: isometry-invariance. Ini adalah properti yang tidak ingin saya korbankan. Karena tidak muncul di koran Kleinberg, aku akan memikirkannya sebentar.
Singkatnya, algoritma pengelompokan adalah invarian isometrik jika outputnya hanya bergantung pada jarak antara titik, dan bukan pada beberapa informasi tambahan seperti label yang Anda lampirkan ke poin Anda, atau pada pemesanan yang Anda terapkan pada poin Anda. Saya harap ini terdengar seperti kondisi yang sangat ringan dan sangat alami. Semua algoritma yang dibahas dalam makalah Kleinberg adalah isometri invarian, kecuali untuk algoritma keterkaitan tunggal dengan kondisi berhenti -cluster. Menurut uraian Kleinberg, algoritma ini menggunakan urutan leksikografis dari poin, jadi hasilnya mungkin tergantung pada bagaimana Anda memberi label. Misalnya, untuk satu set tiga titik yang sama, output dari algoritma hubungan tunggal dengan 2k2kondisi berhenti -cluster akan memberikan jawaban yang berbeda sesuai dengan apakah Anda label tiga poin Anda sebagai "kucing", "anjing", "tikus" (c <d <m) atau sebagai "Tom", "Spike", "Jerry" (J <S <T):
Perilaku yang tidak alami ini tentu saja dapat dengan mudah diperbaiki dengan mengganti kondisi berhenti cluster dengan “ ( ≤ k ) kondisi berhenti positif”. Idenya adalah tidak memutuskan hubungan antara titik yang sama, dan untuk berhenti menggabungkan cluster segera setelah kami telah mencapai paling banyak k cluster. Algoritma yang diperbaiki ini masih akan menghasilkan klaster k sebagian besar waktu, dan itu akan menjadi invarian isometry dan skala invarian. Dalam perjanjian dengan intuisi yang diberikan di atas, bagaimanapun tidak akan lagi konsisten.k(≤k) kk
Untuk definisi invarian isometry yang tepat, ingat bahwa Kleinberg mendefinisikan algoritma pengelompokan pada himpunan terbatas sebagai peta yang menetapkan untuk setiap metrik pada S sebuah partisi S :
Γ : { metrik pada S } → { partisi S }SSS
Sebuahisometry i antara dua metrik d dan d ' pada S adalah permutasi i : S → S sehingga d ' ( i ( x ) , i ( y ) ) = d ( x , y ) untuk semua poin x dan y di S .
Γ:{metrics on S}→{partitions of S}d↦Γ(d)
idd′Si:S→Sd′(i(x),i(y))=d(x,y)xyS
Definisi: Algoritma pengelompokan adalah isometri invarian jika memenuhi syarat berikut: untuk setiap metrik d dan d ′ , dan setiap isometri i di antara keduanya, titik i ( x ) dan i ( y ) terletak pada gugus yang sama Γ ( d ′ ) jika dan hanya jika titik asli x dan y terletak pada gugus Γ ( d ) yang sama .Γdd′ii(x)i(y)Γ(d′)xyΓ(d)
Ketika kita berpikir tentang algoritma pengelompokan, kita sering mengidentifikasi himpunan abstrak dengan himpunan titik konkret di pesawat, atau di beberapa ruang ambient lainnya, dan bayangkan memvariasikan metrik pada S sebagai memindahkan titik S di sekitar. Memang, inilah sudut pandang yang kami ambil dalam contoh ilustrasi di atas. Dalam konteks ini, invarian isometri berarti bahwa algoritma pengelompokan kami tidak peka terhadap rotasi, refleksi, dan terjemahan.SSS
Sebuah varian dari Teorema Kleinberg
Intuisi yang diberikan di atas ditangkap oleh varian berikut dari Teorema Kleinberg.
Teorema: Tidak ada algoritma pengelompokan isometri-invarian non-trivial yang secara bersamaan konsisten dan berskala-invarian.
Di sini, dengan algoritma pengelompokan sepele , maksud saya salah satu dari dua algoritma berikut:
S
S
Klaimnya adalah bahwa algoritma konyol ini adalah satu - satunya dua algoritma invarian isometry yang konsisten dan invarian-skala.
SΓd₁Sd₁(x,y)=1x≠ySΓΓ(d₁)Γ(d₁)Γ(d₁)Γ(d₁)dS≥1dΓ(d)=Γ(d₁)ΓΓ(d₁)dS≤1Γ(d)=Γ(d₁)Γ
Tentu saja, bukti ini sangat dekat dengan bukti Margareta Ackerman tentang teorema asli Kleinberg, yang dibahas dalam jawaban Alex Williams.