Izinkan saya menunjukkan kepada Anda sebuah contoh aplikasi pengelompokan online hipotetis:
Pada saat n poin 1,2,3,4 dialokasikan ke cluster biru A dan poin b, 5,6,7 dialokasikan untuk cluster merah B.
Pada waktu n +1 titik baru a diperkenalkan yang ditugaskan ke gugus biru A tetapi juga menyebabkan titik b ditugaskan ke gugus biru A juga.
Pada poin akhir 1,2,3,4, a, b milik A dan poin 5,6,7 untuk B. Bagi saya ini masuk akal.
Apa yang tampak sederhana pada pandangan pertama sebenarnya sedikit rumit - untuk mempertahankan pengidentifikasi di langkah waktu. Biarkan saya mencoba memperjelas hal ini dengan contoh yang lebih jelas:
Titik hijau akan menyebabkan dua titik biru dan dua titik merah bergabung menjadi satu kelompok yang saya putuskan untuk berubah warna menjadi biru - pikiran ini sudah menjadi pemikiran heuristik manusiawi saya di tempat kerja!
Komputer untuk membuat keputusan ini harus menggunakan aturan. Misalnya ketika poin digabung menjadi sebuah cluster maka identitas cluster ditentukan oleh mayoritas. Dalam hal ini kita akan menghadapi undian - baik biru dan merah mungkin pilihan yang valid untuk cluster baru (berwarna biru).
Bayangkan titik merah kelima dekat dengan titik hijau. Maka mayoritas akan menjadi merah (3 merah vs 2 biru) sehingga merah akan menjadi pilihan yang baik untuk cluster baru - tetapi ini akan bertentangan dengan pilihan merah yang lebih jelas untuk cluster paling kanan seperti yang telah merah dan mungkin harus tetap seperti itu. .
Saya merasa mencurigakan untuk memikirkan hal ini. Pada akhirnya saya kira tidak ada aturan yang sempurna untuk ini - lebih baik heuristik mengoptimalkan beberapa kriteria stabilitas.
Ini akhirnya mengarah ke pertanyaan saya:
- Apakah "masalah" ini memiliki nama yang dapat dirujuk?
- Apakah ada solusi "standar" untuk ini dan ...
- ... apakah mungkin ada paket R untuk itu?
Warisan yang wajar dari Identitas Cluster dalam Pengulangan Clustering