Tetapkan bobot untuk variabel dalam analisis kluster


11

Saya ingin menetapkan bobot yang berbeda untuk variabel dalam analisis kluster saya, tetapi program saya (Stata) tampaknya tidak memiliki opsi untuk ini, jadi saya harus melakukannya secara manual.

Bayangkan 4 variabel A, B, C, D. Bobot untuk variabel-variabel tersebut seharusnya

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Saya bertanya-tanya apakah salah satu dari dua pendekatan berikut akan benar-benar melakukan trik:

  1. Pertama, saya membuat standar semua variabel (misalnya dengan rentangnya). Kemudian saya gandakan setiap variabel terstandarisasi dengan bobotnya. Kemudian lakukan analisis cluster.
  2. Saya mengalikan semua variabel dengan bobotnya dan membakukannya setelahnya. Kemudian lakukan analisis cluster.

Atau keduanya sama-sama omong kosong?

[EDIT] Algoritma pengelompokan (saya mencoba 3 berbeda) yang ingin saya gunakan adalah k-means, tautan rata-rata tertimbang dan tautan rata-rata. Saya berencana untuk menggunakan tautan rata-rata tertimbang untuk menentukan jumlah cluster yang baik yang saya tancapkan ke k-means sesudahnya.


1
Kedua cara ini umumnya tidak benar. Mengalikan nilai variabel tidak sama dengan bobot bobot yang penting untuk pengelompokan. Jika program tidak memiliki opsi pembobotan, Anda kadang - kadang dapat melakukannya dengan data sesuai keinginan - tetapi ini tergantung pada sifat tepatnya pengelompokan Anda. Jadi, jelaskan (dalam pertanyaan Anda) detail pengelompokan Anda: algoritma dan metode apa yang akan Anda gunakan.
ttnphns

2
Perhatikan bahwa cara termudah dan universal untuk variabel bobot (dan bobot adalah bilangan bulat atau dapat dibuat bilangan bulat) akan hanya untuk menyebarkan variabel kali bobot tersebut. Dalam contoh Anda, Anda bisa mengambil 50 As, 25 Bs, 10 Cs, 15 Ds di pengelompokan Anda.
ttnphns

8
Atau, alternatifnya: Jika Anda menggunakan pengelompokan berdasarkan ukuran euclidean atau Anda menggunakan k-means, gandakan setiap variabel dengan akar kuadrat dari bobotnya. Penggandaan ini harus, tentu saja, dilakukan setelah pra-pemrosesan (seperti standardisasi) yang mungkin ingin Anda lakukan sebelum pengelompokan.
ttnphns

Jawaban:


7

Salah satu cara untuk memberikan bobot pada variabel adalah dengan mengubah skalanya. Trik ini berfungsi untuk algoritma pengelompokan yang Anda sebutkan, yaitu. k-means, tautan rata-rata tertimbang dan tautan rata-rata.

Kaufman, Leonard, dan Peter J. Rousseeuw. " Menemukan kelompok dalam data: Pengantar analisis klaster ." (2005) - halaman 11:

Pilihan unit pengukuran menimbulkan bobot relatif dari variabel. Mengekspresikan variabel dalam unit yang lebih kecil akan mengarah ke rentang yang lebih besar untuk variabel itu, yang kemudian akan memiliki efek besar pada struktur yang dihasilkan. Di sisi lain, dengan menstandarisasi satu upaya untuk memberikan semua variabel bobot yang sama, dengan harapan mencapai objektivitas. Dengan demikian, dapat digunakan oleh seorang praktisi yang tidak memiliki pengetahuan sebelumnya. Namun, mungkin bahwa beberapa variabel secara intrinsik lebih penting daripada yang lain dalam aplikasi tertentu, dan kemudian penugasan bobot harus didasarkan pada pengetahuan materi pelajaran (lihat, misalnya, Abrahamowicz, 1985).

Di sisi lain, ada upaya untuk merancang teknik pengelompokan yang independen dari skala variabel (Friedman dan Rubin, 1967). Proposal Hardy dan Rasson (1982) adalah untuk mencari partisi yang meminimalkan volume total cembung lambung cluster. Pada prinsipnya metode semacam itu tidak berubah berkenaan dengan transformasi linear dari data, tetapi sayangnya tidak ada algoritma untuk implementasinya (kecuali untuk perkiraan yang terbatas pada dua dimensi). Oleh karena itu, dilema standardisasi tampaknya tidak dapat dihindari saat ini dan program-program yang dijelaskan dalam buku ini menyerahkan pilihan kepada pengguna

Abrahamowicz, M. (1985), Penggunaan informasi pnon non-numerik untuk mengukur perbedaan, makalah yang dipresentasikan pada Pertemuan Eropa Keempat Masyarakat Psikometrik dan Masyarakat Klasifikasi, 2-5 Juli, Cambridge (Inggris).

Friedman, HP, dan Rubin, J. (1967), Pada beberapa kriteria invarian untuk pengelompokan data. J. Amer. Statist. ASSOC6., 2, 1159-1178.

Hardy, A., dan Rasson, JP (1982), Une nouvelle approche des problemes de automatique klasifikasi, Statist. Anal Donnies, 7, 41-56.


1
Referensi pertama Anda entah bagaimana rusak: Leonard Kaufman dan Peter J. Rousseeuw adalah penulis buku yang Anda tautkan.
Nick Cox

Oh, terima kasih telah menunjukkan ini ... Saya dikacaukan oleh Lavoisier, yang membuat kesalahan pada halaman mereka "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.", yang pada gilirannya mengacaukan Gscholar yang saya gunakan untuk mendapatkan referensi.
Franck Dernoncourt

Terima kasih @ FranckDernoncourt! Jika skala (dan dengan demikian kisaran) dari variabel menentukan bobotnya, tidak akan mendekati 1.) dalam pertanyaan awal saya entah bagaimana solusi yang benar?
SPi

2
Ya pendekatan 1 adalah yang benar, dan sesuai dengan apa yang Kaufman, Leonard, dan Peter J. Rousseeuw katakan dalam paragraf yang saya kutip dalam jawaban. Pendekatan 2 tidak akan berguna karena standardisasi menghilangkan beban :)
Franck Dernoncourt
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.