Secara teknis untuk menghitung ukuran dis (kesamaan) antara individu-individu pada atribut nominal kebanyakan program pertama recode setiap variabel nominal menjadi seperangkat variabel biner dummy dan kemudian menghitung beberapa ukuran untuk variabel biner. Berikut adalah rumus dari beberapa persamaan biner yang sering digunakan dan langkah-langkah ketidaksamaan .
Apa itu variabel dummy (juga disebut one-hot)? Di bawah ini adalah 5 orang, dua variabel nominal (A dengan 3 kategori, B dengan 2 kategori). 3 boneka dibuat di tempat A, 2 boneka dibuat di tempat B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Tidak perlu menghilangkan satu variabel dummy sebagai "berlebihan" seperti yang biasanya kita lakukan dalam regresi dengan boneka. Itu tidak dilakukan dalam pengelompokan, meskipun dalam situasi khusus Anda mungkin mempertimbangkan pilihan itu.)
aa+b+c
- a - jumlah boneka 1 untuk kedua individu
- b - jumlah boneka 1 untuk ini dan 0 untuk itu
- c - jumlah boneka 0 untuk ini dan 1 untuk itu
- d - jumlah boneka tiruan 0 untuk keduanya
bcaa2a2a+b+cjarak. Lihat berapa banyak sinonim - Anda pasti menemukan sesuatu dalam perangkat lunak Anda!
Validitas intuitif koefisien kemiripan Dice berasal dari fakta bahwa itu hanyalah proporsi kemunculan bersama (atau kesepakatan relatif ). Untuk cuplikan data di atas, ambil kolom nominal A
dan hitung 5x5
matriks simetris kuadrat dengan salah satu 1
(kedua individu jatuh dalam kategori yang sama) atau 0
(tidak dalam kategori yang sama). Hitung juga matriks untuk B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Jumlah entri yang sesuai dari dua matriks dan bagi dengan 2 (jumlah variabel nominal) - di sini Anda bersama matriks koefisien Dice. (Jadi, sebenarnya Anda tidak perlu membuat boneka untuk menghitung Dice, dengan operasi matriks Anda mungkin dapat melakukannya lebih cepat dengan cara yang baru saja dijelaskan.) Lihat topik terkait pada Dice untuk asosiasi attribures nominal .
Meskipun Dadu adalah ukuran yang paling jelas untuk digunakan ketika Anda ingin fungsi (dis) kesamaan antara kasus ketika atribut kategori, tindakan biner lainnya dapat digunakan - jika menemukan formula mereka memenuhi pertimbangan tentang data nominal Anda.
a+da+b+c+dddb+cdd2=p(1−SM)p
Tapi ...
d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Karena dalam banyak aplikasi dari matriks kedekatan, seperti dalam banyak metode analisis klaster, hasilnya tidak akan berubah atau akan berubah dengan lancar di bawah transformasi linear (dan kadang-kadang bahkan di bawah monoton) transformasi, tampaknya seseorang dapat dibenarkan untuk sejumlah besar ukuran biner selain Dadu untuk mendapatkan hasil yang sama atau mirip. Tetapi pertama - tama Anda harus mempertimbangkan / mengeksplorasi bagaimana metode spesifik (misalnya keterkaitan dalam pengelompokan hierarki) bereaksi terhadap transformasi tertentu dari perkiraan.
Jika pengelompokan terencana atau analisis MDS Anda peka terhadap transformasi monoton jarak Anda sebaiknya tidak menggunakan langkah-langkah yang dicatat sebagai "monoton" pada tabel di atas (dan dengan demikian ya, itu bukan ide yang baik untuk menggunakan kesamaan Jaccard atau jarak euclidean nonsquared jarak dengan dummy , yaitu mantan nominal, atribut).