Koefisien Kesamaan untuk data biner: Mengapa memilih Jaccard daripada Russell dan Rao?

20

Dari Encyclopedia of Statistics Sciences saya mengerti bahwa dengan diberikan (dikotomi (biner: 1 = sekarang; 0 = tidak ada) atribut (variabel), kita dapat membentuk tabel kontingensi untuk dua objek i dan j dari sampel: $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Kita dapat menghitung dari nilai-nilai ini koefisien kemiripan antara pasangan benda, khususnya koefisien Jaccard dan koefisien Russell dan Rao

\frac{Sebuah}{Sebuah + b + c}

$\frac{a}{a+b+c}$

\frac{Sebuah}{Sebuah + b + c + d} = \frac{Sebuah}{hal} .

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

$d$

binary-data similarities association-measure

— wflynny
sumber

14

Ada banyak koefisien seperti itu (kebanyakan dinyatakan di sini ). Cobalah untuk merenungkan apa konsekuensi dari perbedaan dalam rumus, terutama ketika Anda menghitung matriks koefisien.

Bayangkan, misalnya, bahwa objek 1 dan 2 mirip, seperti objek 3 dan 4. Tetapi 1 dan 2 memiliki banyak atribut dalam daftar sementara 3 dan 4 hanya memiliki beberapa atribut. Dalam hal ini, Russell-Rao (proporsi atribut bersama dengan jumlah total atribut yang dipertimbangkan) akan tinggi untuk pasangan 1-2 dan rendah untuk pasangan 3-4. Tapi Jaccard (proporsi co-atribut dengan jumlah gabungan dari atribut kedua objek harus = probabilitas bahwa jika salah satu objek memiliki atribut maka mereka berdua memilikinya) akan tinggi untuk kedua pasangan 1-2 dan 3-4.

(\frac{Sebuah}{Sebuah + b} + \frac{Sebuah}{Sebuah + c}) / 2

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$

\sqrt{\frac{Sebuah}{Sebuah + b} \frac{Sebuah}{Sebuah + c}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$

PS

Apakah hanya karena untuk beberapa dataset, tidak adanya kedua atribut secara bersamaan (d) tidak menyampaikan informasi?

$d$

Perhatikan juga bahwa jika Anda ingin menghitung kesamaan antara objek berdasarkan 1+ atribut nominal (dikotomus atau politekom), recode setiap variabel tersebut ke dalam set variabel biner dummy. Maka ukuran kesamaan yang direkomendasikan untuk menghitung adalah Dice ( yang , ketika dihitung untuk 1+ set variabel dummy, setara dengan Ochiai dan Kulczynski-2).

— ttnphns
sumber

2

Berbagai istilah telah disarankan oleh analogi dengan "dikotomis" untuk klasifikasi dengan lebih dari dua kategori. "Polytomous" lebih disukai secara linguistik daripada "polychotomous", yang didasarkan pada dugaan yang salah bahwa "dikotomis" mem-parsing menjadi dua akar bahasa Yunani, "di" dan "chotomous". "Multichotomous" senyawa yang salah dengan penggunaan root Latin. Meskipun kata-kata dengan akar Latin dan Yunani yang terpisah telah bertahan dari penghinaan ahli bahasa (misalnya "televisi") saya menyarankan penggunaan "politek" di sini.

— Nick Cox

Terima kasih sudah mengingatkannya. Aku sebenarnya tahu apa yang kamu katakan, dan mencoba untuk menjadi murni sendiri ... ketika aku tidak terburu-buru. Saya akan mengeditnya.

— ttnphns

3

Kegunaan koefisien Tanimoto atas akurasi tradisional (yaitu Russell-Rao) terbukti dalam analisis gambar, ketika membandingkan segmentasi dengan standar emas. Pertimbangkan dua gambar ini:

Dalam setiap gambar yang merupakan 'topeng' biner, kami memiliki dua objek dengan ukuran yang sama tetapi ditempatkan di lokasi yang sedikit berbeda, dan kami ingin mengevaluasi sejauh mana benda-benda ini identik dalam bentuk dan posisi dengan menilai tumpang tindih mereka. Biasanya satu (mis. Topeng ungu) adalah segmentasi (dihasilkan oleh algoritma komputer), misalnya ini bisa merupakan upaya untuk menemukan jantung dari citra medis. Yang lain, (misalnya hijau) adalah standar emas (yaitu jantung, seperti yang diidentifikasi oleh dokter ahli). Di mana ada warna putih, kedua bentuk itu tumpang tindih. Piksel hitam adalah latar belakang.

Kedua gambar identik (yaitu hasil dari algoritma segmentasi, serta standar emas, adalah sama di kedua gambar), kecuali untuk banyak "padding" latar belakang pada gambar kedua (misalnya ini dapat mewakili dua percobaan dengan dua mesin x-ray yang berbeda, di mana mesin ke-2 memiliki sinar yang lebih luas yang mencakup lebih banyak area tubuh, tetapi sebaliknya ukuran jantung sama di kedua set gambar).

Jelas, karena segmentasi dan standar emas pada kedua gambar identik, jika kami mengevaluasi akurasi segmentasi terhadap standar emas, kami ingin metrik kami untuk menampilkan hasil 'akurasi' yang sama di kedua percobaan.

Namun, jika kami mencoba untuk menilai kualitas segmentasi menggunakan pendekatan Russel-Rao, kami akan mendapatkan akurasi tinggi yang menyesatkan untuk gambar yang tepat (hampir 100%), karena "piksel latar belakang diidentifikasi dengan benar sebagai piksel latar belakang" berkontribusi terhadap akurasi keseluruhan set, dan piksel latar belakang secara tidak proporsional terwakili dalam set kedua. Objek yang tumpang tindih yang ingin kita evaluasi dalam segmentasi medis seringkali merupakan bintik-bintik kecil dengan latar belakang masif, jadi ini tidak terlalu berguna bagi kita. Selain itu, ini akan menimbulkan masalah jika kami mencoba membandingkan akurasi dari satu algoritma segmentasi dengan yang lain, dan keduanya dievaluasi pada gambar dengan ukuran yang berbeda! (atau, ekuivalen, pada skala yang berbeda).Penskalaan / ukuran gambar yang disematkan seharusnya tidak membuat perbedaan dalam evaluasi segmentasi terhadap standar emas! .

Sebaliknya, koefisien tanimoto tidak peduli dengan piksel latar belakang, membuatnya tidak berubah menjadi 'skala'. Jadi sejauh menyangkut koefisien tanimoto, kesamaan kedua set ini akan identik, menjadikannya metrik kesamaan yang jauh lebih berguna bagi kami untuk digunakan untuk mengevaluasi kualitas algoritma segmentasi.

— Tasos Papastylianou
sumber