Pendekatan yang baik untuk masalah semacam ini dapat ditemukan di bagian 4 dari makalah The Bayesian Image Retrieval System, PicHunter oleh Cox et al (2000). Data adalah serangkaian hasil integerSEBUAH1, . . . ,SEBUAHN dimana Nadalah jumlah cobaan. Dalam kasus Anda, ada 3 kemungkinan hasil per percobaan. aku akan membiarkanSEBUAHsayajadilah indeks wajah yang ditinggalkan. Idenya adalah mendalilkan model generatif untuk hasil yang diberikan beberapa parameter model, dan kemudian memperkirakan parameter dengan kemungkinan maksimum. Jika kita menunjukkan wajah(X1,X2,X3) dan peserta mengatakan itu (X2,X3) adalah yang paling mirip, maka hasilnya adalah A = 1, dengan probabilitas
p ( A = 1 | X1,X2,X3) ∝ exp( - d(X2,X3) / σ)
dimana
d(X2,X3) adalah jarak antara wajah 2 dan 3, dan
σadalah parameter untuk jumlah "noise" (yaitu seberapa konsisten para peserta). Karena Anda menginginkan penyematan dalam ruang Euclidean, ukuran jarak Anda adalah:
d(x,y)=∑k(θxk−θyk)2−−−−−−−−−−−−√
dimana
θx adalah embedding (tidak diketahui) wajah
x. Parameter dari model ini adalah
θ dan
σ, yang dapat Anda perkirakan dari data melalui kemungkinan maksimum. Kertas yang digunakan gradien naik untuk menemukan maksimum.
Model dalam makalah ini sedikit berbeda karena makalah tersebut menggunakan atribut gambar yang diketahui untuk menghitung jarak, daripada penyematan yang tidak diketahui. Untuk mempelajari embedding, Anda akan membutuhkan dataset yang jauh lebih besar, di mana setiap wajah ditampilkan beberapa kali.
Model dasar ini mengasumsikan bahwa semua percobaan independen dan semua peserta adalah sama. Manfaat bagus dari pendekatan ini adalah Anda dapat dengan mudah memperindah model untuk memasukkan non-independensi, efek partisipan, atau kovariat lainnya.