Mengapa sistem peringkat Elo menggunakan aturan pembaruan yang salah?

Sistem pemeringkatan Elo menggunakan algoritma minimisasi gradient descent dari fungsi kehilangan lintas-entropi antara probabilitas yang diharapkan dan yang diamati dari suatu hasil dalam perbandingan berpasangan. Kita dapat menulis fungsi kerugian umum sebagai

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

di mana jumlah dilakukan atas semua hasil $i$ dan semua lawan $n$ . $p_i$ adalah frekuensi yang diamati dari peristiwa dan frekuensi yang diharapkan. $_i$ $q_i$

Dalam hal hanya dua hasil yang mungkin (menang atau kalah) dan satu lawan yang kita miliki

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

Jika $\pi_i$ adalah peringkat pemain $i$ dan $\pi_j$ adalah peringkat pemain $j$ kita dapat membangun probabilitas yang diharapkan sebagai

q_{i} = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

q_{j} = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$ maka aturan pembaruan gradient descent memberi tahu penggunaan

π_{i}^{'} = π_{i} - η (q_{i} - p_{i})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - p_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

di mana dan adalah probabilitas yang diharapkan dan diamati dari kemenangan pemain terhadap pemain . Ini adalah aturan pembaruan. $q_i$ $p_i$ $i$ $j$ two outcomes

Dengan adanya undian, kita dapat menggeneralisasi model di atas termasuk dan hasil ketiga dengan probabilitas

q (d) = \frac{ν e^{\frac{π_{i} + π_{j}}{2}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{i} (w) = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (w) = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

Dan kita dapat membangun fungsi Rugi sebagai

E = - p (w) L o g (q (w)) - (1 - p (w) - p (d)) L o g (q (l)) - p (d) L o g (q (d))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

di mana masing-masing kemungkinan yang diamati , dan dan kemungkinan yang diharapkan , dan . Dalam kasus terakhir, aturan pembaruan adalah $p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{i}^{'} = π_{i} - η (q_{i} (w) + \frac{q_{i} (d)}{2} - p_{i} (w) - \frac{p_{i} (d)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (w) + \frac{q_{j} (d)}{2} - p_{j} (w) - \frac{p_{j} (d)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

di mana dan adalah probabilitas yang diharapkan dari pemain untuk menang dan bermain imbang melawan pemain . Dan di mana dan adalah probabilitas yang diamati dari pemain untuk menang dan bermain imbang melawan pemain . Ini adalah aturan pembaruan. $q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

Pertanyaannya adalah, mengapa sistem peringkat Elo menggunakan two outcomesaturan pembaruan bahkan di hadapan undian?

regression optimization rating

— emanuele
sumber

Probabilitas menggambar, sebagai lawan memiliki hasil yang menentukan, tidak ditentukan dalam sistem Elo. Sebaliknya imbang dianggap - baik dalam kinerja yang diharapkan dan dalam hasil pertandingan - setengah menang dan setengah kerugian.

Contoh dari halaman Elo di Wikipedia : "Skor yang diharapkan pemain adalah probabilitasnya untuk menang ditambah setengah dari kemungkinan menggambar. Dengan demikian skor yang diharapkan dari 0,75 bisa mewakili 75% peluang menang, 25% peluang kalah, dan peluang 0% menggambar. Di ekstrem yang lain itu bisa mewakili peluang menang 50%, peluang kalah 0%, dan peluang menggambar 50%. "

Probabilitas menggambar, seperti yang saya katakan, tidak ditentukan , dan itu mengarah ke two outcomeaturan pembaruan sederhana , $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

Seperti Elo, sistem Glicko tidak memodelkan pengundian tetapi membuat pembaruan sebagai rata-rata kemenangan dan kekalahan (per pemain). Sebaliknya, dalam sistem peringkat TrueSkill , "undian dimodelkan dengan mengasumsikan bahwa perbedaan kinerja dalam permainan tertentu kecil. Oleh karena itu, peluang menggambar hanya tergantung pada perbedaan kekuatan bermain dua pemain. Namun, temuan empiris dalam permainan pertunjukan catur yang menarik lebih cenderung di antara pemain profesional daripada pemula. Oleh karena itu, kesempatan menggambar juga tampaknya tergantung pada tingkat keterampilan. "

Pendekatan ini membutuhkan pemodelan spesifik yang berbeda untuk setiap game (dan TrueSkill diterapkan pada beberapa game Microsoft Xbox), jadi itu cocok di Elo dan Glicko (dirancang hanya untuk catur), dan itu bukan untuk rankade , sistem peringkat multiguna kami.

— Tomaso Neri
sumber

"Skor yang diharapkan seorang pemain adalah probabilitasnya untuk menang ditambah setengah dari probabilitasnya untuk menggambar." adalah persis apa yang saya temukan dalam rumus di atas. Pokoknya dalam rumus pembaruan Elo, setengah dari probabilitas pengundian tidak ditentukan seperti yang Anda tunjukkan. Pertanyaannya tetap, mengapa dalam sistem peringkat Elo kita tidak peduli tentang pengundian?

— emanuele

Anda selalu dapat mengungkapkan skor yang diharapkan sebagai peluang menang dan peluang kehilangan (dan nol peluang menggambar - lihat contoh pertama dari Wikipedia). Dalam hal ini, 'skor yang diharapkan pemain adalah probabilitasnya untuk menang' (dan lebih dari itu, karena setengah kemungkinan menggambar adalah nol). Setelah satu pertandingan, hasilnya adalah menang, atau kalah, atau setengah menang. Bahkan jika Anda memiliki permainan yang memungkinkan undian, Anda dapat memperbarui skor Elo hanya menggunakan kombinasi menang dan kalah, seolah-olah undian tidak memiliki peluang.

— Tomaso Neri