Evaluasi komputer: Seberapa dapat dipercayakah mereka?

14

Fritz 12 dengan Rybka memberi teman saya evaluasi +3 untuk putih di posisi akhir ini ,

Putih bergerak

yang ternyata seri. Tapi saya pernah mendengar bahwa +3 dari komputer berarti kemenangan dijamin dengan permainan sempurna. Apakah saya salah dengar? Bagaimana seharusnya evaluasi komputer ditafsirkan secara umum? Apa arti keuntungan membuka <0,5 bahkan?

— chubbycantorset
sumber

3

Saya akan menantang komentar "dijamin menang". Nomor evaluasi adalah indikator heuristik, pada dasarnya "perasaan" yang dimiliki komputer untuk posisi tersebut. Endgames dapat memiliki hasil yang "mengejutkan", dan kecuali jika komputer telah diprogram untuk mendeteksi semua pola yang mungkin (atau dapat menghitung semua jalan), ia akan kehilangan beberapa. Untuk melihatnya dengan cara lain, jika +3 benar-benar dijamin, itu tidak akan +3, itu akan menjadi + infinity.

— Daniel B

Sebagai catatan, saya memeriksa ini dengan tablebase Lichess 7-piece, dan ini memang seri.

— PhishMaster

8

Ada beberapa hal di sini.

Pertama, setiap program akan memiliki cara sendiri untuk mengevaluasi posisi sehingga skor tidak dapat dibandingkan secara langsung. Sebagai contoh, saya menjalankan StockFish melawan Rybka baru-baru ini dan menemukan skor Stockfish sekitar dua kali lipat dari Rybka. Saya terkejut dengan ini, tetapi cukup jelas bahwa skor 1 tidak selalu berarti "1 bidak." Saya pikir apa yang harus kita perhatikan adalah bagaimana skor berubah. Keingintahuan lain yang saya lihat kemarin (saat menjawab salah satu pertanyaan Anda yang lain, secara kebetulan) adalah bahwa algoritma evaluasi Stockfish tidak terlalu menyukai angka ganjil. Bahkan sebagian besar skor adalah kelipatan 0,04. Mengingat bahwa besarnya nilai arbitrer, saya tidak akan menganggap nilai tertentu berarti "menang pasti" kecuali mesin mengklaim itu menemukan jodoh.

Kedua, tablebase akhir gim dibuat karena penyelesaian gim akhir membutuhkan banyak kedalaman pencarian. Komputer bermain dengan kecepatan turnamen tidak melakukannya dengan baik. Saya bekerja melalui permainan yang berbeda beberapa hari yang lalu dan mengumumkan di situs ini bahwa satu pihak memiliki keunggulan. Ed menggunakan tablebase untuk menunjukkan bahwa tidak ada misteri yang tersisa di posisi - itu secara teoritis ditarik. Tentu saja, ada perbedaan besar antara draw-with-perfect-play dan draw; para pemain harus menemukan gerakan yang tepat.

Nilai kecil yang umumnya diberikan kepada White pada tahap awal permainan pada dasarnya berarti putih dapat mengklaim real estat yang lebih berharga. Misalnya, pada langkah 1, Putih dapat mengklaim e4 dan menyerang e5 dan f5. Hitam bisa melawan. Tapi White bisa memainkan Nc3 dan menyerang / meningkatkan a4, b5, d5, dan e4. Tapi Black bisa melawan. Jadi artinya sangat sedikit.

Akhirnya, untuk menjawab pertanyaan di baris subjek Anda - evaluasi sangat dapat dipercaya karena didasarkan pada fakta keras dan kedalaman pencarian yang mengesankan. Tentu saja, mesinnya tidak sempurna. Tapi kami para pemain harus ingat bahwa Stockfish (atau Rybka) bermain di kekuatan GM pada perangkat keras sederhana. Pada perangkat keras umum terbaik , mereka memperkirakan peringkat mereka pada FIDE 3200. Ini sangat tinggi sehingga hanya manusia terbaik yang memiliki sedikit peluang untuk tidak kehilangan.

Pertimbangkan apa artinya ini; Saya (USCF 1650-ish) memiliki tidak ada kesempatan melawan seseorang (katakanlah, USCF 2050) yang memiliki tidak ada kesempatan melawan seseorang (katakanlah, USCF 2450) yang memiliki tidak ada kesempatan melawan seseorang (katakanlah, USCF 2850) yang memiliki sepotong dari peluang terhadap program komersial papan atas (FIDE 3200).

Jadi, ketika Stockfish mengatakan satu gerakan lebih baik dari yang lain, saya biasanya menerimanya. Ketika saya menghubungkan tab endgame endgame hal ini akan mulai mengumumkan pasangan-in-30, lol.

— Tony Ennis
sumber

1

Respon yang sangat bagus. Saya selalu berpikir bahwa evaluasi 1 berarti nilai materi 1 pion. Selain itu, chesstempo mengatakan bahwa langkah terbaik dalam masalahnya adalah yang memenangkan setidaknya 2 pion materi, jadi saya menganggap evaluasi mesin +2 atau lebih untuk menang terlepas dari tahap dalam permainan. Namun, saya telah menemukan analisis stockfish salah sebelum dan melihat bagaimana gagal menilai endgames dengan benar. Pada catatan itu, apakah Anda tahu di mana saya bisa menemukan tablebase endgames?

— chubbycantorset

Inilah tablebase 6-orang online yang diposting Ed: k4it.de/index.php?topic=egtb&lang=en

— Tony Ennis

Memberi +1 untuk "Saya tidak akan menganggap nilai tertentu berarti" kemenangan pasti "kecuali jika mesin mengklaim telah menemukan pasangan."

— Ferit

14

Mesin yang berbeda memiliki "skala" yang berbeda untuk evaluasi numerik mereka. Misalnya, dalam posisi midgame khas dengan banyak permainan tersisa, ketika Houdini mengatakan +2.00 atau lebih baik, sangat mungkin bahwa White memiliki keunggulan kemenangan (meskipun bahkan di sini saya sudah memasukkan kualifikasi karena suatu alasan). Tetapi pertimbangkan: seseorang dapat memodifikasi kode sumber Houdini dan menggandakan nilai absolut dari semua angka yang terlibat dalam evaluasi; seseorang mendapatkan mesin dengan kekuatan yang sama yang menghasilkan permainan yang sama, tetapi sekarang +4 berarti apa yang digunakan +2.00. Ini menggambarkan bahwa seseorang seharusnya tidak mengharapkan ambang numerik seragam di seluruh mesin yang biasanya menunjukkan keunggulan kemenangan.

Lebih dari ini, penting untuk memahami bahwa evaluasi mesin numerik dari suatu posisi (sebagai lawan dari deklarasi langsung dari pasangan yang tak terhindarkan) tidak pernah secara ketat diterjemahkan menjadi "permainan yang dimenangkan," bahkan untuk satu mesin tetap. Poin kunci adalah bahwa evaluasi numerik tidak memiliki "makna" yang jelas dalam istilah catur luas, dan lebih merupakan pengganti pemikiran makhluk hidup yang digunakan untuk memandu mesin secara mekanis menuju hasil yang diinginkan secara umum dengan memengaruhi gerakan mana yang dipilihnya pada setiap titik dalam permainan; dalam hal ini, yang paling penting bagi permainan mesin hanyalah perbedaan dalam evaluasi yang diberikan pada pergerakan potensial, daripada apa pun tentang nilai absolutterlibat. Angka-angka berguna untuk mesin itu sendiri, yang membutuhkan sesuatu yang konkret untuk membuat keputusan untuk satu gerakan di atas yang lain, tetapi kita manusia tidak boleh terlalu cepat untuk membaca lebih banyak makna ke dalam besaran yang terlibat dengan pemikiran seperti "+ X berarti sebuah kemenangan. "

Secara khusus, semakin jauh kita mencapai endgame dibandingkan dengan midgame, semakin sedikit kita dapat menggunakan aturan praktis (seperti +2.00 saya untuk Houdini di midgames atas) tentang ambang batas tertentu yang cukup untuk menang. Salah satu alasan utama untuk ini adalah sulitnya mesin mengenali benteng, di mana kelimpahan material tambahan masih belum cukup untuk menang. Misalnya, ketika saya memberi makan Stockfish posisi ini,

NN - NN

setelah beberapa menit berpikir itu memberikan evaluasi sekitar +7,00, dan dalam posisi yang khas, ketika Stockfish mengatakan itu, Anda hampir pasti memiliki kemenangan di tangan Anda. Namun demikian, ini adalah undian mati, dan manusia dapat melihat ini dengan mudah begitu fakta disadari bahwa Black hanya dapat mengocok benteng antara f6 dan h6, dan karenanya (1) p-h tidak ada gunanya, dan (2) putih raja tidak akan pernah bisa membantu serangan ratu putih. Akhirnya , Stockfish akan mengenali hasil imbang di sini juga, begitu ia berhadapan dengan 50 gerakan, katakanlah, atau akhirnya kehabisan langkah yang berbeda untuk mencoba dan akhirnya tidak dapat menghindari pengulangan, tetapi peristiwa-peristiwa itu menuruni garis kedalaman pencarian.

Posisi akhir dari pertanyaan Anda sebelumnya yang Anda tautkan mirip dengan benteng semacam ini, di mana pion-pion yang disahkan ekstra yang dimiliki White ada bagus dan semuanya, tetapi pada akhirnya tidak cukup memadai untuk menang di posisi itu. Jika sebuah mesin menghitung waktu yang cukup untuk melihat informasi sebanyak yang terkandung dalam basis-data, maka evaluasinya akan turun ke 0, tetapi sementara itu, algoritme evaluasinya tidak ada yang lebih baik daripada memberikan tanda + untuk itu materi tambahan (yang belum diketahui tidak ada artinya).

— ETD
sumber

+1 untuk "Lebih dari ini, penting untuk memahami bahwa evaluasi mesin numerik dari suatu posisi (yang bertentangan dengan deklarasi langsung dari pasangan yang tak terhindarkan) tidak pernah secara ketat diterjemahkan menjadi permainan yang dimenangkan"

— ferit

8

Saya pikir gambar ini menggambarkan situasinya dengan cukup baik. Itu dibuat dari 400k game, dan hanya menganggap bahan potongan polos.

Menangkan Probability / Gadai Keuntungan

Sumber: Keuntungan Gadai, Persentase Menang, dan ELO

— Thomas Ahle
sumber

1

Kontribusi yang bagus! +1

— ferit

@Thomas Ahle: Grafiknya menarik. Tetapi artikel asli tidak lagi tersedia, tautan wikispaces sayangnya telah turun. Apakah Anda ingat arti sebenarnya dari W = Win Probability? Apakah menang vs kalah mengabaikan hasil imbang? Atau apakah itu "skor yang diharapkan" dengan mempertimbangkan pengundian?

— Diedrsch

@Diedrsch Saya telah memperbarui tautan

— Thomas Ahle