Berikut ini adalah analisis kotor cepat berdasarkan database PGN "Juta Pangkalan". Saya melakukan ini dengan sedikit terburu-buru, jadi mungkin ada kesalahan dalam pemrograman atau logika saya. Tolong jangan menggunakannya untuk hal yang terlalu serius. Pembaruan - Catatan: Sebenarnya, saya baru saja menyadari bahwa saya membuat kesalahan dengan kumpulan data, dan terbatas pada 1 juta catatan pertama. Saya akan memposting pembaruan ketika saya mendapatkan waktu luang untuk menjalankannya lagi secara penuh. Sementara itu, angka-angka ini seharusnya menarik.
Memperoleh data:
Saya memperoleh file Million Base 1.74 dari URL ini , karena situs top-5000.nl tampaknya 404 ketika Anda benar-benar mencoba untuk mengunduhnya. File tersebut berisi lebih dari 1 juta game dalam format ekspor PGN (artinya, mudah diurai).
Sayangnya, lebih dari 60% game tidak memiliki informasi peringkat (saya mencari tag "WhiteELO" dan "BlackELO"), dan bahkan lebih sedikit yang mendapat peringkat untuk kedua pemain. Pada akhirnya, saya memutuskan untuk mendapatkan ukuran sampel sebesar mungkin, dan menghitung pergerakan pemain jika peringkatnya diketahui, terlepas dari peringkat pemain lain.
Proses:
Permainan diuraikan satu per satu, dan jika peringkat pemain diketahui, semua gerakan mereka untuk permainan itu akan ditambahkan ke agregat untuk grup peringkat pemain. Saya memilih untuk membagi peringkat menjadi kelompok 100, jadi misalnya 1600 hingga 1699 adalah satu kelompok.
Karena movetext yang sebenarnya di PGN adalah SAN, saya menggunakan pintasan berikut untuk menghitung gerakan: Knight (N), Bishop (B), Rook (R), Queen (Q) dan King (K) bergerak semua dimulai dengan huruf bagian mereka . Castling (OO dan OOO) dihitung secara terpisah, sebagai kasus khusus. Semua gerakan yang tersisa dihitung sebagai gerakan gadai tanpa pemeriksaan lebih lanjut.
Tidak ada pembersihan data yang dilakukan. Tidak ada upaya untuk mengidentifikasi outlier dan menghapusnya (misalnya game yang sangat pendek dan panjang, dll). Saya terus, tetapi tidak termasuk dalam analisis berikut, hasil dari peringkat di bawah 1600 - ukuran sampel untuk permainan ini jauh di bawah 100, yang mengarah ke variasi besar dalam hasil. Data mentah disediakan di akhir posting ini.
Beberapa kekurangan informasi: saat ini, saya hanya mengumpulkan total yang sangat mendasar, dan memberikan rata-rata. Saya cukup yakin bahwa secara umum, data TIDAK terdistribusi secara normal, tetapi tidak akan dapat mengatakan lebih banyak tanpa benar-benar mengeluarkan hitungan mentah dan menjalankannya melalui program statistik. Saya dapat melakukannya, jika ada minat. Untuk saat ini, ini berarti tidak ada interval kepercayaan, atau informasi lain tentang distribusi angka yang diwakili oleh rata-rata tersebut. Saya juga belum memeriksa berapa tahun rentang set data - jika ini mewakili bertahun-tahun, mungkin bermanfaat untuk mencoba mengoreksi kekuatan keseluruhan lapangan.
Beberapa Tren:
Sebuah kata pada peringkat pemain - kelompok peringkat yang paling sering ditemui adalah, dalam urutan: 2400 hingga 2500, 2500 hingga 2600, dan 2300 hingga 2400. Grup peringkat ini memberikan 72% dari jumlah pertandingan yang dihitung.
Melihat hasil yang sebenarnya, panjang game rata-rata sedikit mengejutkan:
Kelompok pemeringkat sub-2000 semuanya memiliki permainan yang jauh lebih singkat daripada kelompok yang lebih tinggi. Ini mungkin dijelaskan oleh kemungkinan bahwa mereka memainkan lawan yang lebih kuat (lihat peringkat rata-rata, di atas), dan bahwa mereka dikalahkan dalam gerakan yang lebih sedikit. Ini tampaknya bertentangan dengan game yang sedikit lebih pendek yang dimainkan oleh grup peringkat teratas, meskipun itu mungkin berkontribusi pada ukuran sampel yang lebih kecil.
Perbedaan yang relatif besar dalam panjang rata-rata permainan berarti bahwa memberikan frekuensi memindahkan bagian tertentu, daripada jumlah total kali sepotong dipindahkan, mungkin adalah perbandingan yang lebih adil. Menghitung hasil frekuensi dalam grafik berikut:
Tren berikut tampaknya ada:
- Frekuensi gerakan ksatria tampaknya tren sedikit ke bawah dengan peringkat.
- Bishop bergerak tren ke bawah hingga sekitar tahun 2000, lalu perlahan-lahan tren ke atas.
- Tren pergerakan Rook naik tajam pada titik yang kira-kira sama, dan tetap lebih sering daripada gerakan Bishop dalam permainan tingkat tinggi.
- Pion bergerak tampaknya tren sedikit ke bawah dengan kenaikan peringkat. Pengecualian besar adalah kategori teratas, 2800 hingga 2900. Ini membawa kita ke poin berikutnya:
- Kategori peringkat teratas menyediakan outlier atau tren tren dalam sejumlah pengukuran. Ini dapat dijelaskan dalam berbagai cara - 1) ukuran sampel cukup rendah pada 363, tidak kecil, tetapi 10% dari ukuran sampel terkecil berikutnya yang disertakan. 2) Karena mereka berada di puncak grup peringkat, mereka tidak pernah memainkan lawan yang "lebih kuat" daripada diri mereka sendiri. 3) Atau hanya pada level ini, gaya permainan mereka telah melampaui level di bawah mereka. Dugaan saya adalah kombinasi dari 1) dan 2).
- Perbedaan dalam gerakan ratu dan gerakan castling sangat kecil tanpa tren nyata, selain tren kecil ke bawah dalam kedua kasus.
- Frekuensi gerakan raja memiliki beberapa perbedaan terbesar. Tidak ada tren yang jelas terlihat, dan tampaknya mengubah arah 3 atau 4 kali.
Analisis lebih lanjut
Beberapa ide untuk analisis masa depan:
- Perbaikan statistik dasar: Saya merasa game yang sangat pendek dan panjang mungkin harus dikecualikan. Juga, distribusi jumlah aktual mungkin sangat jitu.
- Memisahkan analisis lebih jauh juga dapat menghasilkan hasil yang menarik. Sebagai contoh, saya akan tertarik untuk mengetahui bagaimana frekuensi untuk hitam dan putih cocok (Apakah mereka sama, atau berbeda? Mengapa?).
- Kategorisasi berdasarkan perbedaan peringkat mungkin juga menarik, apakah pemain memainkan lawan yang lebih kuat (katakanlah, 200 peringkat di atas mereka) bermain dengan frekuensi gerakan yang berbeda? Sayangnya ini membutuhkan ELO kedua pemain untuk diketahui, yang jarang terjadi dalam kumpulan data ini.
- Kecenderungan untuk kastil pendek vs kastil juga dapat bervariasi berdasarkan peringkat.
- Sepotong statistik promosi, beberapa analisis struktural ringan (misalnya kejadian bidak ganda, en passant, pin, garpu, ditunjukkan oleh rating) mungkin berwawasan luas.
- "Heat-map" penempatan piece di papan aktual, ditunjukkan oleh rating mungkin juga cukup menarik.
Kumpulan data dalam format CSV
Bagi mereka yang ingin bermain dengan data, merasa bebas.
Kisaran Peringkat, Ukuran Sampel, Panjang Permainan Rata-Rata, Pergerakan Gadai Rata-Rata, Pergerakan Ksatria Rata-rata, Pergerakan Uskup Rata-Rata, Pergerakan Rook Rata, Pergerakan Ratu Rata-Rata, Pergerakan Raja Rata-Rata, Castling Rata-rata
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857