Siapa pun yang mengikuti bisbol kemungkinan telah mendengar tentang penampilan tipe-MVP Toronto-Jose Bautista yang entah dari mana. Dalam empat tahun sebelumnya, ia mencapai sekitar 15 home run per musim. Tahun lalu ia mencapai 54, angka yang hanya dilampaui oleh 12 pemain dalam sejarah baseball.
Pada 2010 dia dibayar 2,4 juta dan dia meminta 10,5 juta untuk tim 2011. Mereka menawarkan 7,6 juta. Jika dia bisa mengulanginya di tahun 2011, dia akan dengan mudah mendapatkan jumlah yang layak. Tapi apa kemungkinan dia mengulangi? Seberapa keras kita dapat mengharapkan dia untuk mundur ke mean? Seberapa besar penampilannya yang bisa kita harapkan karena kebetulan? Apa yang bisa kita harapkan dari total 2010 yang disesuaikan dengan regresi-to-the-mean? Bagaimana cara saya mengatasinya?
Saya telah bermain-main dengan Database Baseball Lahman dan memeras kueri yang mengembalikan total home run untuk semua pemain dalam lima musim sebelumnya yang memiliki setidaknya 50 at-bats per musim.
Tabelnya terlihat seperti ini (perhatikan Jose Bautista di baris 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
dan hasil lengkap (232 baris) tersedia di sini .
Saya benar-benar tidak tahu harus mulai dari mana. Adakah yang bisa mengarahkan saya ke arah yang benar? Beberapa teori yang relevan, dan perintah R akan sangat membantu.
Terima kasih
Tommy
Catatan: Contohnya sedikit dibuat-buat. Home run jelas bukan indikator terbaik dari nilai pemain, dan total home run tidak mempertimbangkan berbagai peluang per musim yang dimiliki adonan untuk melakukan home run (penampilan di plate). Juga tidak mencerminkan bahwa beberapa pemain bermain di stadion yang lebih menguntungkan, dan bahwa rata-rata liga rumah berubah dari tahun ke tahun. Dll. Jika saya dapat memahami teori di balik akuntansi untuk regresi dengan rata-rata, saya dapat menggunakannya pada langkah-langkah yang lebih cocok daripada SDM.