Mengukur Regresi dengan Mean di Memukul Home Runs

11

Siapa pun yang mengikuti bisbol kemungkinan telah mendengar tentang penampilan tipe-MVP Toronto-Jose Bautista yang entah dari mana. Dalam empat tahun sebelumnya, ia mencapai sekitar 15 home run per musim. Tahun lalu ia mencapai 54, angka yang hanya dilampaui oleh 12 pemain dalam sejarah baseball.

Pada 2010 dia dibayar 2,4 juta dan dia meminta 10,5 juta untuk tim 2011. Mereka menawarkan 7,6 juta. Jika dia bisa mengulanginya di tahun 2011, dia akan dengan mudah mendapatkan jumlah yang layak. Tapi apa kemungkinan dia mengulangi? Seberapa keras kita dapat mengharapkan dia untuk mundur ke mean? Seberapa besar penampilannya yang bisa kita harapkan karena kebetulan? Apa yang bisa kita harapkan dari total 2010 yang disesuaikan dengan regresi-to-the-mean? Bagaimana cara saya mengatasinya?

Saya telah bermain-main dengan Database Baseball Lahman dan memeras kueri yang mengembalikan total home run untuk semua pemain dalam lima musim sebelumnya yang memiliki setidaknya 50 at-bats per musim.

Tabelnya terlihat seperti ini (perhatikan Jose Bautista di baris 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

dan hasil lengkap (232 baris) tersedia di sini .

Saya benar-benar tidak tahu harus mulai dari mana. Adakah yang bisa mengarahkan saya ke arah yang benar? Beberapa teori yang relevan, dan perintah R akan sangat membantu.

Terima kasih

Tommy

Catatan: Contohnya sedikit dibuat-buat. Home run jelas bukan indikator terbaik dari nilai pemain, dan total home run tidak mempertimbangkan berbagai peluang per musim yang dimiliki adonan untuk melakukan home run (penampilan di plate). Juga tidak mencerminkan bahwa beberapa pemain bermain di stadion yang lebih menguntungkan, dan bahwa rata-rata liga rumah berubah dari tahun ke tahun. Dll. Jika saya dapat memahami teori di balik akuntansi untuk regresi dengan rata-rata, saya dapat menggunakannya pada langkah-langkah yang lebih cocok daripada SDM.

r regression modeling

— TMOD
sumber

2

Baseball adalah sumber contoh favorit banyak ahli statistik AS sehingga pencarian Google (/ Cendekia) akan memunculkan beberapa artikel yang relevan, misalnya Morrison dan Schmittlein (1981) jstor.org/stable/2630890 . Saya akan menyerahkannya kepada seseorang yang lebih akrab dengan baseball dan R untuk menjawab pertanyaan Anda.

— onestop

1

Saya juga menyarankan Anda memeriksa karya JC Bradbury dan blognya, Sabernomics, sabernomics.com/sabernomics . Bukunya tentang mengukur nilai pemain kemungkinan akan menjadi wawasan tentang karakteristik apa yang diprediksi produktivitas masa depan.

— Andy W

2

Masalah seperti yang dinyatakan adalah sedikit seperti masalah pencilan , tetapi tidak dengan cara yang biasa orang pikirkan pencilan. Untuk menggabungkan hasil yang luar biasa (yaitu outlier) Anda akan memerlukan "distribusi sampel" dengan ekor yang berat (hasil Jose jauh lebih dari 3 standar deviasi dari rata-rata di atas data masa lalu), sehingga ini dapat membantu Anda menyesuaikan data dengan lebih baik, dan memperhitungkannya dalam prediksi.

— probabilityislogic

Jika Anda akan mempertimbangkan jalan pintas kecil kasar di samping semua komentar yang lebih canggih muncul di sini, ada Dixon Test for Outliers yang dapat Anda lakukan pada sampel sekecil 4. Lihat cee.vt.edu/ewr/environmental/teach/smprimer / outlier / ...

— rolando2

3

Saya pikir pasti ada penyusutan Bayesian atau koreksi sebelumnya yang dapat membantu prediksi tetapi Anda mungkin ingin juga mempertimbangkan taktik lain ...

Carilah pemain dalam sejarah, bukan hanya beberapa tahun terakhir, yang telah mengalami musim breakout setelah pasangan di jurusan (peningkatan dramatis mungkin 2x) dan lihat bagaimana mereka melakukannya di tahun berikutnya. Mungkin saja kemungkinan untuk mempertahankan kinerja ada prediktor yang tepat.

Ada berbagai cara untuk melihat masalah ini, tetapi seperti kata mpiktas, Anda akan membutuhkan lebih banyak data. Jika Anda hanya ingin berurusan dengan data terbaru maka Anda harus melihat statistik liga secara keseluruhan, pitcher yang ia hadapi, itu masalah yang kompleks.

Dan kemudian ada hanya mempertimbangkan data Bautista sendiri. Ya, itu adalah tahun terbaiknya tetapi itu juga pertama kalinya sejak 2007 ia memiliki lebih dari 350 AB (569). Anda mungkin ingin mempertimbangkan untuk mengubah persentase peningkatan kinerja.

— John
sumber

3

Anda bisa memasukkan model ke data ini saja dan mendapatkan prediksi yang memperhitungkan regresi ke mean dengan menggunakan model campuran (bertingkat). Prediksi-prediksi dari model-model semacam itu menjelaskan regresi ke nilai tengah. Bahkan tanpa mengetahui apa-apa tentang baseball, saya tidak menemukan hasil yang saya peroleh, karena, seperti yang Anda katakan, model ini benar-benar perlu memperhitungkan faktor-faktor lain, seperti penampilan di piring.

Saya pikir model efek campuran Poisson akan lebih cocok daripada model campuran linier karena jumlah home run adalah hitungan. Melihat data yang Anda berikan , histogram hrmenunjukkan kemiringannya sangat positif, menunjukkan bahwa model campuran linier tidak akan berfungsi dengan baik, dan termasuk angka nol yang cukup besar, dengan atau tanpa jam-transformasi pertama.

Berikut ini beberapa kode yang menggunakan lmerfungsi dari paket lme4 . Setelah membuat variabel ID untuk mengidentifikasi setiap pemain dan membentuk kembali data ke format 'panjang' seperti yang ditunjukkan oleh mpikta dalam jawabannya, (saya melakukan itu di Stata karena saya tidak pandai mengelola data di R, tetapi Anda bisa melakukannya dalam paket spreadsheet):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Ini cocok dengan model dengan log-link yang memberikan ketergantungan eksponensial dari hit-rate pada tahun, yang diperbolehkan bervariasi di antara para pemain. Fungsi tautan lainnya dimungkinkan, meskipun tautan identitas memberi kesalahan karena nilai pas negatif. Tautan sqrt berfungsi dengan baik, dan memiliki BIC dan AIC yang lebih rendah daripada model dengan tautan log, sehingga mungkin lebih cocok. Prediksi untuk hit-rate pada 2011 sensitif terhadap fungsi tautan yang dipilih, terutama untuk pemain seperti Bautista yang hit-ratenya telah banyak berubah baru-baru ini.

Sayangnya saya belum berhasil mendapatkan prediksi seperti itu lme4. Saya lebih akrab dengan Stata, yang membuatnya sangat mudah untuk mendapatkan prediksi untuk pengamatan dengan nilai yang hilang untuk hasilnya, walaupun xtmelogit tampaknya tidak menawarkan pilihan fungsi tautan selain log, yang memberikan prediksi 50 untuk Bautista's. home run di 2011. Seperti yang saya katakan, saya tidak menemukan itu sangat bisa dipercaya. Saya akan berterima kasih seseorang dapat menunjukkan cara menghasilkan prediksi untuk 2011 dari lmermodel di atas.

Sebuah Model autoregressive seperti AR (1) untuk kesalahan pemain-tingkat mungkin menarik juga, tapi aku tidak tahu bagaimana untuk menggabungkan struktur seperti dengan model campuran Poisson.

— onestop
sumber

menggunakan fungsi melt dari paket ulang, mengkonversi ke format panjang adalah satu baris dalam R, melt (data, id = 1: 2).

— mpiktas

Ekstensi / alternatif yang menarik untuk ini adalah agar sesuai dengan model hierarkis dengan distribusi Possion sampling dengan parameter laju sampel (1 laju per tahun), tetapi distribusi sampling Cauchy untuk parameter laju (bukan campuran normal atau normal). Distribusi Cauchy akan memungkinkan terjadinya peristiwa ekstrem (dengan mengambil sampel parameter tingkat besar). Kasus menengah (antara normal dan Cauchy) adalah distribusi-t. (Cauchy lebih mudah diambil sampelnya karena dapat menggunakan metode CDF terbalik).

— probabilityislogic

2

Anda memerlukan data tambahan tentang pemain dan karakteristik mereka dalam rentang waktu yang Anda miliki data tentang home-run. Untuk langkah pertama, tambahkan beberapa karakteristik yang bervariasi waktu seperti usia pemain atau pengalaman. Kemudian Anda bisa menggunakan HLM atau model data panel. Anda perlu menyiapkan data dalam bentuk:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Maka model yang paling sederhana adalah (fungsi lme berasal dari paket nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Model ini akan sangat bergantung pada asumsi bahwa angka home-run masing-masing pemain hanya bergantung pada pengalaman yang memungkinkan beberapa variabilitas. Ini mungkin tidak akan terlalu akurat, tetapi Anda setidaknya akan merasakan betapa tidak mungkinnya angka Jose Bautista dibandingkan dengan pemain rata-rata. Model ini dapat ditingkatkan lebih lanjut dengan menambahkan karakteristik pemain lain.

— mpiktas
sumber

Saya tidak akan mengatakan bahwa @TMOD membutuhkan lebih banyak data, hanya saja prediksi cenderung lebih akurat jika @TMOD memiliki lebih banyak data. Ada cukup informasi dalam pertanyaan untuk menghasilkan prediksi.

— probabilityislogic

@probabilityislogic, ya ada informasi yang cukup untuk menghasilkan prediksi, tetapi kemudian model hanya akan memiliki intersep.

— mpiktas

belum tentu, seseorang dapat memuat model AR (1) atau AR (2) untuk data ini

— probabilityislogic

@probabilityislogic, ah ya, Anda benar.

— mpiktas

2

Anda mungkin ingin membaca The Book Blog.

Tom Tango dan penulis lain dari "The Book: Playing the Perscentages in Baseball" mungkin merupakan sumber sabermetrik terbaik di luar sana. Secara khusus, mereka suka regresi ke mean. Mereka datang dengan sistem peramalan yang dirancang untuk menjadi sistem yang paling dasar yang dapat diterima (Marcel), dan itu bergantung hampir secara eksklusif pada regresi ke rata-rata.

Dari atas kepala saya, saya kira salah satu metode akan menggunakan ramalan seperti itu untuk memperkirakan bakat sejati, dan kemudian menemukan distribusi yang tepat di sekitar bakat yang berarti. Setelah Anda memilikinya, setiap tampilan lempeng akan menjadi seperti uji coba Bernoulli, sehingga distribusi binomial dapat membawa Anda ke jalan selanjutnya.

— Michael McGowan
sumber

1

FYI, dari 2011 hingga 2014, ia menekan 43, 27, 28, dan 35.

Itu cukup dekat dengan rata-rata permainan 162-nya 32 (yang tentu saja termasuk nilai-nilai itu), dan sekitar 1 SD di bawah 54 tahun 2010.

Tampak seperti regresi terhadap mean dalam aksi: Kelompok ekstrim yang dibangun dengan memanfaatkan subjek yang berisik (1 dalam kasus ini) menyimpang dari kelompok mereka yang dimaksud secara kebetulan.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— tim
sumber