EDIT: Sejak membuat posting ini, saya telah menindaklanjuti dengan posting tambahan di sini .
Ringkasan teks di bawah ini: Saya sedang mengerjakan model dan telah mencoba regresi linier, transformasi Box Cox dan GAM tetapi belum membuat banyak kemajuan
Dengan menggunakan R
, saya saat ini sedang mengerjakan model untuk memprediksi keberhasilan pemain baseball liga kecil di tingkat liga utama (MLB). Variabel dependen, karier yang ofensif menang di atas penggantian (oWAR), adalah proksi untuk sukses di level MLB dan diukur sebagai jumlah kontribusi ofensif untuk setiap permainan yang dilibatkan pemain selama karirnya (detail di sini - http : //www.fangraphs.com/library/misc/war/). Variabel independen adalah z-skor variabel ofensif liga kecil untuk statistik yang dianggap sebagai prediktor penting keberhasilan di tingkat liga utama termasuk usia (pemain dengan lebih banyak sukses di usia yang lebih muda cenderung prospek yang lebih baik), strike out rate [SOPct ], walk rate [BBrate] dan produksi yang disesuaikan (ukuran global produksi ofensif). Selain itu, karena ada beberapa level liga minor, saya telah memasukkan variabel dummy untuk level liga minor (Double A, High A, Low A, Rookie, dan Musim Pendek dengan Triple A [level tertinggi sebelum liga utama] sebagai variabel referensi]). Catatan: Saya telah mengubah skala PERANG menjadi variabel yang berubah dari 0 menjadi 1.
Variabel sebar adalah sebagai berikut:
Untuk referensi, variabel dependen, oWAR, memiliki plot berikut:
Saya mulai dengan regresi linier oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
dan mendapatkan plot diagnostik berikut:
Ada masalah yang jelas dengan kurangnya ketidakberpihakan dari residu dan kurangnya variasi acak. Selain itu, residu tidak normal. Hasil regresi ditunjukkan di bawah ini:
Mengikuti saran di utas sebelumnya , saya mencoba transformasi Box-Cox tanpa hasil. Selanjutnya, saya mencoba GAM dengan tautan log dan menerima plot ini:
Asli
Plot Diagnostik Baru
Sepertinya splines membantu mencocokkan data tetapi plot diagnostik masih menunjukkan kecocokan yang buruk. EDIT: Saya pikir saya melihat residual vs nilai pas awalnya tapi saya salah. Plot yang awalnya ditampilkan ditandai sebagai Asli (di atas) dan plot yang saya unggah kemudian ditandai sebagai Plot Diagnostik Baru (juga di atas)
The model telah meningkat
tetapi hasil yang dihasilkan oleh perintah gam.check(myregression, k.rep = 1000)
tidak begitu menjanjikan.
Adakah yang bisa menyarankan langkah selanjutnya untuk model ini? Saya senang memberikan informasi lain yang menurut Anda mungkin berguna untuk memahami kemajuan yang saya buat sejauh ini. Terima kasih atas bantuan yang Anda berikan.