Apakah akan menggunakan offset dalam regresi Poisson saat memprediksi total gol karier yang dicetak oleh pemain hoki


10

Saya punya pertanyaan tentang apakah atau tidak menggunakan offset. Asumsikan model yang sangat mudah, di mana Anda ingin menggambarkan jumlah (keseluruhan) gol dalam hoki. Jadi Anda memiliki gol, jumlah permainan yang dimainkan dan "striker" variabel dummy yang sama dengan 1 jika pemain adalah striker dan 0 sebaliknya. Jadi, mana dari model-model berikut ini yang ditentukan dengan benar?

  1. tujuan = permainan + striker, atau

  2. tujuan = ofset (permainan) + striker

Sekali lagi, gol adalah tujuan keseluruhan dan jumlah permainan adalah permainan keseluruhan untuk satu pemain. Misalnya ada pemain yang mengambil 50 gol dalam 100 pertandingan dan pemain lain yang memiliki 20 gol dalam 50 pertandingan dan seterusnya.

Apa yang harus saya lakukan ketika saya ingin memperkirakan jumlah gol? Apakah benar-benar perlu menggunakan offset di sini?

Referensi:


Apa variabel dependen Anda? Apakah jumlah total gol dalam karier hingga saat ini untuk pemain tertentu? Juga, apakah ada alasan mengapa Anda tidak ingin memprediksi tujuan rata-rata per game?
Jeromy Anglim

Ya itu adalah jumlah total gol! Tidak, saya tidak memiliki data untuk setiap game. Saya hanya punya data keseluruhan.
MarkDollar

Variabel dependen adalah (jumlah) tujuan. (Lihat persamaan di atas)
MarkDollar

Saya telah mengubah sedikit judulnya sehingga itu bukan duplikat dari pertanyaan sebelumnya. Jangan ragu untuk memodifikasi jika saya salah paham.
Jeromy Anglim

Jawaban:


16

Model offset adalah pemodelan sasaran per game, seperti yang dapat dilihat di sini:

log(goals/games) = a+bx

setara dengan

log(goals) -log(games) = a+bx

setara dengan

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Lihat slide 35 di sini: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Jika menurut Anda tanda + bx terkait dengan rasio log sasaran ke game (kurs), gunakan offset. Jika Anda berpikir ada efek permainan yang lebih rumit, mungkin dari akumulasi pengalaman, jangan. Untuk diskusi lebih lanjut, lihat ini: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811


1

Beberapa poin sederhana yang tidak secara langsung menjawab pertanyaan Anda tentang offset:

  • Saya akan melihat apakah jumlah pertandingan berkorelasi dengan gol rata-rata yang dicetak. Dalam banyak olahraga mencetak gol elit yang dapat saya pikirkan (misalnya, sepak bola, sepak bola peraturan Australia, dll.), Saya akan memperkirakan bahwa umur panjang karier terkait dengan keberhasilan karier. Dan setidaknya untuk pemain dalam peran mencetak gol, kesuksesan terkait dengan jumlah gol yang dicetak. Jika ini benar, maka jumlah gim akan menangkap dua efek. Satu akan berhubungan dengan fakta bahwa lebih banyak permainan yang dimainkan berarti lebih banyak peluang untuk mencetak gol; dan yang lainnya akan menangkap efek terkait keterampilan. Anda bisa memeriksa hubungan antara jumlah gim dan rata-rata gol yang dicetak (mis. Gol / jumlah gim) untuk menjelajahi ini. Saya pikir ini memiliki implikasi substantif untuk setiap pemodelan yang Anda lakukan.
  • Naluri saya adalah mengubah variabel dependen menjadi sasaran rata-rata per game. Saya menyadari bahwa Anda akan memiliki pengukuran keterampilan pemain yang lebih tepat bagi mereka yang memainkan lebih banyak game, jadi mungkin itu akan menjadi masalah. Tergantung pada ketepatan dalam model yang Anda inginkan, dan distribusi yang dihasilkan dari pemain, Anda mungkin dapat mengandalkan teknik pemodelan linier standar. Tapi mungkin ini agak terlalu diterapkan untuk tujuan Anda, dan mungkin Anda memiliki alasan untuk ingin memodelkan total gol yang dicetak.

Halo Jeromy! Apa yang Anda descirbe benar-benar benar. Tetapi tidak ada cara untuk membuat model yang mengukur tujuan / permainan. Jadi saya dipaksa untuk model di atas (gol sebagai dependen dan permainan sebagai variabel independen). Saya tahu bahwa permainan berhubungan dengan hal-hal seperti keterampilan dan bahwa saya harus menjelajahi masalah ini (masalah variabel yang dihilangkan dan Endogenitas). Tetapi saat ini saya bertanya-tanya yang mana dari dua model di atas yang harus digunakan!
MarkDollar
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.