Log vs tautan akar kuadrat untuk data Poisson di R


8

Saat ini saya sedang bekerja untuk memodelkan kematian akibat AIDS dari waktu ke waktu menggunakan GLM di R. Saya tahu bahwa ada dua opsi yang mungkin untuk fungsi tautan untuk data Poisson, log, dan root kuadrat.

Saya tahu bahwa root kuadrat bahkan akan keluar masalah variabilitas sedangkan log perlu meluruskan kurva. Tapi, bagaimana saya bisa benar-benar menguji tautan mana yang lebih baik untuk data?


Jawaban:


6

Anda mengacaukan efek transformasi data dengan penggunaan fungsi tautan di GLM.

Jika Anda melakukan transformasi log dari respons, itu akan "meluruskan hubungan" jika adalah dalam bentuk . Demikian pula, jika Anda mengambil akar kuadrat dari respons, itu akan membuat varians hampir konstan, jika varians sebanding dengan rata-rata (seperti halnya dengan Poisson, di mana itu sama dengan rata-rata).E(Y|x)exp(a+bx)

Namun, dalam GLM, fungsi tautan tidak digunakan untuk mengubah data.

GLM sendiri memperhitungkan fakta bahwa varian Poisson meningkat dengan rata-rata; Anda tidak perlu melakukan apa pun tentang itu (asalkan asumsi Poisson cocok).

Satu-satunya yang tersisa untuk menjelaskan hubungan antara sang prediktor dan respons. Fungsi tautan memang menentukan bentuk hubungan antara rata-rata bersyarat dari respons dan sang prediktor.

Tautan sqrt terutama digunakan untuk tujuan membandingkan dengan analisis yang lebih lama di mana transformasi akar kuadrat digunakan untuk menerapkan regresi kuadrat terkecil. Dengan menggunakan tautan akar kuadrat Anda dapat menyesuaikan model dengan bentuk fungsional yang sama tetapi dengan estimasi ML penuh dari parameter.

Jika Anda mempertimbangkan untuk menggunakan log karena fakta bahwa itu meluruskan hubungan, itu pasti tautan yang harus Anda gunakan. (Umumnya tautan log juga lebih mudah diartikan.)

Jika Anda benar-benar ingin menjamu kedua fungsi tautan dan memilih di antara keduanya, Anda dapat membandingkan AIC; atau Anda dapat membandingkan penyimpangan (ada pilihan lain tentu saja, tetapi keduanya sudah disediakan dalam ringkasan output dan mereka mengukur "cocok"; mana pun yang Anda lihat, mereka harus mengarah pada kesimpulan yang sama). Namun, kecuali ada beberapa indikasi yang jelas bahwa log-link tidak memadai atau alasan lain untuk menghibur link root, saya hanya akan melakukan log-link.

Perhatikan bahwa jika Anda menggunakan data untuk memilih antara fungsi tautan, tes hipotesis selanjutnya dari koefisien yang diperkirakan dari titik data yang sama akan (antara lain) tidak lagi memiliki sifat nominalnya (kesalahan standar akan terlalu kecil, interval kepercayaan terlalu sempit, interval kepercayaan terlalu sempit). , nilai-p tidak berarti hal yang sama ...)

(Omong-omong, itu bukan satu-satunya dua opsi fungsi tautan untuk Poisson di R, karena ada juga tautan identitas ... dan itu tidak termasuk apa yang dapat Anda lakukan jika Anda pindah ke pas quasi-Poisson)


Peringatan: jika Anda memodelkan variabel dari waktu ke waktu, Anda harus ingat bahwa ada (a) kemungkinan ketergantungan waktu dalam penghitungan Anda, dengan cara yang akan membatalkan asumsi kemandirian GLM (misalnya kesalahan standar Anda dapat dengan mudah salah); dan (b) gagasan regresi palsu dapat dengan mudah diterapkan pada regresi Poisson sebagai regresi biasa (sehingga estimasi parameter Anda bisa dengan mudah salah / menyesatkan juga).

Saya ragu bahwa seri Anda akan diam, jadi ini berpotensi menjadi ancaman serius bagi kesimpulan Anda - tetapi regresi palsu dapat menjadi masalah bahkan dengan seri stasioner (titik yang tidak begitu banyak dipahami; saya memberikan referensi untuk itu dalam hal ini jawaban mana jawaban juga menggambarkan fenomena dengan korelasi dalam kasus non-stasioner dengan contoh lemparan koin sederhana).


1

Jika Anda memasang GLiM dengan distribusi Poisson yang ditentukan untuk respons, Anda tidak harus mencoba menstabilkan varian bersyarat dari respons. Itu secara otomatis diurus untuk Anda. Poisson GLiM tidak mengasumsikan varian konstan dalam arti bahwa model regresi linier (Gaussian) reguler tidak.

Efek dari fungsi tautan adalah mengubah bentuk garis regresi dalam ruang data asli, dan dengan demikian mengubah interpretasi koefisien. Jika Anda khawatir tentang apakah bentuk / jumlah kelengkungan akan sesuai, Anda selalu dapat menggunakan splines. Dengan demikian, Anda mungkin ingin memilih tautan mana yang akan digunakan berdasarkan interpretabilitas dari koefisien Anda. Menurut pendapat saya, itu biasanya akan mendukung tautan log.

Jika Anda hanya ingin menggunakan kovariat tanpa fungsi spline, dan Anda ingin menentukan bentuk mana yang lebih cocok dengan data Anda, Anda bisa menggunakan validasi silang dan memeriksa kesalahan prediksi sampel.

Meskipun ditulis dalam konteks binomial GLIM (bukan Poisson), Anda mungkin masih tertarik membaca jawaban saya di sini: Perbedaan antara model logit dan probit .

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.