Anda mengacaukan efek transformasi data dengan penggunaan fungsi tautan di GLM.
Jika Anda melakukan transformasi log dari respons, itu akan "meluruskan hubungan" jika adalah dalam bentuk . Demikian pula, jika Anda mengambil akar kuadrat dari respons, itu akan membuat varians hampir konstan, jika varians sebanding dengan rata-rata (seperti halnya dengan Poisson, di mana itu sama dengan rata-rata).E( Y| x)exp( a + b x )
Namun, dalam GLM, fungsi tautan tidak digunakan untuk mengubah data.
GLM sendiri memperhitungkan fakta bahwa varian Poisson meningkat dengan rata-rata; Anda tidak perlu melakukan apa pun tentang itu (asalkan asumsi Poisson cocok).
Satu-satunya yang tersisa untuk menjelaskan hubungan antara sang prediktor dan respons. Fungsi tautan memang menentukan bentuk hubungan antara rata-rata bersyarat dari respons dan sang prediktor.
Tautan sqrt terutama digunakan untuk tujuan membandingkan dengan analisis yang lebih lama di mana transformasi akar kuadrat digunakan untuk menerapkan regresi kuadrat terkecil. Dengan menggunakan tautan akar kuadrat Anda dapat menyesuaikan model dengan bentuk fungsional yang sama tetapi dengan estimasi ML penuh dari parameter.
Jika Anda mempertimbangkan untuk menggunakan log karena fakta bahwa itu meluruskan hubungan, itu pasti tautan yang harus Anda gunakan. (Umumnya tautan log juga lebih mudah diartikan.)
Jika Anda benar-benar ingin menjamu kedua fungsi tautan dan memilih di antara keduanya, Anda dapat membandingkan AIC; atau Anda dapat membandingkan penyimpangan (ada pilihan lain tentu saja, tetapi keduanya sudah disediakan dalam ringkasan output dan mereka mengukur "cocok"; mana pun yang Anda lihat, mereka harus mengarah pada kesimpulan yang sama). Namun, kecuali ada beberapa indikasi yang jelas bahwa log-link tidak memadai atau alasan lain untuk menghibur link root, saya hanya akan melakukan log-link.
Perhatikan bahwa jika Anda menggunakan data untuk memilih antara fungsi tautan, tes hipotesis selanjutnya dari koefisien yang diperkirakan dari titik data yang sama akan (antara lain) tidak lagi memiliki sifat nominalnya (kesalahan standar akan terlalu kecil, interval kepercayaan terlalu sempit, interval kepercayaan terlalu sempit). , nilai-p tidak berarti hal yang sama ...)
(Omong-omong, itu bukan satu-satunya dua opsi fungsi tautan untuk Poisson di R, karena ada juga tautan identitas ... dan itu tidak termasuk apa yang dapat Anda lakukan jika Anda pindah ke pas quasi-Poisson)
Peringatan: jika Anda memodelkan variabel dari waktu ke waktu, Anda harus ingat bahwa ada (a) kemungkinan ketergantungan waktu dalam penghitungan Anda, dengan cara yang akan membatalkan asumsi kemandirian GLM (misalnya kesalahan standar Anda dapat dengan mudah salah); dan (b) gagasan regresi palsu dapat dengan mudah diterapkan pada regresi Poisson sebagai regresi biasa (sehingga estimasi parameter Anda bisa dengan mudah salah / menyesatkan juga).
Saya ragu bahwa seri Anda akan diam, jadi ini berpotensi menjadi ancaman serius bagi kesimpulan Anda - tetapi regresi palsu dapat menjadi masalah bahkan dengan seri stasioner (titik yang tidak begitu banyak dipahami; saya memberikan referensi untuk itu dalam hal ini jawaban mana jawaban juga menggambarkan fenomena dengan korelasi dalam kasus non-stasioner dengan contoh lemparan koin sederhana).