Untuk model-rata-rata GLM, apakah kita rata-rata prediksi pada tautan atau skala respons?

Untuk menghitung prediksi rata-rata model pada skala respons GLM, yang "benar" dan mengapa?

Hitung model rata-rata prediksi pada skala tautan dan kemudian kembali transformasi ke skala respons, atau
Kembali mengubah prediksi ke skala respons dan kemudian menghitung rata-rata model

Prediksinya dekat tetapi tidak sama jika modelnya adalah GLM. Paket R yang berbeda memberikan opsi untuk keduanya (dengan standar yang berbeda). Beberapa kolega berpendapat dengan keras bahwa # 1 salah karena "semua orang melakukan # 2". Intuisi saya mengatakan bahwa # 1 adalah "benar" karena membuat semua linear matematika linear (# 2 rata-rata hal-hal yang tidak pada skala linier). Simulasi sederhana menemukan bahwa # 2 memiliki MSE yang sangat (sangat!) Sedikit lebih kecil dari # 1. Jika # 2 benar, apa alasannya? Dan, jika # 2 benar, mengapa alasan saya (menjaga linear matematika linear) alasan yang buruk?

Sunting 1: Komputasi berarti marginal atas tingkat faktor lain dalam GLM adalah masalah yang mirip dengan pertanyaan yang saya ajukan di atas. Russell Lenth menghitung alat marginal model GLM menggunakan "waktu" (kata-katanya) # 1 (dalam paket emmeans) dan argumennya mirip dengan intuisi saya.

Sunting 2: Saya menggunakan rata-rata model untuk merujuk ke alternatif untuk pemilihan model di mana prediksi (atau koefisien) diperkirakan sebagai rata-rata tertimbang untuk semua atau sebagian dari model bersarang "terbaik" (lihat referensi dan paket R di bawah) .

Mengingat model bersarang, di mana adalah prediksi linear (dalam ruang link) untuk individu untuk model , dan adalah berat untuk model , model-rata prediksi menggunakan # 1 di atas (rata-rata pada link skala dan kemudian backtransformasi ke skala respons) adalah: $M$ $\eta_i^m$ $i$ $m$ $w_m$ $m$

{\hat{Y}}_{i} = g^{- 1} (\sum_{m = 1}^{M} w_{m} η_{i}^{m})

$\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big)$

dan prediksi model-rata-rata menggunakan # 2 di atas (kembali mengubah semua prediksi dan kemudian rata-rata pada skala respons) adalah: $M$

{\hat{Y}}_{i} = \sum_{m = 1}^{M} w_{m} g^{- 1} (η_{i}^{m})

$\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m})$

Beberapa metode Bayesian dan Frequentist dari model rata-rata adalah:

Hoeting, JA, Madigan, D., Raftery, AE dan Volinsky, CT, 1999. Model Bayesian rata-rata: tutorial. Ilmu statistik, hal.382-401.
Burnham, KP dan Anderson, DR, 2003. Pemilihan model dan inferensi multimodel: pendekatan informasi-teori praktis. Sains Springer & Media Bisnis.
Hansen, BE, 2007. Model kuadrat terkecil rata-rata. Econometrica, 75 (4), hal.1175-1189.
Claeskens, G. dan Hjort, NL, 2008. Pemilihan model dan rata-rata model. Cambridge Books.

Paket R termasuk BMA , MuMIn , BAS , dan AICcmodavg . (Catatan: ini bukan pertanyaan tentang kebijaksanaan rata-rata model).

generalized-linear-model model-averaging

— JWalker
sumber

Saya menduga alasan pertanyaan Anda tidak mendapat jawaban adalah karena pembaca lain, seperti saya, tidak mengerti pertanyaan Anda. Apa yang Anda maksudkan dengan "model-rata-rata"? Tolong jelaskan konteks secara detail sehingga kami memahami masalah apa yang Anda coba selesaikan. Sejauh yang saya bisa lihat, paket emmeans tidak rata-rata prediksi dari model yang berbeda.

— Gordon Smyth

Terima kasih telah menanyakan ini dan saya dapat melihat bahwa menambahkan catatan Russell Lenth membingungkan pertanyaan saya. Saya mencoba menjelaskan ini di atas. Paket emmeans akan menghitung rata-rata marginal dan SE pada tingkat faktor lain dan statistik ini dihitung pada skala tautan dan kemudian ditransformasikan kembali. Lihat bagian "Model adalah panduan terbaik kami" .

— JWalker

Saya benar-benar tertarik pada jawaban atas pertanyaan ini. Sementara itu, komentar. Hasil MSE tersebut dihitung pada skala back-transformed. Saya berani bertaruh bahwa dengan hasil simulasi yang sama, MSE, ketika dihitung pada skala tautan, akan lebih kecil dengan # 1 daripada dengan # 2. Alasannya adalah bahwa mean sampel adalah penaksir kuadrat terkecil dari rata-rata populasi, bahkan pada skala yang salah.

— Russ Lenth

Cara optimal untuk menggabungkan estimator atau prediktor tergantung pada fungsi kerugian yang Anda coba untuk meminimalkan (atau fungsi utilitas yang Anda coba untuk memaksimalkan).

Secara umum, jika fungsi kerugian mengukur kesalahan prediksi pada skala respons, maka rata-rata prediktor pada skala respons benar. Jika, misalnya, Anda berupaya meminimalkan kesalahan prediksi kuadrat yang diharapkan pada skala respons, maka prediktor rata-rata posterior akan optimal dan, tergantung pada asumsi model Anda, yang mungkin setara dengan rata-rata prediksi pada skala respons.

Perhatikan bahwa rata-rata pada skala prediktor linier dapat berkinerja sangat buruk untuk model diskrit. Misalkan Anda menggunakan regresi logistik untuk memprediksi probabilitas variabel respons biner. Jika salah satu model memberikan perkiraan probabilitas nol, maka prediktor linier untuk model itu akan minus minus. Mengambil rata-rata tak terhingga dengan sejumlah nilai terbatas masih akan tak terbatas.

Sudahkah Anda berkonsultasi dengan referensi yang Anda daftarkan? Saya yakin bahwa Hoeting et al (1999) misalnya membahas fungsi kerugian, walaupun mungkin tidak terlalu detail.

— Gordon Smyth
sumber

Luar biasa. Terima kasih atas tanggapan ini (saya menyambut orang lain!). Saya berasumsi bahwa "maka rata-rata prediktor kemungkinan akan optimal atau dekat dengan itu" adalah rata-rata prediktor pada skala respons. Catatan logistik sangat membantu.

— JWalker

@ rvl Mengenai linearitas fungsi kerugian, saya berpikir dalam hal fungsi pengaruh kerugian. Saya setuju itu agak samar, jadi saya telah mengedit komentar saya. Saya harus tidak setuju dengan komentar Anda yang lain. GLM diperkirakan oleh ML, bukan oleh hilangnya kesalahan kuadrat. Terlepas dari namanya, algoritma IRLS yang populer untuk GLM tidak meminimalkan jumlah kuadrat dan variabel kerja IRLS melibatkan residu standar pada skala respons, bukan skala tautan. Bagaimanapun, estimasi dan prediksi tidak sama dan tidak perlu memiliki fungsi kerugian yang sama.

— Gordon Smyth

@rvl Nilai nol pas yang tepat sering muncul dalam regresi logistik dan telah dibahas di forum ini beberapa kali.

— Gordon Smyth

@ rvl Kerugian tidak dievaluasi pada skala tautan. Diskusi ini bukan tempat yang tepat bagi saya untuk menawarkan Anda tutorial tentang GLM - saya malah merujuk Anda ke buku saya tentang GLM yang akan diterbitkan Springer dalam waktu sekitar satu bulan. Diskusi ini juga bukan tempat yang tepat bagi Anda untuk menawarkan jawaban alternatif terhadap pertanyaan awal. Tulis jawaban yang tepat jika Anda ingin melakukannya.

— Gordon Smyth

Berikut ini tautan ke buku kami tentang GLM: doi.org/10.1007/978-1-4419-0118-7

— Gordon Smyth