Model campuran linier umum: pemilihan model

10

Pertanyaan / topik ini muncul dalam diskusi dengan seorang kolega dan saya mencari beberapa pendapat tentang ini:

Saya memodelkan beberapa data menggunakan regresi logistik efek acak, lebih tepatnya regresi logistik intersep acak. Untuk efek tetap, saya memiliki 9 variabel yang menarik dan dipertimbangkan. Saya ingin melakukan semacam pemilihan model untuk menemukan variabel yang signifikan dan memberikan model "terbaik" (hanya efek utama).

Ide pertama saya adalah menggunakan AIC untuk membandingkan model yang berbeda tetapi dengan 9 variabel saya tidak terlalu menarik untuk membandingkan 2 ^ 9 = 512 model yang berbeda (kata kunci: pengerukan data).

Saya mendiskusikan hal ini dengan seorang kolega dan dia mengatakan kepada saya bahwa dia ingat pernah membaca tentang menggunakan pemilihan model stepwise (atau forward) dengan GLMM. Tetapi alih-alih menggunakan nilai-p (misalnya berdasarkan uji rasio kemungkinan untuk GLMM), seseorang harus menggunakan AIC sebagai kriteria masuk / keluar.

Saya menemukan ide ini sangat menarik, tetapi saya tidak menemukan referensi yang membahas ini lebih lanjut dan kolega saya tidak ingat di mana dia membacanya. Banyak buku menyarankan menggunakan AIC untuk membandingkan model tetapi saya tidak menemukan diskusi tentang menggunakan ini bersama dengan prosedur pemilihan model bertahap atau maju.

Jadi pada dasarnya saya punya dua pertanyaan:

Apakah ada yang salah dengan menggunakan AIC dalam prosedur pemilihan model bertahap sebagai kriteria masuk / keluar? Jika ya, apa alternatifnya?
Apakah Anda memiliki beberapa referensi yang membahas prosedur di atas itu (juga sebagai referensi untuk laporan akhir?

Terbaik,

Emilia

— Emilia
sumber

3

Pemilihan model bertahap adalah pengerukan data sebanyak pemilihan subset penuh (sebenarnya mencoba menemukan solusi yang hampir sama dalam waktu yang jauh lebih sedikit). Seleksi berbasis AIC adalah pengerukan data juga.

— Michael M

8

Seleksi bertahap salah dalam model bertingkat karena alasan yang sama salah dalam regresi "reguler": Nilai-p akan terlalu rendah, kesalahan standar terlalu kecil, estimasi parameter bias jauh dari 0 dll. Paling penting, ini menyangkal Anda kesempatan untuk berpikir.

9 IV tidak terlalu banyak. Mengapa Anda memilih 9 itu? Tentunya Anda punya alasan.

Satu hal awal yang harus dilakukan adalah melihat banyak plot; yang tepat tergantung sedikit pada apakah data Anda memanjang (dalam hal ini plot dengan waktu pada sumbu x sering berguna) atau berkelompok. Tapi tentu saja lihat hubungan antara 9 IVs dan DV Anda (plot kotak paralel adalah salah satu kemungkinan sederhana).

Yang ideal adalah membangun beberapa model berdasarkan pengertian substantif dan membandingkannya menggunakan AIC, BIC atau ukuran lain. Tetapi jangan heran jika tidak ada model tertentu yang muncul dengan jelas yang terbaik. Anda tidak mengatakan di bidang apa Anda bekerja, tetapi di banyak bidang (kebanyakan?), Alam itu rumit. Beberapa model mungkin cocok dengan baik dan model yang berbeda mungkin lebih cocok pada kumpulan data yang berbeda (bahkan jika keduanya adalah sampel acak dari populasi yang sama).

Adapun referensi - ada banyak buku bagus tentang model campuran nonlinier. Mana yang terbaik untuk Anda tergantung pada a) Bidang apa Anda berada di b) Apa sifat data itu c) Perangkat lunak apa yang Anda gunakan.

Menanggapi komentar Anda

Jika kesembilan variabel itu penting secara ilmiah, setidaknya saya akan mempertimbangkan untuk memasukkan semuanya. Jika variabel yang semua orang anggap penting akhirnya memiliki efek kecil, itu menarik.
Tentunya plot semua variabel Anda dari waktu ke waktu dan dengan berbagai cara.
Untuk masalah umum tentang model multitingkat longitudinal, saya suka Hedeker dan Gibbons ; untuk model longitudinal nonlinear di SAS saya suka Molenberghs dan Verbeke . Dokumentasi SAS sendiri (untuk PROC GLIMMIX) juga menyediakan panduan.

— Peter Flom
sumber

Dalam penelitian ini, subjek yang terkena kombinasi obat dan latihan yang berbeda dari waktu ke waktu dan hasil yang menarik adalah adanya kondisi pernapasan tertentu (ya / tidak). Pasien diukur berulang setiap 2 minggu selama 6 bulan. Dalam hal perangkat lunak, saya menggunakan SAS dan R. 9 IV di mana dipilih oleh penyelidik karena kepentingan ilmiah mereka.

— Emilia

Inspeksi data sama buruknya, jika tidak lebih buruk daripada menggunakan pemilihan model algoritmik. Alasannya, adalah bahwa pemilihan model algoritmik dipahami dengan baik dan dapat berpotensi disesuaikan untuk; melihat data dan menggunakan penilaian subyektif adalah proses yang tidak dapat ditiru atau disesuaikan. Dalam hal apapun, saya akan menghindari melakukan pemilihan model karena pemilihan model membatalkan inferensi. Karena hanya ada 9 kovariat di sini, saya pikir saran terbaik adalah bekerja dengan model penuh atau dengan model yang dipilih berdasarkan bahan saja.

— user3903581

3

Pemilihan model dapat lebih baik dilakukan dengan menggunakan metode penyusutan seperti LASSO. Metode bertahap terlalu liberal. Sebuah pembenaran dapat ditemukan di halaman web Tibshirani. Jika Anda menggunakan R maka ada paket yang disebut glmmLassoyang memungkinkan pemilihan model dalam model efek campuran linier umum menggunakan metode penyusutan LASSO.

— Abderrahim Oulhaj
sumber

1

Referensi yang baik untuk pemilihan model campuran berbasis AIC di R (juga baik untuk boneka) adalah Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

— Jan Philipp S
sumber