Asumsi model linier umum


14

Saya telah membuat model linear umum dengan variabel respon tunggal (kontinu / terdistribusi normal) dan 4 variabel penjelas (3 di antaranya adalah faktor dan yang keempat adalah integer). Saya telah menggunakan distribusi kesalahan Gaussian dengan fungsi tautan identitas. Saya saat ini memeriksa bahwa model memenuhi asumsi model linear umum, yaitu:

  1. independensi Y
  2. fungsi tautan yang benar
  3. skala pengukuran variabel penjelas yang benar
  4. tidak ada pengamatan yang berpengaruh

Pertanyaan saya adalah: bagaimana saya dapat memeriksa bahwa model memenuhi asumsi ini? Titik awal terbaik tampaknya memplot variabel respon terhadap setiap variabel penjelas. Namun, 3 variabel penjelas bersifat kategorikal (dengan level 1-4), jadi apa yang harus saya cari dalam plot?

Juga, apakah saya perlu memeriksa multikolinieritas dan interaksi antar variabel penjelas? Jika ya, bagaimana saya melakukan ini dengan variabel penjelas kategori?

Jawaban:


20

Saya pikir mencoba memikirkan ini sebagai model linier umum adalah berlebihan. Apa yang Anda miliki adalah model regresi lama yang sederhana. Lebih khusus lagi, karena Anda memiliki beberapa variabel penjelas kategoris, dan EV kontinu, tetapi tidak ada interaksi di antara mereka, ini juga bisa disebut ANCOVA klasik.

Saya akan mengatakan bahwa # 3 tidak benar-benar asumsi di sini bahwa Anda perlu khawatir. Dalam hal ini, Anda juga tidak perlu khawatir tentang # 2. Sebaliknya, saya akan menggantikan ini dengan dua asumsi berbeda:

2 '. Homogenitas varian
3 '. Normalitas residu

Selanjutnya, # 4 adalah hal yang penting untuk diperiksa, tetapi saya tidak benar-benar menganggapnya sebagai asumsi semata. Mari kita pikirkan bagaimana asumsi dapat diperiksa.

Kemandirian sering 'diperiksa' terlebih dahulu dengan memikirkan tentang apa data itu berdiri dan bagaimana mereka dikumpulkan. Selain itu, dapat diperiksa menggunakan hal-hal seperti tes lari , tes Durbin-Watson , atau memeriksa pola autokorelasi - Anda juga dapat melihat autokorelasi parsial . (Perhatikan bahwa, ini hanya dapat dinilai relatif terhadap kovariat berkelanjutan Anda.)

FmSebuahx. (Perhatikan bahwa tes ini dapat diterapkan pada kovariat kategorikal Anda tidak seperti di atas.) Untuk EV kontinu, saya suka memetakan residu saya terhadap kovariat kontinu dan memeriksanya secara visual untuk melihat apakah mereka menyebar lebih jauh ke satu sisi atau yang lain.

The normalitas dari residual dapat dinilai melalui beberapa tes, seperti Shapiro-Wilk , atau tes Kolmogorov-Smirnov , tetapi sering terbaik dinilai secara visual melalui qq-plot . (Perhatikan bahwa asumsi ini umumnya yang paling tidak penting dari himpunan; jika tidak terpenuhi, perkiraan beta Anda akan tetap tidak bias , tetapi nilai-p Anda akan tidak akurat.)

Ada beberapa cara untuk menilai pengaruh pengamatan pribadi Anda. Dimungkinkan untuk mendapatkan nilai numerik yang mengindeks ini, tetapi cara favorit saya, jika Anda bisa melakukannya, adalah untuk mengetahui data Anda. Artinya, Anda menjatuhkan setiap titik data secara bergantian dan menyesuaikan kembali model Anda. Kemudian Anda dapat memeriksa seberapa banyak beta Anda terpental jika pengamatan itu bukan bagian dari dataset Anda. Ukuran ini disebut dfbeta . Ini memerlukan sedikit pemrograman, tetapi ada cara standar yang sering kali dapat dihitung oleh perangkat lunak untuk Anda. Ini termasuk leverage dan jarak Cook .

Y

Mengenai "skala pengukuran variabel penjelas yang benar", saya mengajak Anda untuk merujuk pada tingkat pengukuran Steven (yaitu, kategorikal, ordinal, interval & rasio). Hal pertama yang harus disadari adalah bahwa metode regresi (termasuk GLiM) tidak membuat asumsi tentang variabel penjelas, sebaliknya, cara Anda menggunakan variabel penjelas Anda dalam model Anda mencerminkan keyakinan Anda tentang mereka. Selain itu, saya cenderung berpikir level Steven dimainkan berlebihan; untuk perawatan yang lebih teoretis dari topik itu, lihat di sini .


1
Karena Op menyertakan fungsi tautan, saya pikir dia benar-benar bermaksud model linier umum di mana fungsi tautan diterapkan ke Y. Juga saya akan menyebut independensi Y sebagai asumsi. Asumsi saya pikir lebih tepat bahwa komponen kesalahan dalam model independen. Mengingat bahwa saya pikir apa yang ditulis Gung adalah benar.
Michael R. Chernick

@MichaelChernick, saya setuju dengan Anda. Saya telah mengedit jawaban saya sedikit untuk mengatasi masalah ini. Beri tahu saya jika menurut Anda masih perlu kerja keras.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.