Saya ingin menyarankan bahwa fenomena ini (dari tes keseluruhan yang tidak signifikan meskipun ada variabel individu yang signifikan) dapat dipahami sebagai semacam "efek penutupan" agregat dan bahwa meskipun dapat muncul dari variabel penjelas multikolinier, ia tidak perlu melakukan itu sama sekali. Ini juga ternyata bukan disebabkan oleh beberapa penyesuaian perbandingan. Dengan demikian jawaban ini menambahkan beberapa kualifikasi untuk jawaban yang sudah muncul, yang sebaliknya menyarankan bahwa multikolinieritas atau beberapa perbandingan harus dipandang sebagai biang keladinya.
Untuk menetapkan masuk akalnya pernyataan-pernyataan ini, mari kita buat kumpulan variabel ortogonal yang sempurna - sama non-collinear mungkin - dan variabel dependen yang secara eksplisit ditentukan semata-mata oleh penjelasan pertama (ditambah sejumlah kesalahan acak yang baik) independen dari yang lain). Dalam R
hal ini dapat dilakukan (direproduksi, jika Anda ingin bereksperimen) sebagai
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Tidak penting bahwa variabel penjelas adalah biner; yang penting adalah ortogonalitas mereka, yang dapat kita periksa untuk memastikan kode berfungsi seperti yang diharapkan, yang dapat dilakukan dengan memeriksa korelasi mereka. Memang, matriks korelasi itu menarik : koefisien kecil menyarankan y
tidak ada hubungannya dengan salah satu variabel kecuali yang pertama (yang oleh desain) dan nol off-diagonal mengkonfirmasi ortogonalitas dari variabel penjelas:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Mari kita jalankan serangkaian regresi , hanya menggunakan variabel pertama, lalu dua yang pertama, dan seterusnya. Untuk singkatnya dan perbandingan mudah, di masing-masing saya hanya menunjukkan garis untuk variabel pertama dan uji F keseluruhan:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Lihatlah bagaimana (a) signifikansi variabel pertama nyaris tidak berubah, (a ') variabel pertama tetap signifikan (p <0,05) bahkan ketika menyesuaikan untuk beberapa perbandingan ( misalnya , menerapkan Bonferroni dengan mengalikan nilai p-nominal dengan jumlah variabel penjelas), (b) koefisien variabel pertama hampir tidak berubah, tetapi (c) signifikansi keseluruhan tumbuh secara eksponensial, dengan cepat menggelembung ke tingkat yang tidak signifikan.
Saya menafsirkan ini sebagai menunjukkan bahwa termasuk variabel penjelas yang sebagian besar independen dari variabel dependen dapat "menutupi" nilai p keseluruhan regresi. Ketika variabel baru ortogonal dengan yang sudah ada dan ke variabel dependen, mereka tidak akan mengubah nilai-p individu. (Perubahan kecil yang terlihat di sini adalah karena kesalahan acak ditambahkan y
, secara tidak sengaja, sedikit berkorelasi dengan semua variabel lainnya.) Satu pelajaran untuk menarik dari ini adalah bahwa kekikiran berharga : menggunakan beberapa variabel yang diperlukan dapat memperkuat signifikansi hasil.
Saya tidak mengatakan bahwa ini perlu terjadi untuk dataset dalam pertanyaan, tentang yang sedikit yang telah diungkapkan. Tetapi pengetahuan bahwa efek masking ini dapat terjadi harus menginformasikan interpretasi kami tentang hasil serta strategi kami untuk pemilihan variabel dan pembangunan model.