Belum mencoba menahan data untuk memprediksi, tetapi intuisi saya adalah bahwa memperbaiki kovarian menjadi nol dalam model Anda adalah analog dengan memprediksi DV dengan menggabungkan satu set persamaan regresi linier tunggal, IV tunggal, terpisah. Tidak seperti pendekatan ini, regresi berganda memperhitungkan kovarians pada IV ketika memproduksi model persamaan untuk memprediksi DV. Ini tentu meningkatkan interpretabilitas dengan memisahkan efek langsung dari efek tidak langsung yang terjadi sepenuhnya dalam rangkaian IV yang dimasukkan. Jujur, saya tidak yakin apakah ini perlu meningkatkan prediksi DV. Menjadi pengguna statistik dan bukan ahli statistik, saya mengumpulkan fungsi pengujian simulasi berikut untuk memberikan jawaban yang tidak lengkap (tampaknya, "Ya, akurasi prediksi meningkat ketika model memasukkan kovarians IV") dalam kasus yang semoga analog ini ...
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
Fungsi ini menghasilkan sampel acak (N= Iterations
, n= Sample.Size
) dari tiga variabel yang terdistribusi normal:z
= x
+ kebisingan acak, dan y
= x
+ z
+kebisingan acak. Pengguna dapat memengaruhi korelasinya dengan mengesampingkan default untuk tiga argumen terakhir, tetapi noise acak juga memengaruhi korelasi sampel, jadi ini mensimulasikan cara kesalahan pengambilan sampel memengaruhi perkiraan parameter korelasi sebenarnya. Fungsi menghitung prediksi y
berdasarkan koefisien regresi untuk x
dan z
berasal dari:
(1) regresi berganda ( y.predicted
), dan ...
(2) dua regresi linier bivariat yang terpisah ( bizarro.y.predicted
).
The output
matriks berisi Iterations
baris dan enam kolom: yangR2s dari 1 dan 2, ujian benar-salah apakah 1 > 2, dan bivariat rs untuk tiga kombinasi unik dari x
, y
, & z
. Fungsi ini menghasilkan daftar tiga elemen, yang pertama adalah output
matriks. Secara default, ini adalah 1.000 baris panjang, jadi saya sarankan pembungkus simtestit()
di str( )
fungsi atau menghapus elemen ini dari daftar dalam fungsi itu sendiri kecuali Anda tertarik dalam statistik sampel individu untuk beberapa alasan. Persentase iterasi di manaR2 ditingkatkan dengan menggunakan (1) regresi berganda untuk menjelaskan kovarians IV, dan rata-rata peningkatan ini di seluruh iterasi (dalam skala r, menggunakan transformasi Fisher melalui psych
paket).
Fungsi standar untuk tes sim pendek dari keadaan yang cukup khas untuk regresi berganda dasar maksimal. Ini memungkinkan pengguna untuk mengubah ukuran sampel individu dan korelasi variabel agar sesuai dengan penelitian dan teori sebelumnya tentang kekuatan hubungan. Saya belum menguji semua pengaturan yang mungkin, tetapi setiap kali saya menjalankan fungsinya, 100% iterasi telah menghasilkan lebih tinggiR2dengan regresi berganda. Peningkatan berarti diR2 tampaknya lebih besar ketika kovarians IV (yang dapat dimanipulasi tidak lengkap dengan memasukkan argumen untuk IV.r
) lebih besar. Karena Anda mungkin lebih terbiasa dengan fungsi GLM Anda daripada saya (yang tidak sama sekali), Anda mungkin dapat mengubah fungsi ini atau menggunakan ide dasar untuk membandingkan prediksi GLM di betapapun banyaknya IV yang Anda inginkan tanpa terlalu banyak kesulitan. Anggap itu akan (atau memang) berubah dengan cara yang sama, akan tampak bahwa jawaban dasar untuk pertanyaan kedua Anda mungkin ya, tetapi seberapa besar tergantung pada seberapa kuat kovarium IV. Perbedaan dalam kesalahan pengambilan sampel antara data yang tersedia dan data yang digunakan agar sesuai dengan model dapat membanjiri peningkatan dalam akurasi prediktifnya dalam dataset yang terakhir, karena sekali lagi, peningkatan tampaknya kecil kecuali korelasi IV kuat (setidaknya, dalam kasus dasar maksimal dengan hanya dua infus).