Dalam gung, jawaban saya adalah kritik terhadap ide untuk membandingkan kekuatan relatif dari berbagai variabel dalam analisis empiris tanpa memiliki model dalam pikiran bagaimana variabel-variabel itu berinteraksi atau bagaimana distribusi bersama (benar) dari semua variabel yang relevan terlihat. Pikirkan contoh pentingnya atlet tinggi dan berat badan atlet. Tidak ada yang dapat membuktikan bahwa misalnya regresi linier aditif adalah perkiraan yang baik dari fungsi harapan bersyarat atau dengan kata lain, tinggi dan berat badan mungkin penting dalam cara yang sangat rumit untuk kinerja atlet. Anda dapat menjalankan regresi linier termasuk kedua variabel dan membandingkan koefisien standar tetapi Anda tidak tahu apakah hasilnya benar-benar masuk akal.
Untuk memberikan contoh Mickey Mouse, melihat pendaki olahraga (olahraga favorit saya), berikut adalah daftar pendaki pria teratas menurut beberapa ukuran kinerja yang diambil dari situs 8a.nu dengan informasi tentang tinggi, berat, dan tahun kelahiran mereka (hanya yang dengan informasi yang tersedia). Kami menstandardisasi semua variabel sebelumnya sehingga kami dapat membandingkan secara langsung hubungan antara satu perubahan standar deviasi dalam prediktor pada satu perubahan standar deviasi dalam distribusi kinerja. Tidak termasuk untuk ilustrasi nomor satu, Adam Ondra, yang tinggi tidak biasa, kita mendapatkan hasil berikut. :
rm(list=ls(all=TRUE))
# Show only two decimal places
options(digits=2)
# Read Data and attach
climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
head(climber)
# Drop best climber Adam Ondra who is very tall (kind of outlier)
climber<-subset(climber,name!="Adam Ondra")
# Standardize Predictors
climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
# Simple Regression, excluding intercept because of the standardization
lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std
-0.16 -0.25
Mengabaikan kesalahan standar dll., Sepertinya berat badan lebih penting daripada tinggi badan atau sama pentingnya. Tetapi orang bisa berpendapat bahwa pendaki menjadi lebih baik dari waktu ke waktu. Mungkin kita harus mengendalikan efek kohort, misalnya peluang pelatihan melalui fasilitas dalam ruangan yang lebih baik? Mari kita sertakan tahun kelahiran!
# Add year of birth
lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std born_std
-0.293 -0.076 0.256
Sekarang, kami menemukan bahwa menjadi muda dan menjadi kecil lebih penting daripada menjadi langsing. Tapi sekarang orang lain bisa berargumen ini hanya berlaku untuk pendaki papan atas? Masuk akal untuk membandingkan koefisien terstandarisasi di seluruh distribusi kinerja (misalnya melalui regresi kuantil). Dan tentu saja itu mungkin berbeda untuk pendaki perempuan yang jauh lebih kecil dan lebih ramping. Tidak ada yang tahu.
Ini adalah contoh Mickey Mouse dari apa yang saya pikir merujuk gung. Saya tidak begitu skeptis, saya pikir masuk akal untuk melihat koefisien terstandarisasi, jika Anda berpikir bahwa Anda telah menentukan model yang tepat atau pemisahan aditif masuk akal. Tetapi ini sangat tergantung pada pertanyaan yang ada.
Mengenai pertanyaan lain:
Apakah ini setara dengan mengatakan bahwa kita tidak boleh menggunakan koefisien terstandarisasi untuk menilai kepentingan karena kita mungkin secara acak mengambil sampel rentang nilai X1 yang terbatas dan rentang nilai X2 yang lebih luas? Lalu ketika kita menstandarisasi masalah ini belum hilang, dan kita akhirnya berpikir bahwa X1 adalah prediktor yang lebih lemah daripada X2?
Ya, saya pikir Anda bisa mengatakan itu seperti ini. "Rentang nilai X2 yang lebih luas" dapat muncul melalui bias variabel yang dihilangkan dengan memasukkan variabel penting yang berkorelasi dengan X1 tetapi menghilangkan variabel yang berkorelasi dengan X2.
Mengapa masalah hilang jika r yang benar adalah 0?
Bias variabel yang dihilangkan juga merupakan contoh yang bagus mengapa hal ini berlaku. Variabel yang dihilangkan hanya menyebabkan masalah (atau bias) jika mereka berkorelasi dengan prediktor serta hasilnya, lihat rumus di entri Wikipedia. Jika benarr tepat 0 daripada variabel tidak berkorelasi dengan hasil dan tidak ada masalah (bahkan jika itu berkorelasi dengan prediktor).
Bagaimana metode lain (misalnya melihat koefisien semipartial) mengatasi masalah ini?
Model lain memiliki seperti koefisien semipartial menghadapi masalah yang sama. Jika dataset Anda cukup besar, Anda dapat melakukan misalnya regresi nonparametrik dan mencoba memperkirakan distribusi gabungan lengkap tanpa asumsi tentang bentuk fungsional (misalnya pemisahan aditif) untuk membenarkan apa yang Anda lakukan tetapi ini tidak pernah menjadi bukti.
Ringkasnya, saya pikir masuk akal untuk membandingkan koefisien terstandarisasi atau semipartial tetapi itu tergantung dan Anda harus memberi alasan kepada diri sendiri atau orang lain mengapa menurut Anda itu masuk akal.