Mengapa model "kesalahan dalam X" tidak banyak digunakan?


11

Ketika kita menghitung standard error dari koefisien regresi, kita tidak memperhitungkan keacakan dalam desain matriks X . Dalam OLS misalnya, kita menghitung var(β^) sebagai var((XTX)-1XTY)=σ2(XTX)-1

Jika X dianggap acak, hukum varians total akan, dalam arti tertentu, menuntut kontribusi tambahan dari varian X juga. yaitu

var(β^)=var(E(β^|X))+E(var(β^|X)).

Yang, jika penaksir OLS benar - benar tidak memihak, istilah pertama lenyap karena harapannya adalah konstan. Istilah kedua sebenarnya menjadi: σ2cov(X)1 .

  1. Jika model parametrik untuk X diketahui, mengapa tidak kita ganti XTX dengan estimasi kovarians yang sebenarnya. Misalnya, jika X adalah penugasan pengobatan secara acak, haruskah varian binomial E(X)(1E(X)) menjadi estimasi yang lebih efisien?

  2. Mengapa kita tidak mempertimbangkan untuk menggunakan model nonparametrik yang fleksibel untuk memperkirakan sumber bias yang mungkin dalam estimasi OLS dan memperhitungkan dengan tepat sensitivitas untuk merancang (yaitu distribusi X ) dalam istilah varians law-of-total pertama var(E(β^|X)) ?


2
Mengapa hukum matematika "menuntut" sesuatu? Kami menggunakan model untuk alasan dengan data untuk mengatasi tujuan tertentu. Ketika mereka memahami atau memprediksi respon bersyarat berdasarkan pada nilai diamati atau diukur , variasi dalam X akan memiliki sedikit (jika ada) sama sekali berkaitan dengan pertanyaan substantif - memang, memasukkan variasi ini dalam prosedur kami akan tampak sama sekali salah, menyesatkan, atau bahkan tidak masuk akal. Karena itu, menjawab pertanyaan Anda sepertinya menilai frekuensi dengan berbagai jenis masalah statistik yang dihadapi. X,X
whuber

1
@whuber Fokus saya adalah pada inferensi. Hukum varians total tampaknya lebih sejalan dengan interpretasi hasil studi yang sering dilakukan. Kita sering berbicara tentang "jika penelitian direplikasi" ... tanpa memperhitungkan fakta bahwa distribusi mungkin berbeda jika penelitian direplikasi. Keseimbangan jenis kelamin bisa 40% dalam satu sampel tetapi 60% dalam yang lain hanya sebagai konsekuensi acak dari bagaimana penelitian diperoleh. Ironisnya, bootstrap mencerminkan hal ini tetapi tidak menghasilkan variabilitas dalam hasil untuk kombinasi kovariat tertentu. X
AdamO

2
Pertama, banyak penelitian menempatkan bawah kontrol eksperimental, sehingga tidak acak. Kedua, studi observasional (di mana X adalah acak) sering tertarik hanya dalam inferensi tentang distribusi bersyarat dari Y . Dengan demikian, fokus pada kesimpulan tidak membedakan satu situasi dari yang lain. Ketika distribusi penuh (gabungan) menarik, Anda akan melihat banyak orang beralih ke bentuk analisis korelasi atau berbagai prosedur multivariat. Tidak ada yang namanya bootstrap "the", karena dalam situasi ini bagaimana Anda melakukan resample tergantung pada tujuan dan model Anda. XXY.
whuber

1
kontrol @whuber Eksperimental adalah acak pada titik awal penelitian. Seperti yang saya sebutkan, ini adalah kasus yang meyakinkan: katakanlah pengacakan adalah Bernoulli. Mengapa menggunakan estimasi empiris ? Gunakan kemungkinan maksimum: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Anda benar tentang bootstrap, saya merujuk pada bootstrap non-parametrik (tanpa syarat) tempat "baris" data diambil sampelnya dengan penggantian. cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO

2
Di luar tertentu, kasus anomali, itu tidak benar-benar peduli jika adalah acak, yang penting adalah jika ada kesalahan pengukuran di X 1 . Jika demikian, metode OLS akan mengarah pada estimasi β 1 yang bias & lebih rendah . Dalam hal ini, kesalahan dalam metode variabel harus digunakan. X1X1β1
gung - Reinstate Monica

Jawaban:


8

Pertanyaan Anda (ditambah komentar lebih lanjut dalam komentar) tampaknya sebagian besar tertarik pada kasus di mana kami memiliki uji coba terkontrol secara acak di mana peneliti secara acak menetapkan satu atau lebih variabel penjelas, berdasarkan pada beberapa desain pengacakan. Dalam konteks ini, Anda ingin tahu mengapa kami menggunakan model yang memperlakukan variabel penjelas sebagai konstanta yang diketahui, daripada memperlakukannya sebagai variabel acak dari distribusi sampel yang dikenakan oleh pengacakan. (Pertanyaan Anda lebih luas dari ini, tetapi ini tampaknya merupakan masalah yang paling menarik dalam komentar, jadi ini adalah yang akan saya bahas.)

Alasan kami mengkondisikan pada variabel penjelas, dalam konteks ini, adalah bahwa dalam masalah regresi untuk RCT, kami masih tertarik pada distribusi kondisional dari variabel respons yang diberikan oleh para prediktor . Memang, dalam RCT kami tertarik untuk menentukan efek kausal dari variabel penjelas X pada variabel respons Y , yang akan kami tentukan melalui inferensi tentang distribusi kondisional (tunduk pada beberapa protokol untuk mencegah perancu). Pengacakan dikenakan untuk memutus ketergantungan antara variabel penjelas X dan setiap variabel pembaur (yaitu, mencegah asosiasi pintu belakang). Namun, objek kesimpulan dalam masalah masih distribusi kondisional dari variabel respon yang diberikan variabel penjelas. Dengan demikian, masih masuk akal untuk memperkirakan parameter dalam distribusi kondisional ini, menggunakan metode estimasi yang memiliki sifat yang baik untuk menyimpulkan distribusi kondisional .

Itu adalah kasus normal yang berlaku untuk RCT menggunakan teknik regresi. Tentu saja, ada beberapa situasi di mana kita memiliki minat lain, dan kita mungkin memang ingin memasukkan ketidakpastian tentang variabel penjelas. Menggabungkan ketidakpastian dalam variabel penjelas umumnya terjadi dalam dua kasus:

  • (1) Ketika kita melampaui analisis regresi dan analisis multivariat, kita kemudian tertarik pada distribusi gabungan variabel penjelas dan respons, bukan hanya distribusi kondisional dari yang disebutkan terakhir. Mungkin ada aplikasi di mana ini adalah minat kami, dan kemudian kami akan melampaui analisis regresi, dan memasukkan informasi tentang distribusi variabel penjelas.

  • (2) Dalam beberapa aplikasi regresi, minat kami adalah pada distribusi kondisional dari variabel respon bersyarat pada variabel penjelas yang tidak diamati yang mendasarinya, di mana kami mengasumsikan bahwa variabel penjelas yang diamati mengalami kesalahan ("kesalahan-dalam-variabel"). Dalam hal ini kami memasukkan ketidakpastian melalui "kesalahan-dalam-variabel". Alasan untuk ini adalah bahwa kepentingan kami dalam kasus-kasus ini adalah dalam distribusi bersyarat , bersyarat pada variabel mendasar yang tidak teramati .

Perhatikan bahwa kedua kasus ini secara matematis lebih rumit daripada analisis regresi, jadi jika kita dapat menggunakan analisis regresi, itu umumnya lebih disukai. Bagaimanapun, dalam sebagian besar aplikasi analisis regresi, tujuannya adalah untuk membuat kesimpulan tentang distribusi kondisional dari respons, mengingat variabel penjelas yang dapat diamati, sehingga generalisasi ini menjadi tidak perlu.


Perhatikan bahwa pengacakan memisahkan efek kausal dari variabel perancu ke variabel acak, tetapi itu tidak memutuskan efek kausal dari variabel acak ke variabel pengganggu, dan kemudian ke respons. Ini berarti bahwa protokol lain (misalnya, plasebo, blinding, dll.) Mungkin diperlukan untuk sepenuhnya memutuskan semua asosiasi pintu belakang dalam analisis kausal.


2
Jawaban bagus. Saya akan menambahkan bahwa AFAIK jika Anda memiliki kesalahan-dalam-variabel gaussian dan kesalahan-dalam-respon gaussian daripada metode regresi normal bekerja dan itu menjadi masalah hanya jika Anda a) mengamati respons tanpa kesalahan b) memiliki distribusi respons yang berbeda
Martin Modrák

2

Judul "kesalahan dalam variabel" dan isi dari pertanyaan itu tampak berbeda, ketika ia menanyakan mengapa kita tidak memperhitungkan variasi dalam X ketika memodelkan respons bersyarat, yaitu, inferensi untuk parameter regresi. Kedua keasyikan itu tampaknya ortogonal bagi saya, jadi di sini saya merespons isinya.

Saya telah menjawab pertanyaan serupa sebelumnya, Apa perbedaan antara pengondisian pada regresor dan memperlakukan mereka sebagai tetap? , jadi di sini saya akan menyalin sebagian dari jawaban saya di sana:

Saya akan mencoba untuk menyempurnakan argumen untuk pengkondisian pada regressor agak lebih formal. Mari (Y,X) menjadi vektor acak, dan bunga dalam regresi Y pada X , di mana regresi diartikan ekspektasi bersyarat dari Y pada X . Di bawah asumsi multinormal yang akan menjadi fungsi linear, tetapi argumen kami tidak bergantung pada itu. Kita mulai dengan memfaktorkan kerapatan sambungan dengan cara biasa

f(y,x)=f(yx)f(x)
tetapi fungsi-fungsi yang tidak diketahui sehingga kita menggunakan model parameter
f(y,x;θ,ψ)=fθ(yx)fψ(x)
di mana θ parameterizes distribusi bersyarat dan ψ distribusi marjinal X . Dalam model linear normal kita dapat memiliki θ=(β,σ2) tetapi itu tidak diasumsikan. Ruang parameter penuh dari (θ,ψ) adalahΘ×Ψ , produk Cartesian, dan kedua parameter tidak memiliki bagian yang sama.

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

Dalam percobaan yang dirancang sebagian besar anggapannya akan berlaku, seringkali dengan data pengamatan tidak. Beberapa contoh masalah adalah: regresi dengan respons yang tertinggal sebagai prediktor. Pengkondisian pada prediktor dalam kasus ini juga akan mengkondisikan pada respons! (Saya akan menambahkan lebih banyak contoh).

§4.3


θXθXθ

Argumen pemisahan ini bermanfaat juga karena menunjuk ke kasus-kasus di mana ia tidak dapat digunakan, misalnya regresi dengan respons yang tertinggal sebagai prediktor.


1
XYθψ

Saya tidak tahu tentang PLS, tetapi akan mencoba memikirkannya
kjetil b halvorsen

1
Jawaban yang bagus! ...
Richard Hardy
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.