Apa perbedaan antara pengondisian pada regresor dan memperlakukan mereka sebagai tetap?

Kadang-kadang kita mengasumsikan bahwa regressor adalah tetap, yaitu mereka non-stokastik. Saya pikir itu berarti semua prediktor, estimasi parameter, dll. Tanpa syarat, kan? Mungkinkah saya melangkah lebih jauh sehingga mereka bukan lagi variabel acak?

Jika di sisi lain kita menerima bahwa sebagian besar pelaku regresi dalam bidang ekonomi mengatakan stokastik karena tidak ada kekuatan luar yang menentukan mereka dengan beberapa percobaan dalam pikiran. Ekonometris kemudian mengkondisikan pada regresi stokastik ini.

Bagaimana hal ini berbeda dari memperlakukan mereka sebagai hal yang tetap?

Saya mengerti apa itu pengkondisian. Secara matematis, itu berarti kita membuat semua pengamatan dan kesimpulan tergantung pada yang set tertentu regressors dan tidak memiliki ambisi untuk mengatakan bahwa kesimpulan, estimasi parameter, estimasi varians dll akan sama telah kita lihat realisasi yang berbeda dari regressors kami (seperti is inti dalam deret waktu, di mana setiap deret waktu hanya pernah dilihat sekali).

Namun, untuk benar-benar memahami perbedaan antara regresi tetap vs pengkondisian pada regresi stokastik, saya bertanya-tanya apakah ada orang di sini yang tahu tentang contoh estimasi atau prosedur inferensi yang valid untuk mengatakan regresi tetap tetapi rusak ketika mereka stokastik (dan akan dikondisikan pada).

Saya menantikan untuk melihat contoh-contoh itu!

— Hirek
sumber

Apakah Anda terbiasa dengan model kesalahan-dalam-variabel?

— robin.datadrivers

Hey @ robin.datadrivers tidak, saya sebenarnya tidak.

— Hirek

Ini adalah model yang dirancang khusus untuk menyesuaikan taksiran kesalahan pengukuran dalam variabel independen. Tidak persis sama dengan regresi stokastik, tetapi bisa berguna bagi Anda untuk melihatnya. Juga, penelitian survei pada umumnya sering mengasumsikan variabel independen yang dikumpulkan oleh survei memiliki kesalahan pengambilan sampel - mungkin ada model di luar sana yang menjelaskan kesalahan pengambilan sampel.

— robin.datadrivers

Pikiran lain yang saya temui adalah menggunakan model Bayesian. Model Bayesian dapat memperlakukan regressor sebagai acak, dengan menentukan distribusi sebelumnya untuk mereka. Biasanya jika mereka diperlakukan sebagai tetap, Anda menentukan distribusi sebelumnya hanya untuk parameter (koefisien, rata-rata, varian), tetapi ketika Anda kehilangan kovariat atau hasil, Anda menentukan distribusi sebelumnya untuk mereka. Saya tidak tahu persis bagaimana saya akan mengimplementasikannya tanpa banyak berpikir, tetapi mungkin ada cara untuk menentukan distribusi sebelumnya untuk setiap variabel independen.

— robin.datadrivers

Inilah saya di atas es tipis tetapi izinkan saya mencoba: Saya punya perasaan (silakan komentar!) Bahwa perbedaan utama antara statistik dan ekonometrik adalah bahwa dalam statistik kita cenderung menganggap para regresi sebagai tetap, maka matriks desain terminologi yang jelas berasal dari desain eksperimen, di mana anggapan adalah bahwa kita pertama kali memilih dan kemudian memperbaiki variabel penjelas.

Tetapi untuk sebagian besar set data, sebagian besar situasi, ini sangat tidak sesuai. Kami benar-benar mengamati variabel penjelas, dan dalam pengertian itu mereka berdiri pada pijakan yang sama dengan variabel respons, keduanya ditentukan oleh beberapa proses acak di luar kendali kami. Dengan menganggap $x$ sebagai "diperbaiki", kami memutuskan untuk tidak mempertimbangkan banyak masalah yang mungkin menyebabkannya.

Dengan mempertimbangkan regresi sebagai stokastik, di sisi lain, seperti yang cenderung dilakukan para ahli ekonometrika, kami membuka kemungkinan pemodelan yang mencoba mempertimbangkan masalah-masalah seperti itu. Daftar singkat masalah yang dapat kami pertimbangkan, dan masukkan ke dalam pemodelan, adalah:

kesalahan pengukuran di regressor
korelasi antara regressor dan istilah kesalahan
respons yang terlambat sebagai regressor
...

Mungkin, yang harus dilakukan jauh lebih sering daripada yang dilakukan hari ini?

EDIT

Saya akan mencoba untuk menyempurnakan argumen untuk pengkondisian pada regressor agak lebih formal. Mari $(Y,X)$ menjadi vektor acak, dan bunga dalam regresi $Y$ pada $X$ , di mana regresi diartikan ekspektasi bersyarat dari $Y$ pada $X$ . Di bawah asumsi multinormal yang akan menjadi fungsi linear, tetapi argumen kami tidak bergantung pada itu. Kita mulai dengan memfaktorkan kerapatan sambungan dengan cara biasa

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$ tetapi fungsi-fungsi yang tidak diketahui sehingga kita menggunakan model parameter

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$ di mana

θ

$\theta$ parameterizes distribusi bersyarat dan

ψ

$\psi$ distribusi marjinal

X

$X$ . Dalam model linear normal kita dapat memiliki

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$ tetapi itu tidak diasumsikan. Ruang parameter penuh dari

(θ, ψ)

$(\theta,\psi)$ adalah

Θ \times Ψ

$\Theta \times \Psi$ , produk Cartesian, dan kedua parameter tidak memiliki bagian yang sama.

$X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

$\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

Dalam percobaan yang dirancang sebagian besar anggapannya akan berlaku, seringkali dengan data pengamatan tidak. Beberapa contoh masalah adalah: regresi dengan respons yang tertinggal sebagai prediktor. Pengkondisian pada prediktor dalam kasus ini juga akan mengkondisikan pada respons! (Saya akan menambahkan lebih banyak contoh).

$\S 4.3$

— kjetil b halvorsen
sumber