Identifikasi masalah parameter

Saya selalu berjuang untuk mendapatkan esensi identifikasi sejati dalam ekonometrik. Saya tahu bahwa kami menyatakan bahwa parameter (katakanlah $\hat{\theta}$ ) dapat diidentifikasi jika hanya dengan melihat distribusi (bersama) kita dapat menyimpulkan nilai parameter. Dalam kasus sederhana $y=b_1X+u$ dimana $E[u]=0,E[u|x]=0$ kita bisa nyatakan itu $b_1$ diidentifikasi jika kita tahu variansnya $Var(\hat{b})>0$ . Tetapi bagaimana jika $E[u|X]=a$ dimana $a$ itu parameter yang tidak dikenal? Bisa $a$ dan $b_1$ diidentifikasi?

Jika saya memperluas model ke $Y=b_0+b_1X+b_2XD=u$ dimana $D\in\{0,1\}$ dan $E[u|X,D]=0$ , untuk menunjukkan itu $b_1,b_2,b_3$ diidentifikasi, apakah saya hanya perlu menyatakan kembali bahwa varians untuk ketiga parameter lebih besar dari nol?

Saya menghargai semua bantuan dalam menjernihkan pikiran saya tentang identifikasi.

estimation identifiability

— CharlesM
sumber

Saya diberitahu bahwa untuk model dengan variabel dummy saya hanya harus menunjukkan itu

[X^{'} X]^{- 1}

$[X'X]^{-1}$ ada ... artinya penentu matriks ini tidak sama dengan 0. Benar?

— CharlesM

Saya juga memposting pertanyaan tentang pertukaran matematika dan tidak ada ....

— CharlesM

Apakah ini membantu atau hanya lebih dari apa yang sudah Anda ketahui? Catatan kursus UChicago

— kirk

Pertama-tama mari kita mendefinisikan objek berikut: Dalam model statistik $M$ yang digunakan untuk memodelkan $Y$ sebagai fungsi dari $X$ , Ada $p$ parameter dilambangkan dengan vektor $\theta$ . Parameter ini diperbolehkan bervariasi di dalam ruang parameter $\Theta \subset \mathbb{R^p}$ . Kami tidak tertarik pada estimasi semua parameter ini, tetapi hanya sebagian saja, katakan saja $q \leq p$ dari parameter yang kami tunjukkan $\theta^0$ dan itu bervariasi dalam ruang parameter $\Theta^0 \subset \mathbb{R^q}$ . Dalam model kami $M$ variabel $X$ dan parameternya $\theta$ sekarang akan dipetakan seperti untuk menjelaskan $Y$ . Pemetaan ini didefinisikan oleh $M$ dan parameternya.

Dalam pengaturan ini, pengidentifikasian mengatakan sesuatu tentang Kesetaraan Observasional . Secara khusus, jika parameter $\theta^0$ dapat diidentifikasi wrt $M$ maka itu akan menahannya $\nexists \theta^1 \in \Theta^0: \theta^1 \neq \theta^0, M(\theta^0) = M(\theta^1)$ . Dengan kata lain, tidak ada vektor parameter yang berbeda $\theta^1$ yang akan menginduksi proses menghasilkan data yang sama, mengingat spesifikasi model kami $M$ . Untuk membuat konsep-konsep ini lebih masuk akal, saya memberikan dua contoh.

Contoh 1 : Tentukan untuk $\theta = (a,b)$ ; $X\sim N(\mu, \sigma^2I_{n}); \varepsilon \sim N(0, \sigma_e^2 I_{n})$ model statistik sederhana $M$ :

\begin{aligned} Y = a + X b + ε \end{aligned}

$\begin{align} Y = a+Xb+\varepsilon \end{align}$ dan anggap itu

(a, b) \in R^{2}

$(a,b) \in \mathbb{R^2}$ (begitu

Θ = R^{2}

$\Theta = \mathbb{R^2}$ ). Jelas bahwa apakah

θ^{0} = (a, b)

$\theta^0 = (a,b)$ atau

θ^{0} = a

$\theta^0 = a$ , itu akan selalu berlaku

θ^{0}

$\theta^0$ dapat diidentifikasi: Proses menghasilkan

Y

$Y$ dari

X

$X$ mempunyai sebuah

1 : 1

$1:1$ hubungan dengan parameter

a

$a$ dan

b

$b$ . Pemasangan

(a, b)

$(a,b)$ , tidak mungkin menemukan tuple kedua di

R

$\mathbb{R}$ menggambarkan Proses Pembuatan Data yang sama.

Contoh 2 : Tentukan untuk $\theta = (a,b,c)$ ; $X\sim N(\mu, \sigma^2I_{n}); \varepsilon \sim N(0, \sigma_e^2 I_{n})$ model statistik yang lebih rumit $M'$ :

\begin{aligned} Y = a + X (\frac{b}{c}) + ε \end{aligned}

$\begin{align} Y = a+X(\frac{b}{c})+\varepsilon \end{align}$ dan anggap itu

(a, b) \in R^{2}

$(a,b) \in \mathbb{R^2}$ dan

c \in R ∖ {0}

$c \in \mathbb{R}\setminus\{0\}$ (begitu

Θ = R^{3} ∖ {(l, m, 0) | (l, m) \in R^{2}}

$\Theta = \mathbb{R^3}\setminus\{(l,m,0)| (l,m) \in \mathbb{R^2}\}$ ). Sementara untuk

θ^{0}

$\theta^0$ , ini akan menjadi model statistik yang dapat diidentifikasi, ini tidak berlaku jika seseorang memasukkan parameter lain (yaitu,

b

$b$ atau

c

$c$ ). Mengapa? Karena untuk setiap pasangan

(b, c)

$(b,c)$ , ada banyak pasangan lain yang tak terhingga dalam set

B := {(x, y) | (x / y) = (b / c), (x, y) \in R^{2}}

$B:=\{(x,y)|(x/y) = (b/c), (x,y)\in\mathbb{R}^2\}$ . Solusi yang jelas untuk masalah dalam hal ini adalah memperkenalkan parameter baru

d = b / c

$d = b/c$ mengganti fraksi untuk mengidentifikasi model. Namun, orang mungkin tertarik

b

$b$ dan

c

$c$ sebagai parameter yang terpisah untuk alasan teoretis - parameter dapat sesuai dengan parameter yang menarik dalam pengertian teori (ekonomi). (Misalnya,

b

$b$ bisa menjadi 'kecenderungan untuk mengkonsumsi' dan

c

$c$ bisa jadi 'kepercayaan diri', dan Anda mungkin ingin memperkirakan dua kuantitas ini dari model regresi Anda. Sayangnya, ini tidak mungkin dilakukan.)

— Jeremias K
sumber

"Tidak ada vektor parameter yang berbeda

θ^{1}

$\theta^1$ yang akan menghasilkan data yang sama "kedengarannya tidak tepat, kecuali jika Anda mengartikan sesuatu yang tidak biasa dengan" menghasilkan. "Mungkin itu perlu dijabarkan atau mungkin makna Anda tentang" model statistik "perlu dibuat eksplisit. Dalam kebanyakan model, termasuk Anda gunakan dalam ilustrasi Anda, set data apa pun bisa saja dihasilkan oleh salah satu parameter yang mungkin

— whuber

@whuber itu adalah poin yang bagus. Apa yang seharusnya saya katakan adalah bahwa "Tidak ada ... yang akan menyebabkan proses menghasilkan data yang sama ". Saya mengubah ini sekarang :)

— Jeremias K