Kesalahan sistematis / pengukuran pada regresi linier

Misalkan saya memiliki satu set data di mana ketidakpastian dalam pengukuran (yang berasal dari penyebaran kesalahan sistematis dari peralatan pengukuran) berbeda untuk masing-masing titik. Jika saya melakukan regresi linier pada set data, bagaimana cara menghitung ketidakpastian di lereng? Saya ingin prosedur atau formula yang eksplisit. ${(x_i,y_i)}$ ${(\Delta x_i,\Delta y_i)}$

linear-model measurement-error errors-in-variables

— Iván Mauricio Burbano
sumber

Apakah Anda memahami kesalahan pengukuran mana yang lebih besar?

— Dimitriy V. Masterov

Dengan delta, apakah maksud Anda perbedaan antara pengukuran berurutan? Apakah data Anda berurutan? Apakah Anda berharap kesalahan tersebut berkorelasi? Apakah Anda berharap korelasinya membusuk? Apakah Anda memiliki replikasi independen? Diperlukan lebih banyak informasi untuk memberikan jawaban yang konkret.

— user3903581

Istilah yang Anda cari adalah propagasi kesalahan. Anda memiliki kesalahan di sisi input dan menghitung (lebih khusus: memperkirakan) dua parameter darinya. Sayangnya nama "regresi linier" hanya menggambarkan model (populer), tetapi bukan metode yang digunakan untuk memperkirakan parameter. Untuk metode yang paling sering digunakan, Anda mungkin dapat mencari solusinya (mis. Kuadrat terkecil). Jika tidak, Anda dapat menghitungnya secara analitik atau memperkirakannya dengan evaluasi numerik.

— kerub

Jawaban:

Kita dapat memodelkan eksperimen sebagai mana menunjukkan nilai sebenarnya, adalah kesalahan pengukuran, adalah komponen "tetap" yang terlepas dari pengamatan (yang dapat timbul dari kalibrasi sensor yang salah) dan bervariasi dari pengamatan hingga observasi dan sesuai dengan banyak faktor yang mungkin kami perlakukan secara acak.

x_{i} = x_{i}^{*} + {\tilde{u}}_{i}

$x_i=x_i^*+\tilde u_i$

y_{i} = y_{i}^{*} + {\tilde{v}}_{i}

$y_i=y_i^*+\tilde v_i$

{\tilde{u}}_{i} = \bar{u} + v_{i}

$\tilde u_i=\bar u + v_i$

{\tilde{v}}_{i} = \bar{v} + u_{i}

$\tilde v_i=\bar v + u_i$

x_{i}^{*}, y_{i}^{*}

$x_i^*, y_i^*$

{\tilde{u}}_{i}, {\tilde{v}}_{i}

$\tilde u_i,\tilde v_i$

\bar{u}, \bar{v}

$\bar u,\bar v$

u, v

$u,v$

Regresi linier sederhana adalah dan estimasi OLS dari slope adalah Namun yang kita dapatkan adalah

y_{i}^{*} = α + β x_{i}^{*} + e_{i}

$y_i^*=\alpha+\beta x_i^*+e_i$

\hat{β} = \frac{C o v (x^{*}, y^{*})}{V a r (x^{*})}

$\hat\beta=\frac{Cov(x^*,y^*)}{Var(x^*)}$

\tilde{β} = \frac{C o v (x, y)}{V a r (x)} = \frac{C o v (x^{*} + u, y^{*} + v)}{V a r (x^{*} + u)} = \frac{C o v (x^{*}, y^{*}) + C o v (x^{*}, v) + C o v (y^{*}, u) + C o v (u, v)}{V a r (x^{*}) + V a r (u) + 2 C o v (x, u)}

$\tilde\beta=\frac{Cov(x,y)}{Var(x)}=\frac{Cov(x^* + u,y^*+ v)}{Var(x^* + u)}=\frac{Cov(x^*,y^*)+Cov(x^*,v)+Cov(y^*,u)+Cov(u,v)}{Var(x^*) + Var(u) + 2Cov(x,u)}$

Sekarang mari kita asumsikan bahwa tidak berkorelasi dengan dan satu sama lain (asumsi yang agak kuat yang dapat ditingkatkan jika kita memiliki lebih banyak kesimpulan tentang sifat kesalahan). Maka estimasi kami adalah Kita dapat memperkirakan sebagai variasi sampel . Kita juga perlu memperkirakan . Jika kami memiliki percobaan ketika kami dapat mengamati beberapa kali, maka satu pendekatan sederhana adalah memperkirakan ]. $v,u$ $x^*,y^*$

\tilde{β} = β \frac{σ_{x^{*}}^{2}}{σ_{x^{*}}^{2} + σ_{u}^{2}} \approx β \frac{{\hat{σ}}_{x}^{2} - {\hat{σ}}_{u}^{2}}{{\hat{σ}}_{x}^{2}} = β \hat{λ}

$\tilde\beta=\beta\frac{\sigma^2_{x^*}}{\sigma^2_{x^*}+\sigma^2_{u}}\approx\beta\frac{\hat\sigma^2_x-\hat\sigma^2_u}{\hat\sigma^2_x}=\beta\hat\lambda$

{\hat{σ}}_{x}^{2}

$\hat\sigma^2_x$

x_{i}

$x_i$

σ_{u}^{2}

$\sigma^2_u$

x_{i}^{*}

$x^*_i$

σ_{u}^{2} = E [σ_{x}^{2} | x_{i}^{*}

$\sigma^2_u=E[\sigma^2_x|x^*_i$

Sekarang kita dapat menggunakan dihitung dengan, misalnya, metode bootstrap, dan memperbaikinya untuk sehingga . $\hat\sigma^2_{\tilde\beta}$ $\hat\beta =\tilde\beta /\hat\lambda$

{\hat{σ}}_{\hat{β}}^{2} = \frac{{\hat{σ}}_{\tilde{β}}^{2}}{{\hat{λ}}^{2}}

$\hat\sigma^2_{\hat\beta}=\frac{\hat\sigma^2_{\tilde\beta}}{\hat\lambda^2}$

— yshilov
sumber

Saya pikir jawaban yang diberikan oleh @yshilov pasti luar biasa dengan mempertimbangkan kesalahan pengukuran ke dalam istilah kesalahan dan secara signifikan, menyimpulkan hasil

\tilde{β} = β \frac{σ_{x}^{2}}{σ_{x}^{2} + σ_{u}^{2}}

$\tilde \beta = \beta \frac{\sigma_x^2}{\sigma_x^2 + \sigma_u^2}$

Untuk menguraikan, beta ini memiliki sifat khusus yang merupakan penaksir yang bias, tetapi bias ke arah 0. Secara khusus, untuk regresi linier, $E(\hat \beta_1)=\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$

Buktinya adalah sebagai berikut: dalam regresi linier sederhana, ingat Dalam hal kesalahan pengukuran, kita memiliki , , dan , jadi kami mendapatkan Dengan asumsi bahwa , , dan varian nilai prediktor sejati

{\hat{β}}_{1} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) y_{i}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\hat \beta_1 = \frac{\sum_{i=1}^n(x_i-\bar x)y_i}{\sum_{i=1}^n(x_i-\bar x)^2}$

x_{i}^{O} = x_{i}^{A} = δ_{i}

$x_i^O=x_i^A=\delta_i$

y_{i}^{O} = y_{i}^{A} + ϵ_{i}

$y_i^O=y_i^A+\epsilon_i$

y_{i}^{A} = β_{0} + β_{1} x_{i}^{A}

$y_i^A=\beta_0 +\beta_1 x_i^A$

y_{i}^{O} = β_{0} + β_{1} (x_{i}^{O} - δ_{i}) + ϵ_{i} = β_{0} + β_{1} x_{i}^{O} + (ϵ_{i} - β_{1} δ_{i})

$y_i^O=\beta_0+\beta_1(x_i^O-\delta_i)+\epsilon_i=\beta_0+\beta_1x_i^O+(\epsilon_i-\beta_1 \delta_i)$

E (ϵ_{i}) = E (δ_{i}) = 0

$E(\epsilon_i)=E(\delta_i)=0$

v a r (ϵ_{i}) = σ_{ϵ}^{2}

$var(\epsilon_i)=\sigma_{\epsilon}^2$

v a r (δ_{i}) = σ_{δ}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (δ_{i} - \bar{δ})^{2}

$var(\delta_i)=\sigma_{\delta}^2 = \frac{1}{n}\sum_{i=1}^n(\delta_i-\bar \delta)^2$

σ_{x}^{2} = \frac{\sum (x_{i}^{A} - \bar{x^{A}})^{2}}{n}

$\sigma_{x}^2=\frac{\sum(x_i^A-\bar {x^A})^2}{n}$ dan korelasi prediktor dan kesalahan sebenarnya , lalu

σ_{x δ} = c o v (x^{A}, δ) = \frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{A} - \bar{x_{i}^{A}}) (δ_{i} - \bar{δ})

$\sigma_{x \delta}=cov(x^A,\delta)= \frac{1}{n}\sum_{i=1}^n(x_i^A-\bar {x_i^A})(\delta_i- \bar \delta)$

c o v (x_{i}^{O}, δ) = E (x_{i}^{O} δ) - E (x_{i}^{O}) \cdot E (δ) = E (x_{i}^{O} δ) = E [(x_{i}^{A} + δ) δ] = E (x_{i}^{A} δ) + E (δ^{2})

$cov(x_i^O,\delta)=E(x_i^O\delta)-E(x_i^O)\cdot E(\delta)=E(x_i^O\delta)=E[(x_i^A+\delta)\delta]=E(x_i^A \delta)+E(\delta^2)$

= [E (x_{i}^{A} δ) - E (x_{i}^{A}) \cdot E (δ)] + [v a r (δ) + [E (δ)]^{2}] = c o v (x_{i}^{A}, δ) + σ_{δ}^{2} = σ_{x δ} + σ_{δ}^{2}

$=\big[E(x_i^A \delta)-E(x_i^A)\cdot E(\delta)\big]+\big[var(\delta)+[E(\delta)]^2\big]=cov(x_i^A,\delta)+\sigma_{\delta}^2=\sigma_{x\delta}+\sigma_{\delta}^2$ Kemudian, dengan dan properti bilinearitas dalam kovarian, harapan adalah

\bar{x} = E (x_{i})

$\bar x = E(x_i)$

{\hat{β}}_{1}

$\hat \beta_1$

E ({\hat{β}}_{1}) = E [\frac{\sum_{i = 1}^{n} (x_{i}^{O} - {\bar{x}}^{O}) y_{i}^{O}}{\sum_{i = 1}^{n} (x_{i}^{O} - {\bar{x}}^{O})^{2}}] = \frac{E (\sum_{i = 1}^{n} x_{i}^{O} y_{i}^{O}) - E (\sum_{i = 1}^{n} {\bar{x}}^{O} y_{i}^{O})}{\sum_{i = 1}^{n} E [(x_{i}^{O} - E (x_{i}^{O}))^{2}]} = \frac{E (\sum_{i = 1}^{n} x_{i}^{O} y_{i}^{O}) - E (x_{i}^{O}) \cdot E (\sum_{i = 1}^{n} y_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})}

$E(\hat \beta_1)=E\Big[\frac{\sum_{i=1}^n(x_i^O-\bar x^O)y_i^O}{\sum_{i=1}^n(x_i^O-\bar x^O)^2}\Big]=\frac{E(\sum_{i=1}^nx^O_iy_i^O)-E(\sum_{i=1}^n \bar x^Oy_i^O)}{\sum_{i=1}^n E\big[(x_i^O-E(x_i^O))^2\big]}=\frac{E(\sum_{i=1}^nx_i^Oy_i^O)-E(x_i^O)\cdot E(\sum_{i=1}^n y_i^O)}{\sum_{i=1}^nvar(x_i^O)}$

= \frac{\sum_{i = 1}^{n} c o v (y_{i}^{O}, x_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})} = \frac{\sum_{i = 1}^{n} c o v (β_{0} + β_{1} x_{i}^{O} + ϵ_{i} - β_{1} δ_{i}, x_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})} = \frac{β_{1} \cdot \sum_{i = 1}^{n} v a r (x_{i}^{O}) - β_{1} \cdot \sum_{i = 1}^{n} c o v (x_{i}^{O}, δ_{i})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})}

$=\frac{\sum_{i=1}^ncov(y_i^O,x_i^O)}{\sum_{i=1}^nvar(x_i^O)}=\frac{\sum_{i=1}^ncov(\beta_0+\beta_1x_i^O+\epsilon_i-\beta_1\delta_i,~x_i^O)}{\sum_{i=1}^nvar(x_i^O)}=\frac{\beta_1\cdot \sum_{i=1}^nvar(x_i^O)-\beta_1\cdot \sum_{i=1}^ncov(x_i^O, \delta_i)}{\sum_{i=1}^nvar(x_i^O)}$

= β_{1} \cdot [1 - \frac{\sum_{i = 1}^{n} c o v (x_{i}^{O}, δ_{i}) / n}{\sum_{i = 1}^{n} v a r (x_{i}^{A} + δ_{i}) / n}] = β_{1} \cdot [1 - \frac{σ_{x δ} + σ_{δ}^{2}}{σ_{x}^{2} + 2 c o v (x_{i}^{A}, δ_{i}) + σ_{δ}^{2}}] = β_{1} \cdot [\frac{σ_{x}^{2} + σ_{x δ}}{σ_{x}^{2} + 2 σ_{x δ} + σ_{δ}^{2}}]

$=\beta_1 \cdot \Big[ 1-\frac{{\sum_{i=1}^ncov(x_i^O,\delta_i)}/{n}}{\sum_{i=1}^nvar(x_i^A+\delta_i)/n}\Big]=\beta_1 \cdot\Big[1-\frac{\sigma_{x\delta}+\sigma_{\delta}^2}{\sigma_x^2+2cov(x_i^A,\delta_i)+\sigma_{\delta}^2}\Big] =\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$ , seperti yang diinginkan. Karenanya, hasilnya mapan.

E ({\hat{β}}_{1}) = β_{1} \cdot [\frac{σ_{x}^{2} + σ_{x δ}}{σ_{x}^{2} + 2 σ_{x δ} + σ_{δ}^{2}}]

$E(\hat \beta_1)=\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$

— son520804
sumber

Saya memiliki masalah yang sama - diposting di sini - dan tidak ada jawaban pasti. Apa yang saya lakukan untuk saat ini hanyalah mengumpulkan satu set X yang sangat mirip dan memeriksa apakah ada variasi besar untuk Y dalam garis-garis itu. Jenis pendekatan lain bisa berupa simulasi: Anda menggunakan X tunggal dari dataset Anda, tetapi meniru garis mengikuti kesalahan prediktor sistematis (seperti rnorm (..., 0,0.3)). Interval kepercayaan untuk kemiringan mungkin sesuatu yang mirip dengan rentang kesalahan sistematis.

— Paolo Nadalutti
sumber

Saya akan merekomendasikan bootstrap parametrik pada data. Itu berarti menghasilkan dataset baru yang mirip dengan dataset nyata, tetapi berbeda sejauh yang tersirat oleh ketidakpastian Anda dalam setiap pengamatan.

Berikut ini beberapa kode semu untuk itu. Perhatikan saya menggunakan input vektor untuk rnorm, seperti biasa dalam bahasa R. Saya juga berasumsi bahwa apa yang Anda panggil adalah kesalahan standar. $\Delta$

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Kemudian lihat distribusi nilai dalam r.

— rcorty
sumber