Bagaimana cara menghitung interval kepercayaan x-intersep dalam regresi linier?

Karena standard error dari regresi linier biasanya diberikan untuk variabel respon, saya bertanya-tanya bagaimana cara mendapatkan interval kepercayaan di arah lain - misalnya untuk x-intersep. Saya dapat memvisualisasikan apa yang mungkin terjadi, tetapi saya yakin pasti ada cara mudah untuk melakukan ini. Di bawah ini adalah contoh dalam R bagaimana memvisualisasikan ini:

set.seed(1)
x <- 1:10
a <- 20
b <- -2
y <- a + b*x + rnorm(length(x), mean=0, sd=1)

fit <- lm(y ~ x)
XINT <- -coef(fit)[1]/coef(fit)[2]

plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y)))
abline(h=0, lty=2, col=8); abline(fit, col=2)
points(XINT, 0, col=4, pch=4)
newdat <- data.frame(x=seq(-2,12,len=1000))

# CI
pred <- predict(fit, newdata=newdat, se.fit = TRUE) 
newdat$yplus <-pred$fit + 1.96*pred$se.fit 
newdat$yminus <-pred$fit - 1.96*pred$se.fit 
lines(yplus ~ x, newdat, col=2, lty=2)
lines(yminus ~ x, newdat, col=2, lty=2)

# approximate CI of XINT
lwr <- newdat$x[which.min((newdat$yminus-0)^2)]
upr <- newdat$x[which.min((newdat$yplus-0)^2)]
abline(v=c(lwr, upr), lty=3, col=4)

r regression confidence-interval bootstrap

— Marc di dalam kotak
sumber

Anda bisa bootstrap ini:

library(boot);  sims <- boot(data.frame(x, y), function(d, i) {   fit <- lm(y ~ x, data = d[i,])   -coef(fit)[1]/coef(fit)[2] }, R = 1e4);  points(quantile(sims$t, c(0.025, 0.975)), c(0, 0))

. Untuk interval prediksi terbalik, file bantuan chemCal:::inverse.predictmemberikan referensi berikut yang mungkin juga membantu menurunkan CI: Massart, LM, Vandenginste, BGM, Buydens, LMC, De Jong, S., Lewi, PJ, Smeyers-Verbeke, J. (1997 ) Buku Pegangan Chemometrics dan Qualimetrics: Bagian A, hlm. 200

— Roland

Apa yang Anda tunjukkan dalam grafik bukanlah CI untuk intersep. Anda menunjukkan titik-titik di mana garis keyakinan bawah dan atas dari prediksi melewati sumbu.

— Roland

Seringkali dalam regresi linier seseorang memiliki model yang mengatakan sesuatu seperti ini: sehingga diperlakukan sebagai acak dan sebagai tetap. Itu dapat dibenarkan dengan mengatakan Anda mencari distribusi bersyarat yang diberikan . Dalam praktiknya jika Anda mengambil sampel baru, biasanya bukan hanya tetapi juga yang berubah, menunjukkan dalam beberapa keadaan mereka juga harus dianggap acak. Saya ingin tahu apakah ini sesuai dengan kepatutan

Y_{i} = α + β x_{i} + ε_{i} where ε_{1}, \dots ε_{n} \sim i.i.d. N (0, σ^{2}),

$Y_i = \alpha + \beta x_i + \varepsilon_i \quad \text{where } \varepsilon_1,\ldots\varepsilon_n \sim \text{i.i.d. } N(0,\sigma^2),$

Y

$Y$

x

$x$

x

$x$

Y

$Y$

x

$x$

\dots

$\,\ldots\qquad$

— Michael Hardy

stats.stackexchange.com/search?q="inverse+regress "

— whuber

@AdrienRenaud - Tampaknya bagi saya bahwa jawaban Anda terlalu sederhana mengingat aspek asimetris yang saya sebutkan, dan disorot oleh latihan bootstrap yang diilustrasikan Roland. Jika saya tidak bertanya terlalu banyak, mungkin Anda bisa memperluas pendekatan kemungkinan yang Anda sebutkan.

— Marc di dalam kotak

Jawaban:

Bagaimana cara menghitung interval kepercayaan x-intersep dalam regresi linier?

Asumsi

Gunakan model regresi sederhana . $y_i = \alpha + \beta x_i + \varepsilon_i$
Kesalahan memiliki distribusi normal yang tergantung pada regressor $\epsilon | X \sim \mathcal{N}(0, \sigma^2 I_n)$
Pas menggunakan kuadrat terkecil biasa

3 prosedur untuk menghitung interval kepercayaan pada x-intersep

Ekspansi Taylor (mudah digunakan)
Marc in the box method (MIB)
CAPITANI-POLLASTRI ( https://boa.unimib.it/retrieve/handle/10281/43053/64388/DECAPITANI_Pollastri.pdf )

Urutan pertama ekspansi Taylor

Model Anda dengan perkiraan standar deviasi dan pada dan parameter dan diperkirakan kovarians . Anda memecahkan $Y=aX+b$ $\sigma_a$ $\sigma_b$ $a$ $b$ $\sigma_{ab}$

a X + b = 0 \Leftrightarrow X = \frac{- b}{a} .

$aX+b=0 \Leftrightarrow X= \frac{-b} a.$

Kemudian standar deviasi pada diberikan oleh: $\sigma_X$ $X$

{(\frac{σ_{X}}{X})}^{2} = {(\frac{σ_{b}}{b})}^{2} + {(\frac{σ_{a}}{a})}^{2} - 2 \frac{σ_{a b}}{a b} .

$\left( \frac {\sigma_X} X \right)^2 = \left( \frac {\sigma_b} b \right)^2 + \left( \frac {\sigma_a} a \right)^2 - 2 \frac{\sigma_{ab}}{ab}.$

MIB

Lihat kode dari Marc di kotak di Bagaimana cara menghitung interval kepercayaan x-intersep dalam regresi linier? .

CAPITANI-POLLASTRI

CAPITANI-POLLASTRI menyediakan Fungsi Distribusi Kumulatif dan Fungsi Kepadatan untuk rasio dua variabel acak Normal berkorelasi. Ini dapat digunakan untuk menghitung interval kepercayaan x-intersep dalam regresi linier. Prosedur ini memberikan (hampir) hasil yang identik dengan yang dari MIB.

Memang, menggunakan kuadrat terkecil biasa dan mengasumsikan normalitas kesalahan, (diverifikasi) dan berkorelasi (terverifikasi). $\hat\beta \sim \mathcal{N}(\beta, \sigma^2 (X^TX)^{-1})$ $\hat{\beta}$

Prosedurnya adalah sebagai berikut:

dapatkan penaksir OLS untuk dan . $a$ $b$
dapatkan matriks varians-kovarians dan ekstrak, . $\sigma_a, \sigma_b, \sigma_{ab}=\rho\sigma_a\sigma_b$
Asumsikan bahwa dan mengikuti distribusi Normal Berkorelasi Bivariat, . Kemudian fungsi kerapatan dan Fungsi Distribusi Kumulatif diberikan oleh CAPITANI-POLLASTRI. $a$ $b$ $\mathcal{N}(a, b, \sigma_a, \sigma_b, \rho)$ $x_{intercept}= \frac{-b}{a}$
Gunakan Fungsi Distribusi Kumulatif untuk menghitung kuantil yang diinginkan dan mengatur interval cofidence. $x_{intercept}= \frac{-b}{a}$

Perbandingan 3 prosedur

Prosedur dibandingkan menggunakan konfigurasi data berikut:

x <- 1:10
a <- 20
b <- -2
y <- a + b * x + rnorm (panjang (x), rata-rata = 0, sd = 1)

10000 sampel berbeda dihasilkan dan dianalisis menggunakan 3 metode. Kode (R) yang digunakan untuk menghasilkan dan menganalisis dapat ditemukan di: https://github.com/adrienrenaud/stackExchange/blob/master/crossValidated/q221630/answer.ipynb

MIB dan CAPITANI-POLLASTRI memberikan hasil yang setara.
Urutan pertama ekspansi Taylor berbeda secara signifikan dari dua metode lainnya.
MIB dan CAPITANI-POLLASTRI mengalami kekurangan cakupan. 68% (95%) ci ditemukan mengandung nilai sebenarnya 63% (92%) saat itu.
Ekspansi Taylor urutan pertama mengalami over-coverage. 68% (95%) ci ditemukan mengandung nilai sebenarnya 87% (99%) saat itu.

Kesimpulan

Distribusi x-intersep bersifat asimetris. Ini membenarkan interval kepercayaan asimetris. MIB dan CAPITANI-POLLASTRI memberikan hasil yang setara. CAPITANI-POLLASTRI memiliki justifikasi teori yang bagus dan memberikan dasar bagi MIB. MIB dan CAPITANI-POLLASTRI menderita dari cakupan sedang dan dapat digunakan untuk mengatur interval kepercayaan.

— Adrien Renaud
sumber

Terima kasih atas jawaban yang bagus ini. Apakah metode ini menyiratkan bahwa kesalahan standar dari intersep x simetris? Interval prediksi pada gambar saya menyiratkan bahwa ini bukan masalahnya, dan saya telah melihat referensi untuk ini di tempat lain.

— Marc di dalam kotak

Ya, itu menyiratkan interval simetris. Jika Anda menginginkan yang asimetris, Anda dapat menggunakan kemungkinan profil memperlakukan parameter model Anda sebagai parameter gangguan. Tapi ini lebih banyak pekerjaan :)

— Adrien Renaud

Bisakah Anda menjelaskan lebih detail bagaimana Anda mendapatkan ekspresi untuk ?

(σ_{X} / X)^{2}

$(\sigma_X/X)^2$

@ fcop Ini adalah ekspansi Taylor. Silahkan lihat di en.wikipedia.org/wiki/Propagation_of_uncertainty

— Adrien Renaud

Saya akan merekomendasikan bootstrap residunya:

library(boot)

set.seed(42)
sims <- boot(residuals(fit), function(r, i, d = data.frame(x, y), yhat = fitted(fit)) {

  d$y <- yhat + r[i]

  fitb <- lm(y ~ x, data = d)

  -coef(fitb)[1]/coef(fitb)[2]
}, R = 1e4)
lines(quantile(sims$t, c(0.025, 0.975)), c(0, 0), col = "blue")

Apa yang Anda tunjukkan dalam grafik adalah titik-titik di mana batas bawah / atas dari pita kepercayaan prediksi melewati sumbu. Saya tidak berpikir ini adalah batas kepercayaan pencegatan, tapi mungkin mereka perkiraan kasar.

— Roland
sumber

Hebat - ini sudah terlihat lebih masuk akal daripada contoh dari komentar Anda. Terima kasih lagi.

— Marc di dalam kotak