Interval prediksi untuk hasil regresi logistik dengan respons binomial

Misalkan kita memiliki model regresi logistik:

\begin{aligned} P (y = 1 | x) & = hal \\ catatan (\frac{hal}{1 - hal}) & = β x \end{aligned}

$\begin{align} P(y=1\vert\mathbf{x}) &= p \\ \log\left(\frac{p}{1-p}\right) &= \boldsymbol{\beta}\mathbf{x} \end{align}$

Diberikan sampel acak $D=\{\mathbf{X},\mathbf{y}\}$ dengan ukuran $N$ , kita dapat menghitung interval kepercayaan untuk $\boldsymbol{\beta}$ dan interval prediksi yang sesuai untuk $p$ , dengan nilai tertentu $\mathbf{x}^*$ dari vektor prediktor. Ini semua sangat standar dan terperinci, misalnya, di sini .

Andaikan saya tertarik pada interval prediksi untuk $y$ , diberikan $\mathbf{x}^*$ . Tentu saja, sama sekali tidak masuk akal untuk menghitung interval prediksi untuk realisasi tunggal $y$ , karena $y$ hanya dapat mengambil nilai 0 dan 1, dan tidak ada nilai di antaranya. Namun , jika kita mempertimbangkan $m$ realisasi $y$ untuk nilai tetap sama dari $\mathbf{x}^*$ , maka ini menjadi mirip (tapi tidak identik) dengan pertanyaan tentang komputasi interval prediksi untuk variabel acak binomial . Ini pada dasarnya situasi yang sama dijelaskan oleh Glen_b dalam komentar untuk jawaban ini. Apakah pertanyaan ini memiliki jawaban, selain dari yang sepele "gunakan bootparap nonparametrik"?

logistic binomial prediction-interval

— DeltaIV
sumber

dapatkah Anda menghitung interval prediksi untuk sebagai gantinya?

l o g (p / (1 - p))

$log(p / (1-p))$

— Hugh Perkins

@HughPerkins Saya pikir masalahnya adalah bagaimana menggabungkan ketidakpastian dalam p dengan ketidakpastian dalam sampel binomial juga mengingat ketidakpastian dalam p . Apakah ada solusi bentuk tertutup?

— EdM

@ EDM Anda mengerti maksud saya. Saya ingin tahu apakah ada solusi bentuk tertutup atau pendekatan analitis.

— DeltaIV

Gagasan acak [offtopic], terlintas dalam benak saya bahwa mungkin menarik untuk memiliki tag seperti 'peluang penelitian terbuka' untuk pertanyaan seperti ini yang / jika dijawab negatif

— Hugh Perkins

Salah satu cara ini harus bekerja tanpa bootstrap (yang dalam praktiknya mungkin merupakan hal tercepat yang diterapkan), adalah:

Asumsikan bahwa perkiraan normal untuk prediksi log-odds ( ) plus / minus kesalahan standarnya berfungsi. Perangkat lunak regresi logistik apa pun akan menyediakan ini. $x \hat{\beta}$
Persentil dari distribusi ini berubah menjadi probabilitas melalui anti-logit.
Seseorang dapat menemukan (campuran) distribusi beta yang mendekati distribusi prediksi untuk probabilitas dengan baik.
Distribusi prediktif untuk hasilnya kemudian adalah (campuran) distribusi beta-binomial (s dengan bobot pencampuran yang sama seperti yang digunakan pada langkah 3).

Atau, seseorang dapat "hanya" mengintegrasikan log-odds dari prediksi gabungan hasil dan log-odds, tapi saya percaya itu akan menjadi kekacauan total tanpa solusi bentuk tertutup.

— Björn
sumber

Anda juga bisa langsung mensimulasikan dari multivariat normal asimptotik untuk

β - \hat{β}

$\beta-\hat{\beta}$ , dan kemudian membentuk campuran binomial atas nilai-nilai itu.

— Glen_b -Reinstate Monica

Saya suka ide keseluruhan, tapi saya tidak yakin tentang detailnya. Misalnya, "temukan (campuran) distribusi beta yang mendekati distribusi prediktif untuk probabilitas dengan baik", Bagaimana Anda dalam praktiknya? Bisakah Anda menambahkan contoh? Bahkan yang berdimensi rendah pun sudah cukup.

— DeltaIV

Saya dapat menuliskan ini sebagai sesuatu dalam bentuk jawaban jika Anda mau - saya juga tidak keberatan.

— Glen_b -Reinstate Monica

@ Glen_b Saya sangat menghargai itu.

— DeltaIV

@ Glen_b, saya akan tertarik melihat jawaban itu.

— Richard Hardy