Perbandingan metode interval kepercayaan pada contoh dari ISL
Buku "Pengantar Pembelajaran Statistik" oleh Tibshirani, James, Hastie memberikan contoh pada halaman 267 interval kepercayaan untuk tingkat regresi logistik polinomial tingkat 4 pada data upah . Mengutip buku:
Kami memodelkan peristiwa biner menggunakan regresi logistik dengan polinomial derajat-4. Probabilitas posterior pas upah yang melebihi $ 250.000 ditunjukkan dengan warna biru, bersama dengan perkiraan interval kepercayaan 95%.wage>250
Di bawah ini adalah rekap cepat dua metode untuk membangun interval seperti itu serta komentar tentang cara mengimplementasikannya dari awal
Interval transformasi Wald / Endpoint
- Hitung batas atas dan bawah dari interval kepercayaan untuk kombinasi linier (menggunakan Wald CI)xTβ
- Terapkan transformasi monoton ke titik akhir untuk mendapatkan probabilitas.F(xTβ)
Karena adalah transformasi monotonx T βPr(xTβ)=F(xTβ)xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Secara konkret ini berarti menghitung dan kemudian menerapkan transformasi logit ke hasil untuk mendapatkan batas bawah dan atas:βTx±z∗SE(βTx)
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Menghitung kesalahan standar
Teori Maximum Likelihood memberi tahu kita bahwa varians perkiraan dapat dihitung menggunakan matriks kovarians dari koefisien regresi menggunakanxTβΣ
Var(xTβ)=xTΣx
Tetapkan matriks desain dan matriks sebagaiXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
di mana adalah nilai dari variabel untuk pengamatan ke- dan mewakili probabilitas prediksi untuk pengamatan .xi,jjiπ^ii
Matriks kovarians kemudian dapat ditemukan sebagai: dan kesalahan standar sebagaiΣ=(XTVX)−1SE(xTβ)=Var(xTβ)−−−−−−−−√
Interval kepercayaan 95% untuk probabilitas yang diprediksi kemudian dapat diplot sebagai
Interval kepercayaan metode Delta
Pendekatannya adalah untuk menghitung varians dari pendekatan linier dari fungsi dan menggunakannya untuk membuat interval kepercayaan sampel yang besar.F
Var[F(xTβ^)]≈∇FT Σ ∇F
Di mana adalah gradien dan , estimasi matriks kovarians. Perhatikan bahwa dalam satu dimensi: ∇Σ
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Dimana adalah turunan dari . Ini digeneralisasi dalam kasus multivarianfF
Var[F(xTβ^)]≈fT xT Σ x f
Dalam kasus kami F adalah fungsi logistik (yang akan kami nyatakan ) yang turunannya adalahπ(xTβ)
π′(xTβ)=π(xTβ)(1−π(xTβ))
Kita sekarang dapat membangun interval kepercayaan menggunakan varians yang dihitung di atas.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
Dalam bentuk vektor untuk kasus multivarian
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Perhatikan bahwa mewakili titik data tunggal dalam , yaitu satu baris tunggal dari matriks desainR p + 1 XxRp+1X
Kesimpulan terbuka
Melihat plot QQ Normal untuk probabilitas dan peluang log negatif menunjukkan bahwa keduanya tidak terdistribusi secara normal. Bisakah ini menjelaskan perbedaannya?
Sumber: