Informasi dari matriks topi untuk regresi logistik


12

Jelas bagi saya, dan dijelaskan dengan baik di beberapa situs, informasi apa yang diberikan nilai-nilai pada diagonal dari matriks topi untuk regresi linier.

Matriks topi dari model regresi logistik kurang jelas bagi saya. Apakah identik dengan informasi yang Anda dapatkan dari matriks yang menerapkan regresi linier? Ini adalah definisi dari matriks topi yang saya temukan pada topik CV lainnya (sumber 1):

H=VX(XVX)1XV

dengan X vektor variabel prediktor dan V adalah matriks diagonal dengan (π(1π)) .

Apakah itu, dengan kata lain, juga benar bahwa nilai tertentu dari matriks topi pengamatan juga hanya menyajikan posisi kovariat di ruang kovariat, dan tidak ada hubungannya dengan nilai hasil pengamatan itu?

Ini ditulis dalam buku "Analisis data kategorikal" dari Agresti:

Semakin besar tingkat pengamatan, semakin besar pengaruhnya terhadap kecocokan. Seperti dalam regresi biasa, leverage jatuh antara 0 dan 1 dan dijumlahkan ke jumlah parameter model. Tidak seperti regresi biasa, nilai topi tergantung pada kecocokan serta matriks model, dan poin yang memiliki nilai prediktor ekstrim tidak perlu memiliki leverage yang tinggi.

Jadi dari definisi ini, tampaknya kita tidak dapat menggunakannya karena kita menggunakannya dalam regresi linier biasa?

Sumber 1: Bagaimana menghitung matriks topi untuk regresi logistik di R?

Jawaban:


13

Biarkan saya mengubah sedikit notasi dan menulis matriks topi sebagai mana adalah matriks simetris diagonal dengan elemen umum . Mendenotasikan sebagai kelompok individu dengan nilai kovariat yang sama . Anda dapat memperoleh elemen diagonal ( ) dari matriks topi sebagai Kemudian jumlah memberikan jumlah parameter seperti dalam regresi linier. Sekarang untuk pertanyaan Anda:

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

Interpretasi nilai leverage dalam matriks topi tergantung pada estimasi probabilitas . Jika , Anda dapat menafsirkan nilai leverage dengan cara yang sama seperti dalam kasus regresi linier, yaitu semakin jauh dari rata-rata memberi Anda nilai yang lebih tinggi. Jika Anda berada di ujung ekstrim dari distribusi probabilitas, nilai leverage ini mungkin tidak mengukur jarak lagi dalam arti yang sama. Ini ditunjukkan pada gambar di bawah ini yang diambil dari Hosmer dan Lemeshow (2000):π0.1<π<0.9

masukkan deskripsi gambar di sini

Dalam hal ini nilai-nilai paling ekstrem dalam ruang kovariat dapat memberi Anda leverage terkecil, yang bertentangan dengan kasus regresi linier. Alasannya adalah bahwa leverage dalam regresi linier adalah fungsi monoton, yang tidak benar untuk regresi logistik non-linear. Ada bagian yang meningkat secara monoton dalam perumusan unsur-unsur diagonal matriks topi di atas yang mewakili jarak dari rata-rata. Itu adalah bagian , yang mungkin Anda lihat jika Anda hanya tertarik pada jarak per se. Mayoritas statistik diagnostik untuk regresi logistik memanfaatkan leverage penuh , sehingga bagian monoton yang terpisah ini jarang dianggap sendirian.xj(XVX)1xjhj

Jika Anda ingin membaca lebih dalam tentang topik ini, lihat makalahnya oleh Pregibon (1981), yang membuat matriks topi logistik, dan buku karya Hosmer dan Lemeshow (2000).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.