Penyebaran berlebihan dalam regresi logistik

Saya mencoba memahami konsep overdispersion dalam regresi logistik. Saya telah membaca bahwa penyebaran berlebihan adalah ketika varians yang diamati dari variabel respon lebih besar daripada yang diharapkan dari distribusi binomial.

Tetapi jika variabel binomial hanya dapat memiliki dua nilai (1/0), bagaimana bisa memiliki mean dan varians?

Saya baik-baik saja dengan menghitung rata-rata dan ragam keberhasilan dari x jumlah uji coba Bernoulli. Tapi saya tidak bisa membungkus kepala saya di sekitar konsep mean dan varians dari variabel yang hanya dapat memiliki dua nilai.

Adakah yang bisa memberikan gambaran intuitif tentang:

Konsep mean dan varians dalam variabel yang hanya dapat memiliki dua nilai
Konsep overdispersion dalam suatu variabel yang hanya dapat memiliki dua nilai

— luciano
sumber

y

$y$

0

$0$

1

$1$

y

$y$

Baik menempatkan jadi saya percaya itu berarti = 0,5, standar deviasi = 0,11.

— luciano

Katakanlah variabel respons saya memiliki 100 keberhasilan dan 5 gagal. Apakah ini kemungkinan terlalu banyak disebarkan?

— luciano

luciano, Anda perlu lebih dari satu realisasi percobaan untuk menentukan apakah itu overdispersi.

— Underminer

Jawaban:

$N$ $p$ $N$ $N+1$ $0,1,2,3,...,N$

$N = 1$

Dalam konteks kurva regresi logistik, Anda dapat mempertimbangkan "irisan kecil", atau pengelompokan, melalui rentang nilai prediktor yang sempit untuk menjadi realisasi percobaan binomial (mungkin kita memiliki 10 poin dalam irisan dengan jumlah tertentu dari keberhasilan dan kegagalan). Meskipun kami tidak benar-benar memiliki beberapa uji coba pada setiap nilai prediktor dan kami melihat proporsi alih-alih hitungan mentah, kami masih berharap proporsi masing-masing "irisan" ini mendekati kurva. Jika "irisan" ini memiliki kecenderungan jauh dari kurva, ada terlalu banyak variabilitas dalam distribusi. Jadi dengan mengelompokkan pengamatan, Anda membuat realisasi variabel acak binomial daripada melihat data 0/1 secara individual.

Contoh di bawah ini dari pertanyaan lain di situs ini. Katakanlah garis biru mewakili proporsi yang diharapkan pada rentang variabel prediktor. Sel-sel biru menunjukkan contoh yang diamati (dalam hal ini sekolah). Ini memberikan representasi grafis bagaimana tampilan berlebihan dapat terlihat. Perhatikan bahwa ada kekurangan dengan menafsirkan sel-sel grafik di bawah ini, tetapi ini memberikan gambaran tentang bagaimana penyebaran berlebihan dapat memanifestasikan dirinya.

— Underminer
sumber

Tetapi saya tertarik pada penyebaran berlebihan dalam konteks regresi logistik. Untuk setiap nilai variabel prediktor dalam regresi logistik, tidak ada n percobaan, hanya ada satu percobaan. Dan hasil dari satu percobaan itu bisa berhasil atau gagal

— luciano

Saya baru saja menambahkan paragraf untuk membahas intuisi di balik overdispersi dalam konteks regresi linier.

— Underminer

Underminer, saya mencoba membayangkan apa yang Anda maksud dengan kalimat ini: "Jika" irisan "ini cenderung jauh dari kurva, ada terlalu banyak variabilitas dalam distribusi". Inilah yang saya pikir Anda maksud: pada irisan pada kurva di mana ada mengatakan 0,1-0,3 probabilitas keberhasilan ada banyak keberhasilan dan pada irisan pada kurva di mana ada mengatakan 0,7-0,9 probabilitas keberhasilan ada banyak dari gagal. Apakah ini yang Anda maksud dan akankah ini mewakili penyebaran berlebihan?

— luciano

@ Luciano Itu ide yang tepat. Namun perlu diingat harus ada keseimbangan "irisan" yang terlalu jauh di atas dan terlalu jauh di bawah kurva agar fit terjadi di tempat pertama. Jadi mungkin lebih realistis untuk mengatakan bahwa irisan sekitar 0,7 memiliki terlalu banyak keberhasilan (mungkin 100%) dan irisan berikutnya sekitar 0,75 memiliki terlalu sedikit (50%) maka 0,80 memiliki terlalu banyak (100%), dll. Jadi ada lebih banyak varian diamati daripada yang diharapkan.

— Underminer

Saya mengerti, dijelaskan dengan baik

— luciano

Seperti yang sudah dicatat oleh orang lain, overdispersi tidak berlaku dalam kasus variabel Bernoulli (0/1), karena dalam kasus itu, mean berarti menentukan varians. Dalam konteks regresi logistik, ini berarti bahwa jika hasil Anda adalah biner, Anda tidak dapat memperkirakan parameter dispersi. (NB Ini tidak berarti bahwa Anda dapat mengabaikan korelasi potensial antara pengamatan hanya karena hasil Anda biner!)

Jika, di sisi lain, hasil Anda adalah sekumpulan proporsi, maka Anda dapat memperkirakan parameter dispersi (yang, meskipun sering lebih besar dari satu, juga bisa kurang dari satu) dengan membagi statistik chi-squared Pearson (atau penyimpangan). ) oleh derajat sisa kebebasan.

Ingat, regresi logistik dengan hasil biner murni hanyalah kasus khusus dari model regresi logistik yang lebih umum di mana indeks binomial dapat melebihi satu (dan dapat bervariasi antar pengamatan). Dengan demikian, pertanyaan apakah Anda cocok dengan model regresi logistik atau tidak tidak terkait dengan pertanyaan apakah data Anda terlalu banyak disebarkan.

— Phil Schumm
sumber