Uji good-of-fit dalam regresi logistik; 'cocok' mana yang ingin kita uji?

Saya merujuk pada pertanyaan dan jawabannya: Bagaimana cara membandingkan (kemungkinan) kemampuan prediksi model yang dikembangkan dari regresi logistik? oleh @Clark Chong dan jawaban / komentar oleh @ Frank Harrell. dan untuk pertanyaan Derajat kebebasan dalam tes Hosmer-Lemeshow $\chi^2$ dan komentar-komentarnya.

Saya telah membaca makalah DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Sebuah perbandingan tes good-of-fit untuk model regresi Logistik", Statistics in Medicine, Vol. 16, 965-980 (1997) .

Setelah membaca saya bingung karena pertanyaan yang saya ajukan bertanya secara eksplisit untuk "(kemungkinan) kemampuan prediktif", yang menurut saya tidak sama dengan apa yang baik-baik-cocok-tes dalam makalah supra bertujuan:

Seperti yang kita ketahui, regresi logistik mengasumsikan hubungan berbentuk S antara variabel penjelas dan probabilitas keberhasilan, bentuk fungsional untuk bentuk S adalah

$P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$

Tanpa berpura-pura bahwa tidak ada kekurangan dengan tes Hosmer-Lemeshow, saya pikir kita harus membedakan antara tes untuk kemampuan prediksi (a) '(probabilitas) ' dan (b) ' good-of-fit '.

Tujuan former adalah untuk menguji apakah probabilitas diprediksi dengan baik, sedangkan tes good-of-fit menguji apakah fungsi berbentuk S di atas adalah fungsi 'benar'. Lebih formal:

tes untuk 'tes kemampuan prediktif probabilitas' memiliki menyatakan bahwa probabilitas keberhasilan diprediksi dengan baik oleh model; $H_0$
sedangkan untuk uji -of-fit adalah (lihat Hosmer et. al.) bahwa bentuk fungsional supra S adalah yang benar. Hosmer et al. melakukan simulasi di mana mereka menemukan kekuatan untuk mendeteksi dua jenis penyimpangan dari nol yaitu bahwa fungsi tautan salah atau bahwa eksponen dalam penyebut tidak linier. $H_0$

Jelas, jika fungsi di atas memiliki bentuk fungsional 'benar' (jadi jika tes menyimpulkan bahwa kita dapat menerima untuk goodness-of-fit), maka probabilitas yang diprediksi akan baik-baik saja, ... $H_0$

Komentar pertama

... Namun, menerima adalah kesimpulan yang lemah seperti yang dijelaskan dalam Apa yang terjadi jika kita gagal menolak hipotesis nol? . $H_0$

Pertanyaan pertama

Pertanyaan / komentar paling penting yang saya miliki adalah bahwa jika kebaikan ditolak, maka kesimpulan dari tes ini adalah bahwa bentuk fungsional bukan yang 'benar', namun, apakah ini menyiratkan bahwa probabilitasnya adalah tidak diprediksi dengan baik? $H_0$

Pertanyaan kedua

Selanjutnya, saya ingin menunjukkan kesimpulan Hosmer et. Al; (Saya mengutip dari abstrak):

'' Pemeriksaan kinerja tes ketika model yang benar memiliki istilah kuadrat tetapi model yang hanya berisi istilah linier telah sesuai menunjukkan bahwa Pearson chi-square, jumlah kuadrat-kuadrat yang tidak tertimbang, dekile Hosmer-Lemeshow risiko, jumlah sisa kuadrat yang dihaluskan dan tes skor Stukel, memiliki kekuatan melebihi 50 persen untuk mendeteksi keberangkatan moderat dari linieritas ketika ukuran sampel 100 dan memiliki kekuatan lebih dari 90 persen untuk alternatif yang sama untuk sampel ukuran 500 Semua tes tidak memiliki kekuatan ketika model yang tepat memiliki interaksi antara dikotomis dan kontinu kovariat tetapi hanya model kovariat kontinyu yang cocok. Kekuatan untuk mendeteksi tautan yang ditentukan secara spesifik buruk untuk sampel berukuran 100. Untuk sampel berukuran 500 Stukel ' Tes skor memiliki kekuatan terbaik tetapi hanya melebihi 50 persen untuk mendeteksi fungsi tautan asimetris. Kekuatan dari tes jumlah-kuadrat tidak tertimbang untuk mendeteksi fungsi tautan yang ditentukan secara salah sedikit kurang dari tes skor Stukel ''

Dapatkah saya menyimpulkan dari tes ini yang memiliki kekuatan lebih atau bahwa Hosmer – Lemeshow memiliki daya lebih kecil (untuk mendeteksi anomali spesifik ini)?

Komentar kedua

Makalah oleh Hosmer et. Al. yang saya sebut supra, menghitung (mensimulasikan) kekuatan untuk mendeteksi anomali tertentu (kekuatan hanya dapat dihitung jika ditentukan). Apakah menurut saya ini tidak menyiratkan bahwa hasil ini dapat digeneralisasi ke '' semua alternatif yang mungkin ''? $H_1$ $H_1$

— Komunitas
sumber

"Goodness of fit" kadang-kadang digunakan dalam satu sisi sebagai kebalikan dari model salah spesifikasi yang jelas, "kurang cocok"; & kadang-kadang dalam arti lain sebagai kinerja prediksi model — seberapa baik prediksi sesuai dengan pengamatan. Tes Hosmer – Lemeshow adalah untuk mendapatkan kecocokan dalam arti pertama, & meskipun bukti kurangnya kecocokan menunjukkan kinerja prediksi (GoF dalam pengertian kedua, diukur dengan mengatakan skor Nagelkerke atau Brier) dapat ditingkatkan, Anda tidak ada yang lebih bijaksana tentang bagaimana atau seberapa banyak sampai Anda mencoba perbaikan spesifik (biasanya dengan memasukkan istilah interaksi, atau dasar spline atau polinomial untuk mewakili prediktor berkelanjutan untuk memungkinkan hubungan lengkung dengan logit; kadang-kadang dengan mengubah tautan). $R^2$

Tes good-of-fit dimaksudkan untuk memiliki kekuatan yang masuk akal terhadap berbagai alternatif, daripada daya tinggi terhadap alternatif tertentu; sehingga orang yang membandingkan kekuatan tes yang berbeda cenderung mengambil pendekatan pragmatis dengan memilih beberapa alternatif yang dianggap menarik bagi pengguna potensial (lihat misalnya Stephens (1974) yang sering dikutip , "Statistik EDF untuk kebaikan cocok). & beberapa perbandingan ", JASA, 69 , 347 ). Anda tidak dapat menyimpulkan bahwa satu tes lebih kuat dari yang lain terhadap semua alternatif yang mungkin karena lebih kuat terhadap beberapa.

— Scortchi - Reinstate Monica
sumber

Dalam beberapa kasus dapat ditunjukkan bahwa tes 'seragam lebih kuat', yang berarti lebih kuat untuk semua alternatif yang mungkin (cfr Karlin / teorema Rubin). Tetapi Anda benar bahwa ini hanya dalam kasus luar biasa dan tentu saja tidak dalam pengaturan untuk tes Hosmer-Lemeshow.

Secara umum, "goodness of fit" diberikan terlalu banyak penekanan IMHO. Alternatif yang lebih baik adalah membuat modelnya pas di depan. Ini dilakukan dengan menggunakan splines regresi untuk mengendurkan asumsi linearitas, dan termasuk interaksi yang masuk akal.

— Frank Harrell

@ fcoppens: Poin bagus! Anda hanya mendapatkan tes UMP dengan sangat membatasi alternatif yang sedang dipertimbangkan untuk nilai-nilai parameter skalar, & itupun tidak selalu. Bahkan mempertimbangkan apakah tes tidak dapat diterima - setidaknya ada satu tes lain yang memiliki kekuatan lebih besar di bawah semua alternatif - akan membutuhkan pembatasan terlalu banyak untuk tes GOF tujuan umum.

— Scortchi