Saya memiliki dataset dengan variabel respons biner (bertahan hidup) dan 3 variabel penjelas ( A
= 3 level, B
= 3 level, C
= 6 level). Dalam dataset ini, data seimbang dengan 100 individu per ABC
kategori. Saya sudah mempelajari efek dari A
, B
dan C
variabel dengan dataset ini; efeknya signifikan.
Saya memiliki subset. Dalam setiap ABC
kategori, 25 dari 100 individu, di mana sekitar setengahnya masih hidup dan setengahnya mati (ketika kurang dari 12 masih hidup atau mati, jumlahnya diselesaikan dengan kategori lain), selanjutnya diselidiki untuk variabel ke-4 ( D
). Saya melihat tiga masalah di sini:
- Saya perlu mempertimbangkan data koreksi peristiwa langka yang dijelaskan dalam King dan Zeng (2001) untuk memperhitungkan perkiraan 50% - 50% tidak sama dengan proporsi 0/1 dalam sampel yang lebih besar.
- Pengambilan sampel non-acak 0 dan 1 ini mengarah pada kemungkinan berbeda bagi individu untuk disampel di masing-masing
ABC
kategori, jadi saya pikir saya harus menggunakan proporsi sebenarnya dari setiap kategori daripada proporsi global 0/1 dalam sampel besar . - Variabel 4 ini memiliki 4 level, dan data benar-benar tidak seimbang dalam 4 level ini (90% dari data berada dalam 1 level ini, katakanlah level
D2
).
Saya telah membaca makalah King dan Zeng (2001) dengan hati-hati, juga pertanyaan CV ini yang membawa saya ke kertas King dan Zeng (2001), dan kemudian yang lain ini yang mendorong saya untuk mencoba logistf
paket (saya menggunakan R). Saya mencoba menerapkan apa yang saya pahami dari King dan Zheng (2001), tetapi saya tidak yakin apa yang saya lakukan itu benar. Saya mengerti ada dua metode:
- Untuk metode koreksi sebelumnya, saya mengerti Anda hanya memperbaiki intersep. Dalam kasus saya, intersep adalah
A1B1C1
kategori, dan dalam kategori ini, survival adalah 100%, jadi survival dalam dataset besar dan subsetnya sama, dan oleh karena itu koreksi tidak mengubah apa pun. Saya curiga metode ini seharusnya tidak berlaku bagi saya, karena saya tidak memiliki proporsi sebenarnya secara keseluruhan, tetapi proporsi untuk setiap kategori, dan metode ini mengabaikan hal itu. Untuk metode pembobotan: Saya menghitung w i , dan dari apa yang saya pahami dalam makalah: "Semua peneliti perlu lakukan adalah menghitung w i dalam Persamaan. (8), pilih sebagai bobot dalam program komputer mereka, dan kemudian jalankan model logit ". Jadi saya pertama berlari
glm
sebagai:glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
Saya tidak yakin saya harus memasukkan
A
,,B
danC
sebagai variabel penjelas, karena saya biasanya berharap mereka tidak memiliki efek pada kelangsungan hidup dalam subsampel ini (setiap kategori berisi sekitar 50% mati dan hidup). Bagaimanapun, itu tidak boleh banyak mengubah output jika mereka tidak signifikan. Dengan koreksi ini, saya mendapatkan tingkat yang cocok untuk levelD2
(level dengan sebagian besar individu), tetapi tidak sama sekali untuk level orang lainD
(D2
lebih tinggi). Lihat grafik kanan atas:
Cocok untuk model non-tertimbang
glm
danglm
model yang ditimbang dengan w i . Setiap titik mewakili satu kategori.Proportion in the big dataset
adalah proporsi sebenarnya dari 1 dalamABC
kategori di dataset besar,Proportion in the sub dataset
adalah proporsi sebenarnya dari 1 dalamABC
kategori di subdataset, danModel predictions
merupakan prediksiglm
model yang cocok dengan subdataset. Setiappch
simbol mewakili tingkat tertentuD
. Segitiga adalah levelD2
.
Baru kemudian ketika melihat ada logistf
, saya pikir ini mungkin tidak sesederhana itu. Saya tidak yakin sekarang. Ketika melakukan logistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
, saya mendapatkan perkiraan, tetapi fungsi prediksi tidak berfungsi, dan tes model default mengembalikan nilai kuadrat chi tak terbatas (kecuali satu) dan semua nilai p = 0 (kecuali 1).
Pertanyaan:
- Apakah saya benar memahami King dan Zeng (2001)? (Seberapa jauh saya dari memahaminya?)
- Dalam saya
glm
cocok,A
,B
, danC
memiliki efek yang signifikan. Semua ini berarti bahwa saya mendistribusi banyak dari setengah / setengah proporsi 0 dan 1 di subset saya dan berbeda dalamABC
kategori yang berbeda - bukankah itu benar? - Dapatkah saya menerapkan koreksi bobot King and Zeng (2001) meskipun faktanya saya memiliki nilai tau dan nilai untuk setiap kategori alih-alih nilai global?
ABC
- Apakah ini masalah bahwa
D
variabel saya sangat tidak seimbang, dan jika ya, bagaimana saya bisa mengatasinya? (Memperhatikan saya harus mempertimbangkan untuk koreksi peristiwa langka ... Apakah "pembobotan ganda", yaitu menimbang bobot, mungkin?) Terima kasih!
Sunting : Lihat apa yang terjadi jika saya menghapus A, B dan C dari model. Saya tidak mengerti mengapa ada perbedaan seperti itu.
Cocok tanpa A, B, dan C sebagai variabel penjelas dalam model