Saya memiliki dataset dengan variabel respons biner (bertahan hidup) dan 3 variabel penjelas ( A= 3 level, B= 3 level, C= 6 level). Dalam dataset ini, data seimbang dengan 100 individu per ABCkategori. Saya sudah mempelajari efek dari A, Bdan Cvariabel dengan dataset ini; efeknya signifikan.
Saya memiliki subset. Dalam setiap ABCkategori, 25 dari 100 individu, di mana sekitar setengahnya masih hidup dan setengahnya mati (ketika kurang dari 12 masih hidup atau mati, jumlahnya diselesaikan dengan kategori lain), selanjutnya diselidiki untuk variabel ke-4 ( D). Saya melihat tiga masalah di sini:
- Saya perlu mempertimbangkan data koreksi peristiwa langka yang dijelaskan dalam King dan Zeng (2001) untuk memperhitungkan perkiraan 50% - 50% tidak sama dengan proporsi 0/1 dalam sampel yang lebih besar.
- Pengambilan sampel non-acak 0 dan 1 ini mengarah pada kemungkinan berbeda bagi individu untuk disampel di masing-masing
ABCkategori, jadi saya pikir saya harus menggunakan proporsi sebenarnya dari setiap kategori daripada proporsi global 0/1 dalam sampel besar . - Variabel 4 ini memiliki 4 level, dan data benar-benar tidak seimbang dalam 4 level ini (90% dari data berada dalam 1 level ini, katakanlah level
D2).
Saya telah membaca makalah King dan Zeng (2001) dengan hati-hati, juga pertanyaan CV ini yang membawa saya ke kertas King dan Zeng (2001), dan kemudian yang lain ini yang mendorong saya untuk mencoba logistfpaket (saya menggunakan R). Saya mencoba menerapkan apa yang saya pahami dari King dan Zheng (2001), tetapi saya tidak yakin apa yang saya lakukan itu benar. Saya mengerti ada dua metode:
- Untuk metode koreksi sebelumnya, saya mengerti Anda hanya memperbaiki intersep. Dalam kasus saya, intersep adalah
A1B1C1kategori, dan dalam kategori ini, survival adalah 100%, jadi survival dalam dataset besar dan subsetnya sama, dan oleh karena itu koreksi tidak mengubah apa pun. Saya curiga metode ini seharusnya tidak berlaku bagi saya, karena saya tidak memiliki proporsi sebenarnya secara keseluruhan, tetapi proporsi untuk setiap kategori, dan metode ini mengabaikan hal itu. Untuk metode pembobotan: Saya menghitung w i , dan dari apa yang saya pahami dalam makalah: "Semua peneliti perlu lakukan adalah menghitung w i dalam Persamaan. (8), pilih sebagai bobot dalam program komputer mereka, dan kemudian jalankan model logit ". Jadi saya pertama berlari
glmsebagai:glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)Saya tidak yakin saya harus memasukkan
A,,BdanCsebagai variabel penjelas, karena saya biasanya berharap mereka tidak memiliki efek pada kelangsungan hidup dalam subsampel ini (setiap kategori berisi sekitar 50% mati dan hidup). Bagaimanapun, itu tidak boleh banyak mengubah output jika mereka tidak signifikan. Dengan koreksi ini, saya mendapatkan tingkat yang cocok untuk levelD2(level dengan sebagian besar individu), tetapi tidak sama sekali untuk level orang lainD(D2lebih tinggi). Lihat grafik kanan atas:
Cocok untuk model non-tertimbang
glmdanglmmodel yang ditimbang dengan w i . Setiap titik mewakili satu kategori.Proportion in the big datasetadalah proporsi sebenarnya dari 1 dalamABCkategori di dataset besar,Proportion in the sub datasetadalah proporsi sebenarnya dari 1 dalamABCkategori di subdataset, danModel predictionsmerupakan prediksiglmmodel yang cocok dengan subdataset. Setiappchsimbol mewakili tingkat tertentuD. Segitiga adalah levelD2.
Baru kemudian ketika melihat ada logistf, saya pikir ini mungkin tidak sesederhana itu. Saya tidak yakin sekarang. Ketika melakukan logistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial), saya mendapatkan perkiraan, tetapi fungsi prediksi tidak berfungsi, dan tes model default mengembalikan nilai kuadrat chi tak terbatas (kecuali satu) dan semua nilai p = 0 (kecuali 1).
Pertanyaan:
- Apakah saya benar memahami King dan Zeng (2001)? (Seberapa jauh saya dari memahaminya?)
- Dalam saya
glmcocok,A,B, danCmemiliki efek yang signifikan. Semua ini berarti bahwa saya mendistribusi banyak dari setengah / setengah proporsi 0 dan 1 di subset saya dan berbeda dalamABCkategori yang berbeda - bukankah itu benar? - Dapatkah saya menerapkan koreksi bobot King and Zeng (2001) meskipun faktanya saya memiliki nilai tau dan nilai untuk setiap kategori alih-alih nilai global?
ABC - Apakah ini masalah bahwa
Dvariabel saya sangat tidak seimbang, dan jika ya, bagaimana saya bisa mengatasinya? (Memperhatikan saya harus mempertimbangkan untuk koreksi peristiwa langka ... Apakah "pembobotan ganda", yaitu menimbang bobot, mungkin?) Terima kasih!
Sunting : Lihat apa yang terjadi jika saya menghapus A, B dan C dari model. Saya tidak mengerti mengapa ada perbedaan seperti itu.
Cocok tanpa A, B, dan C sebagai variabel penjelas dalam model
Cocok untuk model non-tertimbang
Cocok tanpa A, B, dan C sebagai variabel penjelas dalam model
Prediksi model baru terhadap proporsi dalam dataset besar.