Saya mencoba untuk melakukan analisis kelangsungan hidup waktu diskrit menggunakan model regresi logistik, dan saya tidak yakin saya benar-benar memahami prosesnya. Saya akan sangat menghargai bantuan dengan beberapa pertanyaan dasar.
Ini adalah pengaturannya:
Saya melihat keanggotaan dalam grup dalam rentang waktu lima tahun. Setiap anggota memiliki catatan keanggotaan bulanan untuk setiap bulan bahwa anggota tersebut ada dalam grup. Saya mempertimbangkan semua anggota yang keanggotaannya dimulai selama jendela lima tahun (untuk menghindari masalah "sensor kiri" dengan anggota yang bergabung sebelumnya). Setiap catatan akan diindeks berdasarkan waktu, dengan waktu satu bulan sebagai anggota bergabung. Jadi, seorang anggota yang tinggal selama dua setengah tahun akan memiliki catatan bulanan tiga puluh, jumlahnya dari satu hingga tiga puluh. Setiap catatan juga akan diberikan variabel biner, yang akan memiliki nilai satu untuk bulan terakhir keanggotaan, dan nol sebaliknya; nilai satu untuk variabel biner menandai peristiwa bahwa anggota telah meninggalkan grup. Untuk setiap anggota yang keanggotaannya berlanjut melampaui jendela analisis lima tahun,
Jadi, model regresi logistik dibangun untuk memprediksi nilai-nilai variabel acara biner. Sejauh ini baik. Salah satu cara khas untuk mengevaluasi model prediksi biner adalah dengan mengukur lift pada sampel penahan. Untuk model regresi logistik yang telah saya bangun untuk memprediksi acara berakhirnya keanggotaan, saya telah menghitung peningkatan pada set data ketidaksepakatan dengan rasio lima banding satu kejadian-kejadian terhadap kejadian. Saya peringkat nilai-nilai yang diprediksi ke dalam desil. Dekil dengan nilai prediksi tertinggi berisi tujuh puluh persen, peningkatan lebih dari empat. Gabungan dua desil pertama mengandung enam puluh lima persen dari semua desas-desus. Dalam konteks tertentu ini akan dianggap sebagai model prediksi yang cukup baik, tetapi saya bertanya-tanya apakah itu cukup baik untuk melakukan analisis kelangsungan hidup.
Misalkan adalah fungsi bahaya untuk individu dalam bulan , dan misalkan adalah probabilitas bahwa individu bertahan hingga bulan .
Inilah pertanyaan mendasar saya:
Apakah fungsi bahaya diskrit, , probabilitas bersyarat untuk tidak dapat bertahan hidup (meninggalkan grup) di setiap bulan?
Apakah nilai yang diprediksi dari estimasi model regresi logistik dari fungsi bahaya? (yaitu, apakah sama dengan nilai model yang diprediksi untuk masing-masing j dalam bulan k , atau apakah sesuatu yang lebih perlu dilakukan untuk mendapatkan perkiraan fungsi bahaya?)
Apakah probabilitas bertahan hidup hingga bulan q untuk individu sama dengan produk satu dikurangi fungsi bahaya dari bulan satu hingga q , yaitu, apakah S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ ... ⋅ ( 1 - h [ j , q ] ) ?
Apakah nilai rata-rata atas semua individu j untuk setiap kali k merupakan estimasi yang masuk akal dari keseluruhan populasi berarti probabilitas kelangsungan hidup?
Haruskah sebidang populasi keseluruhan berarti probabilitas kelangsungan hidup per bulan menyerupai grafik Kaplan-Meier bulanan?
Jika jawaban untuk semua pertanyaan ini adalah tidak, maka saya memiliki kesalahpahaman yang serius, dan benar-benar dapat menggunakan bantuan / penjelasan. Juga, apakah ada aturan praktis tentang seberapa baik model prediksi biner perlu untuk menghasilkan profil bertahan hidup yang akurat?