Pertanyaan dasar tentang analisis ketahanan waktu diskrit

Saya mencoba untuk melakukan analisis kelangsungan hidup waktu diskrit menggunakan model regresi logistik, dan saya tidak yakin saya benar-benar memahami prosesnya. Saya akan sangat menghargai bantuan dengan beberapa pertanyaan dasar.

Ini adalah pengaturannya:

Saya melihat keanggotaan dalam grup dalam rentang waktu lima tahun. Setiap anggota memiliki catatan keanggotaan bulanan untuk setiap bulan bahwa anggota tersebut ada dalam grup. Saya mempertimbangkan semua anggota yang keanggotaannya dimulai selama jendela lima tahun (untuk menghindari masalah "sensor kiri" dengan anggota yang bergabung sebelumnya). Setiap catatan akan diindeks berdasarkan waktu, dengan waktu satu bulan sebagai anggota bergabung. Jadi, seorang anggota yang tinggal selama dua setengah tahun akan memiliki catatan bulanan tiga puluh, jumlahnya dari satu hingga tiga puluh. Setiap catatan juga akan diberikan variabel biner, yang akan memiliki nilai satu untuk bulan terakhir keanggotaan, dan nol sebaliknya; nilai satu untuk variabel biner menandai peristiwa bahwa anggota telah meninggalkan grup. Untuk setiap anggota yang keanggotaannya berlanjut melampaui jendela analisis lima tahun,

Jadi, model regresi logistik dibangun untuk memprediksi nilai-nilai variabel acara biner. Sejauh ini baik. Salah satu cara khas untuk mengevaluasi model prediksi biner adalah dengan mengukur lift pada sampel penahan. Untuk model regresi logistik yang telah saya bangun untuk memprediksi acara berakhirnya keanggotaan, saya telah menghitung peningkatan pada set data ketidaksepakatan dengan rasio lima banding satu kejadian-kejadian terhadap kejadian. Saya peringkat nilai-nilai yang diprediksi ke dalam desil. Dekil dengan nilai prediksi tertinggi berisi tujuh puluh persen, peningkatan lebih dari empat. Gabungan dua desil pertama mengandung enam puluh lima persen dari semua desas-desus. Dalam konteks tertentu ini akan dianggap sebagai model prediksi yang cukup baik, tetapi saya bertanya-tanya apakah itu cukup baik untuk melakukan analisis kelangsungan hidup.

Misalkan $h[j,k]$ adalah fungsi bahaya untuk individu $j$ dalam bulan $k$ , dan misalkan $S[j,k]$ adalah probabilitas bahwa individu $j$ bertahan hingga bulan $k$ .

Inilah pertanyaan mendasar saya:

Apakah fungsi bahaya diskrit, $h[j,k]$ , probabilitas bersyarat untuk tidak dapat bertahan hidup (meninggalkan grup) di setiap bulan?
Apakah nilai yang diprediksi dari estimasi model regresi logistik dari fungsi bahaya? (yaitu, apakah sama dengan nilai model yang diprediksi untuk masing-masing dalam bulan , atau apakah sesuatu yang lebih perlu dilakukan untuk mendapatkan perkiraan fungsi bahaya?) $h[j,k]$ $j$ $k$
Apakah probabilitas bertahan hidup hingga bulan q untuk individu sama dengan produk satu dikurangi fungsi bahaya dari bulan satu hingga , yaitu, apakah ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
Apakah nilai rata-rata atas semua individu untuk setiap kali merupakan estimasi yang masuk akal dari keseluruhan populasi berarti probabilitas kelangsungan hidup? $S[j,k]$ $j$ $k$
Haruskah sebidang populasi keseluruhan berarti probabilitas kelangsungan hidup per bulan menyerupai grafik Kaplan-Meier bulanan?

Jika jawaban untuk semua pertanyaan ini adalah tidak, maka saya memiliki kesalahpahaman yang serius, dan benar-benar dapat menggunakan bantuan / penjelasan. Juga, apakah ada aturan praktis tentang seberapa baik model prediksi biner perlu untuk menghasilkan profil bertahan hidup yang akurat?

— Talbot Katz
sumber

Mungkin ini dapat membantu Anda dengan beberapa pertanyaan Anda

— jujae

Asumsikan $K$ adalah nilai terbesar dari $k$ (yaitu bulan / periode terbesar yang diamati dalam data Anda).

Berikut adalah fungsi bahaya dengan parametriisasi waktu sepenuhnya diskrit, dan dengan vektor parameter $\mathbf{B}$ vektor variabel pengkondisian $\mathbf{X}$ : $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ . Fungsi bahaya juga dapat dibangun di sekitar parameterisasi waktu alternatif (misalnya menyertakan $k$ atau fungsi sebagai variabel dalam model), atau di sekitar gabungan keduanya.

The dasar fungsi logit hazard menggambarkan probabilitas acara terjadinya dalam waktu $k$ , kondisional karena telah selamat ke waktu $k$ . Menambahkan prediktor ( $\mathbf{X}$ ) ke model lebih lanjut membatasi persyaratan ini.
Tidak, perkiraan regresi logistik $\hat{\alpha}_{1}$ , $\dots$ , , ) adalah tidak fungsi bahaya sendiri. Model regresi logistik: logit , dan Anda perlu melakukan transformasi anti-logit di (1) di atas untuk mendapatkan perkiraan bahaya. $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$
Iya. Meskipun saya akan notate itu . Fungsi survival adalah probabilitas tidak mengalami peristiwa saat , dan tentu saja juga dapat dikondisikan pada . $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
Ini pertanyaan yang halus, tidak yakin saya punya jawaban. Tapi aku punya pertanyaan. :) Ukuran sampel pada setiap periode waktu menurun dari waktu ke waktu karena sensor-kanan dan karena peristiwa: apakah Anda memperhitungkan ini dalam perhitungan waktu survival rata-rata Anda? Bagaimana? Apa yang Anda maksud dengan "populasi?" Populasi apa yang direkrut individu untuk studi Anda generalisasi? Atau maksud Anda beberapa konsep statistik "populasi super"? Inferensi adalah besar tantangan dalam model ini, karena kami memperkirakan $\beta$ dan kesalahan standar mereka, tetapi perlu melakukan delta-metode back-membalik untuk mendapatkan kesalahan standar untuk , dan (dari pekerjaan saya sendiri) berasal standar yang berlaku kesalahan untuk $\hat{h}_{j,k}$ $\hat{S}_{j,k}$ bekerja hanya di atas kertas (saya tidak bisa mendapatkan pertanggungan CI yang benar untuk dalam model kondisional). $\hat{S}_{j,k}$
Anda dapat menggunakan grafik fungsi-fungsi seperti Kaplan-Meier, dan Anda juga dapat menggunakan grafik garis lurus (yaitu menghubungkan titik-titik antara periode waktu dengan garis). Anda harus menggunakan kasus terakhir hanya ketika konsep "waktu diskrit" itu sendiri mengakui kemungkinan periode dibagi. Anda juga dapat merencanakan / berkomunikasi perkiraan kejadian kumulatif (yang $1 - S_{j,k}$ . ... setidaknya epidemiologi sering akan menentukan "kejadian kumulatif" dengan cara ini, istilah ini digunakan secara berbeda dalam bersaing risiko model Istilah serapan mungkin juga digunakan di sini.).

— Alexis
sumber

Saya pikir dalam pertanyaan 2, OP bertanya tentang nilai prediksi dari model logistik, bukan perkiraan koefisien regresi. Ini mungkin relevan

— jujae

@jujae saya secara eksplisit memberikan fungsi logistik dalam jawaban saya untuk # 2, dan mengarahkan perhatian OP untuk penggunaan anti-logit untuk mengubah estimasi parameter logit menjadi

, jadi saya tidak mengerti komentar Anda.

\hat{h} (t)

$\hat{h}(t)$

— Alexis

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

Kembali ke pertanyaan awal 2, OP bertanya: "Apakah nilai yang diprediksi dari model regresi logistik memperkirakan fungsi bahaya?" Saya akan mengatakan ya (jika pemahaman saya tentang nilai prediksi sudah benar). Dan Anda mengatakan tidak dan berikan argumen bahwa estimasi koefisien tidak sama dengan estimasi bahaya. Saya setuju dengan pernyataan Anda, itu benar tetapi bukan itu yang diminta OP dari pemahaman saya.

— jujae

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$

S (k)

$S(k)$