Aplikasi Analisis Kelangsungan Hidup yang Tepat

Saya memiliki percobaan yang akan menghasilkan pengamatan waktu sampai suatu peristiwa terjadi. Beberapa sifat dasar adalah itu

Kami menghitung jumlah peristiwa yang terjadi di beberapa titik . $t_1,...,t_n$
Waktu acara disensor interval, antara , $(t-1,t]$
Individu tidak akan meninggalkan persidangan antara , itu adalah individu yang mengalami acara dengan atau tidak, pada titik mana mereka disensor, $t_1,...t_n$ $t_1$
Sebagian besar individu tidak akan menerima acara dengan , saat kami mengakhiri eksperimen, dan $t_n$
Saya tidak dapat mengasumsikan model peluruhan parametrik yang mendasarinya.

Tampaknya menjadi aplikasi alami untuk analisis kelangsungan hidup. Namun, ini diperumit oleh fakta bahwa itu sepele untuk mengulangi percobaan dari konfigurasi awal yang sama beberapa kali. Akibatnya, kita akan memiliki satu set jumlah acara (di mana adalah jumlah sampel) untuk setiap waktu pengamatan . Saya relatif baru dalam statistik, dan saya berjuang untuk melihat bagaimana menerapkan analisis survival pada data ini (jika itu berlaku dan tidak ada metode yang lebih tepat untuk mengukur data waktu-ke-peristiwa semacam ini). Kecenderungan saya adalah untuk membangun fungsi bertahan hidup di sekitar jumlah rata-rata peristiwa yang diamati pada setiap interval (yaitu $m_{1,...,s}$ $s$ $t_i$ $\bar{m}_{1,...,n}$ ), yang seharusnya lebih mendekati perkiraan jumlah kejadian pada setiap interval dalam populasi, namun saya tidak tahu apakah ini tepat atau implikasinya.

Saya sudah mencari tanpa hasil di Google Cendekia, jika ada yang bisa mengarahkan saya ke lebih banyak materi (atau memberi saya nomenklatur yang tepat untuk apa yang saya coba lakukan), itu akan dihargai.

Edit

Mengingat bahwa interval seragam di semua sampel, katakan bahwa saya memiliki matriks berikut yang menggambarkan jumlah kumulatif individu yang mengalami peristiwa dalam setiap interval $(t-1, t]$

$M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 \\ 0 & 21 & 32 & 52 & 61 & 73 \end{array}\right)$

di mana setiap baris memberikan jumlah peristiwa untuk set individu yang sama berisiko pada di semua sampel (yaitu beberapa contoh percobaan), dan setiap kolom adalah interval pengamatan. Saya berasumsi bahwa dengan mengambil rata-rata jumlah kejadian untuk setiap interval, saya bisa mendapatkan estimasi yang lebih baik untuk bertahan hidup penduduk diharapkan, jadi mari menunjukkan jumlah interval waktu, menunjukkan jumlah sampel (contoh percobaan), maka vektor $t=0$ $n$ $s$

$\bar{M} = \left[ {{\sum_{i=1}^{s}M_{it}}\over{s}} \right]_{t=1...n}$

akan menjadi jumlah rata-rata peristiwa yang diamati untuk setiap interval waktu.

Maka, tujuan saya adalah menggunakan ini sebagai masukan untuk estimasi kelangsungan hidup. Biarkan menjadi jumlah individu yang berisiko ketika . Menggunakan estimator naif (untuk saat ini, mengingat bahwa interval acara seragam di semua sampel dan tidak ada sensor hingga ), fungsi survivor dapat diperkirakan sebagai: $f$ $t=0$ $t_n$

$S(t) = {{f - \bar{M}_t}\over{f}}$

Yang (diharapkan) akan menjadi estimasi yang lebih baik untuk kelangsungan hidup populasi daripada sampel individu (satu baris dari ). Untuk merumuskan kembali pertanyaan saya: $M$

Apakah input yang tepat untuk estimasi fungsi survival? Saya belum melihat pendekatan ini dalam salah satu bahan yang saya baca. $\bar{M}$
Karena saya benar-benar, seorang pemula dalam bidang statistik, dapatkah seseorang mengarahkan saya ke beberapa materi (makalah akademis, buku teks, wiki dll. Akan baik-baik saja) dalam memperkirakan interval kepercayaan dan varians untuk estimasi fungsi survival ini? Saya kira itu tidak akan identik dengan formulasi standar.

Maaf jika pertanyaan awal saya membingungkan, saya mungkin tidak memasukkan informasi yang cukup.

survival

— Joachim Ziemssen
sumber

Saya tidak cukup mengikuti apa yang membingungkan Anda. Mengapa Anda khawatir bahwa analisis kelangsungan hidup mungkin tidak sesuai di sini? Apakah Anda hanya melihat pada interval waktu tertentu?

— gung - Reinstate Monica

Saya benar-benar bingung dengan memiliki beberapa kejadian yang diamati untuk setiap interval. Semua buku yang saya baca, khususnya (Kleinbaum dan Klein, 2012), mengharapkan Anda membangun fungsi bertahan hidup Anda untuk satu sampel tunggal. Akibatnya, saya mengambil beberapa sampel populasi dan mencoba memperkirakan fungsi bertahan hidup populasi yang sebenarnya, yang kemudian akan saya bandingkan antara populasi di bawah perlakuan yang berbeda menggunakan uji logrank (karena saya belum memperkenalkan variabel penjelas). Untuk setiap sampel, akan menunjukkan tingkat peluruhan yang sedikit berbeda untuk individu yang sama.

m_{1}, . . ., s

$m_1,...,s$

— Joachim Ziemssen

Jawaban:

Saya baru-baru ini memiliki satu set data survival yang disensor interval, jadi saya tahu persis apa yang Anda butuhkan. Jika Anda pernah menggunakannya R, ini akan membantu.

Jika Anda tidak ingin mengambil bentuk parametrik, bagaimana dengan model bahaya proporsional Cox interval yang disensor? The intcoxpaket yang akan melakukan hal ini tidak lagi di Rrepositori. Saya akan menyarankan menghitung waktu bertahan hidup dan kemudian menggunakan coxphfungsi dari survivalperpustakaan. Ingatlah bahwa kesalahan standar Anda akan terlalu rendah menggunakan metode ini; Anda belum memperhitungkan ketidakpastian karena tidak mengetahui waktu hidup yang pasti. Jika Anda ingin perkiraan kelangsungan hidup yang disensor interval, gunakan icfitfungsi dari intervalpaket.

Cara lain menganalisis efek kovariat pada waktu bertahan hidup adalah dengan menggunakan interval disensor, regresi nonparametrik. Lihat Rpaket ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Pertama-tama Anda harus menentukan titik tengah waktu bertahan hidup, kemudian Anda melakukan regresi linier lokal menggunakan locpolyfungsi dari nppaket. Tidak sesulit kedengarannya.

— wcampbell
sumber

Terima kasih, saya menggunakan R / Mathematica, dan saya mungkin akan berakhir menggunakan paket-paket itu (dan saya belum pernah mendengar intcox!) Ketika benar-benar melakukan hal ini. Namun, untuk sekarang, masalah saya (yang telah saya tambahkan ke pertanyaan) adalah memiliki beberapa sampel peluruhan individu yang sama dalam periode waktu yang sama. Anggap saja mengulangi percobaan

s

$s$ kali, saya mencoba menggunakan data itu untuk memperkirakan fungsi bertahan hidup dengan lebih baik.

— Joachim Ziemssen

Saya pikir kita juga bingung - bagaimana individu yang sama dapat memiliki tingkat peluruhan berganda? Satu pengamatan tidak dapat memiliki beberapa nilai untuk satu variabel dependen. Saya pikir Anda harus memperlakukan ini sebagai pengamatan terpisah. Lagi pula, seharusnya tidak ada masalah menggunakan

\bar{M}

$\bar{M}$ sebagai perkiraan kelangsungan hidup Anda untuk pengamatan itu.

— wcampbell

Masalah menarik ... saya akan gunakan

\bar{M}

$\bar{M}$ sebagai data kelangsungan hidup Anda, tetapi Anda mungkin ingin berbicara tentang varians kali peluruhan untuk komputer yang sama.

— wcampbell

Bermasalah bahwa ini masalah yang menarik! Saya akan terus mengerjakan ini dan melihat varians, terima kasih banyak atas sarannya.

— Joachim Ziemssen

Fungsi survival biasanya benar-terus menerus karena ini adalah fungsi distribusi, saya akan gunakan $a_k:=[t_{k-1}, t_k),k=1,2,\cdots,n$ sebagai interval.

Membiarkan $T_{ij}$ dan $C_{ij}$ menjadi kelangsungan hidup terus menerus yang sebenarnya dan menyensor waktu untuk subjek $j$ dalam sampel $i$ masing-masing. Kedua variabel tidak dapat diamati secara langsung, tetapi hanya dalam satu interval $a_1,a_2,\cdots$ . Selanjutnya, mari $X_{ij}$ menunjukkan interval di mana $T_{ij}$ jatuh, pada dasarnya waktu bertahan hidup diskrit, dan juga $\mathcal{C}_{ij}$ untuk $C_{ij}$ . Kemudian indikator sensor diberikan oleh $\delta_{ij}=\mathbf{1}(X_{ij} \le \mathcal{C}_{ij})$ .

Fungsi bahaya $h_{ij}(x)$ untuk waktu kelangsungan hidup diskrit didefinisikan sebagai probabilitas bersyarat dari peristiwa yang terjadi di $x$ Interval waktu yang diberikan belum terjadi sebelum $x-1$ Interval th, yaitu

h_{saya j} (x) = P (X_{saya j} = x | X_{saya j} \geq x)

$h_{ij}(x)=P(X_{ij}=x | X_{ij} \ge x)$

dan fungsi survival yang sesuai $S_{ij}=P(X>x)$ dapat ditulis secara rekursif menggunakan hukum produk bersyarat:

S_{saya j} (x) = P (X_{saya j} > x | X_{saya j} \geq x) \dots P (X_{saya j} > 1 | X_{saya j} \geq 1) = \prod_{m = 1}^{x} (1 - h_{saya j} (m))

$S_{ij}(x)=P(X_{ij}>x | X_{ij}\ge x)\cdots P(X_{ij}>1 | X_{ij} \ge 1)=\prod_{m=1}^x (1-h_{ij}(m))$

Fungsi kemungkinan pasangan $(x_{ij},\delta_{ij})$ dapat dibangun sebagai produk dari dua jenis mata pelajaran, yaitu mereka yang mengalami suatu peristiwa di $x_{ij}$ ( $X_{ij}=x_{ij},\delta_{ij}=1$ ) dan mereka yang disensor di $x_{ij}$ ( $X_{ij}>x_{ij},\delta_{ij}=0$ ):

\begin{aligned} L. & = \prod_{saya = 1}^{s} \prod_{j = 1}^{n_{saya}} [P (X_{saya j} = x_{saya j})]^{δ_{saya j}} [P (X_{saya j} > x_{saya j})]^{1 - δ_{saya j}} \\ = \prod_{saya = 1}^{s} \prod_{j = 1}^{n_{saya}} {{(h_{saya j} (x_{saya j}) \prod_{m = 1}^{x_{saya j} - 1} [1 - h_{saya j} (m)])}^{δ_{saya j}} {(\prod_{m = 1}^{x_{saya j}} [1 - h_{saya j} (m)])}^{1 - δ_{saya j}}} \\ = \prod_{saya = 1}^{s} \prod_{j = 1}^{n_{saya}} {{[\frac{h_{saya j} (x_{saya j})}{1 - h_{saya j} (x_{saya j})}]}^{δ_{saya j}} \prod_{m = 1}^{x_{saya j}} [1 - h_{saya j} (m)]} . \end{aligned}

$\begin{split} \mathcal{L} &= \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}[P(X_{ij}=x_{ij})]^{\delta_{ij}}[P(X_{ij}>x_{ij})]^{1-\delta_{ij}}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left(h_{ij}(x_{ij})\prod_{m=1}^{x_{ij}-1}[1-h_{ij}(m)]\right)^{\delta_{ij}}\left( \prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right)^{1-\delta_{ij}}\right\}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}\right]^{\delta_{ij}}\prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right\}. \end{split}$ dan fungsi log-likelihood yang sesuai adalah:

ℓ = \sum_{saya = 1}^{M.} \sum_{j = 1}^{n_{saya}} {δ_{saya j} catatan [\frac{h_{saya j} (x_{saya j})}{1 - h_{saya j} (x_{saya j})}] + \sum_{m = 1}^{x_{saya j}} catatan [1 - h_{saya j} (m)]}

$\ell=\sum_{i=1}^{M}\sum_{j=1}^{n_{i}}\left\{\delta_{ij}\log[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}]+\sum_{m=1}^{x_{ij}}\log[1-h_{ij}(m)]\right\}$

Sekarang jika kita merekonstruksi data kita ke dalam struktur riwayat peristiwa, yaitu merekam pada setiap interval, variabel indikator peristiwa $y_{ijk}$ Untuk $k$ interval interval $j$ subjek dari sampel $i$ , kita bisa melihatnya $\delta_{ij}\log[h_{ij}(x_{ij})/(1-h_{ij}(x_{ij})]$ di atas ditulis ulang menjadi $\sum_{k=1}^{x_{ij}}y_{ijk} \log[h_{ij}(k)/(1-h_{ij}(k))]$ (pada dasarnya menjumlahkan semua 0 sampai interval pengamatan terakhir dari subjek ini, jika ia memiliki peristiwa, itu akan menjadi 1, jika disensor 0). Kemudian kita dapat menulis ulang kemungkinan log kita sebagai

ℓ = \sum_{saya = 1}^{s} \sum_{j = 1}^{n_{saya}} \sum_{k = 1}^{x_{saya j}} {y_{saya j k} catatan h_{saya j} (k) + (1 - y_{saya j k}) catatan [1 - h_{saya j} (k)]} .

$\ell=\sum_{i=1}^s \sum_{j=1}^{n_i} \sum_{k=1}^{x_{ij}} \left\{ y_{ijk} \log h_{ij}(k) + (1 - y_{ijk}) \log [1 - h_{ij}(k)] \right\}.$ Ini identik dengan kemungkinan log untuk variabel acak biner

y_{i j k}

$y_{ijk}$ , tapi sekarang dengan proporsi

p_{i j k}

$p_{ijk}$ untuk acara dalam interval

k

$k$ didefinisikan oleh

h_{i j} (k)

$h_{ij}(k)$ .

Sekarang kami akhirnya dapat menjawab pertanyaan Anda. Jika kita mengasumsikan, bahwa pada interval yang sama, $y_{ijk}$ adalah IID untuk subjek yang berbeda $j$ dalam sampel $i$ , dan juga di berbagai sampel, lalu $\bar{M_j}=(\sum_i n_i)^{-1}\sum_{i=1}^{s}\sum_{j=1}^{n_i}y_{ijk}$ adalah penaksir yang tepat untuk $h_{ij}(k)=h(k)$ .

Dan penaksir yang tepat untuk $S(x)$ oleh karena itu $\hat{S}(x)=\prod_{k=1}^{x}(1-\bar{M}_j)$ .

— jujae
sumber