Tepatnya bagaimana cara R's coxph () menangani tindakan berulang?


10

Konteks

Saya mencoba memahami bagaimana R's coxph () menerima dan menangani entri berulang untuk subjek (atau pasien / pelanggan jika Anda suka). Beberapa menyebutnya format Panjang ini, yang lain menyebutnya 'tindakan berulang'.

Lihat misalnya kumpulan data yang menyertakan kolom ID di bagian Jawaban di:

Paket terbaik untuk model Cox dengan kovariat yang bervariasi waktu

Juga asumsikan kovariat berbeda-beda sepanjang waktu dan hanya ada satu variabel sensor (yaitu peristiwa), yang merupakan biner.

Pertanyaan

1) Dalam jawaban tautan di atas, jika ID tidak diberikan sebagai parameter dalam panggilan ke coxph () haruskah hasilnya sama dengan memasukkan cluster (ID) sebagai parameter dalam coxph ()?

Saya mencoba mencari dokumentasi, tetapi yang berikut ini tampaknya tidak dengan jelas membahas (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Jika jawaban untuk (1) adalah 'tidak', lalu (secara matematis) mengapa? Tampaknya cluster () dalam coxph () mencari korelasi antara subjek sesuai sub 'cluster' pada pg. 20 di

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Pertanyaan samar: bagaimana coxph () dengan tindakan berulang dibandingkan dengan metode regresi frailtypack R?

Addenda

Petunjuk berikut dalam menggunakan cluster (ID):

Apakah ada versi berulang yang menyadari versi uji logrank?

seperti halnya:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

Pendekatan GEE: tambahkan "+ cluster (subjek)" ke pernyataan model dalam coxph Pendekatan model campuran: Tambahkan "+ (1 | subjek)" ke statment model dalam coxme.

Terima kasih sebelumnya!

Jawaban:


11
  1. Termasuk cluster(ID)tidak mengubah estimasi titik parameter. Namun hal itu mengubah cara kesalahan standar dihitung.

    Rincian lebih lanjut dapat ditemukan dalam buku Therneau & Grambsch's Extending the Cox Model , bab 8.2. Perhatikan bahwa dalam contoh mereka, mereka digunakan method = "breslow"sebagai koreksi untuk ikatan, tetapi juga dengan default ( method = "efron") perhitungan yang sama untuk se's akan digunakan, dan muncul dalam ringkasan sebagai "robust se".

  2. Jika cluster (ID) digunakan, perkiraan "kuat" dari kesalahan standar dikenakan dan kemungkinan ketergantungan antar subjek diukur (misalnya dengan kesalahan standar dan skor varian). Di lain pihak, tidak menggunakan cluster (ID), memaksakan independensi pada setiap pengamatan dan lebih banyak "informasi" diasumsikan dalam data. Dalam istilah yang lebih teknis, fungsi skor untuk parameter tidak berubah, tetapi varian skor ini tidak. Argumen yang lebih intuitif adalah bahwa 100 pengamatan pada 100 individu memberikan lebih banyak informasi daripada 100 pengamatan pada 10 individu (atau kelompok).

  3. Jelas tidak jelas. Singkatnya, +frailty(ID)dalam coxph()model kecocokan standar dengan efek acak gamma atau log-normal dan dengan bahaya / intensitas baseline non-parametrik. frailtypackmenggunakan garis dasar parametrik (juga versi fleksibel dengan splines atau fungsi konstan sesekali) dan juga cocok dengan model yang lebih rumit, seperti kelemahan berkorelasi, kelemahan bersarang, dll.

Akhirnya, +cluster()agak dalam semangat GEE, di mana Anda mengambil persamaan skor dari kemungkinan dengan pengamatan independen, dan menggunakan estimator "kuat" yang berbeda untuk kesalahan standar.

sunting: Terima kasih @Ivan untuk saran-saran mengenai kejelasan posting.


Terima kasih. Mengenai (2): dapat "Ini karena jika Anda (salah) menganggap ..." digantikan oleh "Jika Anda tidak menggunakan klaster (ID) dalam panggilan ke coxph (), maka Anda salah menganggap ...."
Quetzalcoatl

Maksud saya: jika pengamatan terkelompok, maka observasi itu mungkin independen atau tidak. Dengan asumsi bahwa mereka independen (yaitu tidak menggunakan cluster (id)) hampir pasti salah dalam kasus ini, tetapi tidak ada ide untuk mengetahui itu sebelumnya
Theodor

(2) dapat diulangi sebagai: jika cluster (ID) digunakan, perkiraan "kuat" dari kesalahan standar dikenakan dan kemungkinan ketergantungan antara subyek diukur (misalnya dengan kesalahan standar dan skor varian). Di lain pihak, tidak menggunakan cluster (ID), memaksakan independensi pada setiap pengamatan dan lebih banyak "informasi" diasumsikan dalam data.
Quetzalcoatl

Tautan referensi yang Anda berikan dalam (1) seharusnya: springer.com/us/book/9780387987842 (dengan asumsi Anda mengutip buku Therneau dan Grambsch)
Quetzalcoatl

Juga perhatikan: seperti yang dijelaskan dalam buku Therneau dan Grambsch, alasan jawaban dalam (1) di atas benar karena coxph () menggunakan metode Breslow sebagai standar untuk ikatan.
Quetzalcoatl

1

Berikut ini jawaban dari survivalsketsa paket yang menurut saya sangat membantu - itu ditautkan dalam jawaban pertama ke pertanyaan pertama yang Anda tautkan:

Paket terbaik untuk model Cox dengan kovariat yang bervariasi waktu

Mereka merujuk pada pengaturan data formulir panjang, atau data dengan entri berulang untuk subjek.

Satu pertanyaan umum dengan pengaturan data ini adalah apakah kita perlu khawatir tentang data yang berkorelasi, karena subjek yang diberikan memiliki beberapa pengamatan. Jawabannya adalah tidak, kami tidak. Alasannya adalah bahwa representasi ini hanyalah trik pemrograman. Persamaan kemungkinan pada setiap titik waktu hanya menggunakan satu salinan dari subjek apa pun, program memilih baris data yang benar pada setiap waktu. Ada dua pengecualian untuk aturan ini:

  • Ketika subjek memiliki beberapa peristiwa, maka baris untuk peristiwa tersebut berkorelasi dalam subjek dan varians kluster diperlukan.
  • Ketika subjek muncul dalam interval yang tumpang tindih. Namun ini hampir selalu merupakan kesalahan data, karena itu sesuai dengan dua salinan subjek yang hadir di strata yang sama pada saat yang sama, misalnya, dia bisa bertemu dirinya sendiri di sebuah pesta.

Contoh yang mereka berikan adalah

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

menyarankan bahwa jika Anda memberikan dua kali (awal dan akhir periode) untuk Survbukannya satu, coxph()akan mencari tahu sisanya.


Kecuali saya salah paham tentang sesuatu, saya pikir komentar ini menyesatkan? Kita perlu khawatir tentang data yang berkorelasi jika kita ingin mendapatkan estimasi varians yang akurat, maka mengapa menambahkan istilah + cluster (ID) mengubah istilah estimasi varians?
AP30
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.