Perbandingan dua distribusi longitudinal

Saya memiliki hasil tes tes darah yang diberikan kepada 2.500 orang empat kali dalam interval enam bulan. Hasilnya terutama terdiri dari dua ukuran respon imun - satu di hadapan antigen tuberkulosis tertentu, satu di ketiadaan. Saat ini, setiap tes mengevaluasi positif atau negatif berdasarkan perbedaan antara respons antigen dan respons nihil (dengan gagasan bahwa jika sistem kekebalan tubuh merespons antigen TB, kemungkinan Anda terpapar bakteri itu sendiri di beberapa titik). ). Pada dasarnya, tes ini mengandaikan bahwa distribusi nihil dan tanggapan individu TB yang tidak terpapar pada dasarnya harus identik, sedangkan orang dengan pajanan TB akan memiliki tanggapan TB yang diambil dari distribusi yang berbeda (dengan nilai yang lebih tinggi). Peringatan: tanggapannya sangat, sangat tidak normal, dan nilainya mengumpul di lantai alami dan langit-langit yang terpotong instrumen.

Namun, tampaknya cukup jelas dalam pengaturan longitudinal ini bahwa kita mendapatkan "false positive" (tidak ada standar emas aktual untuk TB laten, saya khawatir) yang disebabkan oleh fluktuasi (biasanya kecil) pada respon antigen dan nihil. Walaupun ini mungkin sulit untuk dihindari dalam beberapa situasi (Anda mungkin hanya mendapatkan satu kesempatan untuk menguji seseorang), ada banyak situasi di mana orang secara rutin dites untuk TB setiap tahun atau lebih - di AS, hal ini umum untuk petugas kesehatan, militer, orang-orang tunawisma yang tinggal di tempat penampungan, dan sebagainya. Tampaknya memalukan untuk mengabaikan hasil tes sebelumnya karena kriteria yang ada kebetulan cross-sectional.

Saya pikir apa yang ingin saya lakukan adalah apa yang saya bayangkan sebagai analisis campuran longitudinal. Sama seperti kriteria cross-sectional, saya ingin dapat memperkirakan probabilitas bahwa tanggapan TB dan nihil individu diambil dari distribusi yang sama - tetapi mintalah estimasi tersebut menggabungkan hasil tes sebelumnya, serta informasi dari sampel sebagai keseluruhan (misalnya, dapatkah saya menggunakan distribusi variabilitas dalam-individu sampel-luas untuk meningkatkan perkiraan saya tentang distribusi nil atau TB individu tertentu?). Perkiraan probabilitas harus dapat berubah seiring waktu, tentu saja, untuk memperhitungkan kemungkinan infeksi baru.

Saya mendapatkan diri saya terpelintir mencoba memikirkan hal ini dengan cara yang tidak biasa, tetapi saya merasa konseptualisasi ini sama bagusnya dengan yang akan saya lakukan. Jika ada sesuatu yang tidak masuk akal, silakan meminta klarifikasi. Jika pemahaman saya tentang situasinya keliru, silakan memberi tahu saya. Terima kasih banyak atas bantuannya.

Menanggapi Srikant: Ini adalah kasus klasifikasi laten (terinfeksi-TB atau tidak) menggunakan dua hasil tes kontinu (tetapi tidak normal dan terpotong). Saat ini, klasifikasi itu dilakukan menggunakan cutoff (dalam bentuknya yang disederhanakan, TB - nil> .35 -> positif). Dengan hasil tes disajikan sebagai (nihil, TB, hasil), arketipe dasar * adalah:

Kemungkinan Negatif: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Kemungkinan Positif: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Positif pada tes kedua untuk Wobbler jelas merupakan penyimpangan, tetapi bagaimana Anda memodelkan itu? Sementara satu garis pemikiran saya adalah memperkirakan "perbedaan nyata" antara TB dan nihil pada setiap titik waktu menggunakan model multilevel pengukuran berulang, saya sadar bahwa apa yang ingin saya ketahui adalah apakah tanggapan nol dan tanggapan TB orang tersebut. diambil dari distribusi yang sama, atau jika sistem kekebalan mereka mengenali antigen dan aktivasi TB, menghasilkan tanggapan yang meningkat.

Adapun apa yang bisa menyebabkan tes positif selain infeksi: Saya tidak yakin. Saya menduga ini biasanya hanya variasi orang dalam hasil, tetapi pasti ada kemungkinan faktor lain. Kami memang memiliki kuesioner dari setiap titik waktu, tetapi saya belum melihat terlalu banyak.

* Data fabrikasi tetapi ilustratif

repeated-measures

— Matt Parker
sumber

Oh, dan jangan ragu untuk melakukan retag - browser saya tidak berfungsi dengan saran otomatis, jadi saya kesulitan melihat apa yang ada di luar sana.

— Matt Parker

Apakah variabel dependen Anda terus menerus atau terpisah? Atau, mungkin, hasil tes yang mendasarinya adalah kontinu dan diubah menjadi jawaban tersendiri (yaitu, 'positif', 'negatif') tergantung pada beberapa cut-off? Bisakah Anda juga menjelaskan mengapa seseorang beralih dari negatif ke positif walaupun tidak terpajan TB? Contoh spesifik (dengan beberapa nomor dilemparkan) dari flip tersebut dapat membantu.

Contoh-contohnya sangat membantu untuk memvisualisasikan data. Pertanyaan lain mengenai peringatan Anda: "nilai-nilai menggumpal di lantai dan langit-langit dan bahwa data tidak normal." Bisakah Anda memberi tahu saya jika (a) data di ujung bawah skala terlihat normal dan (b) data di ujung atas skala terlihat normal?

Catatan: Saya tampaknya melewatkan tenggat waktu untuk benar-benar memberi hadiah, jadi saya menyiapkan yang lain sehingga saya bisa memberi imbalan yang baik kepada Srikant atas bantuannya. Lebih banyak jawaban selalu diterima, tetapi hadiah itu untuknya.

— Matt Parker

Jawaban:

Ini bukan jawaban yang lengkap tapi saya harap ini memberi Anda beberapa ide tentang bagaimana membuat model situasi dengan cara yang koheren.

Asumsi

Nilai-nilai di ujung bawah skala mengikuti distribusi normal terpotong dari bawah.
Nilai-nilai di ujung atas skala mengikuti distribusi normal terpotong dari atas.

(Catatan: Saya tahu Anda mengatakan bahwa data tidak normal tetapi saya berasumsi bahwa Anda mengacu pada distribusi semua nilai sedangkan asumsi di atas berkaitan dengan nilai-nilai di ujung bawah dan atas skala.)
Keadaan dasar seseorang (apakah mereka menderita TB atau tidak) mengikuti rantai markov urutan pertama.

Model

Membiarkan:

$D_i(t)$ $t$ $i^\mbox{th}$
$RTB_i(t)$ $t$ $i^\mbox{th}$
$RN_i(t)$ $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Poin 4 dan 5 menangkap gagasan bahwa respons seseorang terhadap tes NILL tidak tergantung pada status penyakit.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Poin 6, 7 dan 8 menangkap gagasan bahwa respons seseorang terhadap tes TB tergantung pada status penyakit.
$p(t)$ $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

Dengan kata lain,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Kriteria pengujian Anda menyatakan bahwa:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

Namun, seperti yang Anda lihat dari struktur model, Anda sebenarnya dapat membuat parameter cut-off dan mengubah seluruh masalah menjadi apa yang seharusnya menjadi cut-off untuk mendiagnosis pasien secara akurat. Dengan demikian, masalah wobbler tampaknya lebih menjadi masalah dengan pilihan cut-off Anda daripada yang lainnya.

$p(t)$

Semoga bermanfaat.

Terima kasih, Srikant! Maaf, saya entah bagaimana melewatkan komentar Anda sebelumnya. Cluster atas benar-benar hanya lonjakan tepat di langit-langit - tidak ada variabilitas di sana kecuali untuk bentangan panjang keseragaman yang menghubungkannya dengan distribusi yang lebih rendah, yang pada dasarnya seperti yang Anda gambarkan. Butuh beberapa waktu untuk memilah jawaban Anda (terutama karena saya terjebak di IE dan tidak dapat melihat LaTeX dengan benar sekarang), tetapi saya sangat menghargai dedikasi Anda untuk pertanyaan kecil yang aneh ini.

— Matt Parker

Tricky Matt, karena banyak masalah statistik dunia nyata!

Saya akan mulai mendefinisikan tujuan / sasaran studi Anda.

Tanpa mengetahui status sebenarnya dari subyek, akan sulit untuk menentukan distribusi probabilitas untuk TB + dan tes TB. Apakah Anda memiliki kuesioner tentang infeksi TB sebelumnya (atau lebih baik, riwayat medis). Juga saya masih menguji TB + karena imunisasi di masa kanak-kanak - beberapa dekade yang lalu - jadi imunisasi sebelumnya perlu dipertimbangkan.

Menurut saya pertanyaan intrinsik Anda adalah: Apakah tes TB berulang mempengaruhi hasil tes?

Layak untuk mendapatkan salinan Analisis Data Longitudinal Peter Diggle .

Lakukan beberapa analisis data eksplorasi, terutama sebar matriks plot dari hasil tes nil pada setiap waktu terhadap satu sama lain, dan hasil tes TB pada setiap waktu terhadap satu sama lain; dan plot pencar TB vs nil (setiap kali). Juga ambil perbedaannya (tes TB - tes Nil) dan lakukan matriks pencar plot. Coba transformasi data dan ulangi ini - Saya membayangkan log (TB) - log (Nil) dapat membantu jika hasil TB relatif sangat besar terhadap Nihil. Cari hubungan linear dalam struktur korelasi.

Pendekatan lain akan mengambil hasil tes yang ditetapkan (positif / negatif) dan memodelkan ini secara logis menggunakan model efek campuran non-linear (logit link). Apakah beberapa orang beralih antara tes TB + ke TB - dan apakah ini terkait dengan tes Nil, tes TB, TB - Nil atau transformasi hasil tes?

— Thylacoleo
sumber

Terima kasih atas jawaban anda. Mengenai tidak mengetahui status sebenarnya: kami memiliki kuesioner yang luas dan sangat menyadari masalah vaksin BCG dengan tes kulit - pada kenyataannya, tes darah ini seharusnya menyelesaikan masalah tersebut karena mereka menggunakan set antigen yang berbeda dari PPD yang Anda gunakan. Sudah terbiasa. Namun, itu hampir merupakan pertanyaan terpisah, dan satu lagi yang akan kita kerjakan nanti - saat ini, minat saya adalah membuat tes ini 'sadar secara longitduinally'.

— Matt Parker

... terutama karena beberapa orang beralih dari negatif ke positif, dan itu sering merupakan produk khas nihil dan hasil TB mereka membuat fluktuasi kecil - nihil sedikit, TB sedikit naik, dan tiba-tiba positif. Tes selanjutnya, mereka kembali menjadi negatif. Saya dapat melihat itu ketika saya meninjau hasil individu, tetapi saya tidak yakin bagaimana cara memasukkan intuisi saya ke dalam model.

— Matt Parker

Akhirnya, ketika saya mencoba mengambil hasil log, itu tampaknya tidak cukup untuk membuatnya mendekati normalitas. Mereka sangat, sangat miring, dan pemotongan pada ujung yang tinggi semakin memperumit ini dengan menambahkan gumpalan kepadatan yang terlihat di langit-langit. Namun, yang menarik, distribusi sampel-lebar nihil dan hasil TB sangat mirip, dengan satu-satunya perbedaan adalah bahwa gumpalan di langit-langit jauh lebih besar untuk hasil TB.

— Matt Parker

Terima kasih telah meluangkan waktu untuk membaca dan menjawab pertanyaan buas ini!

— Matt Parker