Bagaimana cara menggabungkan hasil beberapa tes biner?


8

Pertama izinkan saya mengatakan bahwa saya memiliki satu kursus statistik di sekolah teknik 38 tahun yang lalu. Jadi saya buta di sini.

Saya mendapatkan hasil dari 18 tes diagnostik terpisah untuk suatu penyakit. Setiap tes adalah biner - ya / tidak, tanpa ambang batas yang dapat disesuaikan untuk "menyetel" tes. Untuk setiap tes saya memiliki data yang benar-benar valid pada benar / salah positif / negatif bila dibandingkan dengan "standar emas", menghasilkan angka spesifisitas dan sensitivitas (dan apa pun yang dapat Anda peroleh dari data itu).

Tentu saja, tidak ada tes tunggal yang memiliki spesifisitas / sensitivitas yang cukup untuk digunakan sendiri, dan ketika Anda "mengamati" hasil semua tes, seringkali tidak ada tren yang jelas.

Saya bertanya-tanya apa cara terbaik untuk menggabungkan angka-angka ini dengan cara yang akan menghasilkan skor akhir yang (semoga) lebih dapat diandalkan daripada tes tunggal. Sejauh ini saya telah menemukan teknik menggabungkan spesifisitas tes TRUE

spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)

dan menggabungkan sensitivitas tes FALSE dengan cara yang sama. Rasio

(1 - sens_combined) / (1 - spec_combined) 

kemudian tampaknya menghasilkan "skor akhir" yang cukup baik, dengan nilai di atas 10 atau lebih sebagai TRUE yang dapat diandalkan dan nilai di bawah 0,1 atau lebih menjadi FALSE yang andal.

Tetapi skema ini tidak memiliki ketelitian yang sebenarnya, dan untuk beberapa kombinasi hasil pengujian tampaknya menghasilkan jawaban yang kontra-intuitif.

Apakah ada cara yang lebih baik untuk menggabungkan hasil tes dari beberapa tes, mengingat spesifisitas dan sensitivitasnya? (Beberapa tes memiliki spesifisitas 85 dan sensitivitas 15, tes lain justru sebaliknya.)

OK, kepalaku sakit!

Katakanlah saya mendapat tes 1-4 dengan sensitivitas / spesifisitas (dalam%):

  1. 65/50
  2. 25/70
  3. 30/60
  4. 85/35

Tes 1 dan 2 positif, 3 dan 4 negatif.

Peluang diduga bahwa 1 adalah false positive akan menjadi (1 - 0,5), dan untuk 2 (1 - 0,7), sehingga probabilitas bahwa keduanya positif palsu adalah 0,5 x 0,3 = 0,15.

Peluang diduga bahwa 3 dan 4 adalah negatif palsu adalah (1 - 0,3) dan (1 - 0,85) atau 0,7 x 0,15 = 0,105.

(Untuk sementara kami akan mengabaikan fakta bahwa jumlahnya tidak bertambah.)

Tetapi probabilitas yang diduga bahwa 1 dan 2 adalah positif sejati adalah 0,65 dan 0,25 = 0,1625, sedangkan probabilitas yang diduga bahwa 3 dan 4 adalah negatif sejati adalah 0,6 dan 0,35 = 0,21.

Sekarang kita dapat mengajukan dua pertanyaan:

  1. Mengapa tidak angka menambahkan (atau bahkan datang dekat). (Nomor sens / spec yang saya gunakan berasal dari "kehidupan nyata".)
  2. Bagaimana saya harus memutuskan hipotesis mana yang (kemungkinan besar) benar (dalam contoh ini tampaknya menjadi "negatif" untuk kedua kalori, tapi saya tidak yakin itu selalu terjadi), dan apa yang dapat saya gunakan untuk "angka prestasi" "memutuskan apakah hasilnya" signifikan "?

Info lebih lanjut

Ini adalah upaya untuk memperbaiki dan memperluas skema "pembobotan" yang ada yang sepenuhnya "artistik" di alam (yaitu, baru saja dikeluarkan dari **). Skema saat ini pada dasarnya ada di baris "Jika ada dua dari tiga yang pertama positif, dan jika dua dari empat berikutnya, dan salah satu dari dua berikutnya, maka anggap positif." (Itu contoh yang agak disederhanakan, tentu saja.) Statistik yang tersedia tidak mendukung skema pembobotan itu - bahkan dengan algoritma pembobotan mentah berdasarkan statistik yang diukur, saya menghasilkan jawaban yang sangat berbeda. Tapi, tidak ada cara yang ketat untuk mengevaluasi statistik saya tidak memiliki kredibilitas.

Juga, skema saat ini hanya memutuskan positif / negatif, dan saya perlu membuat kasus "ambigu" (secara statistik valid) di tengah, sehingga beberapa angka jasa diperlukan.

Terbaru

Saya telah menerapkan algoritma inferensi Bayesian yang lebih-atau-kurang "murni", dan, setelah berputar-putar pada beberapa masalah sampingan, tampaknya berfungsi cukup baik. Alih-alih bekerja dari spesifisitas dan sensitivitas, saya memperoleh input formula langsung dari angka positif positif / false positif. Sayangnya, ini berarti saya tidak dapat menggunakan beberapa data berkualitas lebih baik yang tidak disajikan dengan cara yang memungkinkan angka-angka ini diekstraksi, tetapi algoritmenya jauh lebih bersih, memungkinkan modifikasi input dengan perhitungan tangan yang jauh lebih sedikit, dan sepertinya cukup stabil dan hasilnya cocok dengan "intuisi" dengan cukup baik.

Saya juga datang dengan "algoritma" (dalam arti pemrograman murni) untuk menangani interaksi antara pengamatan saling tergantung. Pada dasarnya, alih-alih mencari formula penyapuan, sebagai gantinya saya menyimpan pengganda probabilitas marjinal untuk setiap pengamatan yang dimodifikasi saat pengamatan sebelumnya diproses, berdasarkan tabel sederhana - "Jika pengamatan A benar, maka modifikasi probabilitas marginal B pengamatan dengan faktor 1,2 ", mis. Tidak elegan, dengan cara apa pun, tetapi bisa diservis, dan tampaknya cukup stabil di berbagai input.

(Saya akan memberikan hadiah kepada apa yang saya anggap sebagai pos paling membantu dalam beberapa jam, jadi jika ada yang ingin mendapatkan beberapa jilatan, silakan saja.)


Probabilitas bahwa tes 1 adalah positif palsu bukan 1 - .5, ini 1 - (.5 * Kemungkinan Tidak memiliki penyakit)
fgregg

Poin yang bagus. Itu bisa membantu saya membuat sedikit lebih masuk akal.
Daniel R Hicks

Maaf, sebenarnya, saya salah. Kekhususan = Pr (Benar Negatif) / [Pr (Benar Negatif) + Pr (Salah Positif)] jadi Pr (Salah Positif) = Pr (Benar Negatif) / spesifisitas - Pr (Benar Negatif) yang sama dengan Pr (Salah Positif) = Pr (Tanpa Penyakit) (1 - spesifisitas)
fgregg

1
Hanya untuk memperjelas: ketika Anda mengatakan Anda mencari kekakuan, Anda tidak bermaksud "statistik kekakuan", yaitu Anda tidak perlu tes gabungan untuk memberi Anda kemungkinan kesalahan tipe 1 dan 2 yang akurat, bukan? Anda hanya mencari sesuatu yang tidak menarik keluar dari udara tipis?
SheldonCooper

1
Bagaimana Anda tahu bahwa tes-tes tersebut sangat saling bergantung? Apakah itu pengetahuan tingkat tinggi Anda (misalnya, kedua tes menggunakan tekanan darah, jadi mungkin berkorelasi), atau apakah Anda memiliki statistik yang menunjukkan bahwa keduanya berkorelasi? Jika yang terakhir, Anda dapat menggunakan sedikit modifikasi proposal fgregg: memodelkan semua tes sebagai independen, kecuali untuk pasangan yang saling tergantung, yang harus Anda modelkan sebagai pasangan. Ini akan memerlukan beberapa statistik tambahan (dari formulirp(T1,T2|Disease)), yang mungkin Anda miliki sejak Anda tahu mereka berkorelasi.
SheldonCooper

Jawaban:


1

"Saya bertanya-tanya apa cara terbaik untuk menggabungkan angka-angka ini dengan cara yang akan menghasilkan skor akhir yang (semoga) lebih dapat diandalkan daripada tes tunggal." Cara yang sangat umum adalah dengan menghitung alpha Cronbach dan, secara lebih umum, untuk melakukan apa yang oleh beberapa orang disebut analisis reliabilitas "standar". Ini akan menunjukkan sejauh mana skor yang diberikan berkorelasi dengan rata-rata dari 17 skor lainnya; skor tes mana yang paling baik dijatuhkan dari skala; dan apa reliabilitas konsistensi internal baik dengan semua 18 dan dengan subset yang diberikan. Sekarang, beberapa komentar Anda tampaknya mengindikasikan bahwa banyak dari 18 ini tidak saling berhubungan; jika itu benar, Anda mungkin berakhir dengan skala yang hanya terdiri dari beberapa tes.

EDIT SETELAH KOMENTAR: Pendekatan lain mengacu pada gagasan bahwa ada tradeoff antara konsistensi internal dan validitas. Semakin sedikit korelasi pengujian Anda, semakin baik cakupan kontennya, yang meningkatkan validitas konten (jika bukan keandalan). Jadi dengan berpikir seperti ini Anda akan mengabaikan alpha Cronbach dan indikator terkait dari korelasi total barang dan alih-alih menggunakan alasan apriori untuk menggabungkan 18 tes ke dalam skala. Semoga skala seperti itu akan sangat berkorelasi dengan standar emas Anda.


Karena berbagai alasan (pada dasarnya bias medis konservatif) saya tidak memiliki pilihan untuk menghilangkan tes apa pun, saya juga tidak ingin. Anggap saja analog dengan skor kredit, di mana memiliki hutang kartu kredit yang besar "tidak berkorelasi" dengan memiliki pekerjaan dengan gaji yang rendah, layak-untuk-di-PHK, tetapi keduanya bersama-sama menciptakan situasi yang jauh lebih serius daripada secara individual.
Daniel R Hicks

1

Untuk sedikit menyederhanakan, anggaplah Anda hanya memiliki dua tes diagnostik. Anda ingin menghitung

Pr(DiseaseT1,T2)=Pr(T1,T2Disease)Pr(Disease)Pr(T1,T2)

Anda menyarankan bahwa hasil tes ini independen, tergantung pada orang yang memiliki penyakit. Jika demikian, maka

Pr(T1,T2Disease)=Pr(T1Disease)Pr(T2Disease)

Di mana adalah sensitivitas Tes .Pr(TiDisease)i

Pr(T1,T2) adalah probabilitas tanpa syarat dari orang acak yang mengetes positif pada kedua tes:

Pr(T1,T2)=Pr(T1,T2Disease)Pr(Disease)+Pr(T1,T2No Disease)Pr(No Disease)

Dimana

Pr(T1,T2No Disease)=Pr(T1No Disease)Pr(T2No Disease)

dan adalah untuk Test .Pr(TiNo Disease)1specificityi


Saya tidak yakin ini berfungsi dalam kasus saya (jika saya memahami "regresi logistik" setengah jalan dengan benar). Pertama, seperti yang dijelaskan, tidak ada (atau setidaknya relatif sedikit) ambang batas atau faktor tuning yang dapat saya sesuaikan untuk setiap tes individu - hanya hasil positif / negatif. Kedua, saya tidak memiliki kemewahan untuk dapat memperoleh data baru untuk "melatih" model - hanya datang dengan data yang saya miliki seperti menarik gigi.
Daniel R Hicks

Bisakah Anda menggambarkan data Anda sedikit lebih banyak. Saya pikir Anda tahu kebenaran mendasar apakah kasus itu memiliki penyakit atau tidak?
fgregg

1
Kesulitan yang Anda miliki dengan angka-angka yang tidak cocok adalah dengan informasi yang berlebihan. Misalnya anggap salah satu tes adalah "tekanan darah sistolik (SBP)> 140", dan yang lainnya adalah "tekanan darah diastolik (DBP)> 90". Nah 2 ini berkorelasi dan informasi yang melekat di masing-masing tidak unik. Jika digabungkan secara logis, katakan "SBP> 140 atau DBP> 90" akan menawarkan peningkatan sensitivitas secara bertahap. Tetapi tanpa dataset yang secara bersamaan mengukur standar emas, SBP, dan DBP, tidak ada cara akurat untuk mengukur sensitivitas dan spesifisitas tes gabungan.
Ming K

1
@Aniel: Sepertinya Anda tidak akan memerlukan data baru (di luar apa yang sudah Anda miliki) untuk pendekatan ini. Tampaknya Anda akan membutuhkan nilai benar / salah positif / negatif, dan Anda tidak memerlukan ambang batas.
SheldonCooper

1
@Aniel: ini sebagai tanggapan atas komentar Anda mulai 14 Juli. Apa yang dijelaskan fgregg pada dasarnya adalah pendekatan Naif Bayes. Tampaknya Anda memiliki informasi yang cukup untuk menggunakan pendekatan ini. Yang Anda butuhkan hanyalah tarif yang Anda miliki. Anda tidak memerlukan informasi baru, dan Anda tidak memerlukan ambang batas pada tes. Sepertinya Anda sudah mengetahui hal ini, karena Anda mengatakan Anda mencobanya. Anda benar bahwa setiap dependensi akan condongkan hasilnya.
SheldonCooper
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.