Mengapa sebagian besar karya yang diterbitkan dalam pencitraan medis mencoba mengurangi positif palsu?

20

Dalam pemrosesan citra medis, sebagian besar karya yang diterbitkan mencoba mengurangi false positive rate (FPR) sementara pada kenyataannya negatif palsu lebih berbahaya daripada positif palsu. Apa alasan di baliknya?

image-classification image-recognition

— Hunar A.Ahmed
sumber

1

Dari sudut pandang en.wikipedia.org/wiki/Primum_non_nocere , false positive dapat dianggap sebagai kegagalan yang lebih berbahaya, bahkan sebelum mempertimbangkan perbedaan angka absolut yang ditunjukkan Dragon dengan benar.

— jpa

29

TL; DR: penyakit jarang terjadi, jadi jumlah absolut positif palsu jauh lebih banyak daripada negatif palsu.

Mari kita asumsikan bahwa sistem kami memiliki tingkat false positive dan false negative yang sama sebesar 1% (cukup bagus!), Dan kami mendeteksi adanya kanker baru tahun ini: 439.2 / 100.000 orang, atau 0,5% dari populasi. [ sumber ]

Tanpa kanker, tanpa deteksi: 99,5% x 99% = 98,5% (98,55%)
Tanpa kanker, deteksi: 99,5% x 1% = 1,0% (0,995%)
Kanker, deteksi: 0,5% x 99% = 0,5% (0,495%)
Kanker, tidak ada deteksi: 0,5% x 1% = 0,005%

Jadi kita dapat melihat bahwa kita memiliki masalah: untuk semua orang yang menderita kanker, dua orang yang tidak memiliki kanker berakhir dengan operasi invasif, kemoterapi atau radioterapi.

Untuk setiap orang yang gagal mendeteksi kanker saat ini, dua ratus orang menerima pengobatan aktif yang tidak mereka butuhkan dan tidak mampu lakukan.

— Naga
sumber

1

Untuk banyak aplikasi skrining insiden (tidak ada penyakit yang baru didiagnosis per 100.000 populasi) secara akut bahkan lebih rendah: 0,5% adalah total kejadian kanker sedangkan program skrining menargetkan jenis kanker tertentu.

— cbeleites mendukung Monica

6

@cbeleites, untuk mengambil contoh konkret, adenokarsinoma pankreas hampir selalu berakibat fatal karena asimptomatik hingga mencapai stadium lanjut. Jika Anda menerapkan tes skrining dengan 1% false positive / 1% false negative untuk seluruh populasi Amerika Serikat, Anda akan mengidentifikasi sekitar tiga juta kasus, di mana hanya 46.000 yang benar-benar menderita kanker, memberikan hasil positif nilai prediksi hanya 1,5%.

— Tandai

2

Untuk pencitraan medis (misalnya fMRI), masalahnya dapat diperparah oleh kenyataan bahwa satu gambar terdiri dari banyak "voxels", pengaktifan masing-masing dianggap sebagai hipotesis - lihat misalnya Zen dan Seni dari Berbagai Perbandingan - Saya pikir ini mungkin yang dimaksud OP

— steeldriver

16

Anda tahu kisah tentang bocah lelaki yang menangis serigala, bukan?

Itu ide yang sama. Setelah beberapa classifier memberikan alarm palsu (seruan serigala) berkali-kali, staf medis akan mematikannya atau mengabaikannya.

"Oh, ini lagi! TIDAK!"

Setidaknya dengan kelompok bioteknologi yang telah bekerja sama dengan saya, penekanannya adalah pada pengurangan FPR secara khusus karena tujuannya adalah untuk membuat alat yang akan mengingatkan dokter akan potensi patologi, dan mereka telah memberi tahu kami bahwa mereka akan mengabaikan produk yang berteriak serigala. terlalu banyak.

Untuk produk yang membantu dokter, kita harus memikat psikologi mereka, meskipun ada argumen yang sah bahwa kehilangan serigala di pertanian lebih buruk daripada menangis serigala.

Sunting : Mengurangi positif palsu juga memiliki argumen yang sah. Jika komputer Anda terus menangis serigala sambil mendapatkan positif sesekali benar (dan menangkap sebagian besar positif sebenarnya), itu secara efektif mengatakan bahwa seseorang mungkin sakit. Mereka ada di rumah sakit. Dokter tahu bahwa pasien mungkin sakit.

— Dave
sumber

7

Ringkasan: pertanyaannya mungkin * bukan apakah satu negatif palsu lebih buruk dari satu positif palsu, itu mungkin * lebih seperti apakah 500 positif palsu dapat diterima untuk turun ke satu negatif palsu.

* tergantung aplikasi

Biarkan saya sedikit memperluas jawaban @ Dragon:

Skrining berarti bahwa kami sedang mencari penyakit di antara populasi yang tampaknya sehat. Seperti yang dijelaskan @Dragon, untuk ini kita memerlukan FPR yang sangat rendah (atau Sensitivitas tinggi), jika tidak kita akan berakhir dengan lebih banyak positif palsu daripada positif sejati. Yaitu, Nilai Prediktif Positif (# benar-benar berpenyakit di antara semua yang didiagnosis positif) akan sangat rendah.
Sensitivitas (TPR) dan Spesifisitas (TNR) mudah diukur untuk sistem diagnostik: ambil sejumlah kasus yang benar-benar (tidak) sakit dan ukur fraksi yang terdeteksi dengan benar.
OTOH, baik dari sudut pandang dokter dan pasien, nilai - nilai prediktif lebih pada intinya. Mereka adalah "kebalikan" dari Sensitivitas dan spesifisitas dan memberi tahu Anda di antara semua prediksi positif (negatif), fraksi apa yang benar. Dengan kata lain, setelah tes mengatakan "penyakit" berapa probabilitas bahwa pasien benar-benar memiliki penyakit.
Seperti yang ditunjukkan @Dragon kepada Anda, insiden (atau prevalensi, tergantung pada tes apa yang sedang kita bicarakan) memainkan peran penting di sini. Insidensi rendah pada semua jenis skrining / aplikasi diagnosis kanker dini.
Untuk menggambarkan hal ini, skrining kanker ovarium untuk wanita pasca-menopause memiliki prevalensi 0,04% pada populasi umum dan 0,5% pada wanita berisiko tinggi dengan riwayat keluarga dan / atau mutasi gen penekan tumor BRCA1 dan 2 yang diketahui [Buchen, L. Kanker: Hilang sasaran. Alam, 2011, 471, 428-432]
Jadi pertanyaannya biasanya bukan apakah satu negatif palsu lebih buruk daripada satu positif palsu, tetapi bahkan 99% spesifisitas (1% FPR) dan sensitivitas 95% (angka yang diambil dari kertas yang dihubungkan di atas) kemudian berarti sekitar 500 positif palsu untuk setiap negatif palsu .
Sebagai catatan, juga perlu diingat bahwa diagnosis kanker dini itu sendiri bukanlah obat ajaib untuk kanker. Misalnya untuk mamografi skrining kanker payudara, hanya 3 - 13% dari pasien positif sejati yang benar -benar mendapat manfaat dari skrining .
Jadi kita juga perlu mengawasi jumlah positif palsu untuk setiap pasien yang mendapat manfaat . Misalnya untuk mamografi, bersama dengan angka-angka ini , perkiraan kasar yang kita miliki di suatu tempat di kisaran 400 - 1800 positif palsu per manfaat positif benar (kelompok 39-49 tahun).
Dengan ratusan positif palsu per negatif palsu (dan juga mungkin ratusan atau bahkan ribuan positif palsu per pasien yang mendapat manfaat dari skrining) situasinya tidak sejelas "salah satu kanker yang terlewatkan lebih buruk daripada satu diagnosis kanker positif palsu": positif palsu memiliki dampak, mulai dari psikologis dan psiko-somatik (mengkhawatirkan bahwa Anda memiliki kanker itu sendiri tidak sehat) hingga risiko fisik diagnosis lanjutan seperti biopsi (yang merupakan operasi kecil, dan dengan demikian dilengkapi dengan sendiri risiko).
Bahkan jika dampak dari satu false positive kecil, risiko yang sesuai dapat bertambah secara substansial jika ratusan positif palsu harus dipertimbangkan.

Bacaan yang disarankan: Gerd Gigerenzer: Risk Savvy: Cara Membuat Keputusan yang Baik (2014).
Namun, PPV dan NPV apa yang diperlukan untuk membuat tes diagnostik bermanfaat sangat tergantung pada aplikasi.
Seperti dijelaskan, dalam skrining untuk deteksi dini kanker fokus biasanya pada PPV, yaitu memastikan Anda tidak terlalu banyak membahayakan oleh negatif palsu: menemukan fraksi yang cukup besar (bahkan jika tidak semua) dari pasien kanker awal sudah merupakan perbaikan dari status quo tanpa penyaringan.
OTOH, tes HIV dalam donor darah berfokus pertama pada NPV (yaitu memastikan darah bebas HIV). Namun, pada langkah ke-2 (dan ke-3), hasil positif palsu kemudian dikurangi dengan menerapkan tes lebih lanjut sebelum mengkhawatirkan orang dengan hasil tes HIV positif (salah).
Terakhir namun tidak kalah pentingnya, ada juga aplikasi pengujian medis di mana insiden atau prevalensi tidak ekstrem seperti biasanya dalam skrining populasi yang tidak terlalu berisiko tinggi, misalnya beberapa diagnosis banding.

— Cbeleites mendukung Monica
sumber

1

Ini agak padat; bisa menggunakan format ulang untuk membuatnya lebih mudah dibaca. Sepertinya jawaban yang bagus, tetapi sulit digali tanpa banyak waktu.

— bob

3

Dari perspektif pribadi, daripada pengalaman ilmu data, positif palsu memiliki dampak yang lebih tinggi pada kualitas hidup pasien daripada negatif palsu (setidaknya dalam sebagian besar aplikasi pemrosesan gambar medis. Kami tidak berbicara tentang hasil lab di sini) .

Mari kita lihat contoh konkret: skrining tumor .

Salah negatif berarti bahwa tumor tahap awal memiliki lebih banyak waktu untuk tumbuh dan berkembang menjadi kanker berbahaya. Secara keseluruhan proses ini membutuhkan waktu yang lama dan setiap penyaringan berikutnya memiliki peluang lebih tinggi untuk mendeteksinya, tetapi secara realistis kesehatan jangka panjang seorang pasien akan terganggu.

Selain itu, selalu ada manusia yang terlibat dalam diagnosis. Pemrosesan citra medis pada tahap teknologi saat ini dimaksudkan untuk menjadi bantuan bagi personel medis, bukan pengganti . Ini sering dimaksudkan untuk menunjukkan lesi atau perubahan pada jaringan yang begitu halus sehingga manusia mungkin mengabaikannya. Tidak ada kemungkinan dokter mengabaikan tumor stadium lanjut. Mereka tidak perlu pemrosesan gambar untuk itu.

Dalam hal prosedur medis, jika tumor tidak dapat dioperasi sebelum skrining berikutnya, tidak ada perbedaan besar antara pengangkatan tumor tahap awal atau tumor yang memiliki sedikit lebih banyak waktu untuk tumbuh. Jumlah jaringan yang diangkat lebih banyak, tetapi jenis operasinya sering sama. (Ini mengasumsikan bahwa pasien melakukan pemeriksaan kesehatan rutin.)

Sebuah false positive memiliki banyak implikasi yang tidak semuanya berhubungan langsung dengan penyakit:

Prosedur tambahan. Setelah proses pencitraan menghasilkan hasil positif, lebih banyak tes dilakukan untuk darah atau jaringan yang diekstraksi (biopsi). Secara obyektif tubuh pasien rusak untuk dapat memverifikasi hasil pencitraan.
Takut. Tes laboratorium membutuhkan waktu. Orang yang terkena sering hidup selama beberapa hari, kadang-kadang berminggu-minggu, cuaca yang tidak menentu atau tidak, lesi itu sebenarnya kanker. Banyak orang yang telah mengalami positif palsu seperti menggambarkan peristiwa ini sebagai "trauma" dan menderita kecemasan yang berhubungan dengan kesehatan untuk waktu yang lama.
Investasi waktu. Jika memverifikasi hasil pencitraan melalui tes laboratorium atau serupa membutuhkan beberapa pemeriksaan, pasien dan dokter harus menginvestasikan waktu untuk mereka. Bahkan jika hanya membutuhkan satu tes, ada beberapa orang yang terlibat, termasuk perawat, dokter, dan teknisi lab. Pada saat dokter terlalu banyak bekerja, ini harus dihindari jika memungkinkan.
Obat yang tidak perlu. Dalam kasus terburuk, pasien dirawat karena penyakit yang bahkan tidak mereka miliki dan tubuh mereka disaring oleh efek samping obat yang tidak perlu.
Kehilangan efek. Tenaga medis akan mengabaikan hasil positif sejati jika prosedur menghasilkan terlalu banyak positif palsu (seperti yang dijelaskan dalam jawaban lain).

Evaluasi risiko-manfaat ini menunjukkan bahwa negatif palsu termasuk risiko lebih kecil untuk pasien daripada positif palsu. Oleh karena itu prioritas mengurangi false positive pada umumnya lebih tinggi.

— Elmy
sumber

1

Waktu dokter sangat berharga

Dari dalam bidang kedokteran, dokter sering memiliki berbagai macam penyakit untuk mencoba mendeteksi dan mendiagnosis, dan ini adalah proses yang memakan waktu. Alat yang menyajikan false positive (bahkan jika pada tingkat rendah) kurang bermanfaat karena tidak mungkin mempercayai diagnosis itu, artinya setiap kali membuat diagnosis itu, ia perlu diperiksa. Anggap saja seperti WebMD perangkat lunak - semuanya adalah tanda kanker!

Alat yang menyajikan negatif palsu, tetapi selalu menunjukkan positif sebenarnya, jauh lebih bermanfaat, karena dokter tidak perlu membuang waktu untuk memeriksa atau menebak diagnosis. Jika itu menandai seseorang sebagai sakit dengan diagnosis tertentu, pekerjaan dilakukan. Jika tidak, orang-orang yang tidak disorot karena sakit akan tetap menerima tes tambahan.

Lebih baik memiliki alat yang dapat secara akurat mengidentifikasi bahkan satu sifat penyakit, daripada alat yang mungkin menipu banyak sifat.

— SSight3
sumber

0

False Positive Rate (FPR) juga dikenal sebagai false alarm rate (FAR); Tingkat Positif Palsu yang besar dapat menghasilkan kinerja yang buruk dari Sistem Deteksi Gambar Medis. Salah positif adalah di mana Anda menerima hasil positif untuk ujian, ketika Anda seharusnya menerima hasil negatif. Misalnya, tes kehamilan positif, padahal orang tersebut tidak hamil.

— EricAtHaufe
sumber

4

Ini tidak menjawab pertanyaan. OP tidak menanyakan apa arti false positive, tetapi mengapa itu dianggap lebih penting daripada false negative.

— Llewellyn

0

Kemungkinan besar, semua orang di utas ini sudah tahu bahwa ini adalah masalah inti dari analisis Bayesian. Semata-mata untuk kepentingan para peziarah masa depan yang mungkin menganggap positif palsu sebagai masalah radiologi, saya berharap komentar ini akan memberikan perspektif yang sedikit lebih umum.

— Richard Careaga
sumber