Memprediksi kondisi medis selanjutnya dari kondisi masa lalu dalam data klaim

Saat ini saya bekerja dengan sejumlah besar data klaim asuransi kesehatan yang mencakup beberapa klaim laboratorium dan farmasi. Namun, informasi paling konsisten dalam kumpulan data terdiri dari diagnosis (ICD-9CM) dan kode prosedur (CPT, HCSPCS, ICD-9CM).

Tujuan saya adalah:

Identifikasi kondisi prekursor yang paling berpengaruh (komorbiditas) untuk kondisi medis seperti penyakit ginjal kronis;
Identifikasi kemungkinan (atau kemungkinan) bahwa seorang pasien akan mengembangkan kondisi medis berdasarkan kondisi yang mereka miliki di masa lalu;
Lakukan hal yang sama seperti 1 dan 2, tetapi dengan prosedur dan / atau diagnosa.
Lebih disukai, hasilnya akan ditafsirkan oleh dokter

Saya telah melihat hal-hal seperti kertas Warisan Hadiah Kesehatan Heritage dan telah belajar banyak dari mereka, tetapi mereka berfokus pada memprediksi rawat inap.

Jadi inilah pertanyaan saya: Metode apa yang menurut Anda cocok untuk masalah seperti ini? Dan, sumber daya apa yang paling berguna untuk belajar tentang aplikasi sains data dan metode yang relevan dengan perawatan kesehatan dan kedokteran klinis?

EDIT # 2 untuk menambahkan tabel plaintext:

CKD adalah kondisi target, "penyakit ginjal kronis", ".Setiap" menunjukkan bahwa mereka telah memperoleh kondisi itu setiap saat, ".isbefore.ckd" berarti mereka memiliki kondisi itu sebelum diagnosis CKD pertama mereka. Singkatan lainnya sesuai dengan kondisi lain yang diidentifikasi oleh pengelompokan kode ICD-9CM. Pengelompokan ini terjadi dalam SQL selama proses impor. Setiap variabel, dengan pengecualian patient_age, adalah biner.

machine-learning r

— Jamie
sumber

Bisakah Anda memberikan beberapa contoh data (dalam bahasa Inggris, tidak ada kode)?

— berteman

Saya menambahkan beberapa contoh data ke posting asli saya. Dalam versi ini, setiap kondisi ditandai dengan kode tiga huruf.

— Jamie

R itu keren, tapi tidak bisa dibaca manusia. Bisakah Anda memformat ulang sampel data Anda sebagai tabel (mis. Menggunakan format CSV atau TSV; 5-6 kolom tidak masalah)? Juga, beberapa penjelasan variabel (apa "anx.any", "flu.isbefore.ckd", dll sebenarnya berarti dan apa yang diprediksi) akan banyak membantu.

— berteman

Bisakah Anda memberikan informasi lebih lanjut tentang parameter yang digunakan dalam kumpulan data sehingga kami dapat memahami jika ada korelasi. Beberapa singkatan yang disebutkan oleh Anda tidak jelas bagi saya. Alangkah baiknya jika Anda bisa membagikan id email Anda agar kami berkolaborasi secara offline. Terima kasih!

— JohnGalt

Ini hanya sedikit terkait, tetapi tantangan ilmu data terbaru kami berkaitan dengan memprediksi klaim dari klaim lain. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Ketika solusinya dirilis mungkin berisi beberapa ide menarik.

— Sean Owen

Jawaban:

Saya tidak pernah bekerja dengan data medis, tetapi dari alasan umum saya akan mengatakan bahwa hubungan antara variabel dalam perawatan kesehatan cukup rumit. Model yang berbeda, seperti hutan acak, regresi, dll. Hanya dapat menangkap sebagian dari hubungan dan mengabaikan yang lain. Dalam keadaan seperti itu masuk akal untuk menggunakan eksplorasi dan pemodelan statistik umum .

Sebagai contoh, hal pertama yang akan saya lakukan adalah mencari korelasi antara kemungkinan kondisi prekursor dan diagnosa. Misalnya dalam berapa persen kasus penyakit ginjal kronis yang didahului oleh flu panjang? Jika tinggi, itu tidak selalu berarti kausalitas , tetapi memberikan makanan yang cukup baik untuk dipikirkan dan membantu untuk lebih memahami hubungan antara kondisi yang berbeda.

Langkah penting lainnya adalah visualisasi data. Apakah CKD lebih sering terjadi pada pria daripada wanita? Bagaimana dengan tempat tinggal mereka? Apa distribusi kasus CKD berdasarkan usia? Sulit untuk memahami dataset besar sebagai satu set angka, merencanakannya membuatnya lebih mudah.

Ketika Anda memiliki gagasan tentang apa yang sedang terjadi, lakukan pengujian hipotesis untuk memeriksa asumsi Anda. Jika Anda menolak hipotesis nol (asumsi dasar) yang mendukung alternatif satu, selamat, Anda telah membuat "sesuatu yang nyata".

Akhirnya, ketika Anda memiliki pemahaman yang baik tentang data Anda, cobalah untuk membuat model yang lengkap . Mungkin sesuatu yang umum seperti PGM (misalnya jaringan Bayesian yang dibuat secara manual), atau sesuatu yang lebih spesifik seperti regresi linier atau SVM , atau apa pun. Tetapi dengan cara apa pun Anda sudah akan tahu bagaimana model ini sesuai dengan data Anda dan bagaimana Anda bisa mengukur efisiensinya.

Sebagai sumber awal yang baik untuk belajar pendekatan statistik, saya akan merekomendasikan kursus Intro to Statistics oleh Sebastian Thrun. Meskipun cukup mendasar dan tidak termasuk topik lanjutan, ini menjelaskan konsep paling penting dan memberikan pemahaman sistematis tentang teori probabilitas dan statistik.

— teman
sumber

Terima kasih untuk ini! Ini mengkonfirmasi beberapa langkah yang telah saya ambil (analisis eksplorasi, pengujian hipotesis, dll.).

— Jamie

Meskipun saya bukan ilmuwan data, saya adalah seorang ahli epidemiologi yang bekerja di lingkungan klinis. Pertanyaan penelitian Anda tidak menentukan periode waktu (yaitu peluang mengembangkan CKD dalam 1 tahun, 10 tahun, seumur hidup?).

Secara umum, saya akan melalui sejumlah langkah sebelum berpikir tentang pemodelan (analisis univariat, analisis bivariat, pemeriksaan kolinearitas, dll). Namun, metode yang paling umum digunakan untuk mencoba memprediksi peristiwa biner (menggunakan variabel kontinu OR biner) adalah regresi logistik. Jika Anda ingin melihat CKD sebagai nilai lab (albumin urin, eGFR) Anda akan menggunakan regresi linier (hasil kontinu).

Sementara metode yang digunakan harus diinformasikan oleh data dan pertanyaan Anda, dokter digunakan untuk melihat rasio odds dan rasio risiko karena ini adalah ukuran asosiasi yang paling umum dilaporkan dalam jurnal medis seperti NEJM dan JAMA.

Jika Anda mengatasi masalah ini dari sudut pandang kesehatan manusia (berbeda dengan Business Intelligence), Model Prediksi Klinis Steyerberg ini adalah sumber yang bagus.

— dani
sumber

Terima kasih atas saran yang bermanfaat. Saya pasti akan memeriksa buku itu! Meskipun saya memiliki akses ke nilai lab, datanya tidak dapat diandalkan dan sporadis, jadi saya mencoba untuk tetap berpegang pada data yang bisa saya dapatkan dari klaim. Singkatan variabel sebenarnya AHRQ Pengelompokan Perangkat Lunak Klinis kode diagnosis.

— Jamie

"Identifikasi kondisi prekursor yang paling berpengaruh (komorbiditas) untuk kondisi medis seperti penyakit ginjal kronis"

Saya tidak yakin bahwa hal itu mungkin untuk ID yang paling kondisi berpengaruh; Saya pikir itu akan tergantung pada model apa yang Anda gunakan. Baru kemarin saya memasukkan hutan acak dan pohon regresi yang ditingkatkan ke data yang sama, dan urutan dan kepentingan relatif masing-masing model untuk variabel sangat berbeda.

— JenSCDC
sumber

Terima kasih, Andy. Bisakah Anda menguraikan sedikit? Apakah karena variabel tidak menangkap cukup detail?

— Jamie

Saya tidak punya ide. Saya kira itu tergantung pada bagaimana model yang berbeda bekerja.

— JenSCDC

Bisakah Anda menyarankan beberapa solusi yang Anda coba atau pertimbangkan?

— Jamie

Sejauh ini saya belum melakukannya, jadi tidak ada bantuan di sana. Maaf.

— JenSCDC

Saya sekarang sedang berlibur selama beberapa minggu ke depan, tetapi ketika saya kembali saya akan memeriksanya karena itu benar-benar menarik minat saya.

— JenSCDC