Penerapan teknik pembelajaran mesin dalam studi klinis sampel kecil

15

Apa yang Anda pikirkan tentang menerapkan teknik pembelajaran mesin, seperti Hutan Acak atau regresi yang dihukum (dengan penalti L1 atau L2, atau kombinasi keduanya) dalam studi klinis sampel kecil ketika tujuannya adalah untuk mengisolasi prediktor yang menarik dalam konteks klasifikasi? Ini bukan pertanyaan tentang pemilihan model, saya juga tidak bertanya tentang bagaimana menemukan perkiraan optimal dari efek variabel / kepentingan. Saya tidak berencana untuk melakukan inferensi yang kuat tetapi hanya menggunakan pemodelan multivariat, karena itu hindari menguji setiap prediktor terhadap hasil yang diinginkan satu per satu, dan memperhitungkan keterkaitan mereka.

Saya hanya ingin tahu apakah pendekatan seperti itu sudah diterapkan dalam kasus ekstrem khusus ini, katakanlah 20-30 subjek dengan data pada 10-15 variabel kategori atau kontinu. Ini bukan kasus dan saya pikir masalah di sini terkait dengan jumlah kelas yang kami coba jelaskan (yang seringkali tidak seimbang), dan (sangat) kecil n. Saya menyadari literatur besar tentang topik ini dalam konteks bioinformatika, tetapi saya tidak menemukan referensi yang terkait dengan studi biomedis dengan fenotipe yang diukur secara psikometrik (misalnya seluruh kuesioner neuropsikologis). $n\ll p$

Adakah petunjuk atau petunjuk ke makalah yang relevan?

Memperbarui

Saya terbuka terhadap solusi lain untuk menganalisis data jenis ini, misalnya algoritma C4.5 atau turunannya, metode aturan asosiasi, dan teknik penambangan data apa pun untuk klasifikasi terawasi atau semi-terawasi.

machine-learning feature-selection

— chl
sumber

Untuk lebih jelasnya: pertanyaan Anda adalah tentang ukuran data, bukan tentang pengaturannya, benar?

— Shane

Tepat, saya bertanya-tanya apakah ada referensi tentang "terkecil" n (wrt. Ke sejumlah besar variabel), atau lebih tepatnya jika ada teknik lintas-validasi (atau strategi resampling seperti dalam RF) tetap valid dalam kasus ekstrim seperti itu .

— chl

7

Saya belum melihat ini digunakan di luar bioinformatika / pembelajaran mesin juga, tapi mungkin Anda bisa menjadi yang pertama :)

Sebagai perwakilan yang baik dari metode metode sampel kecil dari bioinformatika, regresi logistik dengan regularisasi L1 dapat memberikan kecocokan yang baik ketika jumlah parameter eksponensial dalam jumlah pengamatan, interval kepercayaan non-asimtotik dapat dibuat menggunakan ketidaksetaraan tipe Chernoff (yaitu, Dudik, (2004) misalnya). Trevor Hastie telah melakukan beberapa pekerjaan menerapkan metode ini untuk mengidentifikasi interaksi gen. Dalam makalah di bawah ini, ia menggunakannya untuk mengidentifikasi efek signifikan dari model dengan 310.637 parameter yang disesuaikan agar sesuai dengan sampel 2.200 pengamatan.

"Analisis hubungan Genome-lebar dengan regresi logistik yang dihukum." Penulis: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatika Vol: 25 Masalah: 6 ISSN: 1367-4803 Tanggal: 03/2009 Halaman: 714 - 721

Presentasi terkait oleh Victoria Stodden ( Pemilihan Model dengan Banyak Variabel Lebih Dari Pengamatan )

— Yaroslav Bulatov
sumber

Ya, Wu dkk. 2009 adalah makalah yang bagus. Kebetulan, saya sudah mengerjakan GWAS dan ML selama dua tahun terakhir; sekarang saya mencoba untuk kembali ke studi klinis di mana sebagian besar waktu kita harus berurusan dengan pengukuran yang tidak sempurna, data yang hilang, dan tentu saja ... banyak variabel menarik dari sudut pandang fisikawan!

— chl

BTW, saya baru saja menemukan makalah yang membuat saya memikirkan pertanyaan ini ... sangat jarang bagi makalah Machine Learning untuk berbicara tentang interval kepercayaan, tapi inilah pengecualian ncbi.nlm.nih.gov/pubmed/19519325

— Yaroslav Bulatov

n

$n$

n ≪ p

$n\ll p$

n

$n$

p

$p$

Ini pertanyaan yang sangat menarik. Saya telah mengumpulkan beberapa dari ini dan beberapa artikel lain yang saya miliki di posting blog (harap Anda tidak keberatan). Saya yakin ada beberapa orang lain di luar sana.

— Andrew

5

Saya akan memiliki sedikit kepercayaan pada generalisasi dari hasil analisis eksplorasi dengan 15 prediktor dan ukuran sampel 20.

Interval kepercayaan dari estimasi parameter akan besar. Misalnya, interval kepercayaan 95% pada r = .30 dengan n = 20 adalah -0.17 hingga 0.66.
Masalah cenderung diperparah ketika Anda memiliki beberapa prediktor yang digunakan dalam cara eksplorasi dan didorong data.

Dalam keadaan seperti itu, saran saya umumnya akan membatasi analisis untuk hubungan bivariat. Jika Anda mengambil perspektif bayesian, maka saya akan mengatakan bahwa harapan Anda sebelumnya sama jika tidak lebih penting daripada data.

— Jeromy Anglim
sumber

4

Salah satu aturan umum adalah memiliki setidaknya 10 kali jumlah instance data pelatihan (tidak untuk berbicara tentang data uji / validasi, dll.) Karena ada parameter yang dapat disesuaikan di pengklasifikasi. Ingatlah bahwa Anda memiliki masalah di mana Anda harus tidak hanya memiliki data yang memadai tetapi juga data yang representatif . Pada akhirnya, tidak ada aturan sistematis karena ada begitu banyak variabel ketika membuat keputusan ini. Seperti yang dikatakan Hastie, Tibshirani, dan Friedman dalam The Elements of Statistics Learning (lihat Bab 7):

terlalu sulit untuk memberikan aturan umum tentang seberapa banyak data pelatihan cukup; antara lain, ini tergantung pada rasio signal-to-noise dari fungsi yang mendasarinya, dan kompleksitas model yang sesuai dengan data.

Jika Anda baru di bidang ini, saya sarankan membaca makalah "Pengenalan Pola" pendek ini dari Encyclopedia of Biomedical Engineering yang memberikan ringkasan singkat dari beberapa masalah data.

— Shane
sumber

Terima kasih! Saya memiliki buku Hastie dan buku C. Bishop (Pengenalan Pola dan Pembelajaran Mesin). Saya tahu bahwa n kecil seperti itu akan menyebabkan asosiasi palsu atau tidak dapat diandalkan (lihat komentar Jeromy Anglim). Namun, algoritma RF seperti yang diterapkan oleh Breiman memungkinkan untuk mengatasi sejumlah fitur setiap kali pohon tumbuh (dalam kasus saya, 3 atau 4) dan meskipun tingkat kesalahan OOB agak tinggi (tetapi ini harus diharapkan), menganalisis pentingnya variabel membuat saya menyimpulkan bahwa saya akan mencapai kesimpulan yang sama menggunakan tes bivariat (dengan uji permutasi).

— chl

1

Aturan praktis itu terutama berlaku untuk metode klasik seperti l2 kemungkinan maksimum yang diregulasi, metode yang diregulasi L1 dapat belajar secara efektif ketika sejumlah parameter yang dapat disesuaikan eksponensial dalam jumlah pengamatan (yaitu, Miroslav Dudik, kertas COLT 2004)

— Yaroslav Bulatov

3

Saya dapat meyakinkan Anda bahwa RF akan bekerja dalam kasus itu dan ukuran pentingnya akan sangat berwawasan (karena tidak akan ada ekor besar atribut tidak penting yang menyesatkan seperti dalam standar (n << p) s). Saya tidak dapat mengingat sekarang semua kertas yang berurusan dengan masalah yang sama, tetapi saya akan mencarinya.

1

Terima kasih! Saya menghadiri konferensi EAM-SMABS ke-4 bulan lalu, dan salah satu pembicara mempresentasikan aplikasi ML dalam studi biomedis; Sayangnya, ini adalah studi yang agak "standar" dengan N ~ 300 subjek dan p = 10 prediktor. Dia akan menyerahkan makalah ke Statistics in Medicine . Apa yang saya cari hanyalah artikel / referensi wrt. studi klinis standar dengan, misalnya pasien rawat jalan, di mana generalisasi hasil tidak begitu menjadi masalah.

— chl

Apakah Anda akhirnya menemukan kertas?

— chl

@ chl Belum; tapi terima kasih atas pengingatnya.

Tidak ada tergesa-gesa :) Tidak menemukan sesuatu yang menarik sendiri; mungkin Pubmed bukan mesin pencari yang tepat untuk kasus khusus ini ...

— chl

@ chl Itu juga masalah saya di sini. Tampaknya n << p telah menjadi sinonim untuk data biomed.

0

Jika Anda memiliki input diskrit, saya sedang menulis sebuah program untuk memprediksi nilai input biner yang hilang, diberikan input sebelumnya. Kategori apa pun, misalnya "1 dari 6", dapat dikonversi menjadi bit biner, dan itu akan berfungsi dengan baik; itu tidak akan berpengaruh.

Tujuan dari algoritma yang saya tulis adalah untuk belajar secepat mungkin secara matematis. Akibatnya memiliki kompleksitas ruang dan waktu yang sangat buruk (kompleksitas ruang sekitar O (4 ^ N) !.

Tetapi untuk itu Anda pada dasarnya belajar 1 kali, untuk sistem apa pun yang kondisinya dapat dinyatakan sebagai vektor bit. Misalnya, penambah penuh memiliki 8 status masukan yang berbeda. Algoritma akan mempelajari penambah penuh dengan sempurna setelah hanya 8 sampel pelatihan yang berbeda. Tidak hanya itu, tetapi Anda kemudian dapat memberikan jawabannya dan memprediksikan pertanyaan, atau memberikannya sebagian dari jawaban dan bagian dari pertanyaan dan mengisinya dengan sisanya.

Jika input data memiliki banyak bit, itu akan menjadi komputasi yang cukup dan memori yang intensif. Tetapi jika Anda memiliki sangat sedikit sampel, - atau lebih tepatnya tujuan desainnya - ini akan memberi Anda prediksi terbaik.

Anda hanya melatihnya dengan vektor bit, termasuk vektor bit yang bitnya tidak diketahui. Untuk mendapatkan prediksi, Anda juga hanya memberinya sedikit vektor, bit mana yang tidak diketahui, dan bit mana yang ingin Anda prediksi.

Kode sumber tersedia di sini: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

— Kevin Baas
sumber