Apa yang Anda pikirkan tentang menerapkan teknik pembelajaran mesin, seperti Hutan Acak atau regresi yang dihukum (dengan penalti L1 atau L2, atau kombinasi keduanya) dalam studi klinis sampel kecil ketika tujuannya adalah untuk mengisolasi prediktor yang menarik dalam konteks klasifikasi? Ini bukan pertanyaan tentang pemilihan model, saya juga tidak bertanya tentang bagaimana menemukan perkiraan optimal dari efek variabel / kepentingan. Saya tidak berencana untuk melakukan inferensi yang kuat tetapi hanya menggunakan pemodelan multivariat, karena itu hindari menguji setiap prediktor terhadap hasil yang diinginkan satu per satu, dan memperhitungkan keterkaitan mereka.
Saya hanya ingin tahu apakah pendekatan seperti itu sudah diterapkan dalam kasus ekstrem khusus ini, katakanlah 20-30 subjek dengan data pada 10-15 variabel kategori atau kontinu. Ini bukan kasus dan saya pikir masalah di sini terkait dengan jumlah kelas yang kami coba jelaskan (yang seringkali tidak seimbang), dan (sangat) kecil n. Saya menyadari literatur besar tentang topik ini dalam konteks bioinformatika, tetapi saya tidak menemukan referensi yang terkait dengan studi biomedis dengan fenotipe yang diukur secara psikometrik (misalnya seluruh kuesioner neuropsikologis).
Adakah petunjuk atau petunjuk ke makalah yang relevan?
Memperbarui
Saya terbuka terhadap solusi lain untuk menganalisis data jenis ini, misalnya algoritma C4.5 atau turunannya, metode aturan asosiasi, dan teknik penambangan data apa pun untuk klasifikasi terawasi atau semi-terawasi.