Saya menggunakan paket randomForest dalam R untuk mengembangkan model hutan acak untuk mencoba menjelaskan hasil yang berkelanjutan dalam dataset "lebar" dengan lebih banyak prediktor daripada sampel.
Secara khusus, saya memasang satu model RF yang memungkinkan prosedur untuk memilih dari serangkaian ~ 75 variabel prediktor yang menurut saya penting.
Saya menguji seberapa baik model itu memprediksi hasil aktual untuk set pengujian yang dicadangkan, menggunakan pendekatan yang diposting di sini sebelumnya , yaitu,
... atau dalam R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Tapi sekarang saya punya tambahan ~ 25 variabel prediktor yang bisa saya tambahkan. Saat menggunakan set ~ 100 prediktor, R² lebih tinggi. Saya ingin menguji ini secara statistik, dengan kata lain, ketika menggunakan set ~ 100 prediktor, apakah tes model secara signifikan lebih baik dalam menguji data daripada model yang cocok menggunakan ~ 75 prediktor. Yaitu, adalah R² dari pengujian model RF yang sesuai pada dataset lengkap secara signifikan lebih tinggi dari R² dari pengujian model RF pada dataset yang dikurangi.
Ini penting bagi saya untuk diuji, karena ini adalah data percontohan, dan mendapatkan 25 prediktor tambahan itu mahal, dan saya perlu tahu apakah saya harus membayar untuk mengukur prediktor tersebut dalam studi tindak lanjut yang lebih besar.
Saya mencoba memikirkan semacam pendekatan resampling / permutasi tetapi tidak ada yang terlintas dalam pikiran.