Jadi kueri Anda adalah perbandingan antara regresi linier dengan kepentingan variabel yang diturunkan dari model hutan acak.
R2
Pendekatan populer lainnya adalah rata-rata atas pemesanan (LMG, 1980). LMG bekerja seperti ini:
- SSSebuah/ SSt o t a lR2Sebuah
- a , b , cb , a , cb , c , a
- Temukan rata-rata korelasi semi-parsial untuk setiap pesanan ini. Ini adalah rata-rata dari pemesanan.
Algoritma hutan acak cocok dengan beberapa pohon, setiap pohon di hutan dibangun dengan memilih secara acak fitur yang berbeda dari dataset. Simpul setiap pohon dibangun dengan memilih dan membelah untuk mencapai pengurangan varians maksimum. Sementara memprediksi pada dataset uji, output pohon individu rata-rata untuk mendapatkan hasil akhir. Setiap variabel diijinkan di antara semua pohon dan perbedaan kesalahan sampel sebelum dan sesudah permutasi dihitung. Variabel dengan perbedaan tertinggi dianggap paling penting, dan yang dengan nilai lebih rendah kurang penting.
Metode dimana model ini cocok dengan data pelatihan sangat berbeda untuk model regresi linier dibandingkan dengan model hutan acak. Tetapi kedua model tidak mengandung hubungan struktural antara variabel.
Mengenai pertanyaan Anda tentang non-linearitas variabel dependen: Lasso pada dasarnya adalah model linier yang tidak akan dapat memberikan prediksi yang baik untuk proses non-linear yang mendasarinya, dibandingkan dengan model berbasis pohon. Anda harus dapat memeriksanya dengan memverifikasi kinerja model pada set uji penyisihan, jika hutan acak berkinerja lebih baik, proses yang mendasarinya mungkin non-linear. Sebagai alternatif, Anda dapat memasukkan efek interaksi variabel dan variabel urutan lebih tinggi yang dibuat menggunakan a, b, dan c dalam model laso dan memverifikasi apakah model ini berkinerja lebih baik dibandingkan dengan laso dengan hanya kombinasi linear dari a, b dan c. Jika ya, maka proses yang mendasarinya mungkin non-linear.
Referensi: