Cara Hutan Acak dibangun tidak berbeda dengan transformasi monotonik dari variabel independen. Perpecahan akan sepenuhnya analog. Jika Anda hanya membidik keakuratan Anda tidak akan melihat peningkatan di dalamnya. Faktanya, karena Random Forests dapat menemukan hubungan kompleks non-linear (Mengapa Anda memanggil regresi linier ini?) Dan interaksi variabel dengan cepat, jika Anda mengubah variabel independen Anda, Anda dapat menghaluskan informasi yang memungkinkan algoritma ini melakukan ini dengan benar.
Terkadang Hutan Acak tidak diperlakukan sebagai kotak hitam dan digunakan untuk inferensi. Misalnya, Anda dapat menginterpretasikan ukuran kepentingan variabel yang disediakannya, atau menghitung semacam efek marginal dari variabel independen Anda pada variabel dependen Anda. Ini biasanya divisualisasikan sebagai plot ketergantungan parsial. Saya cukup yakin hal terakhir ini sangat dipengaruhi oleh skala variabel, yang merupakan masalah ketika mencoba untuk mendapatkan informasi yang lebih deskriptif dari Random Forests. Dalam hal ini mungkin membantu Anda untuk mengubah variabel Anda (standar), yang bisa membuat plot ketergantungan parsial sebanding. Tidak sepenuhnya yakin tentang ini, harus memikirkannya.
Belum lama ini saya mencoba untuk memprediksi data penghitungan menggunakan Hutan Acak, mundur pada akar kuadrat dan log alami dari variabel dependen membantu sedikit, tidak banyak, dan tidak cukup untuk membiarkan saya menjaga model.
Beberapa paket tempat Anda dapat menggunakan hutan acak untuk menarik kesimpulan:
https://uc-r.github.io/lime
https://cran.r-project.org/web/packages/randomForestExplainer/index.html
https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html