Apakah hutan acak untuk regresi adalah regresi 'benar'?


18

Hutan acak digunakan untuk regresi. Namun, dari apa yang saya pahami, mereka menetapkan nilai target rata-rata pada setiap lembar. Karena hanya ada daun terbatas di setiap pohon, hanya ada nilai spesifik yang dapat dicapai target dari model regresi kami. Jadi bukankah ini hanya regresi 'diskrit' (seperti fungsi langkah) dan tidak seperti regresi linier yang 'kontinu'?

Apakah saya memahami ini dengan benar? Jika ya, keuntungan apa yang ditawarkan hutan acak dalam regresi?


Jawaban:


23

Ini benar - hutan acak mendiskritkan variabel kontinu karena didasarkan pada pohon keputusan, yang berfungsi melalui partisi biner rekursif. Tetapi dengan data yang cukup dan pemisahan yang cukup, fungsi langkah dengan banyak langkah kecil dapat mendekati fungsi yang halus. Jadi ini tidak perlu menjadi masalah. Jika Anda benar-benar ingin menangkap respons yang mulus dengan satu prediktor tunggal, Anda menghitung efek parsial dari variabel tertentu dan menyesuaikan fungsi yang mulus dengan variabel tersebut (ini tidak memengaruhi model itu sendiri, yang akan mempertahankan karakter bertahap ini).

Hutan acak menawarkan beberapa keunggulan dibandingkan teknik regresi standar untuk beberapa aplikasi. Untuk menyebutkan hanya tiga:

  1. Mereka memungkinkan penggunaan banyak prediktor sewenang-wenang (lebih banyak prediktor daripada titik data dimungkinkan)
  2. Mereka dapat memperkirakan bentuk nonlinier kompleks tanpa spesifikasi apriori
  3. Mereka dapat menangkap interaksi yang kompleks antara prediksi tanpa spesifikasi apriori .

Adapun apakah itu adalah regresi 'benar', ini agak semantik. Bagaimanapun, regresi satu demi satu adalah regresi juga, tetapi juga tidak mulus. Seperti halnya regresi dengan prediktor kategoris, seperti yang ditunjukkan dalam komentar di bawah.


7
Juga, regresi dengan hanya fitur-fitur kategorikal juga tidak akan mulus.
Tim

3
Mungkinkah regresi dengan satu fitur kategoris menjadi lancar?
Dave

4

Ini diskrit, tetapi kemudian output apa pun dalam bentuk angka floating point dengan jumlah bit tetap akan diskrit. Jika pohon memiliki 100 daun, maka ia dapat memberikan 100 angka yang berbeda. Jika Anda memiliki 100 pohon berbeda dengan masing-masing 100 daun, maka hutan acak Anda secara teoritis dapat memiliki 100 ^ 100 nilai yang berbeda, yang dapat memberikan 200 digit (desimal) presisi, atau ~ 600 bit. Tentu saja, akan ada beberapa tumpang tindih, jadi Anda sebenarnya tidak akan melihat 100 ^ 100 nilai yang berbeda. Distribusi cenderung untuk mendapatkan lebih banyak diskrit, semakin Anda mencapai ekstrem; setiap pohon akan memiliki beberapa daun minimum (daun yang memberikan hasil yang kurang dari atau sama dengan semua daun lainnya), dan sekali Anda mendapatkan daun minimum dari setiap pohon, Anda tidak bisa mendapatkan yang lebih rendah. Jadi akan ada nilai keseluruhan minimum untuk hutan, dan ketika Anda menyimpang dari nilai itu, Anda akan mulai dengan semua kecuali beberapa pohon yang berada di daun minimumnya, membuat penyimpangan kecil dari kenaikan nilai minimum dalam lompatan diskrit. Tetapi penurunan reliabilitas pada ekstrem adalah sifat regresi pada umumnya, bukan hanya hutan acak.


Daun dapat menyimpan nilai apa pun dari data pelatihan (jadi dengan data pelatihan yang tepat, 100 pohon dari 100 daun dapat menyimpan hingga 10.000 nilai berbeda). Tetapi nilai yang dikembalikan adalah rata-rata daun yang dipilih dari setiap pohon. Jadi jumlah bit presisi dari nilai itu sama apakah Anda memiliki 2 pohon atau 100 pohon.
Darren Cook

3

Jawabannya akan tergantung pada apa definisi regresi Anda, lihat Definisi dan pembatasan model regresi . Tetapi definisi yang biasa (atau bagian dari definisi) adalah bahwa model regresi mengharapkan kondisi . Dan pohon regresi memang dapat dilihat sebagai penaksir harapan bersyarat.

Dalam node daun, Anda memprediksi rata-rata pengamatan sampel yang mencapai daun itu, dan rata-rata aritmetika adalah penaksir harapan. Pola percabangan di pohon mewakili pengkondisian.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.