Dapatkah Metodologi Hutan Acak Diterapkan ke Regresi Linier?

14

Hutan Acak bekerja dengan membuat ansambel pohon keputusan tempat setiap pohon dibuat menggunakan sampel bootstrap dari data pelatihan asli (sampel dari kedua variabel input dan pengamatan).

Dapatkah proses serupa diterapkan untuk regresi linier? Buat model regresi linier k menggunakan sampel bootstrap acak untuk setiap regresi k

Apa alasan TIDAK untuk membuat model seperti "regresi acak"?

Terima kasih. Jika ada sesuatu yang secara mendasar hanya salah paham, tolong beri tahu saya.

regression predictive-models ensemble

— Rick
sumber

Ketika bootstrap mengagregasi pohon, fungsi regresi keseluruhan menjadi lebih dan lebih kompleks dengan setiap pohon ditambahkan. Di sisi lain, ketika bootstrap mengagregasi fungsi linier dari form a_0 + a_1 * x_1 + ... + a_d * x_d, fungsi linear rata-rata yang dihasilkan (setelah agregasi bootstrap) masih memiliki bentuk fungsional linier yang sama dengan yang Anda mulai dengan (yaitu 'pelajar dasar').

— Andre Holzner

1

@Andre Holzner - apa yang Anda katakan itu benar, tapi, tapi, tapi ... melakukan forrest acak ini sebenarnya merupakan bentuk regularisasi, di kelas yang sama dengan ridging. Saya akan memberi tahu Anda rahasia, pohon regresi sebenarnya adalah model linier - kelas yang mirip dengan splines. memakai topi Bayesian saya, pengatur forrest acak kemungkinan akan sesuai kira-kira dengan prior "spike and slab" yang digunakan dalam konteks Bayesian.

— probabilityislogic

@probabilityislogic, dapatkah Anda menjelaskan?

— Simon Kuang

Anda dapat menganggap pohon sebagai model linear

.

adalah matriks desain yang menunjukkan terminal simpul setiap pengamatan milik untuk pohon

, dan

adalah vektor yang sesuai prediksi simpul terminal. Pohon apa pun dapat dijelaskan dengan cara ini - memilih pohon setara dengan pemilihan model linier standar dalam ruang

- di mana ada

kemungkinan konfigurasi terminal "simpul terminal" yang saya pikir (di mana

adalah ukuran sampel pelatihan).

y = Z_{t} θ_{t} + e

$y=Z_t\theta_t+e$

Z_{t}

$Z_t$

t

$t$

θ_{t}

$\theta_t$

Z_{t}

$Z_t$

2^{n}

$2^n$

n

$n$

— probabilityislogic

5

Saya sebagian tidak setuju dengan jawaban saat ini karena hutan acak metodologi dibangun berdasarkan memperkenalkan varians (CART dibangun pada sampel bootstrap + metode ruang bagian acak) untuk membuatnya independen. Setelah Anda memiliki pohon ortogonal maka rata-rata prediksi mereka cenderung (dalam banyak kasus) lebih baik daripada prediksi pohon rata-rata (karena ketidaksetaraan Jensen). Meskipun CARTs memiliki tunjangan nyata ketika dikenakan pengobatan ini, metodologi ini jelas berlaku untuk model apa pun dan model linier tidak terkecuali. Ini adalah paket R yang persis apa yang Anda cari. Ini menyajikan tutorial yang bagus tentang cara menyetel dan menafsirkannya dan bibliografi pada subjek: Random Generalized Linear Models .

— JEquihua
sumber

14

Untuk menempatkan respon @ ziggystar dalam hal jargon pembelajaran mesin: ide di balik teknik agregasi bootstrap (misalnya Hutan Acak) adalah untuk mencocokkan banyak model rendah-bias, varian tinggi ke data dengan beberapa elemen "keacakan" atau "ketidakstabilan." Dalam kasus hutan acak, ketidakstabilan ditambahkan melalui bootstrap dan dengan memilih serangkaian fitur acak untuk membagi setiap simpul pohon. Rata-rata melintasi pohon-pohon yang bising, tetapi bias rendah ini, meringankan varian pohon yang tinggi.

Sementara pohon regresi / klasifikasi adalah model "bias rendah, varian tinggi", model regresi linier biasanya berlawanan - "bias tinggi, varian rendah." Dengan demikian, masalah yang sering dihadapi dengan model linear adalah mengurangi bias, bukan mengurangi varians. Agregasi bootstrap sama sekali tidak dibuat untuk melakukan ini.

Masalah tambahan adalah bahwa bootstrap mungkin tidak memberikan cukup "keacakan" atau "ketidakstabilan" dalam model linier yang khas. Saya berharap pohon regresi menjadi lebih sensitif terhadap keacakan sampel bootstrap, karena setiap daun biasanya hanya memegang beberapa poin data. Selain itu, pohon regresi dapat ditumbuhkan secara stokastik dengan membelah pohon pada subset variabel acak di setiap node. Lihat pertanyaan sebelumnya untuk mengapa ini penting: Mengapa Hutan Acak dibelah berdasarkan fitur m acak?

Semua yang dikatakan, Anda tentu dapat menggunakan bootstrap pada model linier [LINK] , dan ini bisa sangat membantu dalam konteks tertentu. Namun, motivasinya jauh berbeda dari teknik agregasi bootstrap.

— Alex Williams
sumber

Terima kasih atas tautan dan tanggapannya. Jika metode pengacakan berguna untuk model "bias rendah, varian tinggi", adakah metodologi untuk menangani jenis model yang berlawanan "bias tinggi, varian rendah"?

— Rick

Jika Anda memiliki bias rendah, model varians tinggi, metodologi seperti mengantongi dapat mengurangi varians dengan sedikit peningkatan bias. Jika Anda memiliki bias tinggi, varian rendah, gunakan model yang biasnya lebih rendah dan varian lebih tinggi - seperti regresi polinomial atau metode kernel yang lebih umum.

— Joe

10

$k$ $k$

Dan inilah mengapa tidak menarik untuk melakukan "acak" - sesuatu dengan model linear seperti halnya dengan pohon keputusan:

Pohon keputusan besar yang dibuat dari sampel besar sangat mungkin untuk melengkapi data, dan metode hutan acak melawan efek ini dengan mengandalkan suara dari banyak pohon kecil.

Regresi linier di sisi lain, adalah model yang tidak terlalu rentan terhadap overfitting dan dengan demikian tidak ada salahnya dengan melatihnya pada sampel lengkap di awal. Dan bahkan jika Anda memiliki banyak variabel regresi, Anda dapat menerapkan teknik lain, seperti regularisasi, untuk memerangi overfitting.

— ziggystar
sumber

0

$k$

X_{1}, X_{2}, . . ., X_{n} \sim B e (p)

$X_1, X_2, ..., X_n \sim Be(p)$

p

$p$

1 - p

$1-p$

θ = 1_{{p > 0}}

$\theta = 1_{\{p > 0\}}$

X_{i} = 1

$X_i = 1$

θ = 1

$\theta = 1$

θ

$\theta$

θ

$\theta$

{B i a s}_{b a g g i n g} = P r o b (i n a b o o t s t r a p s a m p l e X_{(1)} = . . . = X_{(n)} = 0) > 0,

${\rm Bias}_{\rm\ bagging} = {\rm Prob(in\ a\ bootstrap\ sample\ X_{(1)} = ... = X_{(n)} = 0)} > 0,$

θ = 1

$\theta = 1$

— stans - Pasang kembali Monica
sumber