(Non-) regresi linier pada pohon keputusan daun


8

Apakah lazim memiliki teknik regresi yang berbeda pada daun pohon regresi (misalnya regresi linier)? Saya telah mencarinya selama satu jam terakhir, tetapi yang saya temukan hanyalah implementasi yang memiliki nilai konstan pada daun pohon. Apakah ada alasan mengapa ini tidak umum?

Jawaban:


5

MARS melakukan ini

Saya pikir itu tidak lebih populer adalah bahwa banyak kekuatan dari ansambel model gaya pohon keputusan berasal dari fakta bahwa mereka selalu memprediksi nilai konstan dalam kisaran yang telah mereka lihat.

Pencilan dalam data umumnya hanya disatukan dengan nilai normal tertinggi / terendah dalam data pada lembar terakhir dan tidak menyebabkan prediksi aneh atau membuang koefisien.

Mereka juga tidak menderita masalah dengan multikolinearitas sebanyak model linier.

Anda mungkin dapat mengatasi masalah ini dalam suatu implementasi tetapi mungkin lebih mudah dan lebih kuat untuk hanya menambahkan lebih banyak pohon dalam sebuah ensemble melalui peningkatan atau pengiriman hingga Anda mendapatkan kelancaran yang Anda butuhkan.


5

Sudah ada beberapa penelitian tentang topik ini selama beberapa dekade terakhir, dimulai dengan upaya perintis Ciampi, diikuti oleh PANDUAN Loh, dan kemudian juga pohon fungsional Gama atau pendekatan partisi rekursif berbasis model oleh kami. Tinjauan bagus diberikan dalam jawaban @ Momo untuk pertanyaan ini: Keuntungan GLM di simpul terminal pohon regresi?

Perangkat lunak yang sesuai kurang banyak digunakan daripada pohon sederhana yang sesuai konstan seperti yang Anda amati. Sebagian alasan untuk ini mungkin karena lebih sulit untuk menulis - tetapi juga lebih sulit untuk digunakan. Itu hanya membutuhkan lebih banyak spesifikasi daripada model CART sederhana. Tetapi perangkat lunak tersedia (seperti yang ditunjukkan sebelumnya di sini oleh @marqram atau @Momo di: Algoritma pohon regresi dengan model regresi linier di setiap daun ). Paket perangkat lunak terkemuka meliputi:

  • Di suite Weka ada M5P(M5 ') untuk tanggapan kontinu, LMT(pohon model logistik) untuk respons biner, dan FT(pohon fungsional) untuk respons kategoris. Lihat http://www.cs.waikato.ac.nz/~ml/weka/ untuk lebih jelasnya. Mantan dua fungsi juga mudah dihubungkan melalui paket R RWeka.

  • Implementasi PANDUAN Loh tersedia dalam bentuk biner tanpa biaya (tetapi tanpa kode sumber) dari http://www.stat.wisc.edu/~loh/guide.html . Memungkinkan untuk memodifikasi detail metode dengan berbagai opsi kontrol.

  • Algoritme MOB (Berbasis Rekursif Berbasis-MOdel) kami tersedia dalam paket R partykit(penerus partyimplementasi). The mob()Fungsi memberikan kerangka umum, yang memungkinkan Anda untuk menentukan model baru yang dapat dengan mudah dipasang di node / daun dari pohon. Antarmuka kenyamanan lmtree()dan glmtree()yang bergabung mob()dengan lm()dan glm()tersedia secara langsung dan diilustrasikan dalam vignette("mob", package = "partykit"). Tetapi plugin lain juga dapat didefinisikan. Misalnya, di /programming/37037445/using-mob-trees-partykit-package-with-nls-model mob() dikombinasikan dengan nls(). Tetapi ada juga "monster" untuk berbagai model psikometrik (dalam psychotree) dan untuk regresi beta (dalam betareg).


3

Saya menemukan metode yang melakukan hal ini (pohon keputusan, di mana daun mengandung regresi linier, bukan nilai rata-rata). Mereka disebut pohon model [1] dan contohnya adalah algoritma M5P [2] dari weka. Dalam M5P, regresi linier ada pada setiap daun.

Sunting: Saya menemukan paket / model lain yang melakukan sesuatu yang serupa dan tampaknya memberikan hasil yang sangat baik untuk dataset saya: cubist. Implementasi dalam R diberikan oleh paket cubist [3]. Cubist menambahkan meningkatkan ansambel ke M5P dan apa yang disebutnya 'koreksi berbasis instance'.

[1]: Torgo, L. Model fungsional untuk daun pohon regresi. Dalam Prosiding Konferensi Internasional ke-14 tentang Pembelajaran Mesin, hlm. 385–393. Morgan Kaufmann, 1997.

[2]: M5P http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/M5P.html

[3]: Cubist model Cubist: Pemodelan Regresi Berbasis Regulasi Dan Instans https://cran.r-project.org/web/packages/Cubist/index.html

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.