Cara saya melihatnya, itu adalah serangkaian if-else. Mengapa saya tidak hanya menggunakan if-else daripada menggunakan pohon keputusan?
Anda benar sekali. Pohon keputusan tidak lain adalah serangkaian pernyataan if-else. Namun demikian, cara kami mengartikan pernyataan ini sebagai pohon yang memungkinkan kami membuat aturan ini secara otomatis ... Yaitu diberikan beberapa contoh input set ... apa set terbaik dari aturan yang menjelaskan apa nilai telah memberikan masukan baru ? ID3 dan yang serupa memungkinkan kita secara otomatis membuat aturan ini. Ini sebenarnya bukan tentang pohon yang pernah dibangun, ini tentang bagaimana kita membuatnya.(x1,y1),...,(xN,yN)yx
Terlepas dari itu orang jarang menggunakan pohon keputusan saja, alasannya tepat seperti yang Anda katakan: itu adalah model yang cukup sederhana yang kurang ekspresif. Namun, ia memiliki satu keunggulan besar dibandingkan model lain: Seseorang dapat menghitung pohon keputusan tunggal dengan cukup cepat. Itu berarti bahwa kita dapat menghasilkan algoritma yang melatih banyak pohon keputusan (meningkatkan, alias AdaBoost dan GradientBoosting) pada kumpulan data besar. Kumpulan (biasanya lebih dari 500) model sederhana ini (disebut hutan) dapat mengekspresikan bentuk yang jauh lebih rumit.
Anda juga bisa membayangkannya seperti ini: Diberikan fungsi 'bagus' (yaitu kontinu) tetapi rumit kita bisa mencoba memperkirakan fungsi ini menggunakan garis. Jika fungsinya rumit (seperti atau lebih) maka kami menghasilkan kesalahan besar. Namun, kita dapat menggabungkan garis dengan cara kita membagi interval menjadi bagian yang lebih kecil dan pada setiap kita mencoba untuk mendekati (yaitu,f:[a,b]→Rsin(x)[a,b]a=a0<a1<...<aM=bai,ai+1f|(ai,ai+1)fterbatas pada interval ini) oleh garis. Dengan matematika dasar (analisis) kita kemudian dapat memperkirakan fungsi menutup secara sewenang-wenang (yaitu membuat kesalahan kecil sewenang-wenang) jika kita mengambil garis yang cukup. Oleh karena itu, kami membangun model yang rumit namun akurat dari model yang sangat sederhana. Itu persis ide yang sama yang (misalnya) GradientBoosting gunakan: Ini membangun hutan dari pohon keputusan tunggal yang sangat 'bodoh'.