Saya menjalankan model xgboost. Saya tidak tahu persis bagaimana menafsirkan output dari xgb.importance
.
Apa arti dari Penguatan, Penutupan, dan Frekuensi dan bagaimana kita menafsirkannya?
Juga, apa arti Split, RealCover, dan RealCover%? Saya punya beberapa parameter tambahan di sini
Apakah ada parameter lain yang dapat memberi tahu saya lebih lanjut tentang pentingnya fitur?
Dari dokumentasi R, saya memiliki beberapa pemahaman bahwa Gain adalah sesuatu yang mirip dengan Informasi gain dan Frekuensi adalah berapa kali fitur digunakan di semua pohon. Saya tidak tahu apa Sampul itu.
Saya menjalankan kode contoh yang diberikan dalam tautan (dan juga mencoba melakukan hal yang sama pada masalah yang sedang saya kerjakan), tetapi definisi split yang diberikan di sana tidak cocok dengan angka yang saya hitung.
importance_matrix
Keluaran:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05