Saya memiliki dua dataset A dan B yang persis sama dalam hal jumlah kolom, nama kolom, dan nilai-nilai. Satu-satunya perbedaan adalah urutan kolom-kolom itu. Saya kemudian melatih model LightGBM pada masing-masing dua set data dengan langkah-langkah berikut
- Bagilah setiap dataset ke dalam pelatihan dan pengujian (gunakan seed dan rasio acak yang sama untuk A dan B)
- Biarkan hiperparameter sebagai default
- Tetapkan status acak sebagai nomor tetap (untuk reproduksi)
- Tune the learning_rate menggunakan Pencarian Grid
- Latih model LightGBM pada perangkat pelatihan dan ujilah pada perangkat uji
- Tingkat pembelajaran dengan kinerja terbaik pada set pengujian akan dipilih
Model output pada dua set data sangat berbeda, yang membuat saya berpikir bahwa urutan kolom tidak mempengaruhi kinerja pelatihan model menggunakan LightGBM.
Apakah Anda tahu mengapa demikian?