Bagaimana seseorang dapat memilih jumlah parameter yang tepat untuk algoritma genetika untuk memodelkan sistem yang diberikan?
Misalnya, Anda ingin mengoptimalkan produksi mobil, dan Anda memiliki 1.000 pengukuran efisiensi per jam di berbagai tugas untuk masing-masing 1.000 karyawan yang berbeda. Jadi, Anda memiliki 1.000.000 titik data. Sebagian besar dari ini cenderung berkorelasi lemah dengan efisiensi keseluruhan pabrik Anda, tetapi tidak terlalu lemah sehingga Anda dapat mengatakan mereka tidak relevan dengan kepercayaan statistik. Bagaimana Anda memilih input untuk GA Anda sehingga Anda tidak memiliki kebebasan 1.000.000 derajat, menghasilkan konvergensi yang sangat lambat atau tidak ada konvergensi sama sekali?
Secara khusus, algoritma apa yang dapat digunakan untuk memilih atau menghilangkan fitur secara selektif?
Salah satu pendekatan yang saya telah digunakan sendiri dalam skenario ini adalah untuk berkembang pemilihan parameter itu sendiri, jadi saya mungkin memiliki orang tua seperti {a,b,c}
, {b,d,e,q,x,y,z}
, dan sebagainya. Saya kemudian akan bermutasi anak-anak untuk menambah atau menjatuhkan fitur. Ini bekerja dengan baik untuk beberapa lusin fitur. Tetapi masalahnya adalah bahwa itu tidak efisien jika ada sejumlah besar derajat kebebasan. Dalam hal ini, Anda melihat 10^n
kombinasi (dalam contoh di atas, 10^1,000,000
), yang membuat beberapa fitur pra-penyaringan penting untuk mendapatkan segala jenis kinerja yang berguna.