Dua algoritma pertama yang Anda sebutkan (Nelder-Mead dan Simulated Annealing) umumnya dianggap cukup usang di lingkaran optimisasi, karena ada banyak alternatif yang lebih baik yang keduanya lebih dapat diandalkan dan lebih murah. Algoritma genetika mencakup beragam, dan beberapa di antaranya masuk akal.
Namun, dalam kelas yang lebih luas dari algoritma derivatif-bebas optimasi (DFO), ada banyak yang secara signifikan lebih baik daripada "klasik" ini, karena ini telah menjadi area penelitian aktif dalam beberapa dekade terakhir. Jadi, bisakah beberapa pendekatan baru ini masuk akal untuk pembelajaran yang mendalam?
Makalah yang relatif baru membandingkan keadaan seni adalah sebagai berikut:
Rios, LM, & Sahinidis, NV (2013) Optimalisasi bebas-derivatif: tinjauan algoritma dan perbandingan implementasi perangkat lunak. Jurnal Optimasi Global.
Ini adalah kertas bagus yang memiliki banyak wawasan menarik tentang teknik terbaru. Misalnya, hasilnya jelas menunjukkan bahwa pengoptimal lokal terbaik semua "berbasis model", menggunakan berbagai bentuk pemrograman kuadratik sekuensial (SQP).
Namun, seperti dicatat dalam abstrak mereka, "Kami menemukan bahwa kemampuan semua pemecah ini untuk mendapatkan solusi yang baik berkurang dengan meningkatnya ukuran masalah." Untuk memberikan gambaran tentang angka-angka, untuk semua masalah, pemecah diberi anggaran evaluasi fungsi 2.500, dan ukuran masalah maksimum ~ 300 parameter untuk dioptimalkan. Di luar parameter O [10], sangat sedikit pengoptimal ini berkinerja sangat baik, dan bahkan yang terbaik menunjukkan penurunan kinerja yang nyata ketika ukuran masalah meningkat.
Jadi untuk masalah dimensi yang sangat tinggi, algoritma DFO tidak kompetitif dengan yang berbasis turunan. Untuk memberikan beberapa perspektif, optimasi berbasis PDE (persamaan diferensial parsial) adalah area lain dengan masalah dimensi yang sangat tinggi (misalnya beberapa parameter untuk setiap sel dari grid elemen hingga 3D yang besar). Di dunia ini, " metode adjoint " adalah salah satu metode yang paling banyak digunakan. Ini juga merupakan pengoptimal gradien-turun berdasarkan diferensiasi otomatis dari kode model maju.
Yang paling dekat dengan pengoptimal DFO dimensi tinggi mungkin adalah Ensemble Kalman Filter , yang digunakan untuk mengasimilasi data ke dalam simulasi PDE yang kompleks, misalnya model cuaca. Menariknya, ini pada dasarnya adalah pendekatan SQP, tetapi dengan interpretasi Bayesian-Gaussian (jadi model kuadratik adalah pasti positif, yaitu tidak ada poin pelana). Tetapi saya tidak berpikir bahwa jumlah parameter atau pengamatan dalam aplikasi ini sebanding dengan apa yang terlihat dalam pembelajaran mendalam.
Catatan tambahan (minimum lokal): Dari sedikit yang saya baca tentang pembelajaran mendalam, saya pikir konsensus adalah bahwa itu adalah poin pelana daripada minimum lokal, yang paling bermasalah untuk ruang parameter NN-dimensi tinggi.
Sebagai contoh, ulasan baru - baru ini di Nature mengatakan, "Hasil teoritis dan empiris baru - baru ini sangat menyarankan bahwa minimum lokal secara umum bukan masalah. Sebagai gantinya, lanskap tersebut dikemas dengan sejumlah besar titik pelana di mana gradiennya nol, dan permukaan kurva di sebagian besar dimensi dan kurva di sisanya. "
Kekhawatiran terkait adalah tentang pengoptimalan lokal vs. global (misalnya pertanyaan ini ditunjukkan dalam komentar). Meskipun saya tidak melakukan pembelajaran yang mendalam, dalam pengalaman saya overfitting jelas merupakan masalah yang valid. Menurut pendapat saya, metode optimasi global paling cocok untuk masalah desain teknik yang tidak terlalu bergantung pada data "alami". Dalam masalah Data asimilasi, setiap minima global saat ini bisa dengan mudah mengubah pada penambahan data baru (peringatan: Pengalaman saya adalah terkonsentrasi di masalah geoscience, dimana data umumnya "jarang" relatif terhadap kapasitas model).
Perspektif yang menarik mungkin
O. Bousquet & L. Bottou (2008) Pengorbanan pembelajaran skala besar. NIPS.
yang memberikan argumen semi-teoretis tentang mengapa dan kapan perkiraan optimasi mungkin lebih disukai dalam praktiknya.
Catatan akhir (optimisasi-meta): Walaupun teknik berbasis gradien tampaknya lebih dominan untuk jaringan pelatihan, mungkin ada peran DFO dalam tugas-tugas meta-optimisasi terkait.
Salah satu contohnya adalah penyetelan hyper-parameter. (Menariknya, pengoptimal DFO berbasis model yang sukses dari Rios & Sahinidis dapat dilihat sebagai pada dasarnya memecahkan serangkaian masalah desain-percobaan / permukaan respon .)
Contoh lain mungkin mendesain arsitektur, dalam hal pengaturan lapisan (misalnya jumlah, jenis, urutan, node / lapisan). Dalam konteks optimasi diskrit ini, algoritma gaya genetika mungkin lebih tepat. Perhatikan bahwa di sini saya memikirkan kasus di mana konektivitas ditentukan secara implisit oleh faktor-faktor ini (misalnya, lapisan yang sepenuhnya terhubung, lapisan konvolusional, dll.). Dengan kata lain konektivitas dioptimalkan secara meta secara eksplisit. (Kekuatan koneksi akan jatuh di bawah pelatihan, di mana mis sparsity dapat dipromosikan oleh regularisasi dan / atau aktivasi ReLU ... namun pilihan ini dapat dioptimalkan secara meta.)O[N2]notL1