Sebuah makalah baru-baru ini The Loss Surfaceaces Multilayer Networks menawarkan beberapa kemungkinan penjelasan untuk ini. Dari abstrak mereka (cetak tebal adalah milikku):
"Kami menduga bahwa keduanya mensimulasikan annealing dan SGD bertemu ke band titik kritis rendah, dan bahwa semua titik kritis ditemukan ada minimum lokal berkualitas tinggi yang diukur oleh kesalahan pengujian. Ini menekankan perbedaan utama antara jaringan ukuran besar dan kecil di mana untuk minimum yang berkualitas rendah minimum memiliki probabilitas nol untuk dipulihkan. Akhirnya, kami membuktikan bahwa memulihkan minimum global menjadi lebih sulit karena ukuran jaringan meningkat dan dalam praktiknya tidak relevan karena minimum global sering menyebabkan overfitting . "
Banyak orang yang berpengaruh dalam pembelajaran mendalam (Yann LeCunn dan Yoshua Bengio untuk menyebutkan beberapa) dan beberapa peneliti datang lebih dari sudut matematika (Rong Ge dan kolaborator Sanjeev Arora lainnya) telah mendiskusikan dan mengeksplorasi ide-ide ini.
Dalam makalah yang direferensikan di atas, lihat Gambar 3, yang menunjukkan fenomena banding / konsentrasi dari nilai minimum lokal karena jaring memiliki unit yang lebih tersembunyi. Banding / konsentrasi mewakili beberapa bukti empiris bahwa untuk model yang lebih dalam atau lebih besar, minimum lokal "cukup baik", karena nilai kerugiannya hampir sama. Dan yang paling penting, mereka memiliki kerugian yang lebih dekat ke minimum global karena modelnya menjadi lebih kompleks (dalam hal ini lebih luas, tetapi dalam praktiknya, lebih dalam).
Lebih jauh lagi, mereka menggunakan model kaca bundar, yang mereka nyatakan hanyalah sebuah model dan belum tentu menunjukkan gambaran sebenarnya, untuk menunjukkan bahwa mencapai minimizer global dari minimum lokal mungkin memakan waktu lama secara eksponensial:
"Untuk menemukan minimum rendah lebih lanjut, kita harus melewati titik pelana. Oleh karena itu kita harus naik setidaknya ke tingkat di mana ada jumlah poin pelana yang sama untuk memiliki kesempatan yang layak untuk menemukan jalan yang mungkin mengambil kita ke minimum lokal lain. Proses ini memakan waktu lama secara eksponensial sehingga dalam praktiknya menemukan minimum global tidak layak. "
Penelitian Rong Ge dipusatkan di sekitar menerobos poin pelana. Yoshua Bengio dan kolaboratornya telah mengajukan Hipotesis Saddle Point yang cukup berani:
Di sini kami berdebat, berdasarkan hasil dari fisika statistik, teori matriks acak, teori jaringan saraf, dan bukti empiris, bahwa kesulitan yang lebih dalam dan lebih dalam berasal dari proliferasi titik sadel, bukan minima lokal, terutama dalam masalah dimensi tinggi minat praktis. . Poin pelana seperti itu dikelilingi oleh dataran tinggi kesalahan tinggi yang secara dramatis dapat memperlambat pembelajaran, dan memberikan kesan ilusi tentang keberadaan minimum lokal.
sumber di sini: Mengidentifikasi dan menyerang masalah titik sadel dalam optimasi non-cembung dimensi tinggi.
Hingga taraf tertentu, kedua pendekatan di atas tidak persis sama (Hipotesis Saddle Point mungkin mempertanyakan apa yang benar-benar minima lokal dan apa yang hanya merupakan titik sadel yang tidak terkondisikan dengan daerah dataran tinggi yang sangat panjang?). Gagasan di balik Hipotesis Saddle Point adalah bahwa dimungkinkan untuk merancang metode optimasi untuk menerobos poin sadel, misalnya Saddle-Free Newton dari artikel Bengio, untuk berpotensi mempercepat konvergensi dan bahkan mungkin mencapai optimum global. Artikel Multilayer Loss Surface pertama tidak benar-benar peduli dengan mencapai optimal global dan benar-benar percaya itu memiliki beberapa sifat overfitting yang buruk. Anehnya, kedua artikel menggunakan ide-ide dari fisika statistik dan model spin-glass.
Tetapi mereka saling terkait karena kedua artikel tersebut meyakini bahwa untuk mencapai minimizer global, seseorang harus mengatasi tantangan optimisasi poin sadel. Artikel pertama hanya percaya bahwa minimum lokal cukup baik.
Adalah wajar untuk bertanya-tanya apakah metode momentum dan algoritma pengoptimalan baru lainnya, yang dapat memperkirakan beberapa sifat kelengkungan orde kedua dapat lolos dari poin pelana. Animasi terkenal oleh Alec Radford di sini .
Untuk menjawab pertanyaan Anda: "dari mana keyakinan ini berasal" Saya pribadi pikir itu berasal dari kenyataan bahwa dimungkinkan untuk menggunakan benih acak yang berbeda untuk mempelajari bobot yang berbeda, tetapi jaring yang sesuai memiliki kinerja kuantitatif yang serupa. Misalnya, jika Anda menetapkan dua biji acak berbeda untuk inisialisasi berat Glorot, Anda mungkin akan mempelajari bobot yang berbeda, tetapi jika Anda berlatih menggunakan metode pengoptimalan yang serupa, jaring akan memiliki kinerja yang sama. Satu kepercayaan cerita rakyat yang umum adalah bahwa lanskap optimasi mirip dengan karton telur, posting blog bagus lainnya di sini: Tidak ada lagi minimum lokal? dengan analogi telur-karton.
Sunting: Saya hanya ingin menjadi jelas bahwa analogi karton telur itu tidak benar, jika tidak, tidak akan ada kebutuhan untuk momentum atau teknik optimasi lainnya yang lebih maju. Tetapi diketahui bahwa SGD tidak berkinerja sebaik SGD + Momentum atau algoritma optimisasi yang lebih modern, mungkin karena adanya titik pelana.