Apa yang menyebabkan model membutuhkan tingkat pembelajaran yang rendah?

Saya telah merenungkan ini untuk sementara waktu tanpa mengembangkan intuisi untuk matematika di balik penyebab ini.

Jadi apa yang menyebabkan model membutuhkan tingkat belajar yang rendah?

machine-learning hyper-parameters

— John Allen
sumber

Saya juga bertanya-tanya tentang hal itu dan saya ingin tahu mengapa RNN memiliki tingkat belajar yang lebih kecil daripada CNN. Dari apa yang saya tahu, kompleksitas model (kedalaman) dan / atau kumpulan data besar membutuhkan hyperparameter yang lebih baik untuk lr.

— Justin

Gradient Descent adalah metode untuk menemukan parameter hipotesis yang optimal atau meminimalkan fungsi biaya.

di mana alpha adalah tingkat pembelajaran

Jika tingkat pembelajaran tinggi maka dapat melampaui batas minimum dan dapat gagal untuk meminimalkan fungsi biaya.

karenanya menghasilkan kerugian yang lebih tinggi.

Karena keturunan Gradient hanya dapat menemukan minimum lokal, tingkat pembelajaran yang lebih rendah dapat mengakibatkan kinerja yang buruk. Untuk melakukannya, lebih baik memulai dengan nilai acak dari hiperparameter dapat meningkatkan waktu pelatihan model tetapi ada metode canggih seperti gradient descent adaptif yang dapat mengatur waktu pelatihan.

Ada banyak pengoptimal untuk tugas yang sama tetapi tidak ada pengoptimal yang sempurna. Itu tergantung pada beberapa faktor

ukuran data pelatihan: karena ukuran data pelatihan meningkatkan waktu pelatihan untuk model meningkat. Jika Anda ingin pergi dengan waktu model pelatihan yang lebih sedikit Anda dapat memilih tingkat belajar yang lebih tinggi tetapi dapat mengakibatkan kinerja yang buruk.
Pengoptimal (gradient descent) akan melambat setiap kali gradien kecil maka lebih baik untuk pergi dengan tingkat pembelajaran yang lebih tinggi.

PS. Itu selalu lebih baik untuk pergi dengan putaran gradient descent yang berbeda

— Posi2
sumber

Ini adalah awal yang baik, karena menunjukkan perbedaan antara tingkat pembelajaran yang rendah dan tinggi secara umum. Anda juga perlu menjelaskan mengapa tingkat belajar yang baik bervariasi tergantung pada tugas - dan OP secara khusus menanyakan mengapa beberapa masalah memerlukan tingkat belajar yang lebih rendah daripada yang lain

— Neil Slater

Itu poin yang bagus. Saya sudah mengeditnya. Karena tidak ada masalah khusus disebutkan saya akan dengan yang umum.

— Posi2

Saya masih berpikir bahwa ini tidak menjawab pertanyaan. OP tidak bertanya tentang pengoptimal atau data, tetapi bertanya tentang model. Bagaimana model (arsitekturnya, jumlah parameter, dll.) Memengaruhi laju pembelajaran? Saya pikir ini adalah pertanyaan aktual, yang tidak Anda jawab. Segala sesuatu yang lain sangat tidak relevan dengan pertanyaan dan hanya akan membingungkan pembaca yang tidak dapat membedakan antara konsep-konsep ini.

— nbro

Terima kasih untuk umpan baliknya. Terlepas dari arsitektur model karena jumlah parameter, ukuran data, dan rentang data (solusi menggunakan data yang dinormalisasi) adalah hasil yang tinggi dalam waktu pelatihan yang lebih tinggi sehingga sesuai dengan itu, kita harus mengubah tingkat pembelajaran. Ini berlaku untuk model seperti regresi linier, regresi logistik, SVM dll karena mereka menggunakan GD untuk optimisasi. Setiap tanggapan selalu diterima :)

— Posi2

Adakah bukti yang menilai klaim Anda "terlepas dari arsitektur model"? Jawaban ini masih belum menjawab pertanyaan OP. Anda menjawab pertanyaan "bagaimana tingkat pembelajaran berubah secara umum, tergantung pada pengaturan pembelajaran mesin" (dan jawaban Anda tidak lengkap, tentu saja, karena tidak menyebutkan "bagaimana tingkat pembelajaran berubah tergantung pada modelnya). ", yaitu pertanyaan aktual).

— nbro