Pertanyaan yang diberi tag «gradient-descent»

Gradient Descent adalah algoritma untuk mencari nilai minimum suatu fungsi. Ini secara berulang menghitung turunan parsial (gradien) dari fungsi dan turun dalam langkah-langkah yang sebanding dengan turunan parsial tersebut. Salah satu aplikasi utama Gradient Descent adalah menyesuaikan model berparameter ke sekumpulan data: fungsi yang akan diminimalkan adalah fungsi kesalahan untuk model.

4
Scikit-belajar: Mendapatkan SGDClassifier untuk memprediksi serta Regresi Logistik
Cara untuk melatih Regresi Logistik adalah dengan menggunakan keturunan gradien stokastik, yang scikit-belajar menawarkan antarmuka. Apa yang ingin saya lakukan adalah mengambil scikit-belajar ini SGDClassifier dan memilikinya skor yang sama sebagai Regresi Logistik di sini . Namun, saya harus kehilangan beberapa peningkatan pembelajaran mesin, karena skor saya tidak setara. Ini …



1
Mengapa ReLU lebih baik daripada fungsi aktivasi lainnya
Di sini jawabannya mengacu pada gradien menghilang dan meledak yang telah di- sigmoidfungsi aktivasi tetapi, saya kira, Relumemiliki kelemahan dan itu adalah nilai yang diharapkan. tidak ada batasan untuk output Reludan nilai yang diharapkan tidak nol. Saya ingat waktu sebelum popularitas Reluyang tanhadalah yang paling populer di antara mesin ahli …


1
Berapa banyak sel LSTM yang harus saya gunakan?
Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
Mengapa ini mempercepat gradient descent jika fungsinya halus?
Saya sekarang membaca buku berjudul "Pembelajaran Mesin Langsung dengan Scikit-Learn dan TensorFlow" dan pada bab 11, ia memiliki deskripsi berikut tentang penjelasan ELU (Exponential ReLU). Ketiga, fungsinya halus di mana-mana, termasuk di sekitar z = 0, yang membantu mempercepat Gradient Descent, karena tidak memantul sebanyak kiri dan kanan z = …

1
Seberapa fleksibel hubungan antara fungsi tujuan dan fungsi aktivasi lapisan keluaran?
Tampaknya standar dalam banyak paket jaringan saraf untuk memasangkan fungsi tujuan yang akan diminimalkan dengan fungsi aktivasi di lapisan output. Sebagai contoh, untuk lapisan output linier yang digunakan untuk regresi adalah standar (dan seringkali hanya pilihan) untuk memiliki fungsi tujuan kesalahan kuadrat. Pasangan lain yang biasa adalah output logistik dan …

2
Keturunan gradien stokastik berdasarkan pada operasi vektor?
mari kita asumsikan bahwa saya ingin melatih algoritma regresi penurunan gradien stokastik menggunakan dataset yang memiliki sampel N. Karena ukuran dataset sudah diperbaiki, saya akan menggunakan kembali data T kali. Pada setiap iterasi atau "zaman", saya menggunakan masing-masing sampel pelatihan tepat satu kali setelah secara acak memesan kembali seluruh rangkaian …

2
Mengapa laju pembelajaran menyebabkan bobot jaringan saraf saya meroket?
Saya menggunakan tensorflow untuk menulis jaringan saraf sederhana untuk sedikit riset dan saya punya banyak masalah dengan bobot 'nan' saat pelatihan. Saya mencoba banyak solusi berbeda seperti mengubah pengoptimal, mengubah kehilangan, ukuran data, dll. Tetapi tanpa hasil. Akhirnya, saya perhatikan bahwa perubahan dalam tingkat pembelajaran membuat perbedaan yang luar biasa …

1
Memahami dropout dan gradient descent
Saya melihat bagaimana menerapkan dropout pada jaringan saraf yang dalam, dan saya menemukan sesuatu yang berlawanan secara intuitif. Dalam fase maju, topeng aktivasi putus dengan tensor acak 1s dan 0s untuk memaksa net mempelajari rata-rata bobot. Ini membantu jaring untuk menggeneralisasi dengan lebih baik. Tetapi selama fase pembaruan dari gradient …

2
Memahami matematika dari AdaGrad dan AdaDelta
Saya telah membangun beberapa model untuk sebuah proyek, tetapi saya tidak dapat membungkus kepala saya dengan matematika dari algoritma Adagrad dan Adadelta. Saya mengerti bagaimana cara kerja gradient descent vanilla dan saya telah menulis kode untuk membuatnya bekerja dengan sukses. Saya akan berterima kasih jika ada yang menjelaskan dua hal …

2
Dapatkah overfitting terjadi dalam algoritma Pengoptimalan Lanjutan?
saat mengambil kursus online tentang pembelajaran mesin oleh Andrew Ng tentang coursera, saya menemukan topik yang disebut overfitting . Saya tahu ini dapat terjadi ketika gradient descent digunakan dalam regresi linier atau logistik tetapi dapatkah hal ini terjadi ketika algoritma Optimasi Lanjutan seperti "Conjugate gradient", "BFGS", dan "L-BFGS" digunakan?
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.