Pertanyaan yang diberi tag «optimization»

Gunakan tag ini untuk penggunaan optimasi dalam statistik.



1
Apakah kemungkinan log dalam GLM telah menjamin konvergensi ke maxima global?
Pertanyaan saya adalah: Apakah model linier umum (GLM) dijamin untuk konvergen ke global maksimum? Jika demikian, mengapa? Lebih lanjut, kendala apa yang ada pada fungsi tautan untuk memastikan kecemburuan? Pemahaman saya tentang GLM adalah bahwa mereka memaksimalkan fungsi kemungkinan sangat nonlinier. Jadi, saya akan membayangkan bahwa ada beberapa maxima lokal …

2
Bagaimana cara memilih algoritma optimasi yang tepat?
Saya perlu menemukan fungsi minimum. Membaca dokumen di http://docs.scipy.org/doc/scipy/reference/optimize.html Saya melihat bahwa ada beberapa algoritma yang melakukan hal yang sama, yaitu menemukan minimum. Bagaimana saya tahu yang mana yang harus saya pilih? beberapa algoritma terdaftar Minimalkan fungsi menggunakan algoritma simpleks downhill. Minimalkan fungsi menggunakan algoritma BFGS. Minimalkan fungsi dengan algoritma …

2
Mengapa Maksimalisasi Ekspektasi penting untuk model campuran?
Ada banyak literatur yang menekankan metode Maksimalisasi Ekspektasi pada model campuran (Campuran Gaussian, Hidden Markov Model, dll.). Mengapa EM itu penting? EM hanyalah cara untuk melakukan optimasi dan tidak banyak digunakan sebagai metode berbasis gradien (layak gradien atau metode newton / quasi-newton) atau metode bebas gradien lain yang dibahas di …

1
Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?
Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

1
Klarifikasi tentang Peraturan Perceptron vs. Keturunan Gradien vs. Penerapan Keturunan Gradien Stokastik
Saya bereksperimen sedikit dengan implementasi Perceptron yang berbeda dan ingin memastikan apakah saya memahami "iterasi" dengan benar. Aturan perceptron asli Rosenblatt Sejauh yang saya mengerti, dalam algoritma perceptron klasik Rosenblatt, bobot secara bersamaan diperbarui setelah setiap contoh pelatihan melalui Δ b( t + 1 )= Δ w( t )+ η( …

2
Estimasi ARIMA dengan tangan
Saya mencoba memahami bagaimana parameter diperkirakan dalam pemodelan ARIMA / Box Jenkins (BJ). Sayangnya tidak ada buku yang saya temui yang menjelaskan prosedur estimasi seperti prosedur estimasi Log-Likelihood secara terperinci. Saya menemukan situs web / materi pengajaran yang sangat membantu. Berikut ini adalah persamaan dari sumber yang dirujuk di atas. …

1
Bagaimana CNN menghindari masalah gradien yang hilang
Saya telah membaca banyak tentang jaringan saraf convoloutional dan bertanya-tanya bagaimana mereka menghindari masalah gradien menghilang. Saya tahu jaringan kepercayaan yang mendalam menumpuk auto-encoders tingkat tunggal atau jaringan dangkal pra-terlatih lainnya dan dengan demikian dapat menghindari masalah ini, tetapi saya tidak tahu bagaimana hal itu dihindari di CNN. Menurut Wikipedia …

1
Mengapa saya tidak dapat mencocokkan output glmer (keluarga = binomial) dengan penerapan algoritma Gauss-Newton secara manual?
Saya ingin mencocokkan output dari lmer (benar-benar glmer) dengan contoh binomial mainan. Saya sudah membaca sketsa dan yakin saya mengerti apa yang sedang terjadi. Tapi ternyata saya tidak. Setelah macet, saya memperbaiki "kebenaran" dalam hal efek acak dan pergi setelah memperkirakan efek tetap saja. Saya memasukkan kode ini di bawah. …


1
Mengapa penting untuk memasukkan istilah koreksi bias untuk optimizer Adam untuk Pembelajaran Jauh?
Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning oleh Begnio, Goodfellow dan Courtville: Adam menyertakan koreksi bias pada estimasi momen momen orde pertama (istilah momentum) dan momen orde kedua (tanpa fokus) untuk memperhitungkan inisialisasi mereka di titik asal. tampaknya alasan utama …


1
Mengapa kita tidak menggunakan laju pembelajaran non-konstan untuk gradien yang layak untuk hal-hal lain selain jaringan saraf?
Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? …

1
Kemungkinan maksimum terbatas dengan pangkat
Pertanyaan ini berkaitan dengan estimasi kemungkinan maksimum terbatas (REML) dalam versi tertentu dari model linier, yaitu: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), di mana adalah matriks ( ) yang diparameterisasi oleh , seperti . adalah vektor yang tidak diketahui dari parameter gangguan; minatnya adalah dalam mengestimasi …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.