Jika kita mulai dengan satu set data , menerapkan Lasso untuk itu dan mendapatkan solusi β L , kita dapat menerapkan Lasso lagi ke set data ( X S , Y ) , di mana S adalah himpunan bukan-nol indeks β L , untuk mendapatkan solusi, β R L , …
Pertanyaan saya adalah: Apakah model linier umum (GLM) dijamin untuk konvergen ke global maksimum? Jika demikian, mengapa? Lebih lanjut, kendala apa yang ada pada fungsi tautan untuk memastikan kecemburuan? Pemahaman saya tentang GLM adalah bahwa mereka memaksimalkan fungsi kemungkinan sangat nonlinier. Jadi, saya akan membayangkan bahwa ada beberapa maxima lokal …
Saya perlu menemukan fungsi minimum. Membaca dokumen di http://docs.scipy.org/doc/scipy/reference/optimize.html Saya melihat bahwa ada beberapa algoritma yang melakukan hal yang sama, yaitu menemukan minimum. Bagaimana saya tahu yang mana yang harus saya pilih? beberapa algoritma terdaftar Minimalkan fungsi menggunakan algoritma simpleks downhill. Minimalkan fungsi menggunakan algoritma BFGS. Minimalkan fungsi dengan algoritma …
Ada banyak literatur yang menekankan metode Maksimalisasi Ekspektasi pada model campuran (Campuran Gaussian, Hidden Markov Model, dll.). Mengapa EM itu penting? EM hanyalah cara untuk melakukan optimasi dan tidak banyak digunakan sebagai metode berbasis gradien (layak gradien atau metode newton / quasi-newton) atau metode bebas gradien lain yang dibahas di …
Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …
Saya bereksperimen sedikit dengan implementasi Perceptron yang berbeda dan ingin memastikan apakah saya memahami "iterasi" dengan benar. Aturan perceptron asli Rosenblatt Sejauh yang saya mengerti, dalam algoritma perceptron klasik Rosenblatt, bobot secara bersamaan diperbarui setelah setiap contoh pelatihan melalui Δ b( t + 1 )= Δ w( t )+ η( …
Saya mencoba memahami bagaimana parameter diperkirakan dalam pemodelan ARIMA / Box Jenkins (BJ). Sayangnya tidak ada buku yang saya temui yang menjelaskan prosedur estimasi seperti prosedur estimasi Log-Likelihood secara terperinci. Saya menemukan situs web / materi pengajaran yang sangat membantu. Berikut ini adalah persamaan dari sumber yang dirujuk di atas. …
Saya telah membaca banyak tentang jaringan saraf convoloutional dan bertanya-tanya bagaimana mereka menghindari masalah gradien menghilang. Saya tahu jaringan kepercayaan yang mendalam menumpuk auto-encoders tingkat tunggal atau jaringan dangkal pra-terlatih lainnya dan dengan demikian dapat menghindari masalah ini, tetapi saya tidak tahu bagaimana hal itu dihindari di CNN. Menurut Wikipedia …
Saya ingin mencocokkan output dari lmer (benar-benar glmer) dengan contoh binomial mainan. Saya sudah membaca sketsa dan yakin saya mengerti apa yang sedang terjadi. Tapi ternyata saya tidak. Setelah macet, saya memperbaiki "kebenaran" dalam hal efek acak dan pergi setelah memperkirakan efek tetap saja. Saya memasukkan kode ini di bawah. …
Sebagai tindak lanjut dari jaringan saraf saya, saya bahkan tidak bisa mempelajari jarak Euclidean. Saya menyederhanakan lebih banyak lagi dan mencoba melatih satu ReLU tunggal (dengan berat acak) menjadi satu ReLU tunggal. Ini adalah jaringan paling sederhana yang ada, namun separuh dari waktu gagal untuk bertemu. Jika tebakan awal berada …
Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning oleh Begnio, Goodfellow dan Courtville: Adam menyertakan koreksi bias pada estimasi momen momen orde pertama (istilah momentum) dan momen orde kedua (tanpa fokus) untuk memperhitungkan inisialisasi mereka di titik asal. tampaknya alasan utama …
Dalam pengaturan umum algoritma gradient descent, kami memiliki mana adalah titik saat ini, adalah ukuran langkah dan adalah gradien dievaluasi pada . x n η g r a d i e n t x n x nxn + 1= xn- η∗ gr a di e n txnxn+1=xn-η∗grSebuahdsayaentxnx_{n+1} = x_{n} - …
Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? …
Pertanyaan ini berkaitan dengan estimasi kemungkinan maksimum terbatas (REML) dalam versi tertentu dari model linier, yaitu: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), di mana adalah matriks ( ) yang diparameterisasi oleh , seperti . adalah vektor yang tidak diketahui dari parameter gangguan; minatnya adalah dalam mengestimasi …