Statistik dan Big Data optimization

2

Apa perbedaan antara Estimasi Kemungkinan Maksimum & Keturunan Gradien?

Apa pro & kontra dari kedua metode tersebut?

16 maximum-likelihood predictive-models optimization gradient-descent

1

Mengapa “lasso santai” berbeda dari laso standar?

Jika kita mulai dengan satu set data , menerapkan Lasso untuk itu dan mendapatkan solusi β L , kita dapat menerapkan Lasso lagi ke set data ( X S , Y ) , di mana S adalah himpunan bukan-nol indeks β L , untuk mendapatkan solusi, β R L , …

16 regression optimization lasso regularization shrinkage

1

Apakah kemungkinan log dalam GLM telah menjamin konvergensi ke maxima global?

Pertanyaan saya adalah: Apakah model linier umum (GLM) dijamin untuk konvergen ke global maksimum? Jika demikian, mengapa? Lebih lanjut, kendala apa yang ada pada fungsi tautan untuk memastikan kecemburuan? Pemahaman saya tentang GLM adalah bahwa mereka memaksimalkan fungsi kemungkinan sangat nonlinier. Jadi, saya akan membayangkan bahwa ada beberapa maxima lokal …

16 generalized-linear-model optimization convergence exponential-family

2

Bagaimana cara memilih algoritma optimasi yang tepat?

Saya perlu menemukan fungsi minimum. Membaca dokumen di http://docs.scipy.org/doc/scipy/reference/optimize.html Saya melihat bahwa ada beberapa algoritma yang melakukan hal yang sama, yaitu menemukan minimum. Bagaimana saya tahu yang mana yang harus saya pilih? beberapa algoritma terdaftar Minimalkan fungsi menggunakan algoritma simpleks downhill. Minimalkan fungsi menggunakan algoritma BFGS. Minimalkan fungsi dengan algoritma …

16 optimization

2

Mengapa Maksimalisasi Ekspektasi penting untuk model campuran?

Ada banyak literatur yang menekankan metode Maksimalisasi Ekspektasi pada model campuran (Campuran Gaussian, Hidden Markov Model, dll.). Mengapa EM itu penting? EM hanyalah cara untuk melakukan optimasi dan tidak banyak digunakan sebagai metode berbasis gradien (layak gradien atau metode newton / quasi-newton) atau metode bebas gradien lain yang dibahas di …

15 machine-learning optimization expectation-maximization gaussian-mixture

1

Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?

Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

15 machine-learning optimization gradient-descent computational-statistics sgd

1

Klarifikasi tentang Peraturan Perceptron vs. Keturunan Gradien vs. Penerapan Keturunan Gradien Stokastik

Saya bereksperimen sedikit dengan implementasi Perceptron yang berbeda dan ingin memastikan apakah saya memahami "iterasi" dengan benar. Aturan perceptron asli Rosenblatt Sejauh yang saya mengerti, dalam algoritma perceptron klasik Rosenblatt, bobot secara bersamaan diperbarui setelah setiap contoh pelatihan melalui Δ b( t + 1 )= Δ w( t )+ η( …

15 optimization gradient-descent perceptron

2

Estimasi ARIMA dengan tangan

Saya mencoba memahami bagaimana parameter diperkirakan dalam pemodelan ARIMA / Box Jenkins (BJ). Sayangnya tidak ada buku yang saya temui yang menjelaskan prosedur estimasi seperti prosedur estimasi Log-Likelihood secara terperinci. Saya menemukan situs web / materi pengajaran yang sangat membantu. Berikut ini adalah persamaan dari sumber yang dirujuk di atas. …

15 time-series forecasting arima optimization box-jenkins

1

Bagaimana CNN menghindari masalah gradien yang hilang

Saya telah membaca banyak tentang jaringan saraf convoloutional dan bertanya-tanya bagaimana mereka menghindari masalah gradien menghilang. Saya tahu jaringan kepercayaan yang mendalam menumpuk auto-encoders tingkat tunggal atau jaringan dangkal pra-terlatih lainnya dan dengan demikian dapat menghindari masalah ini, tetapi saya tidak tahu bagaimana hal itu dihindari di CNN. Menurut Wikipedia …

15 machine-learning optimization deep-learning gradient-descent

1

Mengapa saya tidak dapat mencocokkan output glmer (keluarga = binomial) dengan penerapan algoritma Gauss-Newton secara manual?

Saya ingin mencocokkan output dari lmer (benar-benar glmer) dengan contoh binomial mainan. Saya sudah membaca sketsa dan yakin saya mengerti apa yang sedang terjadi. Tapi ternyata saya tidak. Setelah macet, saya memperbaiki "kebenaran" dalam hal efek acak dan pergi setelah memperkirakan efek tetap saja. Saya memasukkan kode ini di bawah. …

15 r mixed-model optimization lme4-nlme

1

Mengapa ReLU tunggal tidak bisa belajar ReLU?

Sebagai tindak lanjut dari jaringan saraf saya, saya bahkan tidak bisa mempelajari jarak Euclidean. Saya menyederhanakan lebih banyak lagi dan mencoba melatih satu ReLU tunggal (dengan berat acak) menjadi satu ReLU tunggal. Ini adalah jaringan paling sederhana yang ada, namun separuh dari waktu gagal untuk bertemu. Jika tebakan awal berada …

15 machine-learning neural-networks optimization keras

1

Mengapa penting untuk memasukkan istilah koreksi bias untuk optimizer Adam untuk Pembelajaran Jauh?

Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning oleh Begnio, Goodfellow dan Courtville: Adam menyertakan koreksi bias pada estimasi momen momen orde pertama (istilah momentum) dan momen orde kedua (tanpa fokus) untuk memperhitungkan inisialisasi mereka di titik asal. tampaknya alasan utama …

15 machine-learning neural-networks optimization conv-neural-network adam

3

Perbedaan dalam menggunakan gradien dan gradien yang dinormalisasi

Dalam pengaturan umum algoritma gradient descent, kami memiliki mana adalah titik saat ini, adalah ukuran langkah dan adalah gradien dievaluasi pada . x n η g r a d i e n t x n x nxn + 1= xn- η∗ gr a di e n txnxn+1=xn-η∗grSebuahdsayaentxnx_{n+1} = x_{n} - …

15 algorithms optimization

1

Mengapa kita tidak menggunakan laju pembelajaran non-konstan untuk gradien yang layak untuk hal-hal lain selain jaringan saraf?

Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? …

14 machine-learning deep-learning optimization gradient-descent

1

Kemungkinan maksimum terbatas dengan pangkat

Pertanyaan ini berkaitan dengan estimasi kemungkinan maksimum terbatas (REML) dalam versi tertentu dari model linier, yaitu: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), di mana adalah matriks ( ) yang diparameterisasi oleh , seperti . adalah vektor yang tidak diketahui dari parameter gangguan; minatnya adalah dalam mengestimasi …

14 mixed-model maximum-likelihood linear-model optimization reml

Pertanyaan yang diberi tag «optimization»