Pertanyaan yang diberi tag «derivative»

Untuk pertanyaan on-topic yang melibatkan konsep matematika dari suatu turunan, yaitu ddxf(x). Untuk pertanyaan murni matematika tentang turunan, lebih baik bertanya pada matematika SE https://math.stackexchange.com/

6
Backpropagation dengan Softmax / Cross Entropy
Saya mencoba memahami bagaimana backpropagation bekerja untuk lapisan output softmax / cross-entropy. Fungsi kesalahan lintas entropi adalah E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j dengan ttt dan ooo sebagai target dan output pada neuron jjj , masing-masing. Jumlahnya adalah di atas setiap neuron di lapisan output. ojojo_j itu sendiri merupakan hasil dari fungsi …



1
Penurunan perubahan variabel dari fungsi kepadatan probabilitas?
Dalam pengenalan pola buku dan pembelajaran mesin (rumus 1.27), itu memberi di manax=g(y),px(x)adalah pdf yang sesuai denganpy(y)py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) |x=g(y)x=g(y)x=g(y)px(x)px(x)p_x(x)py(y)py(y)p_y(y) sehubungan dengan perubahan variabel. Buku-buku mengatakan itu karena pengamatan jatuh dalam kisaran akan, untuk nilai-nilai kecil δ x , ditransformasikan menjadi kisaran ( …


2
Turunan dari Proses Gaussian
Saya percaya bahwa turunan dari proses Gaussian (GP) adalah GP lain, dan jadi saya ingin tahu apakah ada persamaan bentuk tertutup untuk persamaan prediksi turunan dari GP? Secara khusus, saya menggunakan kernel kovarian eksponensial kuadrat (juga disebut Gaussian) dan ingin tahu tentang membuat prediksi tentang turunan dari proses Gaussian.

1
Perkiraan urutan kedua dari fungsi kehilangan (buku pembelajaran Deep, 7.33)
Dalam buku Goodfellow (2016) tentang pembelajaran yang mendalam, ia berbicara tentang kesetaraan dari berhenti dini untuk regularisasi L2 ( https://www.deeplearningbook.org/contents/regularization.html halaman 247). Perkiraan kuadrat dari fungsi biaya jjj diberikan oleh: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
Interpretasi turunan Radon-Nikodym antara ukuran probabilitas?
Saya telah melihat di beberapa titik penggunaan turunan Radon-Nikodym dari satu ukuran probabilitas terhadap yang lain, terutama dalam divergensi Kullback-Leibler, di mana itu adalah turunan dari ukuran probabilitas model untuk beberapa parameter arbitrer sehubungan dengan parameter nyata :θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Di mana ini adalah kedua ukuran probabilitas pada ruang …

1
Apa yang menjustifikasi perhitungan turunan dari fungsi matriks ini?
Dalam kursus pembelajaran mesin Andrew Ng, ia menggunakan rumus ini: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T dan dia melakukan bukti cepat yang ditunjukkan di bawah ini: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T …

3
Bisakah jaringan saraf mempelajari fungsional, dan turunan fungsionalnya?
Saya mengerti bahwa neural networks (NNs) dapat dianggap sebagai aproksimator universal untuk kedua fungsi dan turunannya, berdasarkan asumsi tertentu (baik pada jaringan dan fungsi untuk perkiraan). Bahkan, saya telah melakukan sejumlah tes pada fungsi-fungsi sederhana, namun tidak sepele (misalnya, polinomial), dan tampaknya saya memang bisa memperkirakannya dan turunan pertamanya dengan …

1
Diferensiasi Lintas Entropi
Saya telah mencoba membuat program untuk melatih Neural Networks di komputer saya. Untuk Jaringan yang dimaksud, saya telah memutuskan untuk menggunakan fungsi Cross Entropy Error: E=−∑jtjlnojE=−∑jtjln⁡ojE = -\sum_jt_j\ln o_j Di mana adalah output target untuk Neuron , dan adalah output dari neuron itu, mencoba untuk memprediksi .tjtjt_jjjjojojo_jtjtjt_j Saya ingin tahu …

1
Derivatif gradien dan vektor: vektor baris atau kolom?
Cukup banyak referensi (termasuk wikipedia, dan http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf dan http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) mendefinisikan turunan dari suatu fungsi oleh vektor sebagai turunan parsial dari fungsi yang diatur dalam satu baris (jadi turunan dari fungsi yang dinilai skalar adalah vektor baris). Dalam konvensi ini, gradien dan turunan vektor adalah transpos satu sama lain. Manfaat …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.