Umumnya Neural Networks tidak digunakan untuk memodelkan kepadatan probabilitas lengkap. Fokus mereka adalah hanya memodelkan rata-rata distribusi (atau dalam situasi deterministik hanya fungsi non-linear). Namun demikian sangat mungkin untuk memodelkan kepadatan probabilitas lengkap melalui Neural Networks.
Salah satu cara mudah untuk melakukan ini adalah misalnya untuk kasus Gaussian adalah memancarkan rata-rata dari satu output dan varians dari output lain dari jaringan dan kemudian meminimalkan berfungsi sebagai bagian dari proses pelatihan alih-alih kesalahan kuadrat umum. Ini prosedur kemungkinan maksimum untuk Jaringan Saraf Tiruan.−logN(y|x;μ,σ)
Setelah Anda melatih jaringan ini setiap kali Anda memasukkan nilai sebagai input, itu akan memberi Anda μ dan σ , maka Anda dapat menyambungkan seluruh triplet y , μ , σ ke kepadatan f ( y | x ) ∼ N ( μ , σ ) untuk mendapatkan nilai kerapatan untuk setiap y yang Anda suka. Pada tahap ini Anda dapat memilih nilai y mana yang akan digunakan berdasarkan fungsi kehilangan domain nyata. Satu hal yang perlu diingat adalah bahwa untuk μ aktivasi output harus tidak dibatasi sehingga Anda dapat memancarkan -xμσy,μ,σf(y|x)∼N(μ,σ)yyμ ke + inf sementara σ harus menjadi hanya aktivasi positif.−inf+infσ
Secara umum, kecuali itu adalah fungsi deterministik yang kita kejar, standar pelatihan kuadrat kerugian yang digunakan dalam jaringan saraf hampir sama dengan prosedur yang saya jelaskan di atas. Di bawah kap distribusi diasumsikan secara implisit tanpa peduli tentang σ dan jika Anda memeriksa dengan hati-hati - l o g N ( y | x ; μ , σ ) memberikan ekspresi kerugian kuadrat ( Kerugian fungsi estimator kemungkinan maksimum Gaussian ). Namun dalam skenario ini, bukannya yGaussianσ−logN(y|x;μ,σ)ynilai sesuai dengan keinginan Anda, Anda terjebak dengan memancarkan setiap kali ketika diberi nilai x baru .μx
Untuk klasifikasi output akan menjadi distribusi bukannya G a u s s i a n , yang memiliki parameter tunggal untuk memancarkan. Seperti yang ditentukan dalam jawaban lain parameter ini adalah antara 0 dan 1 sehingga aktivasi output harus sesuai. Ini bisa berupa fungsi logistik atau sesuatu yang mencapai tujuan yang sama.BernoulliGaussian01
Pendekatan yang lebih canggih adalah Bishop's Mixture Density Networks. Anda dapat membacanya di makalah yang sering direferensikan di sini:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf