Apakah jaringan saraf mempelajari suatu fungsi atau fungsi kerapatan probabilitas?

Pertanyaannya mungkin terdengar agak aneh karena saya baru dalam inferensi statistik dan jaringan saraf.

Ketika dalam masalah klasifikasi menggunakan jaringan saraf kita mengatakan bahwa kita ingin mempelajari fungsi yang memetakan ruang input , ke ruang output : $f^*$ $x$ $y$

f^{*} (x; θ) = y

$f^*(x; \theta) = y$

Apakah kita menyesuaikan parameter ( $\theta$ ) untuk memodelkan fungsi non-linear, atau untuk memodelkan fungsi kerapatan probabilitas?

Saya tidak benar-benar tahu bagaimana menulis pertanyaan dengan cara yang lebih baik. Saya telah membaca beberapa kali kedua hal tersebut (probabilitas kepadatan berfungsi, atau berfungsi begitu saja) sehingga kebingungan saya.

machine-learning neural-networks

— sdiabr
sumber

Jawaban:

Sebenarnya, jaringan saraf cocok dengan fungsi non-linear.

Mereka dapat diartikan sebagai pemasangan fungsi kepadatan probabilitas jika dipilih fungsi aktivasi yang dipilih dan kondisi tertentu dihormati (Nilai harus positif dan 1, dll ...). Tetapi itu adalah pertanyaan tentang bagaimana Anda memilih untuk menafsirkan hasil mereka, bukan apa yang sebenarnya mereka lakukan. Di bawah tenda, mereka masih penaksir fungsi non-linear, yang Anda pilih untuk diterapkan pada masalah spesifik estimasi PDF. $\leq$

— Skander H.
sumber

@sdiabr sebenarnya Anda tidak akan menggunakan ambang jika Anda ingin jaringan untuk mensimulasikan pdf - karena pdf dapat memiliki nilai lain selain 1 dan 0. Dengan ambang batas itu menjadi penggolong langsung.

— Skander H.

Cara yang tepat untuk melihat ini adalah bahwa thresholding adalah masalah eksternal untuk apa yang dipelajari dari jaringan. Tidak menghormati perbedaan ini menyebabkan banyak masalah dalam aplikasi ML untuk masalah dunia nyata.

— Matthew Drury

Ya oke, saya mengerti. Jadi lupa tentang ambang, maka saya akan memodelkan pdf? Saya pikir saya bingung dengan thresholding karena saya membaca sesuatu tentang pemodelan distribusi Bernouilli. Namun, tanpa ambang batas, itu sudah Bernoilli kan? Dalam kasus ini kita hanya memiliki satu simpul keluaran dengan fungsi aktivasi sigmoid, yang akan menghasilkan 0 atau 1 dengan probabilitas p atau (1-p)

— sdiabr

Ya, saya bingung lagi, terima kasih @CagdasOzgenc. Mari kita coba lagi: Dengan menggunakan fungsi sigmoid di lapisan output kita langsung memodelkan pdf, kan? mengikuti distribusi apa pun yang mungkin dipelajarinya.

— sdiabr

Namun, Anda tidak belajar tentang distribusi probabilitas dari koefisien yang tidak diketahui, sehingga Anda tidak belajar tentang distribusi prediksi posterior.

— Brash Equilibrium

Umumnya Neural Networks tidak digunakan untuk memodelkan kepadatan probabilitas lengkap. Fokus mereka adalah hanya memodelkan rata-rata distribusi (atau dalam situasi deterministik hanya fungsi non-linear). Namun demikian sangat mungkin untuk memodelkan kepadatan probabilitas lengkap melalui Neural Networks.

Salah satu cara mudah untuk melakukan ini adalah misalnya untuk kasus Gaussian adalah memancarkan rata-rata dari satu output dan varians dari output lain dari jaringan dan kemudian meminimalkan berfungsi sebagai bagian dari proses pelatihan alih-alih kesalahan kuadrat umum. Ini prosedur kemungkinan maksimum untuk Jaringan Saraf Tiruan. $-log N(y | x ;\mu,\sigma)$

Setelah Anda melatih jaringan ini setiap kali Anda memasukkan nilai sebagai input, itu akan memberi Anda dan , maka Anda dapat menyambungkan seluruh triplet ke kepadatan untuk mendapatkan nilai kerapatan untuk setiap Anda suka. Pada tahap ini Anda dapat memilih nilai mana yang akan digunakan berdasarkan fungsi kehilangan domain nyata. Satu hal yang perlu diingat adalah bahwa untuk aktivasi output harus tidak dibatasi sehingga Anda dapat memancarkan $x$ $\mu$ $\sigma$ $y,\mu,\sigma$ $f(y|x)\sim N(\mu,\sigma)$ $y$ $y$ $\mu$ ke sementara harus menjadi hanya aktivasi positif. $-\inf$ $+\inf$ $\sigma$

Secara umum, kecuali itu adalah fungsi deterministik yang kita kejar, standar pelatihan kuadrat kerugian yang digunakan dalam jaringan saraf hampir sama dengan prosedur yang saya jelaskan di atas. Di bawah kap distribusi diasumsikan secara implisit tanpa peduli tentang dan jika Anda memeriksa dengan hati-hati memberikan ekspresi kerugian kuadrat ( Kerugian fungsi estimator kemungkinan maksimum Gaussian ). Namun dalam skenario ini, bukannya $Gaussian$ $\sigma$ $-log N(y|x;\mu,\sigma)$ $y$ nilai sesuai dengan keinginan Anda, Anda terjebak dengan memancarkan setiap kali ketika diberi nilai baru . $\mu$ $x$

Untuk klasifikasi output akan menjadi distribusi bukannya , yang memiliki parameter tunggal untuk memancarkan. Seperti yang ditentukan dalam jawaban lain parameter ini adalah antara dan sehingga aktivasi output harus sesuai. Ini bisa berupa fungsi logistik atau sesuatu yang mencapai tujuan yang sama. $Bernoulli$ $Gaussian$ $0$ $1$

Pendekatan yang lebih canggih adalah Bishop's Mixture Density Networks. Anda dapat membacanya di makalah yang sering direferensikan di sini:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

— Cagdas Ozgenc
sumber

Aduh, kamu mengalahkan saya, 😀 Saya ingin mengutip MDNs Bishop ... ada juga cara lain untuk mendapatkan Neural Networks untuk menghasilkan pdf, yang tentu saja adalah paradigma Bayesian. Saya akan menulis jawaban untuk itu.

— DeltaIV

Kertas menyenangkan lain pada jaringan kerapatan campuran, yang digunakan untuk memprediksi kondisi berselancar: icml.cc/Conference/2005/proceedings/papers/…

— Matthew Drury

Haruskah mengubah "seluruh triplet y, μ, σ" menjadi "seluruh triplet x, μ, σ"?

— moh

@ oh tidak. x diberikan dan tidak akan muncul dalam kepadatan.

— Cagdas Ozgenc

Jawaban saya yang berbeda adalah bahwa dalam aplikasi praktis yang paling mengesankan (misalnya aplikasi yang mendapatkan liputan terbanyak di media) itu bukan fungsi maupun probabilitasnya. Mereka menerapkan pengambilan keputusan stokastik.

Di permukaan sepertinya NN hanya pas dengan fungsinya, antrian referensi perkiraan universal . Dalam beberapa kasus, ketika fungsi aktivasi tertentu dan asumsi tertentu seperti kesalahan Gaussian digunakan atau ketika Anda membaca makalah di jaringan Bayesian, tampaknya NN dapat menghasilkan distribusi probabilitas.

Namun, ini semua hanya omong-omong. Yang ingin dilakukan NN adalah memodelkan pengambilan keputusan. Ketika sebuah mobil dikendarai oleh AI, NN-nya tidak mencoba menghitung probabilitas bahwa ia memiliki objek di depannya, lalu mengingat bahwa ada objek untuk menghitung probabilitas bahwa itu adalah manusia. Baik itu menghitung pemetaan input sensor ke berbagai jenis objek. Tidak, NN seharusnya membuat keputusan berdasarkan semua input untuk mengarahkan atau tetap mengemudi. Itu tidak menghitung probabilitas, ia memberi tahu mobil apa yang harus dilakukan.

— Aksakal
sumber