Dalam makalah yang disebut Deep Learning dan Information Bottleneck Principle , penulis menyatakan di bagian II A) berikut ini:
Neuron tunggal mengklasifikasikan hanya input yang dapat dipisahkan secara linear, karena mereka hanya dapat mengimplementasikan hiperplanes dalam ruang inputnya . Hyperplanes dapat secara optimal mengklasifikasikan data ketika input secara independen tergantung.
Untuk menunjukkan ini, mereka mendapatkan yang berikut ini. Menggunakan teorema Bayes, mereka mendapatkan:
(1)
Di mana adalah input, adalah kelas dan adalah kelas yang diprediksi (saya berasumsi, tidak didefinisikan). Melanjutkan, mereka menyatakan bahwa:
(2)
Di mana adalah dimensi input dan n saya tidak yakin (sekali lagi, keduanya tidak terdefinisi). Mempertimbangkan sigmoidal neuron, dengan fungsi aktivasi sigmoid \ sigma (u) = \ frac {1} {1 + exp (-u)} dan preactivation u , setelah memasukkan (2) ke dalam (1) kita mendapatkan nilai bobot optimal w_j = log \ frac {p (x_j | y)} {p (x_j | y ')} dan b = log \ frac {p (y)} {p (y')} , ketika nilai input h_j = np (x_j ) .n σ ( u ) = 1 uwj=logp(xj|y) b=logp(y) hj=np(xj)
Sekarang ke pertanyaan saya. Saya mengerti bagaimana memasukkan (2) ke dalam (1) mengarah pada bobot optimal dan nilai input . Apa yang saya tidak mengerti, adalah sebagai berikut:
- Bagaimana (1) diturunkan menggunakan teorema Bayes?
- Bagaimana cara (2) diturunkan? Apa itu ? Apa artinya itu? Saya menganggap itu ada hubungannya dengan independensi bersyarat
- Sekalipun dimensi x independen secara kondisional, bagaimana seseorang dapat menyatakan bahwa ia sama dengan probabilitas penskalaannya? (yaitu bagaimana Anda bisa menyatakan ?)
EDIT: Variabel adalah variabel kelas biner. Dari sini saya berasumsi bahwa adalah kelas "lain". Ini akan menyelesaikan pertanyaan 1. Apakah Anda setuju?y ′