Turunkan Negentropi. Terjebak

Jadi, pertanyaan ini agak terlibat, tetapi saya dengan susah payah berusaha membuatnya selurus mungkin.

Tujuan: Singkatnya, ada derivasi negentropi yang tidak melibatkan kumulan tingkat tinggi, dan saya mencoba memahami bagaimana itu diturunkan.

Latar Belakang: (Saya mengerti semua ini)

Saya mempelajari sendiri buku itu 'Analisis Komponen Independen' , ditemukan di sini. (Pertanyaan ini dari bagian 5.6, jika Anda memiliki buku - 'Perkiraan Entropi oleh Fungsi Nonpolinomial').

Kami memiliki $x$ , yang merupakan variabel acak, dan negentropi yang ingin kami perkirakan, dari beberapa pengamatan yang kami miliki. PDF $x$ diberikan oleh $p_x(\zeta)$ . Negentropi hanyalah perbedaan antara entropi diferensial dari variabel acak Gaussian terstandarisasi, dan entropi diferensial $x$ . Entropi diferensial di sini diberikan oleh $H$ , sedemikian rupa sehingga:

H (x) = - \int_{- \infty}^{\infty} p_{x} (ζ) l o g (p_{x} (ζ)) d ζ

$H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta$

jadi, negentropi diberikan oleh

J (x) = H (v) - H (x)

$J(x) = H(v) - H(x)$

di mana $v$ adalah Gaussian rv terstandarisasi, dengan PDF yang diberikan oleh $\phi(\zeta)$ .

Sekarang, sebagai bagian dari metode baru ini, buku saya telah menghasilkan perkiraan PDF $x$ , yang diberikan oleh:

p_{x} (ζ) = ϕ (ζ) [1 + \sum_{i} c_{i} F^{i} (ζ)]

$p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)]$

(Di mana $c_i = \mathbb{E}\{F^i(x)\}$ . Omong-omong, $i$ is tidak kekuasaan, tetapi indeks sebaliknya).

Untuk saat ini, saya 'menerima' formula PDF baru ini, dan akan menanyakannya lagi di lain hari. Ini bukan masalah utama saya. Apa yang dia lakukan sekarang adalah memasukkan versi PDF $x$ kembali ke persamaan negentropi, dan berakhir dengan:

J (x) \approx \frac{1}{2} \sum_{i} E {F^{i} (x)}^{2}

$J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2$

Ingat, sigma (di sini dan untuk sisa posting), hanya loop di sekitar indeks $i$ . Misalnya, jika kita hanya memiliki dua fungsi, sinyal akan berulang untuk $i=2$ dan $i=2$ . Tentu saja, saya harus memberi tahu Anda tentang fungsi-fungsi yang ia gunakan. Jadi ternyata, fungsi-fungsi itu $F^i$ didefinisikan sebagai demikian:

Fungsi $F^i$ bukan fungsi polinomial dalam kasus ini. (Kami berasumsi bahwa rv $x$ adalah rata-rata nol, dan varians unit). Sekarang, mari kita membuat beberapa batasan dan memberikan properti dari fungsi-fungsi itu:

$F^{n + 1} (ζ) = ζ, c_{n + 1} = 0$ $F^{n+1}(\zeta) = \zeta, \: \: c_{n+1} = 0$
$F^{n + 2} (ζ) = ζ^{2}, c_{n + 1} = 1$ $F^{n+2}(\zeta) = \zeta^2, \: \: c_{n+1} = 1$
Untuk menyederhanakan perhitungan, mari kita membuat asumsi lain, murni teknis: Fungsi , membentuk sistem ortonormal, seperti: $F^i, i = 1, ... n$

$\int ϕ (ζ) F^{i} (ζ) F^{j} (ζ) d ζ = {\begin{cases} 1, if i = j \\ 0, if i \neq j \end{cases}$ $\int \phi(\zeta) F^i(\zeta)F^j(\zeta)d\zeta= \begin{cases} 1, \quad \text{if } i = j \\ 0, \quad \text{if } i \neq j \end{cases}$
dan

$\int ϕ (ζ) F^{i} (ζ) ζ^{k} d (ζ) = 0, for k = 0, 1, 2$ $\int \phi(\zeta)F^i(\zeta)\zeta^k d(\zeta) = 0, \quad \text{for } k = 0,1,2$

Hampir sampai! OK, jadi itu semua latar belakang, dan sekarang untuk pertanyaan. Tugasnya adalah kemudian, cukup tempatkan PDF baru ini ke dalam rumus entropi diferensial, . Jika saya mengerti ini, saya akan mengerti sisanya. Sekarang, buku ini memberikan derivasi, (dan saya setuju dengan itu), tetapi saya macet menjelang akhir, karena saya tidak tahu / melihat bagaimana itu dibatalkan. Juga, saya tidak tahu bagaimana menafsirkan notasi kecil dari ekspansi Taylor. $H(x)$

Ini hasilnya:

Menggunakan ekspansi Taylor , untukkita dapatkan: $(1+\epsilon)log(1+\epsilon) = \epsilon + \frac{\epsilon^2}{2} + o(\epsilon^2)$ $H(x)$

H (x) = - \int ϕ (ζ) (1 + \sum c_{i} F^{i} (ζ)) (l o g (1 + \sum c_{i} F^{i} (ζ) + l o g (ζ)) d (ζ) = - \int ϕ (ζ) l o g (ζ) - \int ϕ (ζ) \sum c_{i} F^{i} (ζ) l o g (ϕ (ζ)) - \int ϕ (ζ) [\sum c_{i} F^{i} (ζ) + \frac{1}{2} (\sum c_{i} F^{i} (ζ))^{2} + o ((\sum c_{i} F^{i} (ζ))^{2})]

$H(x) = -\int \phi(\zeta) \; (1 + \sum c_i F^i(\zeta)) \; (log(1 + \sum c_i F^i(\zeta) + log(\zeta)) \; d(\zeta) \\ = -\int \phi(\zeta) log(\zeta) -\int \phi(\zeta) \sum c_i F^i(\zeta) log(\phi(\zeta)) -\int \phi(\zeta) \; [\sum c_i F^i(\zeta) + \frac{1}{2}(\sum c_i F^i(\zeta))^2 + o((\sum c_i F^i(\zeta))^2)]$

dan sebagainya

Pertanyaan: (Saya tidak mengerti ini)

H (x) = H (v) - 0 - 0 - \frac{1}{2} \sum c_{i}^{2} + o ((\sum c_{i})^{2}

$H(x) = H(v) - 0 - 0 -\frac{1}{2}\sum c_i^2 + o((\sum c_i)^2$

Jadi, masalah saya: Kecuali untuk , saya tidak mengerti bagaimana dia mendapatkan 4 syarat terakhir dalam persamaan terakhir. (Yaitu, 0, 0, dan 2 istilah terakhir). Saya mengerti segalanya sebelum itu. Dia bilang dia telah mengeksploitasi hubungan ortogonalitas yang diberikan pada properti di atas, tapi saya tidak mengerti caranya. (Saya juga tidak mengerti notasi kecil di sini, dalam arti, bagaimana notasi itu digunakan?) $H(v)$

TERIMA KASIH!!!!

EDIT:

Saya telah maju dan menambahkan gambar-gambar dari buku yang saya baca, cukup banyak yang mengatakan apa yang saya katakan di atas, tetapi kalau-kalau ada yang membutuhkan konteks tambahan.

masukkan deskripsi gambar di sini

Dan di sini, ditandai dengan warna merah, adalah bagian yang membingungkan saya. Bagaimana dia menggunakan properti ortogonalitas untuk mendapatkan bagian terakhir, di mana hal-hal dibatalkan, dan penjumlahan akhir yang melibatkan $c_i^2$ , dan penjumlahan notasi kecil-kecilan?

— Spacey
sumber

\log ϕ (x)

$\log \phi(x)$

\neq

$\neq$

@ cardinal Ok, koreksi kesalahan ketik, terima kasih. Meski begitu, saya tidak jelas bagaimana dia melakukan pembatalan. Saya telah menambahkan gambar sebenarnya, dari buku itu sendiri.

— Spacey

Sejujurnya, saya juga tidak tahu bagaimana atau mengapa ini dimigrasikan dari situs matematika. Bagaimanapun, saya senang memilikinya di sini, di mana itu sama-sama di rumah. Anda telah berupaya keras untuk menjawab pertanyaan itu. :-)

— kardinal

@ cardinal Sangat menyenangkan saya mendengar Anda mengatakan itu. :-) Ya, semoga investasi belajar mandiri ini akan membuahkan hasil suatu hari nanti. ;-)

— Spacey

Ya, @Mohammad, akan! ICA adalah topik yang sangat menarik juga :-).

— Néstor

$c_i$

c_{i} = \int p_{0} (ξ) G^{i} (ξ) d ξ .

$c_i=\int p_0(\xi)G^i(\xi)d\xi.$

ξ

$\xi$

ξ^{'}

$\xi'$

c_{i}

$c_i$

>> Untuk mendapatkan ketentuan nol:

$\varphi(\xi)=\exp(-\xi^2/2)/\sqrt{2\pi}$ $\log\varphi(\xi)$

\log φ (ξ) = - ξ^{2} / 2 - \log \sqrt{2 π} .

$\log\varphi(\xi)=-\xi^2/2-\log\sqrt{2\pi}.$

c_{i} \int φ (ξ) G^{i} (ξ) \log φ (ξ) = - \frac{1}{2} c_{i} \int φ (ξ) G^{i} (ξ) ξ^{2} - \log \sqrt{2 π} c_{i} \int φ (ξ) G^{i} (ξ), (1)

$c_i\int\varphi(\xi)G^i(\xi)\log \varphi(\xi)=-\frac{1}{2}c_i\int\varphi(\xi)G^i(\xi)\xi^2-\log\sqrt{2\pi}c_i\int\varphi(\xi)G^i(\xi),\ \ \ (1)$ where I have dropped the constants outside the integrals.

From here, note that in (5.39) it is stated that $\int \varphi(\xi)F^i(\xi)\xi^k$ is $0$ for $k=0,1,2$ . The integral on the first term in the right of eq. $(1)$ is of this form (with $k=2$ ) and the integral in the second term too, (with $k=0$ ). You just have to exploit this fact on the sums and you are done!

>> To obtain the $\sum c_i^2$ terms:

Note that the integral to be obtained to obtain these terms is:

\int φ (ξ) {(\sum_{i = 1}^{n} c_{i} G^{i} (ξ))}^{2} d ξ .

$\int \varphi(\xi)\left(\sum_{i=1}^{n} c_iG^i(\xi)\right)^2d\xi.$ We can use the multinomial theorem to expand the squared sum. This gives us:

\int φ (ξ) \sum_{k_{1} + k_{2} + . . . k_{n} = 2} \frac{2!}{k_{1}! k_{2}! . . . k_{n}!} \prod_{1 \leq t \leq n} (c_{t} G^{t} (ξ))^{k_{t}} d ξ .

$\int \varphi(\xi)\sum_{k_1+k_2+...k_n=2} \frac{2!}{k_1! k_2!...k_n!}\prod_{1\leq t \leq n}(c_tG^t(\xi))^{k_t}d\xi.$ However, from (5.39) again, note that all the terms in this sum which include integrals for the form

\int φ (ξ) G^{i} (ξ) G^{j} (ξ) d ξ

$\int \varphi(\xi)G^{i}(\xi)G^{j}(\xi)d\xi$ are zero for

i \neq j

$i\neq j$ and one for

i = j

$i=j$ . This leave us with the result

\int φ (ξ) {(\sum c_{i} G^{i} (ξ))}^{2} d ξ = \sum c_{i}^{2} .

$\int \varphi(\xi)\left(\sum c_iG^i(\xi)\right)^2d\xi=\sum c_i^2.$

>> About the $o(\text{whatever})$ notation

I think this is pretty confusing from the authors, but I recall that they use it just to mean that there are terms of order $\text{whatever}$ every time they put $o(\text{whatever})$ (i.e., just like the big-O notation). However, as @Macro commented on this same answer, there is a difference between the big-O notation and the little-O one. Maybe you should check by yourself and see which one suits the problem in this Wikipedia article.

PS: This is a great book by the way. The papers of the authors on the subject are also very good and are a must read if you are trying to understand and implement ICA.

— Néstor
sumber

(+1) Good answer. If the sums are infinite, we have to be more careful about interchanging them with the integral. If they are finite (as the OP suggests, but I did not look at the images closely) then everything is straightforward, as you've shown. :-)

— cardinal

Ah yes! Thank you Nestor, but what about the last two results, that is, the summation with the

c_{i}^{2}

$c_i^2$ , and summation with the small-o notation part?

— Spacey

@cardinal: Oh yes! They ARE finite (I don't know why I wrote they where infinite...). I changed that on my answer.

— Néstor

@Mohammad, I'm writing on my answers your other two questions ;-).

— Néstor

@Néstor, +1 to this answer but re: your last comment, I think there is a distinction between big-O and little-o notation.

— Macro