Apa yang menjustifikasi perhitungan turunan dari fungsi matriks ini?

Dalam kursus pembelajaran mesin Andrew Ng, ia menggunakan rumus ini:

$\nabla_A tr(ABA^TC) = CAB + C^TAB^T$

dan dia melakukan bukti cepat yang ditunjukkan di bawah ini:

$\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB$

Buktinya terlihat sangat padat tanpa komentar dan saya kesulitan memahaminya. Apa yang sebenarnya terjadi dari kesetaraan kedua ke ketiga?

machine-learning matrix derivative

— MoneyBall
sumber

Dia harus membuat asumsi khusus tentang dimensi , , dan , karena kalau tidak rumus ini tidak masuk akal secara umum. Di sisi kiri harus berupa matriks , matriks a , dan matriks a untuk bilangan bulat non-negatif arbitrer . Tetapi kemudian produk di sebelah kanan tidak akan didefinisikan kecuali .

A

$A$

B

$B$

C

$C$

A

$A$

i \times j

$i\times j$

B

$B$

j \times j

$j\times j$

C

$C$

i \times m

$i\times m$

i, j, m

$i,j,m$

i = m

$i=m$

— whuber

@whuber saya mengerti. Dengan asumsi itu, saya masih tidak mengerti bagaimana transisi terjadi dari baris kedua ke ketiga di mana ia memperkenalkan .

\circ

$\circ$

— MoneyBall

Antara kedua dan baris ketiga dia membiarkan

. Antara baris kedua dan ketiga dia menggunakan aturan produk. kemudian dia menggunakan aturan rantai untuk menghilangkan

f (A) = A B

$f(A)=AB$

f ()

$f()$

— Brian Borchers

Ada penyalahgunaan notasi yang sulit namun banyak yang membuat banyak langkah membingungkan. Mari kita bahas masalah ini dengan kembali ke definisi multiplikasi matriks, transposisi, jejak, dan turunannya. Bagi mereka yang ingin menghilangkan penjelasan, lompat saja ke bagian terakhir "Putting It All Together" untuk melihat seberapa pendek dan sederhananya sebuah demonstrasi yang keras.

Notasi dan Konsep

Ukuran

Agar ungkapan masuk akal ketika adalah matriks , harus berupa matriks (persegi) dan harus berupa matriks , di mana produknya adalah matriks . Dalam rangka untuk mengambil jejak (yang merupakan jumlah dari elemen diagonal, ), maka , membuat $ABA^\prime C$ $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times p$ $m\times p$ $\operatorname{Tr}(X)=\sum_i X_{ii}$ $p=m$ $C$ matriks persegi.

Derivatif

Notasi " " muncul untuk merujuk pada turunan dari ekspresi terhadap . Biasanya, diferensiasi adalah operasi dilakukan pada fungsi . Turunan pada titik adalah transformasi linear . Setelah memilih basis untuk ruang vektor ini, transformasi seperti itu dapat direpresentasikan sebagai matriks Bukan itu masalahnya di sini! $\nabla_A$ $A$ $f:\mathbb{R}^N\to\mathbb{R}^M$ $x\in \mathbb{R}^N$ $Df(x):\mathbb{R}^N\to\mathbb{R}^M$ $M\times N$

Matriks sebagai vektor

Sebaliknya, sedang dipertimbangkan sebagai unsur : koefisien yang sedang membuka gulungan (biasanya baik baris demi baris atau kolom dengan kolom) menjadi vektor dengan panjang . Fungsi memiliki nilai nyata, di mana . Akibatnya, harus berupa matriks : ini adalah vektor baris yang mewakili bentuk linear $A$ $\mathbb{R}^{mn}$ $N=mn$ $f(A)=\operatorname{Tr}(ABA^\prime C)$ $M=1$ $Df(x)$ $1\times mn$ . Namun demikian, perhitungan dalam pertanyaan menggunakancara yangberbedauntuk mewakili bentuk linear: koefisien mereka digulung kembali ke dalammatriks. $\mathbb{R}^{mn}$ $m\times n$

Jejak sebagai bentuk linier

Misalkan menjadi matriks konstan . Kemudian, dengan definisi jejak dan perkalian matriks, $\omega$ $m\times n$

\begin{aligned} Tr (A ω^{'}) & = \sum_{i = 1}^{m} (A ω^{'})_{i i} = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i j} (ω^{'})_{j i}) = \sum_{i, j} ω_{i j} A_{i j} \end{aligned}

$\eqalign{ \operatorname{Tr}(A\omega^\prime) &= \sum_{i=1}^m(A\omega^\prime)_{ii} = \sum_{i=1}^m\left(\sum_{j=1}^n A_{ij}(\omega^\prime)_{ji}\right) = \sum_{i,j} \omega_{ij}A_{ij} }$

Ini mengungkapkan kombinasi linear yang mungkin paling umum dari koefisien : adalah matriks dari bentuk yang sama seperti dan koefisien dalam baris dan kolom adalah koefisien di kombinasi linear. Karena , peran dan dapat berubah, memberikan ekspresi yang setara $A$ $\omega$ $A$ $i$ $j$ $A_{ij}$ $\omega_{ij}A_{ij}=A_{ij}\omega_{ij}$ $\omega$ $A$

\begin{matrix} (1) & \sum_{i, j} ω_{i j} A_{i j} = Tr (A ω^{'}) = Tr (ω A^{'}) . \end{matrix}

$\sum_{i,j} \omega_{ij}A_{ij} = \operatorname{Tr}(A\omega^\prime) = \operatorname{Tr}(\omega A^\prime).\tag{1}$

Dengan mengidentifikasi matriks konstan dengan salah satu dari fungsi atau , kita dapat mewakili bentuk linear pada ruang matriks sebagai matriks. (Jangan bingung dengan fungsi turunan dari ke !) $\omega$ $A\to \operatorname{Tr}(A \omega^\prime)$ $A\to \operatorname{Tr}(\omega A^\prime)$ $m\times n$ $m\times n$ $\mathbb{R}^n$ $\mathbb{R}^m$

Menghitung Derivatif

Definisi

Derivatif dari banyak fungsi matriks yang ditemukan dalam statistik paling mudah dan andal dihitung dari definisi: Anda tidak benar-benar perlu menggunakan aturan rumit dari diferensiasi matriks. Definisi ini mengatakan bahwa dapat dibedakan pada jika dan hanya jika ada transformasi linear sedemikian rupa $f$ $x$ $L$

f (x + h) - f (x) = L h + o (| h |)

$f(x+h) - f(x) = Lh + o(|h|)$

untuk perpindahan sewenang-wenang kecil . Kecil-oh notasi berarti bahwa kesalahan yang dibuat di mendekati perbedaan oleh adalah sewenang-wenang lebih kecil dari ukuran untuk cukup kecil . Secara khusus, kami mungkin selalu mengabaikan kesalahan yang proporsional dengan . $h\in \mathbb{R}^N$ $f(x+h)-f(x)$ $Lh$ $h$ $h$ $|h|^2$

Penghitungan

Mari kita terapkan definisi ke fungsi yang dimaksud. Mengalikan, memperluas, dan mengabaikan istilah dengan produk dua di dalamnya, $h$

\begin{matrix} (2) & \begin{aligned} f (A + h) - f (A) & = Tr ((A + h) B (A + h)^{'} C) - Tr (A B A^{'} C) \\ = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) . \end{aligned} \end{matrix}

$\eqalign{ f(A+h)-f(A) &= \operatorname{Tr}((A+h)B(A+h)^\prime C) - \operatorname{Tr}(ABA^\prime C) \\ &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|).\tag{2} }$

Untuk mengidentifikasi turunan , kita harus memasukkan ini ke dalam bentuk . Istilah pertama di sebelah kanan sudah dalam formulir ini, dengan . Istilah lainnya di sebelah kanan memiliki bentuk untuk . Mari kita tuliskan ini: $L=Df(A)$ $(1)$ $\omega = BA^\prime C$ $\operatorname{Tr}(Xh^\prime C)$ $X=AB$

\begin{matrix} (3) & Tr (X h^{'} C) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \sum_{k = 1}^{m} X_{i j} h_{k j} C_{k i} = \sum_{i, j, k} h_{k j} (C_{k i} X_{i j}) = Tr ((C X) h^{'}) . \end{matrix}

$\operatorname{Tr}(Xh^\prime C) = \sum_{i=1}^m\sum_{j=1}^n\sum_{k=1}^m X_{ij} h_{kj} C_{ki} = \sum_{i,j,k}h_{kj} \left(C_{ki}X_{ij}\right) =\operatorname{Tr}((CX)h^\prime).\tag{3}$

Mengingat , dapat ditulis ulang $X=AB$ $(2)$

f (A + h) - f (A) = Tr (h B A^{'} C) + Tr (C A B h^{'}) + o (| h |) .

$f(A+h) - f(A) = \operatorname{Tr}(h\, BA^\prime C\,) + \operatorname{Tr}(CAB\, h^\prime\,)+o(|h|).$

Hal ini dalam ini arti bahwa kita dapat mempertimbangkan turunan dari pada menjadi karena matriks ini memainkan peran dalam rumus jejak . $f$ $A$

D f (A) = (B A^{'} C)^{'} + C A B = C^{'} A B^{'} + C A B,

$Df(A) = (BA^\prime C)^\prime + CAB = C^\prime A B^\prime + CAB,$

ω

$\omega$

(1)

$(1)$

Menyatukan Semuanya

Di sini, kemudian, adalah solusi lengkap.

$A$ $m\times n$ $B$ $n\times n$ $C$ $m\times m$ $f(A) = \operatorname{Tr}(ABA^\prime C)$ $h$ $m\times n$ $(3)$
$\begin{aligned} f (A + h) - f (A) & = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) \\ = Tr (h (C^{'} A B^{'})^{'} + (C A B) h^{'}) + o (| h |), \end{aligned}$ $\eqalign{f(A+h) - f(A) &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|) \\ &=\operatorname{Tr}(h(C^\prime A B^\prime)^\prime + (CAB)h^\prime) + o(|h|),}$ $f$ $C^{'} A B^{'} + C A B .$ $C^\prime A B^\prime + CAB.$

Karena ini hanya membutuhkan sekitar setengah pekerjaan dan hanya melibatkan manipulasi matriks dan jejak yang paling mendasar (penggandaan dan transposisi), itu harus dianggap sebagai demonstrasi hasil yang lebih sederhana - dan bisa dibilang lebih mudah dipahami -. Jika Anda benar-benar ingin memahami langkah-langkah individual dalam demonstrasi asli, Anda mungkin merasa bermanfaat untuk membandingkannya dengan perhitungan yang ditunjukkan di sini.

— whuber
sumber

tr (A B C) = tr (C A B)

$\mbox{tr}(ABC)=\mbox{tr}(CAB)$

(1)

$(1)$

Mat (m, n)

$\operatorname{Mat}(m,n)$

m \times n

$m\times n$

f : Mat (m, n) \to R

$f:\operatorname{Mat}(m,n)\to\mathbb{R}$

A

$A$

ω

$\omega$

D f (A)

$Df(A)$

X :\to Tr (X ω^{'})

$X:\to\operatorname{Tr}(X\omega^{\,\prime})$

@Amoeba Itu benar - itu cukup membenarkan pernyataan di baris pertama dari jawaban ini. Itulah sebabnya saya menulis "dalam pengertian ini " dan, kemudian dalam ringkasan, menggunakan frasa "ditentukan oleh" daripada "sama dengan." Saya tidak akan menyangkal bahwa penjelasannya menantang; Saya akan memikirkan cara menjelaskannya dan saya menghargai semua komentar dan saran Anda.

— whuber

@ user10324 Sebagian besar dari apa yang saya posting di situs ini adalah formulasi saya sendiri - saya jarang berkonsultasi dengan sumber (dan saya mendokumentasikannya ketika saya melakukannya). Posting-posting ini adalah distilasi dari membaca banyak buku dan kertas. Beberapa buku terbaik bukanlah buku yang sepenuhnya matematis, tetapi yang telah menjelaskan dan mengilustrasikan ide-ide yang mendasarinya dengan indah. Beberapa yang pertama muncul dalam pikiran - dalam urutan kecanggihan - adalah Freedman, Pisani, & Purves, Statistics (semua edisi); Jack Kiefer, Pengantar Inferensi Statistik ; dan Steven Shreve, Stochastic Calculus for Finance II .

— whuber

f (x + h) - f (x) = L h + o (| h |)

$f(x+h)−f(x)=Lh+o(|h|)$

h

$h$

x

$x$

x \in R^{m \times n}

$x \in \mathbb{R}^{m \times n}$

h \in R^{m \times n}

$h \in \mathbb{R}^{m \times n}$