Estimator Kemungkinan Maksimum - Gaussian Multivarian

Konteks

Multivariate Gaussian sering muncul dalam Pembelajaran Mesin dan hasil berikut digunakan di banyak buku dan kursus ML tanpa derivasi.

Data yang diberikan dalam bentuk matriks $\mathbf{X}$ dimensi $m \times p$ , jika kita mengasumsikan bahwa data mengikuti distribusi Gaussian $p$ variatif dengan rata-rata parameter $\mu$ ( $p \times 1$ ) dan matriks kovarian $\Sigma$ ( $p \times p$ ) Estimator Kemungkinan Maksimum adalah diberikan oleh:

$\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}}$

$\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T$

Saya memahami bahwa pengetahuan tentang Gaussian multivarian merupakan prasyarat untuk banyak program ML, tetapi akan sangat membantu untuk memiliki derivasi lengkap dalam jawaban yang lengkap sekali dan untuk semua karena saya merasa banyak pelajar mandiri memantul di sekitar statistik. stackexchange dan situs web math.stackexchange mencari jawaban.

Pertanyaan

Berapakah derivasi penuh Estimator Kemungkinan Maksimum untuk Gaussian multivarian

Contoh:

Catatan kuliah ini (halaman 11) tentang Analisis Diskriminan Linier, atau yang ini memanfaatkan hasil dan mengasumsikan pengetahuan sebelumnya.

Ada juga beberapa posting yang sebagian dijawab atau ditutup:

— Xavier Bourret Sicotte
sumber

Memperoleh Estimator Kemungkinan Maksimum

Asumsikan bahwa kita memiliki vektor acak, masing-masing ukuran : mana setiap vektor acak dapat diartikan sebagai pengamatan (titik data) di seluruh variabel . Jika setiap iid sebagai vektor Gaussian multivarian: $m$ $p$ $\mathbf{X^{(1)}, X^{(2)},...,X^{(m)}}$ $p$ $\mathbf{X}^{(i)}$

X^{(i)} \sim N_{p} (μ, Σ)

$\mathbf{X^{(i)}} \sim \mathcal{N}_p(\mu, \Sigma)$

Di mana parameter tidak diketahui. Untuk mendapatkan estimasi mereka, kita dapat menggunakan metode kemungkinan maksimum dan memaksimalkan fungsi kemungkinan log. $\mu, \Sigma$

Perhatikan bahwa dengan kemerdekaan vektor acak, kepadatan gabungan dari data adalah produk dari kepadatan individu, yaitu . Mengambil logaritma memberikan fungsi log-likelihood $\mathbf{ \{X^{(i)}}, i = 1,2,...,m\}$ $\prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} ; \mu , \Sigma })$

\begin{aligned} l (μ, Σ | x^{(i)}) & = \log \prod_{i = 1}^{m} f_{X^{(i)}} (x^{(i)} | μ, Σ) \\ = \log \prod_{i = 1}^{m} \frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)) \\ = \sum_{i = 1}^{m} (- \frac{p}{2} \log (2 π) - \frac{1}{2} \log | Σ | - \frac{1}{2} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)) \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \log \prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} | \mu , \Sigma }) \\ & = \log \ \prod_{i=1}^m \frac{1}{(2 \pi)^{p/2} |\Sigma|^{1/2}} \exp \left( - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \\ & = \sum_{i=1}^m \left( - \frac{p}{2} \log (2 \pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \end{aligned}$

\begin{aligned} l (μ, Σ;) & = - \frac{m p}{2} \log (2 π) - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \end{aligned}

$\begin{aligned} l(\mu, \Sigma ; ) & = - \frac{mp}{2} \log (2 \pi) - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \end{aligned}$

berasal $\hat \mu$

Untuk mengambil turunan sehubungan dengan dan menyamakan dengan nol, kami akan menggunakan identitas kalkulus matriks berikut: $\mu$

jika tidak bergantung padadanadalah simetris. $\mathbf{ \frac{\partial w^T A w}{\partial w} = 2Aw}$ $\mathbf{w}$ $\mathbf{A}$ $\mathbf{A}$

\begin{aligned} \frac{\partial}{\partial μ} l (μ, Σ | x^{(i)}) & = \sum_{i = 1}^{m} Σ^{- 1} (μ - x^{(i)}) = 0 \\ Since Σ is positive definite \\ 0 & = m μ - \sum_{i = 1}^{m} x^{(i)} \\ \hat{μ} & = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} = \bar{x} \end{aligned}

$\begin{aligned} \frac{\partial }{\partial \mu} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \sum_{i=1}^m \mathbf{ \Sigma^{-1} ( \mu - x^{(i)} ) } = 0 \\ & \text{Since $\Sigma$ is positive definite} \\ 0 & = m \mu - \sum_{i=1}^m \mathbf{ x^{(i)} } \\ \hat \mu &= \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} \end{aligned}$

Yang sering disebut sampel mean vector.

berasal $\hat \Sigma$

Turunkan MLE untuk matriks kovarians membutuhkan lebih banyak pekerjaan dan penggunaan aljabar linear dan properti kalkulus berikut:

Jejak tidak berubah di bawah permutasi siklik dari produk matriks: $tr[ACB] = tr[CAB] = tr[BCA]$

Karena adalah skalar, kita dapat mengambil jejaknya dan mendapatkan nilai yang sama: $x^TAx$ $x^tAx = tr[x^TAx] = tr[x^txA]$

$\frac{\partial}{\partial A} tr[AB] = B^T$

$\frac{\partial}{\partial A} \log |A| = A^{-T}$

Menggabungkan sifat-sifat ini memungkinkan kita untuk menghitung

\frac{\partial}{\partial A} x^{t} A x = \frac{\partial}{\partial A} t r [x^{T} x A] = [x x^{t}]^{T} = x^{T T} x^{T} = x x^{T}

$\frac{\partial}{\partial A} x^tAx =\frac{\partial}{\partial A} tr[x^TxA] = [xx^t]^T = x^{TT}x^T = xx^T$

Yang merupakan produk luar dari vektor dengan dirinya sendiri. $x$

Kita sekarang dapat menulis kembali fungsi log-likelihood dan menghitung turunan wrt (catatan konstan) $\Sigma^{-1}$ $C$

\begin{aligned} l (μ, Σ | x^{(i)}) & = C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \\ = C + \frac{m}{2} \log | Σ^{- 1} | - \frac{1}{2} \sum_{i = 1}^{m} t r [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}] \\ \frac{\partial}{\partial Σ^{- 1}} l (μ, Σ | x^{(i)}) & = \frac{m}{2} Σ - \frac{1}{2} \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} Since Σ^{T} = Σ \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \text{C} - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \\ & = \text{C} + \frac{m}{2} \log |\Sigma^{-1}| - \frac{1}{2} \sum_{i=1}^m tr[ \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)^T \Sigma^{-1} } ] \\ \frac{\partial }{\partial \Sigma^{-1}} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \frac{m}{2} \Sigma - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \ \ \text{Since $\Sigma^T = \Sigma$} \end{aligned}$

Menyamakan dengan nol dan menyelesaikan untuk $\Sigma$

\begin{aligned} 0 & = m Σ - \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} \\ \hat{Σ} & = \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)} - \hat{μ}) (x^{(i)} - \hat{μ})}^{T} \end{aligned}

$\begin{aligned} 0 &= m \Sigma - \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \\ \hat \Sigma & = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T \end{aligned}$

Sumber

— Xavier Bourret Sicotte
sumber

Bukti alternatif, bentuk yang lebih ringkas, atau interpretasi intuitif dipersilakan!

— Xavier Bourret Sicotte

Dalam derivasi untuk

, mengapa

harus positif pasti? Apakah itu cukup terlihat bahwa

dibalik? Untuk matriks

dapat dibalik ,

hanya ketika

μ

$\mu$

Σ

$\Sigma$

Σ

$\Sigma$

A

$A$

A x = 0

$Ax=0$

x = 0

$x=0$

— Tom Bennett

Untuk memperjelas,

adalah

matriks yang mungkin memiliki diagonal terbatas dan komponen non-diagonal menunjukkan korelasi antara vektor, yang benar? Jika itu masalahnya, dalam arti apa vektor-vektor ini independen? Juga, mengapa fungsi probabilitas gabungan sama dengan kemungkinan? Bukankah kepadatan bersama,

, harus sama dengan kemungkinan dikalikan dengan yang sebelumnya, yaitu

Σ

$\Sigma$

m \times m

$m \times m$

f (x, y)

$f(x,y)$

f (x | y) f (y)

$f(x|y)f(y)$

— Mathews24

@ TomBennett, matriks sigma adalah definitif positif berdasarkan definisi - lihat stats.stackexchange.com/questions/52976/... untuk buktinya. Identitas kalkulus matriks membutuhkan matriks untuk menjadi simetris, bukan pasti positif. Tetapi karena matriks positif pasti selalu simetris yang berfungsi

— Xavier Bourret Sicotte

Ya memang - independensi antar pengamatan memungkinkan untuk mendapatkan kemungkinan - kata-katanya mungkin cukup jelas - ini adalah versi multivariat dari kemungkinan tersebut. Sebelumnya masih tidak relevan terlepas

— Xavier Bourret Sicotte

$\widehat{\Sigma}$ $\Sigma$

\begin{array}{rcl} ℓ (μ, Σ) & = & C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} tr [(x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)] \\ = & C - \frac{1}{2} (m \log | Σ | + \sum_{i = 1}^{m} tr [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}]) \\ = & C - \frac{1}{2} (m \log | Σ | + tr [S_{μ} Σ^{- 1}]) \end{array}

$\begin{eqnarray} \ell(\mu, \Sigma) &=& C - \frac{m}{2}\log|\Sigma|-\frac{1}{2} \sum_{i=1}^m \text{tr}\left[(\mathbf{x}^{(i)}-\mu)^T \Sigma^{-1} (\mathbf{x}^{(i)}-\mu)\right]\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| + \sum_{i=1}^m\text{tr} \left[(\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T\Sigma^{-1} \right]\right)\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| +\text{tr}\left[ S_\mu \Sigma^{-1} \right] \right) \end{eqnarray}$

S_{μ} = \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}

$S_\mu = \sum_{i=1}^m (\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T$

tr

$\text{tr}$

\partial ℓ / \partial Σ

$\partial \ell /\partial \Sigma$

\frac{\partial}{\partial Σ} \log | Σ | = Σ^{- T} = Σ^{- 1}

$\frac{\partial}{\partial \Sigma} \log |\Sigma| = \Sigma^{-T}=\Sigma^{-1}$

\frac{\partial}{\partial X} tr (A X^{- 1} B) = - (X^{- 1} B A X^{- 1})^{T} .

$\frac{\partial}{\partial X}\text{tr}\left( A X^{-1} B\right) = -(X^{-1}BAX^{-1})^T.$

B = I

$B=I$

\frac{\partial}{\partial Σ} tr [S_{μ} Σ^{- 1}] = - {(Σ^{- 1} S_{μ} Σ^{- 1})}^{T} = - Σ^{- 1} S_{μ} Σ^{- 1}

$\frac{\partial}{\partial \Sigma}\text{tr}\left[S_\mu \Sigma^{-1}\right] = -\left( \Sigma^{-1} S_\mu \Sigma^{-1}\right)^T = -\Sigma^{-1} S_\mu \Sigma^{-1}$

Σ

$\Sigma$

S_{μ}

$S_\mu$

\frac{\partial}{\partial Σ} ℓ (μ, Σ) \propto m Σ^{- 1} - Σ^{- 1} S_{μ} Σ^{- 1} .

$\frac{\partial}{\partial \Sigma}\ell(\mu, \Sigma) \propto m \Sigma^{-1} - \Sigma^{-1} S_\mu \Sigma^{-1}.$

\hat{Σ} = \frac{1}{m} S_{μ} .

$\widehat{\Sigma} = \frac{1}{m}S_\mu.$

$\Lambda = \Sigma^{-1}$ $\partial/{\partial \Sigma^{-1}}$ $\partial/\partial \Sigma$

— Eric Kightley
sumber

Estimator Kemungkinan Maksimum - Gaussian Multivarian

Konteks

Pertanyaan

Contoh:

Memperoleh Estimator Kemungkinan Maksimum

berasal μμ^μ^\hat \mu

berasal ΣΣ^Σ^\hat \Sigma

Sumber

berasal $\hat \mu$

berasal $\hat \Sigma$