Mungkin membantu untuk memberikan sedikit lebih banyak gambaran tentang MMD.
Secara umum, MMD didefinisikan oleh gagasan untuk merepresentasikan jarak antar distribusi sebagai jarak antara rata - rata embedding fitur. Artinya, katakanlah kita memiliki distribusi dan lebih dari satu set . MMD didefinisikan oleh peta fitur , di mana adalah apa yang disebut ruang reproduksi kernel Hilbert. Secara umum, MMD adalah
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Sebagai satu contoh, kita mungkin memiliki dan . Dalam hal ini:
sehingga MMD ini hanya jarak antara rata-rata dari dua distribusi. Distribusi yang cocok seperti ini akan cocok dengan kemampuan mereka, meskipun mereka mungkin berbeda dalam variansnya atau dengan cara lain.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Kasus Anda sedikit berbeda: kami memiliki dan , dengan , di mana adalah matriks . Jadi kita memiliki
MMD ini adalah perbedaan antara dua proyeksi yang berbeda dari rata-rata. Jika atau pemetaan sebaliknya tidak dapat dibalik,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ daripada yang sebelumnya: itu tidak membedakan antara beberapa distribusi yang sebelumnya tidak.
Anda juga dapat membangun jarak yang lebih kuat. Misalnya, jika dan Anda menggunakan , maka MMD menjadi , dan dapat membedakan tidak hanya distribusi dengan cara yang berbeda tetapi dengan varian yang berbeda juga.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Dan Anda bisa mendapatkan yang lebih kuat dari itu: jika memetakan ke ruang Hilbert kernel mereproduksi umum, maka Anda dapat menerapkan trik kernel untuk menghitung MMD, dan ternyata banyak kernel, termasuk kernel Gaussian, mengarah ke MMD menjadi nol jika dan hanya distribusinya yang identik.φ
Secara khusus, membiarkan , Anda mendapatkan
yang dapat Anda perkirakan secara langsung dengan sampel.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Pembaruan: dari sinilah "maksimum" dari namanya berasal.
Peta fitur memetakan ke dalam ruang Hilbert yang direproduksi. Ini adalah ruang fungsi , dan memenuhi properti kunci (disebut properti reproduksi ): untuk setiap .φ:X→H ⟨ f , φ ( x ) ⟩ H = f ( x ) f ∈ H⟨f,φ(x)⟩H=f(x)f∈H
Dalam contoh paling sederhana, dengan , kita melihat setiap sebagai fungsi yang berhubungan dengan beberapa , oleh . Maka properti reproduksi harus masuk akal.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
Dalam pengaturan yang lebih kompleks, seperti kernel Gaussian, adalah fungsi yang jauh lebih rumit, tetapi properti reproduksi masih bertahan.f
Sekarang, kita dapat memberikan karakterisasi alternatif MMD:
Baris kedua adalah fakta umum tentang norma di ruang Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ dicapai oleh . Yang keempat tergantung pada kondisi teknis yang dikenal sebagai integrasi Bochner tetapi benar misalnya untuk kernel atau distribusi terbatas dengan dukungan terikat. Kemudian pada akhirnya kami menggunakan properti reproduksi.f=g/∥g∥
Baris terakhir ini adalah mengapa ini disebut "perbedaan rata-rata maksimum" - itu adalah maksimum, lebih dari fungsi uji dalam satuan bola , dari perbedaan rata-rata antara dua distribusi.fH