Ukuran "varians" dari matriks kovarians?


16

Jika data 1d, varians menunjukkan sejauh mana titik data berbeda satu sama lain. Jika datanya multidimensi, kita akan mendapatkan matriks kovarians.

Apakah ada ukuran yang memberikan satu angka bagaimana titik data berbeda satu sama lain secara umum untuk data multi-dimensi?

Saya merasa bahwa mungkin sudah ada banyak solusi, tetapi saya tidak yakin istilah yang tepat untuk digunakan untuk mencari mereka.

Mungkin saya bisa melakukan sesuatu seperti menambahkan nilai eigen dari matriks kovarians, apakah itu masuk akal?


2
Penentu matriks kovarians. Saya akan segera mengirimkan jawaban yang lebih sempurna.
user603

5
Jejak sangat sering digunakan. Misalnya dalam PCA, fraksi varians yang dijelaskan oleh masing-masing komponen adalah fraksi "total varians" yang didefinisikan sebagai jejak matriks kovarians. @ user603 Menantikan jawaban Anda.
Amuba mengatakan Reinstate Monica

2
adding up the eigenvalues of the covariance matrixsama dengan jejak amuba yang disebutkan di atas.
ttnphns

Untuk apa ukuran yang akan digunakan?
HelloGoodbye

@ HaloGoodbye hai sebenarnya saya memiliki beberapa data [berisik] dengan label, dan saya berasumsi sebelumnya bahwa [benar] data poin dalam kategori yang sama seharusnya tidak jauh berbeda. Saya mencari cara untuk mengukur tingkat perbedaan titik data dalam setiap kategori, sehingga saya bisa mendapatkan gagasan tentang seberapa berisiknya data untuk setiap kategori.
dontloo

Jawaban:


15

(Jawaban di bawah ini hanya memperkenalkan dan menyatakan teorema yang dibuktikan dalam [0]. Keindahan dalam makalah ini adalah bahwa sebagian besar argumen dibuat dalam bentuk aljabar linier dasar. Untuk menjawab pertanyaan ini cukup untuk menyatakan hasil utama tetapi maksudnya, periksa sumber aslinya).

Dalam situasi apa pun di mana pola multivarian data dapat dijelaskan oleh distribusi elips variate, inferensi statistik akan, menurut definisi, mengurangi masalah pemasangan (dan karakterisasi) vektor lokasi variat k (katakan θ ) dan oleh matriks pasti semi-positif simetris (katakanlah ) ke data. Untuk alasan yang saya jelaskan di bawah ini (tetapi yang sudah Anda anggap sebagai premis), seringkali akan lebih bermakna untuk menguraikan menjadi komponen bentuk (matriks SPSD dengan ukuran yang sama dengankkθk Σ Σ Σ σ SkkΣΣΣ) menghitung bentuk kontur kepadatan distribusi multivarian Anda dan skalar menyatakan skala kontur ini.σS

Dalam data univariat ( ), , matriks kovarian data Anda adalah skalar dan, seperti yang akan diikuti dari diskusi di bawah ini, komponen bentuk Σ adalah 1 sehingga sama dengan komponen skalanya selalu dan tidak ada ambiguitas yang mungkin.k=1Σ Σ = σ SΣΣΣΣ=σS

Dalam data multivarian, banyak pilihan fungsi penskalaan dimungkinkan. Satu khususnya ( ) menonjol karena memiliki kepatutan yang diinginkan. Ini harus menjadikannya pilihan faktor penskalaan dalam konteks keluarga elips.σ S = | ΣσSσS=|ΣΣ|1/k


Banyak masalah dalam statistik MV melibatkan estimasi matriks pencar, yang didefinisikan sebagai fungsi (al) simetris semi positif pasti dalam dan memuaskan:R k × kΣRk×k

A b

(0)Σ(AX+b)=AΣ(X)A
(untuk matriks non singular dan vektor ). Misalnya estimasi klasik kovarians memenuhi (0) tetapi tidak berarti satu-satunya. Ab

Di hadapan data terdistribusi elips, di mana semua kontur kerapatan adalah elips yang didefinisikan oleh matriks bentuk yang sama, hingga penggandaan oleh skalar, adalah wajar untuk mempertimbangkan versi normal dari dalam bentuk:Σ

VS=Σ/S(Σ)

di mana adalah fungsi 1-honogen yang memuaskan:S

(1)S(λΣ)=λS(Σ)

untuk semua . Kemudian, disebut komponen bentuk dari matriks pencar (dalam bentuk matriks pendek) dan disebut komponen skala dari matriks pencar. Contoh masalah estimasi multivariat di mana fungsi kerugian hanya bergantung pada melalui komponen bentuknya termasuk tes kebulatan, PCA dan CCA.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0VSσS=S1/2(Σ)ΣVS

Tentu saja, ada banyak fungsi penskalaan yang mungkin jadi ini masih menyisakan pertanyaan apa (jika ada) dari beberapa pilihan fungsi normalisasi dalam beberapa hal optimal. Sebagai contoh:S

  • (misalnya yang diusulkan oleh @amoeba dalam komentarnya di bawah pertanyaan OP. Lihat juga [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (entri pertama dari matriks kovarians)Σ11
  • (nilai eigen pertama Σ )λ1(Σ)Σ

Namun, adalah satu-satunya fungsi penskalaan di mana matriks Informasi Fisher untuk estimasi skala dan bentuk yang sesuai, dalam keluarga normal asimptotik, adalah blok diagonal (yaitu komponen skala dan bentuk dari masalah estimasi adalah ortogonal asimptotik) [0 ] Ini berarti, antara lain, bahwa skala fungsional S = | Σ | 1 / k adalah satu-satunya pilihan S yang spesifikasi non σ S tidak menyebabkan hilangnya efisiensi saat melakukan inferensi pada V S .S=|Σ|1/kS=|Σ|1/kSσSVS

Saya tidak tahu adanya karakterisasi optimalitas yang sebanding kuat untuk salah satu dari banyak pilihan yang mungkin memuaskan (1).S

  • [0] Paindaveine, D., Definisi bentuk kanonik, Statistik & Kemungkinan Surat, Volume 78, Edisi 14, 1 Oktober 2008, Halaman 2240-2247. Tautan tidak digabungkan
  • [1] Dumbgen, L. (1998). Pada M-fungsional dari sebaran di dimensi tinggi, Ann. Inst. Statist. Matematika 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger, dan H. Oja (2004). Affine metode tanda multivariat ekuivalen. Pracetak, Universitas Jyvaskyla.
  • [3] Tyler, DE (1983). Sifat robust dan efisiensi dari matriks pencar, Biometrika 70, 411-420.
  • [4] Dumbgen, L., dan DE Tyler (2005). Pada sifat rincian beberapa M-Fungsional multivarian, Skand. J. Statist. 32, 247–264.
  • [5] Hallin, M. dan D. Paindaveine (2008). Tes berbasis peringkat optimal untuk homogenitas pencar, Ann. Statist., Muncul.
  • [6] Salibian-Barrera, M., S. Van Aelst, dan G. Willems (200 6). Analisis komponen utama berdasarkan multivariat MM-estimator dengan bootstrap yang cepat dan kuat, J. Amer. Statist. Assoc. 101, 1198–1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila, dan H. O ja (2006). Fungsi pengaruh dan efisiensi korelasi kanonik dan estimasi vektor berdasarkan matriks sebaran dan bentuk, J. Multivariate Anal. 97, 359-384.
  • [8] Tatsuoka, KS, dan DE Tyler (2000). Tentang keunikan S-Fungsional dan M-fungsional di bawah distribusi non elips, Ann. Statist. 28, 1219-1243.

1
Juga, adalah pilihan aneh untuk komponen skala karena tidak invarian rotasi ...Σ11
amoeba mengatakan Reinstate Monica

Terima kasih atas jawaban yang disengaja! itu akan memakan waktu bagi saya untuk sepenuhnya memahaminya :)
dontloo

@amoeba: diterapkan ke XΣ . Saya menjatuhkan XXX dalam sisa jawaban karena tidak ada kebingungan yang mungkin terjadi. Saya setuju itu agak canggung jadi saya sekarang menggunakan Σ ( XXX . Saya setuju dengan komentar kedua Anda. Dengan tocken yang sama λ 1 ( Σ ) tidak berbeda dengan penskalaan. Dalam hal ini batasan homogenitas yang ditempatkan pada S adalah bilah yang sangat rendah. Σ(XX)λ1(Σ)S
user603

Tunggu; mengapa orang ingin atau mengharapkan komponen skala menjadi invarian untuk penskalaan ??
Amuba mengatakan Reinstate Monica

Maaf, maksud saya jika Anda menggunakan sebagai fungsi penskalaan maka bentuk matriks yang dihasilkan tidak sama dengan pengubahan skala. λ1(Σ)
user603

10

Varians dari variabel skalar didefinisikan sebagai deviasi kuadrat dari variabel dari rata-rata:

Var(X)=E[(XE[X])2]

Satu generalisasi ke varian skalar-bernilai untuk variabel acak bernilai vektor dapat diperoleh dengan menafsirkan deviasi sebagai jarak Euclidean :

Vars(X)=E[XE[X]22]

Ungkapan ini dapat ditulis ulang sebagai

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

di mana adalah matriks kovarians. Akhirnya, ini dapat disederhanakanC

Vars(X)=tr(C)

yang merupakan jejak dari matriks kovarians.


4

Meskipun jejak matriks kovarians, tr (C) , memberi Anda ukuran total varians, itu tidak memperhitungkan korelasi antar variabel.

Jika Anda memerlukan ukuran varians keseluruhan yang besar ketika variabel Anda independen satu sama lain dan sangat kecil ketika variabel sangat berkorelasi, Anda dapat menggunakan penentu matriks kovarians, | C | .

Silakan lihat artikel ini untuk klarifikasi yang lebih baik.


4

Jika Anda hanya perlu satu angka, maka saya sarankan nilai eigen terbesar dari matriks kovarians. Ini juga merupakan varian yang dijelaskan dari komponen utama pertama dalam PCA. Ini memberi tahu Anda berapa banyak variasi total dapat dijelaskan jika Anda mengurangi dimensi vektor Anda menjadi satu. Lihat jawaban ini pada matematika SE.

Gagasannya adalah Anda memecah vektor menjadi hanya satu dimensi dengan menggabungkan semua variabel secara linear menjadi satu seri. Anda berakhir dengan masalah 1d.

Varians yang dijelaskan dapat dilaporkan dalam% istilah ke total varians. Dalam hal ini Anda akan melihat segera jika ada banyak korelasi linier antara seri. Dalam beberapa aplikasi angka ini bisa 80% dan lebih tinggi, misalnya pemodelan kurva tingkat bunga di bidang keuangan. Ini berarti bahwa Anda dapat membangun kombinasi linier variabel yang menjelaskan 80 varian dari semua variabel.


3

The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by

H(X)=p(x)logp(x)dx.

If we assume a multivariate Gaussian distribution for p(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber terima kasih atas sarannya, saya kira mungkin saya harus menulis ulang Gaussian sebagai "distribusi yang memaksimalkan entropi dengan varian"? maka hasilnya akan menjadi beberapa batas atas. Bagaimana menurut anda?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.