(Jawaban di bawah ini hanya memperkenalkan dan menyatakan teorema yang dibuktikan dalam [0]. Keindahan dalam makalah ini adalah bahwa sebagian besar argumen dibuat dalam bentuk aljabar linier dasar. Untuk menjawab pertanyaan ini cukup untuk menyatakan hasil utama tetapi maksudnya, periksa sumber aslinya).
Dalam situasi apa pun di mana pola multivarian data dapat dijelaskan oleh distribusi elips variate, inferensi statistik akan, menurut definisi, mengurangi masalah pemasangan (dan karakterisasi) vektor lokasi variat k (katakan θ ) dan oleh matriks pasti semi-positif simetris (katakanlah ) ke data. Untuk alasan yang saya jelaskan di bawah ini (tetapi yang sudah Anda anggap sebagai premis), seringkali akan lebih bermakna untuk menguraikan menjadi komponen bentuk (matriks SPSD dengan ukuran yang sama dengankkθk Σ Σ Σ σ SkkΣΣΣ) menghitung bentuk kontur kepadatan distribusi multivarian Anda dan skalar menyatakan skala kontur ini.σS
Dalam data univariat ( ), , matriks kovarian data Anda adalah skalar dan, seperti yang akan diikuti dari diskusi di bawah ini, komponen bentuk Σ adalah 1 sehingga sama dengan komponen skalanya selalu dan tidak ada ambiguitas yang mungkin.k=1Σ Σ = σ SΣΣΣΣ=σS
Dalam data multivarian, banyak pilihan fungsi penskalaan dimungkinkan. Satu khususnya ( ) menonjol karena memiliki kepatutan yang diinginkan. Ini harus menjadikannya pilihan faktor penskalaan dalam konteks keluarga elips.σ S = | ΣσSσS=|ΣΣ|1/k
Banyak masalah dalam statistik MV melibatkan estimasi matriks pencar, yang didefinisikan sebagai fungsi (al)
simetris semi positif pasti dalam dan memuaskan:R k × kΣRk×k
A b
(0)Σ(AX+b)=AΣ(X)A⊤
(untuk matriks non singular dan vektor ). Misalnya estimasi klasik kovarians memenuhi (0) tetapi tidak berarti satu-satunya.
Ab
Di hadapan data terdistribusi elips, di mana semua kontur kerapatan adalah elips yang didefinisikan oleh matriks bentuk yang sama, hingga penggandaan oleh skalar, adalah wajar untuk mempertimbangkan versi normal dari dalam bentuk:Σ
VS=Σ/S(Σ)
di mana adalah fungsi 1-honogen yang memuaskan:S
(1)S(λΣ)=λS(Σ)
untuk semua . Kemudian, disebut komponen bentuk dari matriks pencar (dalam bentuk matriks pendek) dan disebut komponen skala dari matriks pencar. Contoh masalah estimasi multivariat di mana fungsi kerugian hanya bergantung pada melalui komponen bentuknya termasuk tes kebulatan, PCA dan CCA.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0VSσS=S1/2(Σ)ΣVS
Tentu saja, ada banyak fungsi penskalaan yang mungkin jadi ini masih menyisakan pertanyaan apa (jika ada) dari beberapa pilihan fungsi normalisasi dalam beberapa hal optimal. Sebagai contoh:S
- (misalnya yang diusulkan oleh @amoeba dalam komentarnya di bawah pertanyaan OP. Lihat juga [1], [2], [3])S=tr(Σ)/k
- ([4], [5], [6], [7], [8])S=|Σ|1/k
- (entri pertama dari matriks kovarians)Σ11
- (nilai eigen pertama Σ )λ1(Σ)Σ
Namun, adalah satu-satunya fungsi penskalaan di mana matriks Informasi Fisher untuk estimasi skala dan bentuk yang sesuai, dalam keluarga normal asimptotik, adalah blok diagonal (yaitu komponen skala dan bentuk dari masalah estimasi adalah ortogonal asimptotik) [0 ] Ini berarti, antara lain, bahwa skala fungsional S = | Σ | 1 / k adalah satu-satunya pilihan S yang spesifikasi non σ S tidak menyebabkan hilangnya efisiensi saat melakukan inferensi pada V S .S=|Σ|1/kS=|Σ|1/kSσSVS
Saya tidak tahu adanya karakterisasi optimalitas yang sebanding kuat untuk salah satu dari banyak pilihan yang mungkin memuaskan (1).S
- [0] Paindaveine, D., Definisi bentuk kanonik, Statistik & Kemungkinan Surat, Volume 78, Edisi 14, 1 Oktober 2008, Halaman 2240-2247. Tautan tidak digabungkan
- [1] Dumbgen, L. (1998). Pada M-fungsional dari sebaran di dimensi tinggi, Ann. Inst. Statist. Matematika 50, 471–491.
- [2] Ollila, E., TP Hettmansperger, dan H. Oja (2004). Affine metode tanda multivariat ekuivalen. Pracetak, Universitas Jyvaskyla.
- [3] Tyler, DE (1983). Sifat robust dan efisiensi dari matriks pencar, Biometrika 70, 411-420.
- [4] Dumbgen, L., dan DE Tyler (2005). Pada sifat rincian beberapa M-Fungsional multivarian, Skand. J. Statist. 32, 247–264.
- [5] Hallin, M. dan D. Paindaveine (2008). Tes berbasis peringkat optimal untuk homogenitas pencar, Ann. Statist., Muncul.
- [6] Salibian-Barrera, M., S. Van Aelst, dan G. Willems (200 6). Analisis komponen utama berdasarkan multivariat MM-estimator dengan bootstrap yang cepat dan kuat, J. Amer. Statist. Assoc. 101, 1198–1211.
- [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila, dan H. O ja (2006). Fungsi pengaruh dan efisiensi korelasi kanonik dan estimasi vektor berdasarkan matriks sebaran dan bentuk, J. Multivariate Anal. 97, 359-384.
- [8] Tatsuoka, KS, dan DE Tyler (2000). Tentang keunikan S-Fungsional dan M-fungsional di bawah distribusi non elips, Ann. Statist. 28, 1219-1243.