Distribusi jarak pengamatan tingkat Mahalanobis


23

Jika saya memiliki sampel iid multivariat normal , dan tentukan (yang merupakan semacam jarak Mahalanobis [kuadrat] dari titik sampel ke vektor menggunakan matriks untuk menentukan bobot), berapakah distribusi (jarak Mahalanobis ke sampel mean menggunakan sampel kovarians matriks )?d 2 i ( b , A ) = ( X i - b ) A - 1 ( X i - b ) a A d 2 i ( ˉ X , S ) ˉ X SX1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA di2(X¯,S)X¯S

Saya melihat sebuah makalah yang mengklaim itu adalah , tapi ini jelas salah: akan diperoleh untuk menggunakan vektor mean populasi (tidak diketahui) rata-rata dan matriks kovarians. Ketika analog sampel dicolokkan, seseorang harus mendapatkan distribusi Hotelling , atau distribusi berskala , atau sesuatu seperti itu, tetapi bukan . Saya tidak dapat menemukan hasil yang pasti di Muirhead (2005) , atau di Anderson (2003) , atau di Mardia, Kent dan Bibby (1979, 2003)χp2χp2di2(μ,Σ)T 2F()χp2. Rupanya, orang-orang ini tidak repot dengan diagnosa outlier, karena distribusi normal multivariat sempurna dan mudah diperoleh setiap kali seseorang mengumpulkan data multivarian: - /.

Segalanya mungkin lebih rumit dari itu. Hasil distribusi Hotelling didasarkan pada asumsi independensi antara bagian vektor dan bagian matriks; kemerdekaan seperti berlaku untuk dan , tetapi tidak lagi berlaku untuk dan .T 2X¯SXiS


Dalam definisi , apakah Anda masih melihat sebagai variabel acak atau apakah Anda sekarang memperlakukannya sebagai vektor tetap? Termasuk subskrip menyarankan yang terakhir, tapi itu agak aneh. X idsaya2Xsaya
whuber

1
Hanya sedikit off-the-manset catatan, tapi pemberitahuan bahwa adalah tambahan sehubungan dengan μ dan Σ i d 2 i ( ˉ X , S ) adalah sama dengan konstan tetap (harus n - p , atau serupa, saya pikir) hampir pasti. Xsaya-X¯μsayadsaya2(X¯,S)n-hal
kardinal

1
@whuber - mungkin untuk menekankan bahwa itu dihitung menggunakan pengamatan dari sampel, bukan pengamatan baru?
jbowman

1
@whuber, kira-kira sesuai dengan apa yang dikatakan jbowman - untuk menunjukkan bahwa ini adalah statistik tingkat observasi (berbeda dengan statistik tingkat sampel, seperti rata-rata sampel).
Tugas

1
Distribusi adalah beta, n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) B ( p / 2 , ( n - p - 1 ) / 2 ) , tapi saya masih mencari distribusi d 2 i ( μ , S )dsaya2(X¯,S)n/(n-1)2dsaya2(X¯,S)B(hal/2,(n-hal-1)/2)dsaya2(μ,S). Distribusi dari 's tidak independen. dsaya2

Jawaban:


18

Lihatlah Pemodelan Campuran Gaussian dengan Memanfaatkan Jarak Mahalanobis ( tautan alternatif ). Lihat halaman no 13, kolom kedua. Penulis juga memberikan beberapa bukti juga untuk mendapatkan distribusi. Distribusi ini berskala beta. Tolong beri tahu saya jika ini tidak berhasil untuk Anda. Kalau tidak, saya bisa memeriksa petunjuk apa pun di buku SS Wilks besok.


4
Jawaban yang diberikan di koran adalah: . Terima kasih! n(n-1)2dsaya2(X¯,S)B(hal2,n-hal-12)
Tugas

9

Ada 3 distribusi yang relevan. Sebagaimana dicatat, jika parameter populasi yang sebenarnya digunakan maka distribusinya adalah chi-kuadrat dengan . Ini juga merupakan distribusi asimptotik dengan estimasi parameter dan ukuran sampel yang besar.df=hal

Jawaban lain memberikan distribusi yang benar untuk situasi yang paling umum, dengan parameter estimasi ketika pengamatan itu sendiri merupakan bagian dari set estimasi:

n(d2)(n-1)2BetSebuah(hal2,(n-hal-1)2).
xsaya
(nd2(n-hal)(hal(n-1)(n+1))F(hal,n-hal)

L.SEBUAHTEX

dapatkah Anda memberikan referensi untuk rumus F?
eyaler

1
satu rujukan terkait, bagian 3 dalam Hardin, Johanna, dan David M. Rocke. 2005. "Distribusi Jarak Kuat." Jurnal Statistik Komputasi dan Grafik 14 (4): 928-46. doi: 10.1198 / 106186005X77685.
Josef
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.