Mengapa seseorang tidak dapat menggeneralisasi tes Kolmogorov-Smirnov ke 2 atau lebih dimensi?


9

Pertanyaannya mengatakan itu semua. Saya telah membaca keduanya bahwa seseorang tidak dapat menggeneralisasi KS ke dimensi yang sama atau lebih besar dari dua , dan bahwa implementasi terkenal seperti itu dalam Numerical Recipes benar -benar salah. Bisakah Anda jelaskan mengapa demikian?


Saya menambahkan beberapa tag (bivariat, empiris, dan cdf), berdasarkan bagian yang dikutip (dalam jawaban saya) dari makalah ini.
Glen_b -Reinstate Monica

pedrofigueira - Saya telah membuat perubahan besar pada jawaban saya (sumber asli saya salah; maaf soal itu). Saya kemungkinan akan melakukan lebih banyak pengeditan karena saya bermaksud untuk kembali dengan referensi ke beberapa tes KS multivarian.
Glen_b -Reinstate Monica

@Glen_b terima kasih banyak atas semua waktu dan usaha Anda!
pedrofigueira

Jawaban:


13

Saya yakin sah mengutip bagian yang relevan dari paragraf yang dimaksud:

3. Tes KS tidak dapat diterapkan dalam dua dimensi atau lebih. Para astronom sering memiliki dataset dengan titik-titik yang terdistribusi dalam sebuah pesawat atau dimensi yang lebih tinggi, daripada sepanjang garis. Beberapa makalah dalam literatur astronomi mengaku menyajikan uji KS dua dimensi, dan satu direproduksi dalam Volume Numerical Recipes yang terkenal. Namun, tidak ada tes berbasis EDF (ini termasuk KS, AD dan tes terkait) dapat diterapkan dalam dua dimensi atau lebih tinggi, karena tidak ada cara unik untuk memesan titik sehingga jarak antara EDF yang terdefinisi dengan baik dapat dihitung. Seseorang dapat membangun statistik berdasarkan pada beberapa prosedur pemesanan, dan kemudian menghitung jarak supremum antara dua dataset (atau satu dataset dan kurva). Tetapi nilai-nilai kritis dari statistik yang dihasilkan tidak bebas distribusi.

Seperti yang dinyatakan, ini sepertinya terlalu kuat.

1) Fungsi distribusi bivariat, yaitu adalah peta dari hingga . Yaitu, fungsi mengambil nilai univariat nyata antara 0 dan 1. Nilai-nilai itu - yang menjadi probabilitas - sudah "dipesan" - dan ini (nilai fungsi) adalah hal yang perlu kita buat perbandingan untuk pengujian berbasis ECDF . Demikian pula, ecdf, didefinisikan dengan sangat baik dalam kasus bivariat.F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

Saya tidak berpikir ada kebutuhan untuk mencoba mengubahnya menjadi beberapa fungsi dari variabel gabungan univariat seperti yang disarankan oleh teks. Anda cukup menghitung dan pada setiap kombinasi yang diperlukan dan menghitung perbedaannya.FF^

2) Namun, pada pertanyaan apakah bebas distribusi, mereka ada benarnya:

a) dengan jelas statistik uji seperti itu tidak akan diubah oleh perubahan transformasi margin, yang dapat dikatakan, jika dikonstruksikan sebagai uji seragam independen bivariat, , maka ia berfungsi sama serta pengujian independen mana . Dalam pengertian itu, ini bebas distribusi (kita dapat mengatakan 'bebas margin').U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) namun, ada poin mendasar yang lebih umum dalam arti yang lebih luas bahwa versi statistik KS yang naif (seperti yang baru saja saya jelaskan) tidak lebih bebas distribusi secara umum; kita tidak bisa begitu saja mengubah sewenang-wenang .X = g ( U )UX=g(U)

Dalam versi jawaban saya sebelumnya saya katakan:

Tidak ada kesulitan, tidak ada masalah

Itu salah. Memang ada masalah jika ada perubahan tidak hanya dari margin dari seragam independen bivariat, seperti yang baru saja disebutkan. Namun, kesulitan-kesulitan itu telah dipertimbangkan dalam beberapa cara di sejumlah makalah yang menghasilkan versi bivariat / multivariat dari statistik Kolmogorov-Smirnov yang tidak menderita masalah itu.

Saya dapat kembali dan menambahkan beberapa referensi dan diskusi tentang cara kerjanya begitu waktu mengizinkan.


Jawaban ini jelas benar, tetapi waspadalah: bahwa tes KS dapat digunakan, tidak berarti harus digunakan. Biasanya ada tes yang jauh lebih baik (lebih kuat).
kjetil b halvorsen

Tentu saja - meskipun itu tergantung pada alternatif apa yang menarik.
Glen_b -Reinstate Monica

1
Saya tidak sepenuhnya mengerti jawaban ini. Saya membayangkan banyak dataset astronomi (dan juga banyak dataset kecil lainnya) tidak datang dengan sistem koordinat yang secara intrinsik bermakna. Dengan demikian, klaim Anda bahwa poin sudah "dipesan" akan tidak valid dalam keadaan seperti itu. Itu bisa diselamatkan jika Anda dapat menunjukkan bahwa statistik KS tidak tergantung pada koordinat yang digunakan untuk mengidentifikasi lokasi . Saya tidak berpikir itu benar dalam dua dimensi atau lebih, tetapi saya bisa saja salah.
whuber

1
@whuber Saya telah membuat perubahan besar mengingat respons Anda yang sangat baik terhadap kesalahan saya. Saya kemungkinan akan membuat perubahan lebih lanjut karena saya menambahkan referensi dan lebih banyak detail dengan harapan membuat jawaban yang akan lebih berguna dalam jangka panjang.
Glen_b -Reinstate Monica

(+1) Terima kasih banyak, Glen, untuk memperluas balasan ini dan membuatnya lebih bernuansa. Meskipun saya menemukan referensi OP tentang kualitas yang meragukan (pada awalnya ia salah mengartikan apa yang dimaksud tes hipotesis), akhirnya mengakui bahwa "bootstrap dapat menyelamatkan, dan tingkat signifikansi untuk statistik multidimensi tertentu dan dataset tertentu yang diteliti dapat menjadi dihitung secara numerik. " Ini tampaknya selaras, setidaknya dalam semangat, dengan bagaimana jawaban Anda terbentuk.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.