Katakanlah saya memiliki dua atau lebih populasi sampel vektor bernilai kontinu n-dimensi. Apakah ada cara nonparametrik untuk menguji apakah sampel ini dari distribusi yang sama? Jika demikian, apakah ada fungsi dalam R atau python untuk ini?
Katakanlah saya memiliki dua atau lebih populasi sampel vektor bernilai kontinu n-dimensi. Apakah ada cara nonparametrik untuk menguji apakah sampel ini dari distribusi yang sama? Jika demikian, apakah ada fungsi dalam R atau python untuk ini?
Jawaban:
Saya baru saja melakukan banyak penelitian pada multivariat dua tes sampel ketika saya menyadari bahwa tes Kolmogorov-Smirnov bukan multivariat. Jadi saya melihat tes Chi, kriteria Hotelling's T ^ 2, Anderson-Darling, Cramer-von Mises, Shapiro-Wilk, dll. Anda harus berhati-hati karena beberapa tes ini bergantung pada vektor yang dibandingkan dengan yang sama. panjangnya. Lainnya hanya digunakan untuk menolak asumsi normalitas, bukan untuk membandingkan dua distribusi sampel.
Solusi utama tampaknya membandingkan fungsi distribusi kumulatif dua sampel dengan semua kemungkinan pemesanan yang, seperti yang Anda duga, sangat intensif secara komputasi, berdasarkan urutan menit untuk sekali pakai sampel yang berisi beberapa ribu catatan:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Seperti yang dinyatakan oleh dokumentasi Xiao, tes Fasano dan Franceschini adalah varian dari tes Peacock:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Tes Fasano dan Franceschini secara khusus dimaksudkan untuk tidak terlalu intensif secara komputasi, tetapi saya belum menemukan implementasi dari pekerjaan mereka di R.
Bagi Anda yang ingin menjelajahi aspek komputasi Peacock versus Fasano dan uji Franceschini, lihat Algoritma yang efisien secara komputasi untuk uji Kolmogorov-Smirnov dua dimensi
Paket R np (non-parametrik) memiliki tes untuk kesetaraan kepadatan data kontinu dan kategorikal menggunakan kepadatan kuadrat terintegrasi. Li, Maasoumi, dan Racine (2009)
Serta np pdf bersyarat di bagian 6 .
Ya, ada cara nonparametrik pengujian jika dua sampel multivariat berasal dari distribusi bersama yang sama. Saya akan menyebutkan detail tidak termasuk yang disebutkan oleh L Fischman . Masalah dasar yang Anda tanyakan dapat disebut sebagai 'Dua-Sampel-Masalah' dan sejumlah penelitian sedang berlangsung saat ini di jurnal seperti Journal of Machine Learning Research dan Annals of Statistics dan lainnya. Dengan sedikit pengetahuan saya tentang masalah ini, saya bisa memberikan arahan sebagai berikut
Jika minat Anda adalah untuk membandingkan berbagai set titik (set sampel) dengan set titik referensi, untuk melihat seberapa dekat mereka mendekati set titik referensi, Anda dapat menggunakan f-divergence .
Mungkin juga ada cara lain untuk didekati, jawaban ini sama sekali bukan perlakuan yang komprehensif terhadap pertanyaan Anda;)