Kolmogorov-Smirnov dua sampel -values


9

Saya menggunakan uji dua sampel Kolmogorov-Smirnov untuk membandingkan distribusi, dan saya perhatikan nilai- sering dilaporkan sebagai statistik uji. Bagaimana nilai- ini ditentukan? Saya tahu ini probabilitas mendapatkan hasil setidaknya sebesar yang diperoleh, tetapi bagaimana nilai- ini ditentukan mengingat ini adalah tes nonparametrik? Yaitu, kita tidak dapat mengasumsikan fluktuasi Gaussian dalam distribusi dan menghitung -value menggunakan -test.ppppt

Terima kasih!


5
Statistik Kolmogorov-Smirnov (lebih dari kelas distribusi variabel acak kontinu) bebas distribusi . Jadi, distribusi statistik uji tidak tergantung pada distribusi data yang mendasarinya (di bawah hipotesis nol).
kardinal

2
Poin @ Cardinal dibuat dalam komentar di entri Wikipedia . Perhatikan bahwa distribusi statistik uji adalah asimptotik (yaitu, valid ketika ukuran sampel yang lebih kecil itu sendiri besar); kemungkinan tidak tergantung pada distribusi yang mendasari umum untuk sampel kecil.
whuber

@whuber: Saya khawatir saya tidak begitu mengerti komentar Anda dan saya tidak ingin salah menafsirkannya. Tentu saja, distribusi dalam sampel hingga tidak akan persis sama dengan distribusi asimptotik, tetapi itu tidak mencegah statistik bebas distribusi untuk setiap ukuran sampel tetap (sungguh-sungguh karena ukurannya mungkin berbeda). [cont]n(n1,n2)
kardinal

5
@whuber: ... Biarkan dan menjadi urutan iid independen. Kemudiandan. Jadi, dengan asumsi yang disebutkan di atas bahwa dan adalah distribusi kontinu, di bawah hipotesis nol , kita melihat bahwasama dalam distribusi untuk statistik yang sama yang diperoleh dari dua sampel independen dengan ukuran yang sama. XiFYiGnF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}|nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|FGF=Gsup|F^n(x)G^n(x)|U(0,1)
kardinal

1
@whuber: Saya pikir ini adalah dua efek yang terpisah, tetapi agak berbeda. Dalam beberapa hal, kami menyukai asimptotik justru karena mereka (sering) memberi kami statistik bebas distribusi "dalam batas" (berdasarkan CLT). Jadi, fakta bahwa nilai dilaporkan tidak tergantung pada asumsi distribusi tidak terlalu luar biasa. Orang mungkin kemudian bertanya, apa gunanya statistik bebas distribusi jika saya tidak dapat (dengan mudah) menghitung distribusinya untuk ukuran sampel tertentu dan, sebaliknya, harus mengandalkan perkiraan asimptotik? Apa yang tampaknya diperoleh adalah versi konvergensi yang seragam. p
kardinal

Jawaban:


10

Di bawah hipotesis nol, distribusi asimtotik dari statistik dua sampel Kolmogorov-Smirnov adalah distribusi Kolmogorov, yang memiliki CDF

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

Nilai- dapat dihitung dari CDF ini - lihat Bagian 4 dan Bagian 2 dari halaman Wikipedia pada tes Kolmogorov – Smirnov.p

Anda tampaknya mengatakan bahwa statistik uji non-parametrik tidak boleh memiliki distribusi - bukan itu masalahnya - yang membuat tes ini non-parametrik adalah bahwa distribusi statistik uji tidak bergantung pada kemungkinan berkesinambungan distribusi data asli berasal dari. Perhatikan bahwa tes KS memiliki properti ini bahkan untuk sampel terbatas seperti yang ditunjukkan oleh @ cardinal dalam komentar.


3
(+1) Saya mungkin menyarankan sedikit perubahan pada kalimat terakhir Anda. Statistik uji bebas distribusi bahkan dalam sampel terbatas (meskipun tidak akan sama dengan distribusi asimptotik). Jadi, properti bebas distribusi ini yang membuat statistik uji nonparametrik. Perhatikan bahwa ada banyak contoh di mana distribusi asimptotik tidak tergantung pada distribusi kontinu yang mendasarinya (hanya berpikir tentang CLT), jadi, kecuali saya salah, saya tidak percaya itu fitur inti di sini. :)
kardinal

Saya membuat koreksi tetapi semakin saya memikirkannya, semakin saya bertanya-tanya bagaimana Anda tahu bahwa statistik itu benar-benar tidak bergantung pada distribusi asli data dalam sampel terbatas - dapatkah Anda mengatakan lebih lanjut tentang kartuinal ini?
Makro

Tentu. Lihat komentar keempat (yang ketiga saya) untuk pertanyaan di atas.
kardinal

Saya melihat! sangat keren dan sederhana - terima kasih kardinal
Makro

Tidak ada yang membahas distribusi dalam sampel kecil, di mana kita dapat langsung menghitung distribusi permutasi dari statistik. Jika kita memiliki label dan label kita bisa menuliskan semua perintah yang mungkin dari mereka (sesuai dengan nilai-nilai semua diatur dari terkecil hingga terbesar) dan hal itu memungkinkan untuk menghitung KS statistik dua sampel langsung dari itu. Dalam praktiknya algoritma untuk menemukan nilai-p dapat dibuat lebih canggih dari sekadar menuliskan semua kemungkinan (baik jumlah penghitungan tumbuh dengan cepat tetapi distribusi asimptotik masuk dengan cukup cepat)m Xn Y
Glen_b -Reinstate Monica

0

Nilai p, katakanlah 0,80, menyiratkan bahwa 80% sampel ukuran n sampel dari populasi, akan memiliki statistik D lebih kecil dari yang diperoleh dari tes. Ini dihitung berdasarkan statistik D uji KS, yang mengukur jarak maksimum antara CDF dari distribusi teoritis dan empiris, untuk distribusi yang diberikan terhadap sampel yang dievaluasi.

Perhatikan bahwa hanya nilai D * SQRT (ukuran sampel) yang memiliki distribusi kolmogrov dan bukan D itu sendiri. Jika Anda ingin menghitung nilai p yang diberikan nilai D secara manual, Anda dapat merujuk tabel yang diterbitkan yang tersedia di internet untuk distribusi kolomogrov. Ini juga nilai yang diberikan dalam paket seperti R


Ini bukan jawaban yang dijelaskan dengan jelas.
Michael R. Chernick

Ini adalah kelanjutan dari jawaban sebelumnya yang diposting oleh Makro di atas. Tidak seperti apa yang diyakini banyak orang, nilai p yang dihitung oleh paket R sempurna. Ini berarti jika Anda mengambil setiap sampel dengan ukuran yang mungkin dari populasi dan membandingkannya dengan distribusi teoretis, nilai [jarak maksimum D * SQRT (ukuran sampel)] yang dihitung terhadap setiap sampel, akan memiliki distribusi kolomogrov. Untuk D-statistik tertentu, paket R memberikan nilai probabilitas bahwa sampel dari perbedaan yang diberikan adalah milik populasi teoretis, 0,8 berarti hanya 20% yang akan memiliki D lebih tinggi
Murugesan Narayanaswamy
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.