Bisakah Anda menggunakan tes Kolmogorov-Smirnov untuk langsung menguji kesetaraan dua distribusi?


8

Ada pembicaraan tentang pertanyaan lain tentang bagaimana seseorang dapat menggunakan pendekatan Two-Sided Tests (TOST) untuk tes Kolmogorov-Smirnov (KS), tetapi saya bertanya-tanya apakah mungkin untuk langsung menggunakan statistik uji untuk menunjukkan bahwa dua distribusi serupa?

Sejauh yang saya mengerti, statistik uji KS mewakili perbedaan terbesar antara dua CDF, dengan versi satu-sampel yang awalnya digunakan sebagai tes goodness-of-fit. Ini ditunjukkan dalam [1] ketika distribusi empiris melintasi di luar interval kepercayaan (yaitu, satu titik terlalu jauh dari distribusi hipotetis yang sedang mereka uji).

Jika versi dua sampel sering digunakan untuk menunjukkan bahwa dua distribusi secara signifikan berbeda satu sama lain, dengan cara yang mirip dengan versi satu sampel, dapatkah kita membalikkan perhitungan interval kepercayaan menggunakan untuk menggunakan , sebagai cara untuk menunjukkan bahwa perbedaan maksimum antara kedua distribusi secara signifikan serupa?(1α)=0.05(1α)=0.95

[1] Massey, F. "Tes Kolmogorov-Smirnov untuk kebaikan", Jurnal Asosiasi Statistik Amerika , vol. 46, tidak. 253, hlm. 68-78, Mar 1951

Jawaban:


3

Saat melakukan tes Kolmogorov-Smirnov, kami mengasumsikan kedua distribusi tersebut setara. Kami kemudian menghitung statistik uji dan, jika nilai- sesuai cukup kecil, kami menolak dan menyimpulkan kedua distribusi berbeda.H0:pH0HA:

Sejauh tes hipotesis berjalan, kami menggunakan nilai untuk mengkuantifikasi jumlah bukti yang kami miliki untuk menolak hipotesis nol. Nilai 1 menunjukkan bahwa kami tidak mengumpulkan bukti untuk menolak hipotesis nol. Nilai mendekati 0 mengindikasikan ada banyak bukti untuk menolak hipotesis nol.ppp

Mari kita asumsikan kita memiliki data dan menghitung nilai dari uji KS di mana Ini menunjukkan ada sangat sedikit bukti untuk menolak hipotesis nol. Namun, kami tidak dapat menetapkan standar sehingga menyiratkan bahwa kami menyimpulkan hipotesis nol benar. Lebih lanjut, saya tidak percaya ada tes alternatif yang akan memungkinkan kita untuk menyimpulkan bahwa kedua distribusi itu sama.pp=0.99.α=0.95p>α

Apa yang saya percaya dapat Anda lakukan adalah sepenuhnya jujur ​​dalam penulisan atau diskusi. Sebutkan bahwa Anda menjalankan tes KS, laporkan nilai- , dan jika nilai- cukup tinggi, maka jelaskan bahwa ada sedikit bukti yang menunjukkan bahwa kedua distribusi berbeda. Jadi, walaupun Anda tidak dapat menyimpulkan bahwa distribusinya identik, Anda harus dapat mencatat bahwa tidak ada bukti yang menunjukkan bahwa kedua distro tersebut berbeda. Sebagai ukuran sampel Anda meningkat, lebih percaya Anda akan memiliki dalam jawaban ini.ppn

Ini bukan jawaban yang mungkin Anda cari, tetapi itu juga bukan pencucian total. Semoga ini membantu!


(1/2) Saya mendapatkan bahwa kita tidak bisa hanya menggunakan nilai ap> 0,98 .. dll - yang saya ingin tahu adalah bahwa, jika tes KS sebenarnya mengukur jarak maksimum antara dua distribusi, maka rasanya seperti itu dalam posisi unik untuk melakukan pengujian kesetaraan secara langsung. Misalnya, jika statistik uji D = 0, maka tentunya kedua distribusi harus identik? Dan jika itu masalahnya, bagaimana dengan D <0,0001? Rasanya seperti harus ada titik kritis (seperti ketika p melintasi 0,05), di mana kita tidak bisa lagi memastikan bahwa mereka adalah distribusi yang sama, dan
jamesyjamesjames

(2/2) ... jadi dapat membalikkan kepalanya dan menggunakan 0 <D <0,05 (misalnya) untuk mengatakan bahwa kedua distribusi secara signifikan serupa.
jamesyjamesjames

1
Bahkan jika , kami tidak dapat menyimpulkan bahwa distribusinya identik. Kami hanya dapat menyimpulkan bahwa sampel kami tidak memberikan bukti terhadap pernyataan bahwa kedua distribusi tersebut sama. Mungkin sampel kami tidak termasuk pengamatan yang akan menunjukkan perbedaan dalam distribusi. Ini sama dengan semua tes hipotesis - statistik uji yang sesuai dengan nilai- 1 tidak memberikan bukti terhadap hipotesis nol tetapi tidak dapat secara definitif membuktikan bahwa hipotesis nol itu benar. Praktis berbicara, sebagai meningkat, Anda bisa menjadi lebih percaya diri bahwa ...D=0pn
Matt Brems

1
... distribusi identik tetapi Anda tidak dapat secara meyakinkan menetapkan fakta ini.
Matt Brems

2
Ah tentu saja - karena ini adalah ECDF. Ya itu masuk akal.
jamesyjamesjames
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.