Pertanyaan pemula:
Saya ingin menguji apakah dua set data diskrit berasal dari distribusi yang sama. Tes Kolmogorov-Smirnov disarankan kepada saya.
Conover ( Statistik Nonparametrik Praktis , 3d) tampaknya mengatakan bahwa Tes Kolmogorov-Smirnov dapat digunakan untuk tujuan ini, tetapi perilakunya "konservatif" dengan distribusi diskrit, dan saya tidak yakin apa artinya di sini.
Komentar DavidR pada pertanyaan lain mengatakan "... Anda masih dapat membuat tes level α berdasarkan statistik KS, tetapi Anda harus menemukan beberapa metode lain untuk mendapatkan nilai kritis, misalnya dengan simulasi."
Versi ks.test () dalam paket dgof R ( artikel , cran ) menambahkan beberapa kemampuan yang tidak ada dalam versi default ks.test () dalam paket statistik. Antara lain, dgof :: ks.test termasuk parameter ini:
simulate.p.value: logika yang menunjukkan apakah akan menghitung nilai-p oleh simulasi Monte Carlo, hanya untuk uji good-of-fit diskrit.
Apakah tujuan simulate.p.value = T untuk mencapai apa yang disarankan DavidR?
Bahkan jika ya, saya tidak yakin apakah saya benar-benar dapat menggunakan dgof :: ks.test untuk pengujian dua sampel. Sepertinya itu hanya menyediakan tes dua sampel untuk distribusi kontinu:
Jika y adalah numerik, uji dua sampel dari hipotesis nol yang dilakukan x dan y diambil dari distribusi kontinu yang sama dilakukan.
Atau, y dapat berupa string karakter yang menamai fungsi distribusi kontinu (kumulatif) (atau fungsi semacam itu), atau fungsi ecdf (atau objek class stepfun) yang memberikan distribusi diskrit. Dalam kasus ini, uji satu sampel dilakukan dari nol bahwa fungsi distribusi yang dihasilkan x adalah distribusi y ....
(Detail latar belakang: Tegasnya, distribusi saya yang mendasarinya adalah kontinu, tetapi data cenderung sangat dekat dengan beberapa poin. Setiap titik adalah hasil simulasi, dan merupakan rata-rata 10 atau 20 bilangan real antara -1 dan 1. Pada akhir simulasi, angka-angka itu hampir selalu sangat dekat dengan 0,9 atau -9. Dengan demikian klaster berarti di sekitar beberapa nilai, dan saya memperlakukan mereka sebagai diskrit. Simulasi ini kompleks, dan saya tidak punya alasan untuk berpikir bahwa data mengikuti distribusi yang terkenal.)
Nasihat?