Mengapa statistik p-value dan ks-test menurun dengan meningkatnya ukuran sampel? Ambil kode Python ini sebagai contoh:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Hasilnya adalah:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Secara intuitif saya mengerti bahwa ketika n tumbuh, tes ini "lebih yakin" kedua distribusi berbeda. Tetapi jika ukuran sampel sangat besar, apa gunanya tes kesamaan seperti ini dan mengatakan uji Anderson Darling, atau uji-t, karena dalam kasus seperti itu ketika n sangat besar, distribusi akan selalu ditemukan sebagai "signifikan" berbeda !? Sekarang saya bertanya-tanya apa gunanya nilai-p. Itu sangat tergantung pada ukuran sampel ... jika p> 0,05 dan Anda ingin lebih rendah, dapatkan lebih banyak data; dan jika p <0,05 dan Anda ingin menjadi lebih tinggi, cukup hapus beberapa data.
Juga, jika dua distribusi itu identik, statistik uji ks akan menjadi 0 dan nilai p 1. Namun dalam contoh saya, ketika n meningkatkan statistik uji ks, distribusi menjadi lebih dan lebih mirip dengan waktu (berkurang) , tetapi menurut nilai-p mereka menjadi lebih dan berbeda dengan waktu (juga berkurang).