Saat ini saya melihat beberapa data yang dihasilkan oleh simulasi MC yang saya tulis - saya berharap nilai-nilai akan terdistribusi secara normal. Secara alami saya merencanakan histogram dan itu terlihat masuk akal (saya kira?):
[Kiri atas: histogram dengan dist.pdf()
, kanan atas: histogram kumulatif dengan dist.cdf()
, bawah: plot QQ, data
vs dist
]
Kemudian saya memutuskan untuk melihat lebih dalam tentang ini dengan beberapa tes statistik. (Catat itu dist = stats.norm(loc=np.mean(data), scale=np.std(data))
.) Apa yang saya lakukan dan output yang saya dapatkan adalah sebagai berikut:
Tes Kolmogorov-Smirnov:
scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536)
Tes Shapiro-Wilk:
scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value.
QQ-plot:
stats.probplot(dat, dist=dist)
Kesimpulan saya dari ini adalah:
dengan melihat histogram dan histogram kumulatif, saya pasti akan menganggap distribusi normal
hal yang sama berlaku setelah melihat plot QQ (apakah pernah jauh lebih baik?)
tes KS mengatakan: 'ya ini distribusi normal'
Kebingungan saya adalah: tes SW mengatakan tidak terdistribusi secara normal (nilai-p jauh lebih kecil dari signifikansi alpha=0.05
, dan hipotesis awal adalah distribusi normal). Saya tidak mengerti ini, apakah ada yang punya interpretasi yang lebih baik? Apakah saya mengacau di beberapa titik?
args
argumen untuk mengungkapkan apakah parameter berasal dari data atau tidak. Dokumentasinya tidak jelas , tetapi kurangnya penyebutan perbedaan ini sangat menunjukkan bahwa ia tidak melakukan tes Lilliefors. Pengujian itu dijelaskan, dengan contoh kode, di stackoverflow.com/a/22135929/844723 .