Kami telah menerapkan beberapa jenis pengujian hipotesis statistik, salah satunya adalah uji model chi square cocok - uji chi square dari jumlah sampel dalam sampah ditentukan dari CDF terbalik dari distribusi probabilitas yang diberikan. Jadi misalnya, untuk menguji pembuatan sampel distribusi Cauchy, saya menjalankan sesuatu seperti
with(Statistics):
infolevel[Statistics] := 1:
distribution := CauchyDistribution(2, 3):
sample := Sample(distribution, 10^6):
ChiSquareSuitableModelTest(sample, distribution, 'bins' = 100, 'level' = 0.001);
Karena saya dapat menghasilkan sampel sebesar yang saya inginkan, saya dapat membuat cukup kecil.α
Untuk distribusi dengan momen yang terbatas, saya menghitung di satu sisi sejumlah momen sampel, dan di sisi lain, saya secara simbolis menghitung momen distribusi yang sesuai dan kesalahan standar mereka. Jadi untuk mis. Distribusi beta:
with(Statistics):
distribution := BetaDistribution(2, 3):
distributionMoments := Moment~(distribution, [seq(1 .. 10)]);
standardErrors := StandardError[10^6]~(Moment, distribution, [seq(1..10)]);
evalf(distributionMoments /~ standardErrors);
Ini menunjukkan daftar angka yang menurun, yang terakhir adalah 255.1085766. Jadi bahkan untuk momen ke-10, nilai momen lebih dari 250 kali nilai kesalahan standar momen sampel untuk sampel berukuran . Ini berarti saya dapat menerapkan tes yang berjalan kurang lebih sebagai berikut:106
with(Statistics):
sample := Sample(BetaDistribution(2, 3), 10^6):
sampleMoments := map2(Moment, sample, [seq(1 .. 10)]);
distributionMoments := [2/5, 1/5, 4/35, 1/14, 1/21, 1/30, 4/165, 1/55, 2/143, 1/91];
standardErrors :=
[1/5000, 1/70000*154^(1/2), 1/210000*894^(1/2), 1/770000*7755^(1/2),
1/54600*26^(1/2), 1/210000*266^(1/2), 7/5610000*2771^(1/2),
1/1567500*7809^(1/2), 3/5005000*6685^(1/2), 1/9209200*157366^(1/2)];
deviations := abs~(sampleMoments - distributionMoments) /~ standardErrors;
Angka-angka masuk distributionMoments
dan standardErrors
berasal dari jalankan pertama di atas. Sekarang jika generasi sampel sudah benar, angka dalam penyimpangan harus relatif kecil. Saya berasumsi mereka kira-kira terdistribusi normal (yang sebenarnya tidak, tetapi cukup dekat - ingat ini adalah versi skala saat sampel, bukan sampel itu sendiri) dan dengan demikian saya dapat, misalnya, menandai kasus di mana penyimpangan adalah lebih besar dari 4 - sesuai dengan momen sampel yang menyimpang lebih dari empat kali kesalahan standar dari momen distribusi. Ini sangat tidak mungkin terjadi secara acak jika generasi sampel baik. Di sisi lain, jika 10 momen sampel pertama cocok dengan momen distribusi hingga kurang dari setengah persen, kami memiliki perkiraan distribusi yang cukup baik.