Di bawah hipotesis nol bahwa distribusi adalah sama dan kedua sampel diperoleh secara acak dan independen dari distribusi umum, kita dapat menghitung ukuran semua tes 5×5 (deterministik) yang dapat dibuat dengan membandingkan satu nilai huruf dengan yang lainnya. Beberapa tes ini tampaknya memiliki kekuatan yang masuk akal untuk mendeteksi perbedaan dalam distribusi.
Analisis
Definisi asli dari ringkasan 5 buletin dari setiap urutan angka x1≤x2≤⋯≤xn adalah sebagai berikut [Tukey EDA 1977]:
Untuk sembarang angka m=(i+(i+1))/2 dalam {(1+2)/2,(2+3)/2,…,(n−1+n)/2} define xm=(xi+xi+1)/2.
Mari i¯=n+1−i .
Biarkan m=(n+1)/2 dan h=(⌊m⌋+1)/2.
The 5 Ringkasan-surat adalah himpunan {X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}. Elemen-elemennya masing-masing dikenal sebagai engsel minimum, engsel bawah, median, engsel atas, dan maksimum .
Misalnya, dalam batch data (−3,1,1,2,3,5,5,5,7,13,21) kita dapat menghitung bahwa n=12 , m=13/2 , dan h=7/2 , dari mana
X−H−MH+X+=−3,=x7/2=(x3+x4)/2=(1+2)/2=3/2,=x13/2=(x6+x7)/2=(5+5)/2=5,=x7/2¯¯¯¯¯¯¯¯=x19/2=(x9+x10)/2=(5+7)/2=6,=x12=21.
Engselnya dekat dengan (tetapi biasanya tidak persis sama dengan) kuartil. Jika kuartil digunakan, perhatikan bahwa secara umum mereka akan ditimbang berarti aritmatika dari dua statistik urutan dan dengan demikian akan berada dalam salah satu interval [xi,xi+1] mana i dapat ditentukan dari n dan algoritma yang digunakan untuk menghitung kuartil. Secara umum, ketika q berada dalam interval [i,i+1] Saya akan dengan longgar menulis xq untuk merujuk pada beberapa rata-rata tertimbang seperti xi danxi+1 .
Dengan dua kumpulan data (xi,i=1,…,n) dan (yj,j=1,…,m), ada dua ringkasan lima huruf yang terpisah. Kita dapat menguji hipotesis nol bahwa keduanya adalah sampel acak dari distribusi umum Fdengan membandingkan salah satu dari x filter xq dengan salah satu dari y filter yr . Sebagai contoh, kita dapat membandingkan engsel atas xke engsel bawah untuk melihat apakah x secara signifikan lebih kecil dari y . Ini mengarah ke pertanyaan yang pasti: bagaimana cara menghitung peluang ini,yxy
PrF(xq<yr).
Untuk pecahan dan r ini tidak mungkin tanpa mengetahui F . Namun, karena x q ≤ x ⌈ q ⌉ dan y ⌊ r ⌋ ≤ y r , maka fortioriqrFxq≤x⌈q⌉y⌊r⌋≤yr,
PrF(xq<yr)≤PrF(x⌈q⌉<y⌊r⌋).
Dengan demikian kita dapat memperoleh batas atas universal (tidak tergantung pada ) pada probabilitas yang diinginkan dengan menghitung probabilitas tangan kanan, yang membandingkan statistik pesanan individual. Pertanyaan umum di depan kita adalahF
Bagaimana peluang bahwa tertinggi n nilai-nilai akan kurang dari r th tertinggi m nilai-nilai yang diambil iid dari distribusi umum?qthnrthm
Bahkan ini tidak memiliki jawaban universal kecuali kita mengesampingkan kemungkinan bahwa probabilitas terlalu terkonsentrasi pada nilai-nilai individu: dengan kata lain, kita perlu mengasumsikan bahwa ikatan tidak mungkin. Ini berarti harus merupakan distribusi berkelanjutan. Meskipun ini adalah asumsi, ini adalah asumsi yang lemah dan tidak parametrik.F
Larutan
Distribusi tidak berperan dalam perhitungan, karena setelah menyatakan kembali semua nilai dengan menggunakan probabilitas transformasi F , kami memperoleh batch baruFF
X(F)=F(x1)≤F(x2)≤⋯≤F(xn)
dan
Y(F)=F(y1)≤F(y2)≤⋯≤F(ym).
Selain itu, ekspresi ulang ini monoton dan meningkat: ia mempertahankan ketertiban dan dengan demikian mempertahankan peristiwa Karena F kontinu, batch baru ini diambil dari distribusi Uniform [ 0 , 1 ] . Di bawah distribusi ini - dan menghilangkan " F " yang sekarang berlebihan dari notasi - kita dengan mudah menemukan bahwa x q memiliki distribusi Beta ( q , n + 1 - q ) = Beta ( q , ˉ q ) :xq<yr.F[0,1]Fxq(q,n+1−q)(q,q¯)
Pr(xq≤x)=n!(n−q)!(q−1)!∫x0tq−1(1−t)n−qdt.
Demikian pula distribusi adalah Beta ( r , m + 1 - r ) . Dengan melakukan integrasi ganda pada wilayah x q < y r kita dapat memperoleh probabilitas yang diinginkan,yr(r,m+1−r)xq<yr
Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
Karena semua nilai adalah integral, semua nilai Γ benar-benar hanya faktorial: Γ ( k ) = ( k - 1 ) ! = ( k - 1 ) ( k - 2 ) ⋯ ( 2 ) ( 1 ) untuk integral k ≥ 0.
Fungsi yang kurang dikenal 3 ˜ F 2 adalahn,m,q,rΓΓ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1)k≥0.3F~2regularized hypergeometric function. In this case it can be computed as a rather simple alternating sum of length n−q+1, normalized by some factorials:
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
O((n−q)2).
Pr(xq<yr)=1−Pr(yr<xq)
the new calculation scales as O((m−r)2), allowing us to pick the easier of the two sums if we wish. This will rarely be necessary, though, because 5-letter summaries tend to be used only for small batches, rarely exceeding n,m≈300.
Application
Suppose the two batches have sizes n=8 and m=12. The relevant order statistics for x and y are 1,3,5,7,8 and 1,3,6,9,12, respectively. Here is a table of the chance that xq<yr with q indexing the rows and r indexing the columns:
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
A simulation of 10,000 iid sample pairs from a standard Normal distribution gave results close to these.
To construct a one-sided test at size α, such as α=5%, to determine whether the x batch is significantly less than the y batch, look for values in this table close to or just under α. Good choices are at (q,r)=(3,1), where the chance is 0.0491, at (5,3) with a chance of 0.0521, and at (7,6) with a chance of 0.0542. Which one to use depends on your thoughts about the alternative hypothesis. For instance, the (3,1) test compares the lower hinge of x to the smallest value of y and finds a significant difference when that lower hinge is the smaller one. This test is sensitive to an extreme value of y; if there is some concern about outlying data, this might be a risky test to choose. On the other hand the test (7,6) compares the upper hinge of x to the median of y. This one is very robust to outlying values in the y batch and moderately robust to outliers in x. However, it compares middle values of x to middle values of y. Although this is probably a good comparison to make, it will not detect differences in the distributions that occur only in either tail.
Being able to compute these critical values analytically helps in selecting a test. Once one (or several) tests are identified, their power to detect changes is probably best evaluated through simulation. The power will depend heavily on how the distributions differ. To get a sense of whether these tests have any power at all, I conducted the (5,3) test with the yj drawn iid from a Normal(1,1) distribution: that is, its median was shifted by one standard deviation. In a simulation the test was significant 54.4% of the time: that is appreciable power for datasets this small.
Much more can be said, but all of it is routine stuff about conducting two-sided tests, how to assess effects sizes, and so on. The principal point has been demonstrated: given the 5-letter summaries (and sizes) of two batches of data, it is possible to construct reasonably powerful non-parametric tests to detect differences in their underlying populations and in many cases we might even have several choices of test to select from. The theory developed here has a broader application to comparing two populations by means of a appropriately selected order statistics from their samples (not just those approximating the letter summaries).
These results have other useful applications. For instance, a boxplot is a graphical depiction of a 5-letter summary. Thus, along with knowledge of the sample size shown by a boxplot, we have available a number of simple tests (based on comparing parts of one box and whisker to another one) to assess the significance of visually apparent differences in those plots.