Hitung nilai-p dalam bootstrap berpasangan

Saya menemukan kertas baru dari kelompok Berkeley NLP tentang pengujian statistik, Investigasi Empiris Signifikansi Statistik di NLP .

Ada pseudocode untuk menghitung nilai-p dalam makalah, pada dasarnya, idenya adalah bahwa set sampel disampel dengan penggantian dari data . Kemudian $x_1,x_2,...,x_N$ $x$

$\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ , di mana adalah gain metrik. $\delta(x_i)$

Saya bisa memahami rumus untuk menghitung nilai-p dalam makalah Koehn, uji signifikansi statistik untuk evaluasi terjemahan mesin , di mana:

$\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N$ , di mana dan adalah gain metrik untuk sistem dan masing-masing. $\delta_a$ $\delta_b$ $a$ $b$

Apakah ada penjelasan atau referensi untuk formula . Para penulis juga mencatat bahwa jika rata-rata adalah dan simetris, maka kedua rumus di atas sama. $\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ $\delta(x_i)$ $\delta(x)$ $\delta(x_i)$

hypothesis-testing bootstrap p-value

— Ke Tran
sumber

Sejauh yang saya mengerti dari melihat bagian 2, penulis tampaknya menjelaskan alasan mereka untuk tes bootstrap sebagai berikut-

"itu $x_i$ disampel dari $x$ , dan rata-rata mereka $\delta(x_i)$ tidak akan nol seperti tuntutan hipotesis nol; rata-rata sebaliknya akan ada $\delta(x)$ ... Solusinya adalah memusatkan kembali mean - kami ingin tahu seberapa sering $A$ tidak lebih dari $\delta(x)$ lebih baik dari yang diharapkan. Kami berharap bisa mengalahkannya $B$ oleh $\delta(x)$ . Karena itu, kami menghitung berapa $x_i$ memiliki $A$ mengalahkan $B$ setidaknya $\delta(x)$ . "

Penulis ingin menguji apakah keuntungannya bukan nol sehingga mereka menuliskan nilai-p sebagai $\delta(x_i) < 2\delta(x)$ , yang dapat ditulis ulang sebagai $0 < 2\delta(x) - \delta(x_i)$ ; karena $E[\delta(x_i)]=\delta(x)$ RHS dari ketimpangan kemudian menjadi $\delta(x)$ , yang merupakan $H_0$ mereka berusaha menolak.

— Sameer
sumber