Saya menemukan kertas baru dari kelompok Berkeley NLP tentang pengujian statistik, Investigasi Empiris Signifikansi Statistik di NLP .
Ada pseudocode untuk menghitung nilai-p dalam makalah, pada dasarnya, idenya adalah bahwa set sampel disampel dengan penggantian dari data . Kemudian
, di mana adalah gain metrik.
Saya bisa memahami rumus untuk menghitung nilai-p dalam makalah Koehn, uji signifikansi statistik untuk evaluasi terjemahan mesin , di mana:
, di mana dan adalah gain metrik untuk sistem dan masing-masing.
Apakah ada penjelasan atau referensi untuk formula . Para penulis juga mencatat bahwa jika rata-rata adalah dan simetris, maka kedua rumus di atas sama.