Pengujian hipotesis dan total variasi jarak vs divergensi Kullback-Leibler

Dalam penelitian saya, saya telah mengalami masalah umum berikut: Saya memiliki dua distribusi dan di domain yang sama, dan sejumlah besar sampel (tetapi terbatas) dari distribusi tersebut. Sampel didistribusikan secara independen dan identik dari salah satu dari dua distribusi ini (meskipun distribusi mungkin terkait: misalnya, mungkin campuran dan beberapa distribusi lainnya.) Hipotesis nol adalah bahwa sampel berasal dari , hipotesis alternatif adalah bahwa sampel berasal dari . $P$ $Q$ $Q$ $P$ $P$ $Q$

Saya mencoba untuk mengkarakterisasi Tipe I dan Tipe kesalahan II dalam pengujian sampel, mengetahui distribusi dan . Terutama, saya tertarik berlari satu kesalahan diberikan yang lain, selain pengetahuan tentang dan . $P$ $Q$ $P$ $Q$

Saya telah mengajukan pertanyaan pada math.SE tentang hubungan jarak Variasi Total antara dan untuk pengujian hipotesis, dan menerima jawaban yang saya terima. Jawaban itu masuk akal, tetapi saya masih belum bisa membungkus pikiran saya di sekitar makna yang lebih dalam di balik hubungan Total Variation distance dan pengujian hipotesis yang berkaitan dengan masalah saya. Jadi, saya memutuskan untuk beralih ke forum ini. $P$ $Q$

Pertanyaan pertama saya adalah: apakah variasi total terikat pada jumlah probabilitas kesalahan Tipe I dan Tipe II terlepas dari metode pengujian hipotesis yang digunakan seseorang? Intinya, selama ada probabilitas bukan nol bahwa sampel dapat dihasilkan oleh salah satu distribusi, probabilitas setidaknya satu kesalahan harus bukan nol. Pada dasarnya, Anda tidak dapat melepaskan diri dari kemungkinan bahwa penguji hipotesis Anda akan membuat kesalahan, tidak peduli berapa banyak pemrosesan sinyal yang Anda lakukan. Dan Total Variasi membatasi kemungkinan itu. Apakah pemahaman saya benar?

Ada juga hubungan lain antara kesalahan Tipe I dan II dan distribusi probabilitas yang mendasari dan : divergensi KL . Dengan demikian, pertanyaan kedua saya adalah: apakah KL-divergence terikat hanya berlaku untuk satu metode pengujian hipotesis tertentu (tampaknya banyak muncul di sekitar metode rasio log-likelihood) atau dapatkah seseorang menerapkannya secara umum di semua metode pengujian hipotesis? Jika itu berlaku di semua metode pengujian hipotesis, daripada mengapa tampaknya sangat berbeda dari Total Variasi terikat? Apakah itu berperilaku berbeda? $P$ $Q$

Dan pertanyaan mendasar saya adalah: apakah ada serangkaian keadaan yang ditentukan ketika saya harus menggunakan salah satu ikatan, atau apakah itu murni masalah kenyamanan? Kapan hasil harus diperoleh dengan menggunakan satu ikatan dengan yang lain?

Saya minta maaf jika pertanyaan ini sepele. Saya seorang ilmuwan komputer (jadi ini sepertinya masalah pencocokan pola mewah bagi saya :).) Saya tahu teori informasi dengan cukup baik, dan memiliki latar belakang lulusan dalam teori probabilitas juga. Namun, saya baru mulai mempelajari semua hal pengujian hipotesis ini. Jika perlu, saya akan melakukan yang terbaik untuk mengklarifikasi pertanyaan saya.

— MBM
sumber

Jawaban:

Sastra: Sebagian besar jawaban yang Anda butuhkan tentu ada dalam buku karya Lehman dan Romano . Buku karya Ingster dan Suslina membahas topik-topik yang lebih maju dan mungkin memberi Anda jawaban tambahan.

Jawab: Namun, semuanya sangat sederhana: (atau ) adalah jarak "benar" untuk digunakan. Hal ini tidak nyaman untuk perhitungan formal (terutama dengan langkah-langkah produk, yaitu ketika Anda memiliki sampel iid ukuran ) dan jarak lainnya (yang batas atas dari ) dapat digunakan. Biarkan saya memberi Anda detailnya. $L_1$ $TV$ $n$ $L_1$

Pengembangan: Mari kita tandai dengan

$g_1(\alpha_0,P_1,P_0)$ kesalahan tipe II minimum dengan kesalahan tipe I untuk dan yang null dan alternatifnya. $\leq\alpha_0$ $P_0$ $P_1$
$g_2(t,P_1,P_0)$ jumlah minimal yang mungkin tipe I + tipe kesalahan II dengan dan nol dan alternatif. $t$ $(1-t)$ $P_0$ $P_1$

Ini adalah kesalahan minimal yang perlu Anda analisis. Persamaan (bukan batas bawah) diberikan oleh teorema 1 di bawah ini (dalam hal jarak (atau jarak TV jika Anda yang)). Ketidaksetaraan antara jarak dan jarak lainnya diberikan oleh Teorema 2 (perhatikan bahwa untuk membatasi kesalahan yang Anda butuhkan batas atas atau ). $L_1$ $L_1$ $L_1$ $TV$

Yang pasti akan digunakan kemudian adalah masalah kenyamanan karena seringkali lebih sulit untuk dihitung daripada Hellinger atau Kullback atau . Contoh utama dari perbedaan tersebut muncul ketika dan adalah ukuran produk yang muncul dalam kasus ketika Anda ingin menguji dibandingkan dengan ukuran sampel iid. Dalam hal ini dan yang lainnya diperoleh dengan mudah dari (sama untuk dan ) tetapi Anda tidak dapat melakukannya dengan ... $L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

Definisi: Afinitas antara dua ukuran dan didefinisikan sebagai . $A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

A_{1} (ν_{1}, ν_{0}) = \int min (d ν_{1}, d ν_{0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

Teorema 1 Jika(setengah dist TV), lalu $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

$2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$ .
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

Saya menulis buktinya di sini .

Teorema 2 Untuk distribusi probabilitas dan : $P_1$ $P_0$

\frac{1}{2} | P_{1} - P_{0} |_{1} \leq h (P_{1}, P_{0}) \leq \sqrt{K (P_{1}, P_{0})} \leq \sqrt{χ^{2} (P_{1}, P_{0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

Batas ini disebabkan oleh beberapa ahli statistik terkenal (LeCam, Pinsker, ...). adalah jarak Hellinger, divergensi KL dan divergensi chi-square. Mereka semua didefinisikan di sini . dan bukti batas-batas ini diberikan (hal-hal lebih lanjut dapat ditemukan dalam buku Tsybacov ). Ada juga sesuatu yang hampir merupakan batas bawah oleh Hellinger ... $h$ $K$ $\chi^2$ $L_1$

— robin girard
sumber

Terima kasih atas jawabannya, saya sekarang mencoba mencernanya. Dalam masalah saya, saya mengizinkan kesalahan Tipe I. Saya juga memiliki dua distribusi dan . Saya tahu bahwa TV di antara mereka (juga KL). Jadi, apa yang Anda katakan adalah bahwa TV memberikan batas bawah yang lebih ketat pada kesalahan Tipe II daripada KL, artinya saya harus menggunakan TV untuk analisis saya jika saya menginginkan seketat mungkin dari batas bawah?

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

Dan terima kasih atas saran buku Lehmann dan Romano, ini terlihat sangat membantu dan tidak terlalu berlebihan. Juga, perpustakaan saya memiliki salinan! :)

— MBM

@Bullmoose yang Teorema 1 katakan di sini adalah bahwa TV (atau L1) terkait dengan kesetaraan dengan yang terkait dengan kesetaraan ke g_2 atau g_1 (jumlah kesalahan minimum atau kesalahan tipe II dengan tipe I yang dikontrol). Tidak ada ketidaksetaraan di sini. Ketidaksetaraan terjadi ketika Anda harus beralih dari L1 ke Kullback.

A_{1}

$A_1$

— robin girard

Sayangnya, saya hanya memiliki latar belakang minimal dalam teori ukuran. Saya pikir saya agak mengerti apa itu dan , tapi saya tidak jelas tentang . Katakanlah saya memiliki dua distribusi Gaussian. TV (atau L1) di antara mereka adalah Tapi apa yang akan menjadi ? Dari definisi, sepertinya ...

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

— MBM

... tetapi bagaimana memetakan ini dari peluru pertama dalam teorema?

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

— MBM

Jawab pertanyaan pertama Anda: Ya, satu minus jarak variasi total adalah batas bawah jumlah tingkat kesalahan Tipe I + Tipe II. Batas bawah ini berlaku apa pun algoritma pengujian hipotesis yang Anda pilih.

Pembenaran: The jawaban yang Anda punya di Math.SE memberikan bukti standar fakta ini. Perbaiki tes hipotesis. Biarkan menunjukkan himpunan hasil di mana tes ini akan menolak hipotesis nol (himpunan seperti itu harus selalu ada). Kemudian perhitungan dalam jawaban Math.SE membuktikan batas bawah. $A$

(Sebenarnya, garis penalaran ini mengasumsikan bahwa uji hipotesis Anda adalah prosedur deterministik. Tetapi bahkan jika Anda mempertimbangkan prosedur acak, masih mungkin untuk menunjukkan bahwa ikatan yang sama masih berlaku.)

— DW
sumber