Baru-baru ini saya menulis entri di blog linkedin yang menyatakan Neyman Pearson lemma dengan kata-kata sederhana dan memberikan contoh. Saya menemukan contoh membuka mata dalam arti memberikan intuisi yang jelas pada lemma. Seperti sering dalam probabilitas, ini didasarkan pada fungsi massa probabilitas diskrit sehingga mudah dilakukan daripada ketika bekerja dengan pdf. Juga, pertimbangkan saya mendefinisikan rasio kemungkinan sebagai kemungkinan hipotesis alternatif vs hipotesis nol, bertentangan dengan pernyataan lemma Anda. Penjelasannya sama, tetapi lebih sedikit daripada sekarang lebih besar dari. Saya harap ini membantu ...
Anda yang bekerja dalam analisis data dan telah melalui beberapa kursus statistik mungkin telah mengenal Neyman-Pearson lemma (NP-lemma). Pesannya sederhana, demonstrasi tidak terlalu banyak tetapi yang selalu saya temukan sulit adalah untuk mendapatkan perasaan yang masuk akal tentang apa itu. Membaca sebuah buku berjudul "Kesalahan Umum dalam Statistik" oleh PIGood dan JWHardin saya mendapat penjelasan dan contoh yang membantu saya mendapatkan firasat tentang lemma NP yang selalu saya lewatkan.
Dalam bahasa yang tidak 100% sempurna secara matematis, yang dikatakan Neyman-Pearson adalah bahwa tes paling kuat yang dapat dilakukan untuk memvalidasi hipotesis yang diberikan dalam tingkat signifikansi tertentu diberikan oleh wilayah penolakan yang dibuat oleh semua pengamatan yang mungkin dilakukan dari tes ini dengan rasio kemungkinan di atas ambang tertentu ... woahhh! Siapa bilang itu mudah!
Tetap tenang dan dekonstruksi lemma:
- Hipotesis . Dalam statistik orang selalu bekerja dengan dua hipotesis bahwa tes statistik harus menolak atau tidak menolak. Ada hipotesis nol, yang tidak akan ditolak sampai bukti sampel yang menentangnya cukup kuat. Ada juga hipotesis alternatif, yang akan kita ambil jika nol tampaknya salah.
- Kekuatan tes (alias sensitivitas) memberi tahu kita proporsi waktu mana kita akan dengan benar menolak hipotesis nol ketika itu salah. Kami menginginkan tes yang kuat, sehingga sebagian besar waktu kami menolak hipotesis nol kami benar!
- Tingkat signifikansi dari suatu tes (alias false positive rate) memberi tahu kita proporsi waktu yang salah kita akan menolak hipotesis nol ketika itu benar. Kami ingin tingkat signifikansi kecil sehingga sebagian besar kali kami menolak hipotesis nol kami tidak salah!
- Wilayah penolakan , mengingat semua hasil yang mungkin dari pengujian, wilayah penolakan mencakup hasil-hasil yang akan membuat kita menolak hipotesis nol demi manfaat alternatifnya.
- Kemungkinan adalah probabilitas telah melihat hasil yang diamati dari tes mengingat bahwa hipotesis nol (Kemungkinan hipotesis nol) atau hipotesis alternatif (Kemungkinan hipotesis alternatif) benar.
- Rasio kemungkinan, adalah rasio dari hipotesis kemungkinan alternatif dibagi dengan hipotesis nol kemungkinan. Jika hasil tes sangat diharapkan jika hipotesis nol benar versus yang alternatif, rasio kemungkinan harus kecil.
Cukup definisi! (walaupun jika Anda melihatnya dengan cermat, Anda akan menyadari bahwa mereka sangat berwawasan!). Mari kita pergi ke apa yang dikatakan Neyman dan Pearson: jika Anda ingin memiliki uji statistik terbaik dari sudut pandang kekuatannya, cukup tentukan wilayah penolakan dengan memasukkan hasil tes yang memiliki rasio kemungkinan tertinggi, dan terus tambahkan lebih banyak tes hasil sampai Anda mencapai nilai tertentu untuk berapa kali tes Anda akan menolak hipotesis nol ketika itu benar (tingkat signifikansi).
Mari kita lihat contoh di mana semoga semuanya akan datang bersama. Contohnya berdasarkan buku yang disebutkan di atas. Itu sepenuhnya dibuat oleh saya sendiri sehingga tidak boleh dipandang mencerminkan kenyataan atau pendapat pribadi.
Bayangkan seseorang ingin menentukan apakah seseorang mendukung penetapan kuota imigrasi (hipotesis nol) atau tidak (hipotesis alternatif) dengan menanyakan perasaannya versus Uni Eropa.
Bayangkan kami tahu distribusi probabilitas yang sebenarnya untuk kedua jenis orang ini terkait dengan jawaban untuk pertanyaan kami:
Mari kita bayangkan kita bersedia menerima kesalahan positif palsu sebesar 30%, yaitu, 30% dari waktu kita akan menolak hipotesis nol dan menganggap orang yang diwawancarai menentang kuota ketika dia benar-benar untuk mereka. Bagaimana kita membuat tes?
Menurut Neyman dan Pearson pertama-tama kita akan mengambil hasilnya dengan rasio kemungkinan tertinggi. Ini adalah jawaban "sangat suka Uni Eropa" dengan rasio 3. Dengan hasil ini, jika kita menganggap seseorang menentang kuota ketika dia berkata dia "sangat menyukai Uni Eropa", 10% dari waktu kita akan menugaskan untuk kuota orang bertentangan (signifikansi). Namun kami hanya akan mengklasifikasikan dengan benar terhadap kuota orang 30% dari waktu (kekuasaan) karena tidak semua orang di grup ini memiliki pendapat yang sama tentang UE.
Ini tampaknya merupakan hasil yang buruk sejauh menyangkut kekuasaan. Namun, tes ini tidak membuat banyak kesalahan dalam kesalahan klasifikasi untuk kuota orang (signifikansi). Karena kita lebih fleksibel dalam hal signifikansi, mari kita cari hasil tes selanjutnya yang harus kita tambahkan ke kantong jawaban yang menolak hipotesis nol (wilayah penolakan).
Jawaban berikutnya dengan rasio kemungkinan tertinggi adalah "seperti UE". Jika kita menggunakan jawaban "sangat suka" dan "seperti" Uni Eropa sebagai hasil pengujian yang memungkinkan kita untuk menolak hipotesis nol seseorang menjadi kuota, kita akan melakukan kesalahan klasifikasi untuk kuota orang yang bukan 30% dari waktu (10% dari "sangat suka" dan 20% dari "suka") dan kami akan mengklasifikasikan dengan benar terhadap kuota orang 65% dari waktu (30% dari "sangat suka" dan 35% dari "suka"). Dalam jargon statistik: signifikansi kami meningkat dari 10% menjadi 30% (buruk!) Sementara kekuatan pengujian kami meningkat dari 30% menjadi 65% (baik!).
Ini adalah situasi yang dimiliki semua tes statistik. Tidak ada sesuatu seperti makan siang gratis bahkan dalam statistik! Jika Anda ingin meningkatkan kekuatan tes Anda, Anda melakukannya dengan mengorbankan peningkatan tingkat signifikansi. Atau dengan istilah yang lebih sederhana: Anda ingin mengklasifikasikan orang-orang baik dengan lebih baik, Anda akan melakukannya dengan mengorbankan lebih banyak orang jahat yang terlihat baik!
Pada dasarnya, sekarang kita selesai! Kami menciptakan tes paling kuat yang kami bisa dengan data yang diberikan dan tingkat signifikansi 30% dengan menggunakan label "sangat suka" dan "suka" untuk menentukan apakah seseorang menentang kuota ... apakah kami yakin?
Apa yang akan terjadi jika kita memasukkan langkah kedua setelah jawaban "sangat suka" dipilih, jawaban "acuh tak acuh" dan bukannya "suka"? Signifikansi tes akan sama dari sebelumnya pada 30%: 10% untuk kuota orang menjawab "benar-benar" suka dan 20% untuk kuota orang menjawab "tidak suka". Kedua tes akan sama buruknya dengan kesalahan klasifikasi untuk individu kuota. Namun, kekuatannya akan bertambah buruk! Dengan tes baru kami akan memiliki kekuatan 50%, bukan 65% yang kami miliki sebelumnya: 30% dari "sangat suka" dan 20% dari "acuh tak acuh". Dengan tes baru kami akan kurang akurat dalam mengidentifikasi terhadap individu kuota!
Siapa yang membantu di sini? Rasio kemungkinan Neyman-Orang ide luar biasa! Mengambil setiap kali jawaban dengan rasio kemungkinan tertinggi memastikan kami bahwa kami memasukkan dalam pengujian baru sebanyak mungkin kekuatan (pembilang besar) sambil menjaga signifikansi terkendali (penyebut kecil)!