Karena komentar Anda, saya akan membuat dua bagian terpisah:
nilai-p
Dalam pengujian hipotesis statistik, Anda dapat menemukan 'bukti statistik' untuk hipotesis alternatif ; Seperti yang saya jelaskan dalam Apa yang terjadi jika kita gagal menolak hipotesis nol? , ini mirip dengan 'bukti oleh kontradiksi' dalam matematika.
Jadi jika kita ingin menemukan 'bukti statistik' maka kita mengasumsikan sebaliknya, yang kami tunjukkan dari apa yang kami coba buktikan yang kami sebut . Setelah ini kami mengambil sampel, dan dari sampel kami menghitung apa yang disebut uji statistik (misalnya nilai-t dalam uji-t).H0H1
Kemudian, ketika kita mengasumsikan bahwa benar dan bahwa sampel kita diambil secara acak dari distribusi di bawah , kita dapat menghitung probabilitas mengamati nilai yang melebihi atau sama dengan nilai yang diperoleh dari sampel (acak) kami. Probabilitas ini disebut nilai-p.H0H0
Jika nilai ini 'cukup kecil', yaitu lebih kecil dari tingkat signifikansi yang telah kami pilih, maka kami menolak dan kami menganggap adalah 'terbukti secara statistik'.H0H1
Beberapa hal penting dalam cara melakukan ini:
- kami telah memperoleh probabilitas dengan asumsi bahwa benarH0
- kami telah mengambil sampel acak dari distrubtion yang diasumsikan di bawahH0
- kami memutuskan untuk menemukan bukti untuk jika statistik uji yang berasal dari sampel acak memiliki probabilitas rendah terlampaui. Jadi bukan tidak mungkin itu terlampaui ketika benar dan dalam kasus ini kita membuat kesalahan tipe I. H1H0
Jadi apa yang dimaksud dengan kesalahan tipe I: kesalahan tipe I dibuat ketika sampel, yang diambil secara acak dari , mengarah pada kesimpulan bahwa salah sedangkan kenyataannya itu benar.H0H0
Catatan bahwa ini menyiratkan bahwa p-value tidak probabilitas kesalahan tipe I . Memang, kesalahan tipe I adalah keputusan yang salah oleh tes dan keputusan hanya dapat dibuat dengan membandingkan nilai-p dengan tingkat signifikansi yang dipilih, dengan nilai-p saja orang tidak dapat membuat keputusan, hanya setelah membandingkan nilai p ke tingkat signifikansi yang dipilih bahwa suatu keputusan dibuat , dan selama tidak ada keputusan yang dibuat, kesalahan tipe I bahkan tidak didefinisikan.
Lalu apa nilai-p? Penolakan berpotensi salah adalah karena kita mengambil sampel acak di bawah , jadi bisa jadi kita memiliki 'nasib buruk' dengan menggambar sampel, dan bahwa 'nasib buruk' ini mengarah ke penolakan salah . Jadi nilai-p (meskipun ini tidak sepenuhnya benar) lebih seperti probabilitas menggambar '' sampel buruk ''. Interpretasi yang benar dari nilai-p adalah bahwa itu adalah probabilitas bahwa uji-statistik melebihi atau sama dengan nilai uji-statistik yang berasal dari sampel yang diambil secara acak di bawahH0H0H0H0
Tingkat penemuan palsu (FDR)
Sebagaimana dijelaskan di atas, setiap kali hipotesis nol ditolak, orang menganggap ini sebagai 'bukti statistik' untuk . Jadi kami telah menemukan pengetahuan ilmiah baru, oleh karena itu disebut penemuan . Juga dijelaskan di atas adalah bahwa kita dapat membuat penemuan palsu (yaitu menolak secara salah ) ketika kita membuat kesalahan tipe I. Dalam hal ini kita memiliki kepercayaan salah tentang kebenaran ilmiah. Kami hanya ingin menemukan hal-hal yang benar-benar benar dan oleh karena itu seseorang mencoba untuk menjaga penemuan palsu seminimal mungkin, yaitu seseorang akan mengendalikan kesalahan tipe I. Tidak terlalu sulit untuk melihat bahwa probabilitas kesalahan tipe I adalah tingkat signifikansi yang dipilih . Jadi untuk mengontrol kesalahan tipe I, seseorang memperbaikiH1H0αα-level mencerminkan kesediaan Anda untuk menerima '' bukti palsu ''.
Secara intuitif, ini berarti bahwa jika kita menarik sejumlah besar sampel, dan dengan masing-masing sampel kami melakukan tes, kemudian sebagian kecil dari tes ini akan mengarah pada kesimpulan yang salah. Penting untuk dicatat bahwa kami 'rata-rata atas banyak sampel' ; tes yang sama, banyak sampel. α
Jika kami menggunakan sampel yang sama untuk melakukan banyak tes berbeda maka kami memiliki beberapa kesalahan pengujian (lihat server saya tentang batas kesalahan Keluarga-bijaksana: Apakah menggunakan kembali kumpulan data pada studi yang berbeda dari pertanyaan independen menyebabkan beberapa masalah pengujian? ). Dalam hal ini seseorang dapat mengendalikan inflasi menggunakan teknik untuk mengendalikan tingkat kesalahan keluarga-bijaksana (FWER) , seperti misalnya koreksi Bonferroni.α
Pendekatan yang berbeda dari FWER adalah mengendalikan false discovery rate (FDR) . Dalam hal ini seseorang mengontrol jumlah penemuan palsu (FD) di antara semua penemuan (D), jadi ia mengendalikan , D adalah jumlah ditolak .FDDH0
Jadi probabilitas kesalahan tipe I ada hubungannya dengan mengeksekusi tes yang sama pada banyak sampel yang berbeda. Untuk sejumlah besar sampel, probabilitas kesalahan tipe I akan menyatu dengan jumlah sampel yang mengarah ke penolakan palsu dibagi dengan jumlah total sampel yang diambil .
The FDR harus dilakukan dengan banyak tes pada sampel yang sama dan untuk sejumlah besar tes itu akan konvergen ke sejumlah tes di mana kesalahan tipe I dibuat (yaitu jumlah penemuan palsu) dibagi dengan total jumlah penolakan dari (yaitu jumlah total penemuan)H0 .
Perhatikan bahwa, membandingkan dua paragraf di atas:
- Konteksnya berbeda; satu tes dan banyak sampel versus banyak tes dan satu sampel.
- Penyebut untuk menghitung probabilitas kesalahan tipe I jelas berbeda dari penyebut untuk menghitung FDR. Pembilangnya serupa, tetapi memiliki konteks yang berbeda.
FDR memberi tahu Anda bahwa, jika Anda melakukan banyak tes pada sampel yang sama dan Anda menemukan 1000 penemuan (yaitu penolakan ) maka dengan FDR 0,38 Anda akan memiliki penemuan palsu.H00.38×1000
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
Nilai p menunjukkan probabilitas apriori untuk membuat kesalahan tipe I, yaitu, menolak hipotesis nol dengan asumsi bahwa itu benar.