15

Ini adalah pertanyaan diskusi tentang persimpangan statistik dan ilmu pengetahuan lainnya. Saya sering menghadapi masalah yang sama: para peneliti di bidang saya cenderung mengatakan bahwa tidak ada efek ketika nilai-p tidak kurang dari tingkat signifikansi. Pada awalnya, saya sering menjawab ini bukan cara kerja pengujian hipotesis. Mengingat seberapa sering pertanyaan ini muncul, saya ingin membahas masalah ini dengan ahli statistik yang lebih berpengalaman.

Mari kita perhatikan makalah baru-baru ini dalam jurnal ilmiah dari "kelompok penerbitan terbaik" Nature Communications Biology (ada banyak contoh, tetapi mari kita fokus pada satu)

Para peneliti menafsirkan hasil yang tidak signifikan secara statistik dengan cara berikut:

Dengan demikian pembatasan kalori moderat kronis dapat memperpanjang umur dan meningkatkan kesehatan primata, tetapi hal itu memengaruhi integritas materi kelabu otak tanpa memengaruhi kinerja kognitif .

Bukti:

Namun, kinerja dalam tugas labirin Barnes tidak berbeda antara kontrol dan hewan yang dibatasi kalori (LME: F = 0,05, p = 0,82; Gambar. 2a). Demikian pula, tugas pergantian spontan tidak mengungkapkan perbedaan antara kontrol dan hewan yang dibatasi kalori (LME: F = 1,63, p = 0,22; Gbr. 2b).

Para penulis juga menyarankan penjelasan tentang tidak adanya efek - tetapi poin kuncinya bukanlah penjelasan tetapi klaim itu sendiri. Plot yang disediakan terlihat sangat berbeda "dengan mata" bagi saya (Gambar 2).

Selain itu, penulis mengabaikan pengetahuan sebelumnya:

efek buruk dari pembatasan kalori pada kinerja kognitif telah dilaporkan untuk tikus dan untuk fungsi otak dan emosi pada manusia

Saya dapat memahami klaim yang sama untuk ukuran sampel yang sangat besar (tidak ada efek = tidak ada efek yang signifikan secara praktis di sana), tetapi dalam situasi tertentu tes kompleks digunakan dan tidak jelas bagi saya bagaimana melakukan perhitungan daya.

Pertanyaan:

Apakah saya mengabaikan detail yang membuat kesimpulannya valid?
Mempertimbangkan perlunya melaporkan hasil negatif dalam sains, bagaimana membuktikan bahwa itu bukan "ketiadaan hasil" (yang kita miliki dengan ), tetapi "hasil negatif (mis. Tidak ada perbedaan antara kelompok)" menggunakan statistik? Saya mengerti bahwa untuk ukuran sampel besar bahkan penyimpangan kecil dari penolakan penyebab nol, tetapi mari kita asumsikan bahwa kita memiliki data yang ideal dan masih perlu membuktikan bahwa nol secara praktis benar. $p > \alpha$
Haruskah ahli statistik selalu bersikeras pada kesimpulan yang benar secara matematis seperti "memiliki kekuatan ini kami tidak dapat mendeteksi efek ukuran signifikan"? Para peneliti dari bidang lain sangat tidak menyukai formulasi hasil negatif tersebut.

Saya akan senang mendengar pemikiran tentang masalah ini dan saya telah membaca dan memahami pertanyaan terkait di situs web ini. Ada jawaban yang jelas untuk pertanyaan 2) -3) dari sudut pandang statistik, tetapi saya ingin memahami bagaimana pertanyaan ini harus dijawab dalam kasus dialog antar-disiplin.

UPD: Saya pikir contoh yang baik dari hasil negatif adalah tahap 1 uji coba medis, keselamatan. Kapan para ilmuwan dapat memutuskan bahwa obat itu aman? Saya kira mereka membandingkan dua kelompok dan melakukan statistik pada data ini. Adakah cara untuk mengatakan bahwa obat ini aman? Cochrane menggunakan akurat "tidak ada efek samping yang ditemukan", tetapi dokter mengatakan bahwa obat ini aman. Ketika keseimbangan antara akurasi dan kesederhanaan deskripsi bertemu dan kita dapat mengatakan "tidak ada konsekuensi untuk kesehatan"?

hypothesis-testing

— Demidov Jerman
sumber

2

Anda menyebut hasil yang secara statistik tidak signifikan adalah studi "negatif". Ini adalah bahasa defenestrating. Saya merevisinya untuk menyebutnya seperti: non-statistik signifikan misalnya

. Jika saya salah, tolong beri tahu saya caranya. Kalau tidak, itu adalah bahasa yang berguna untuk Anda dan kolaborator Anda untuk menjelaskan studi.

hanya berarti

. Jika

itu bisa menjadi temuan yang sangat "positif" dalam beberapa hal; mungkin ini adalah studi epidemiologi skala besar pertama yang memeriksa hubungan paparan bahan kimia dan kesehatan manusia yang ternyata aman.

p > α

$p > \alpha$

p > α

$p > \alpha$

p > α

$p > \alpha$

n = 500, 000

$n = 500,000$

— AdamO

4

Catatan: Saya tidak akan pernah menyarankan menggunakan Nature sebagai pedoman untuk bagaimana menggunakan statistik dengan benar.

— Cliff AB

1

@ AdamO Saya punya contoh dua makalah yang diterbitkan kurang lebih pada waktu yang sama, dalam satu makalah penulis menyatakan hasil yang sangat negatif (itu adalah kesimpulan utama mereka), dalam studi kedua, yang lebih kuat, mereka menemukan dan berpengaruh. Tetapi, jika penulis pertama akan menulis "memiliki kekuatan 80% dengan ukuran efek 1 kami tidak dapat menemukan efek yang signifikan" - ia tidak akan dipublikasikan bahkan dalam jurnal hasil negatif.

— Demidov Jerman

2

tetapi non-ahli statistik bertanya kepada saya "bagaimana Anda membuktikan hasil negatif?" - dan saya tidak tahu bagaimana menjawabnya. Bagaimana dengan hipotesis yang sering digunakan dalam uji kesetaraan ? Ini termasuk istilah tambahan sebagai "margin of equivalence" dan dapat memperhitungkan perbedaan rata-rata.

— Penguin_Knight

2

Adalah kesalahan umum yang dieksploitasi oleh Grup Penerbit Alam, tetapi perbedaan prestise di antara jurnal-jurnal itu sangat besar. Yang mengatakan, tentu saja makalah di Nature sendiri juga dapat memiliki statistik yang ceroboh.

— Amuba kata Reinstate Monica

7

Saya pikir kadang-kadang tepat untuk menafsirkan hasil yang tidak signifikan secara statistik dalam semangat "terima hipotesis nol". Bahkan, saya telah melihat studi signifikan secara statistik ditafsirkan sedemikian rupa; penelitian ini terlalu tepat dan hasilnya konsisten dengan kisaran efek non-null yang kecil tetapi tidak signifikan secara klinis. Berikut ini adalah kritik yang agak melepuh dari sebuah penelitian (atau bahkan persnya) tentang hubungan antara konsumsi cokelat / anggur merah dan pengaruhnya yang "menyehatkan" pada diabetes. Kurva probabilitas untuk distribusi resistensi insulin dengan asupan tinggi / rendah adalah histeris.

Apakah seseorang dapat menafsirkan temuan sebagai "mengkonfirmasi H_0" tergantung pada sejumlah besar faktor: validitas penelitian, kekuatan, ketidakpastian estimasi, dan bukti sebelumnya. Melaporkan interval kepercayaan (CI) alih-alih nilai p mungkin merupakan kontribusi paling berguna yang dapat Anda buat sebagai ahli statistik. Saya mengingatkan peneliti dan sesama ahli statistik bahwa statistik tidak membuat keputusan, orang melakukannya; menghilangkan nilai-p sebenarnya mendorong diskusi yang lebih bijaksana dari temuan.

Lebar CI menggambarkan serangkaian efek yang mungkin atau mungkin tidak termasuk nol, dan mungkin atau mungkin tidak termasuk nilai yang sangat signifikan secara klinis seperti potensi penyelamatan jiwa. Namun, CI yang sempit mengkonfirmasi satu jenis efek; baik tipe terakhir yang "signifikan" dalam arti sebenarnya, atau yang pertama mungkin nol atau sesuatu yang sangat dekat dengan nol.

Mungkin yang dibutuhkan adalah pengertian yang lebih luas tentang apa "hasil nol" (dan efek nol). Apa yang saya anggap mengecewakan dalam kolaborasi penelitian adalah ketika para peneliti tidak dapat secara apriori menyatakan kisaran efek apa yang mereka targetkan: jika suatu intervensi dimaksudkan untuk menurunkan tekanan darah, berapa mmHg? Jika obat dimaksudkan untuk menyembuhkan kanker, berapa bulan bertahan hidup pasien? Seseorang yang bergairah dengan penelitian dan "terhubung" ke bidangnya dan sains dapat mengungkap fakta paling menakjubkan tentang penelitian sebelumnya dan apa yang telah dilakukan.

Dalam contoh Anda, saya tidak dapat membantu tetapi memperhatikan bahwa nilai-p 0,82 kemungkinan sangat dekat dengan nol. Dari itu, yang bisa saya katakan adalah bahwa CI dipusatkan pada nilai nol. Apa yang saya tidak tahu adalah apakah itu mencakup efek signifikan secara klinis. Jika CI sangat sempit, interpretasi yang mereka berikan adalah, menurut pendapat saya, benar tetapi data tidak mendukungnya: itu akan menjadi suntingan kecil. Sebaliknya, nilai p kedua 0,22 relatif lebih dekat dengan ambang batas signifikansinya (apa pun itu). Para penulis juga menafsirkannya sebagai "tidak memberikan bukti perbedaan" yang konsisten dengan interpretasi tipe "jangan menolak H_0". Sejauh relevansi artikel, saya bisa mengatakan sangat sedikit. Saya harap Anda membaca literatur yang menemukan diskusi yang lebih menonjol dari temuan studi! Sejauh analisis,

— AdamO
sumber

1

Adamo, bukan F statistik yang paling dekat dengan nol sama dengan rata-rata dari F distribusi untuk pembilang dan penyebut diberi derajat kebebasan? Jika ada, saya pikir statistik F mendekati 0 menyiratkan bukti omnibus kesetaraan. Bahkan, Wellek justru memotivasi hal ini dalam 2010 Pengujian Hipotesis Statistik Ekuivalensi dan Noninferioritas , bagian 7.2

-test untuk kesetaraan distribusi normal

, halaman 221-225.

F

$F$

k

$k$

— Alexis

@Alexis Terima kasih telah menunjukkan properti uji-F. Tanpa mengetahui tingkat kebebasan, sulit bagi saya untuk berkomentar dengan cerdas tentang ujian. Mungkin saya harus merevisi jawaban untuk menunjuk hanya ke nilai-

. Bagaimanapun, poin utama dari jawaban saya adalah bahwa kita tidak dapat memegang dua hipotesis

dan

dengan intrik yang sama: salah satunya selalu benar, jadi pengujian tidak masuk akal. Kita harus menggunakan metode deskriptif, tetapi mereka dapat dibuat ketat dengan interval kepercayaan.

p

$p$

μ = μ_{0}

$\mu=\mu_0$

μ \neq μ_{0}

$\mu \ne \mu_0$

— AdamO

Tentu saja! (dan +1 jika itu tidak jelas) Tapi serius, Anda harus memahami pengujian kesetaraan: itu muncul dalam epidemiologi klinis dan biostatistik (warisan terhormat untuk lapangan!), tetapi merupakan impor umum untuk kesimpulan yang sering. :)

— Alexis

1

@GermanDemidov Saya mengambil garis keras tentang masalah ini: Saya pikir analisis yang rumit tidak boleh dipertimbangkan jika efeknya tidak dapat diartikan. Mereka memang memiliki interpretasi. Analisis Kelangsungan Hidup 2nd ed oleh Hosmer, Lemeshow, May memiliki seluruh bab (4) yang didedikasikan untuk interpretasi output model Cox. Kekurangan tes, seperti Shapiro, paling baik ditangani menggunakan plot (ini sering menghalangi tes itu sendiri). Statistik resampling menyediakan cara yang kuat untuk menghitung CI di bawah berbagai kondisi pemodelan, tetapi membutuhkan teori yang kuat untuk digunakan dengan benar.

— AdamO

3

Dalam kerangka inferensi kaku tidak ada yang namanya "0,82 dekat dengan nol," karena nilai-p adalah angka acak, tingkat khususnya tidak relevan. Nilai p tidak boleh besar atau kecil dalam nilai absolut. Levelnya hanya penting dalam kaitannya dengan ambang yang telah ditentukan sebelumnya, sebuah signifikansi

. Anda membandingkan dengan ambang batas, dan berdasarkan hasil perbandingan tolak atau gagal tolak

.

α

$\alpha$

H_{0}

$H_0$

— Aksakal

12

Berbicara kepada judul pertanyaan Anda: kami tidak pernah menerima hipotesis nol, karena pengujian hanya menyediakan bukti terhadap (yaitu kesimpulan selalu sehubungan dengan hipotesis alternatif, baik Anda menemukan bukti untuk atau Anda gagal menemukan bukti untuk ). $H_{0}$ $H_{0}$ $H_{A}$ $H_{A}$

Namun, kita dapat mengenali bahwa ada berbagai jenis hipotesis nol:

Anda mungkin telah belajar tentang hipotesis nol satu sisi dari formulir dan $H_{0}: \theta \ge \theta_{0}$ $H_{0}: \theta \le \theta_{0}$
Anda mungkin telah belajar tentang hipotesis nol dua sisi (alias hipotesis nol dua sisi ) dari bentuk , atau secara sinonim dalam kasus satu sampel, dan , atau secara sinonim $H_{0}: \theta = \theta_{0}$ $H_{0}: \theta - \theta_{0} = 0$ $H_{0}: \theta_{1} = \theta_{2}$ $H_{0}: \theta_{1} - \theta_{2} = 0$ dalam kasus dua sampel. Saya menduga bentuk spesifik dari hipotesis nol ini adalah tentang pertanyaan Anda. Mengikuti Reagle dan Vinod, saya mengistilahkan hipotesis nol dari hipotesis positif positivis ini , dan menjadikannya eksplisit dengan notasi . Hipotesis positivis nol memberikan, atau gagal memberikan bukti perbedaan atau bukti efek . Hipotesis positivis nol memiliki bentuk omnibus untuk kelompok : untuk semua $H^{+}_{0}$ $k$ $H_{0}^{+}: \theta_{i} = \theta_{j};$ . $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$
$H_{0}: |\theta - \theta_{0}|\ge \Delta$ $H_{0}: |\theta_{1} - \theta_{2}|\ge \Delta$ $\Delta$ $H^{-}_{0}$ $\pm\Delta$ $|\Delta|$ $k$ $H_{0}^{-}: |\theta_{i} = \theta_{j}|\ge \Delta;$ $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$

[tost] $H_{0}^{+}$ $H_{0}^{+}$ , apakah itu karena tidak ada efek yang sebenarnya, atau karena ukuran sampel Anda terlalu kecil, dan pengujian Anda kurang bertenaga? Tes relevansi mengatasi masalah ini secara langsung.

Ada beberapa cara untuk melakukan tes untuk kesetaraan (apakah ada yang menggabungkan atau tidak dengan tes untuk perbedaan):

Dua tes satu sisi (TOST) menerjemahkan hipotesis nol negatif umum yang dinyatakan di atas menjadi dua hipotesis nol satu sisi tertentu:
- $H^{-}_{01}: \theta - \theta_{0} \ge \Delta$ $H^{-}_{01}: \theta_{1} - \theta_{2} \ge \Delta$
- $H^{-}_{02}: \theta - \theta_{0} \le -\Delta$ $H^{-}_{01}: \theta_{1} - \theta_{2} \le -\Delta$
Tes seragam yang paling kuat untuk kesetaraan, yang cenderung jauh lebih canggih secara aritmatika daripada TOST. Wellek adalah referensi pasti untuk ini.
Pendekatan interval kepercayaan, saya percaya pertama dimotivasi oleh Schuirman, dan disempurnakan oleh orang lain, seperti Tryon.

Referensi Reagle, DP dan Vinod, HD (2003). Kesimpulan untuk teori negatif menggunakan daerah penolakan yang dihitung secara numerik . Statistik Komputasi & Analisis Data , 42 (3): 491–512.

Schuirmann, DA (1987). Perbandingan dua prosedur tes satu sisi dan pendekatan daya untuk menilai kesetaraan bioavailabilitas rata-rata . Jurnal Farmakokinetik dan Biofarmasi , 15 (6): 657–680.

Tryon, WW dan Lewis, C. (2008). Metode interval kepercayaan inferensial untuk menetapkan kesetaraan statistik yang mengoreksi faktor reduksi Tryon (2001) . Metode Psikologis , 13 (3): 272-277.

Tryon, WW dan Lewis, C. (2009). Mengevaluasi proporsi independen untuk perbedaan statistik, kesetaraan, ketidakpastian, dan perbedaan sepele menggunakan interval kepercayaan inferensial . Jurnal Statistik Pendidikan dan Perilaku , 34 (2): 171–189.

Wellek, S. (2010). Menguji Hipotesis Statistik Kesetaraan dan Noninferioritas . Chapman dan Hall / CRC Press, edisi kedua.

— Alexis
sumber

1

Siapa pun yang memilih saya harus memberikan umpan balik tentang alasannya: harus jelas bahwa saya memberikan jawaban terperinci, dan responsif terhadap masukan.

— Alexis

9

Anda mengacu pada praktik inferensi standar yang diajarkan dalam kursus statistik:

$H_0,H_a$
$\alpha$
$\alpha$
$H_0$ $H_a$ $H_0$

Ini baik-baik saja, dan digunakan dalam praktik. Saya bahkan berani menebak prosedur ini bisa wajib di beberapa industri yang diatur seperti farmasi.

Namun, ini bukan satu-satunya cara statistik dan inferensi diterapkan dalam penelitian dan praktik. Sebagai contoh, lihat makalah ini : "Pengamatan partikel baru dalam mencari Standard Model Higgs boson dengan detektor ATLAS di LHC". Makalah ini pertama kali menyajikan bukti keberadaan Higgs boson, dalam eksperimen yang disebut ATLAS. Itu juga salah satu makalah di mana daftar penulis selama konten yang sebenarnya :)

$H_0$ $H_a$ $H_0$
$\alpha$ $\sigma$
$\alpha$
mereka menghadirkan interval kepercayaan pada tingkat kepercayaan biasa seperti 95%

Berikut adalah kesimpulan yang dirumuskan: "Hasil ini memberikan bukti konklusif untuk penemuan partikel baru dengan massa 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Kata "stat" mengacu pada statistik dan "sistem" untuk ketidakpastian sistematis.

Jadi, seperti yang Anda lihat tidak semua orang melakukan prosedur empat langkah yang saya uraikan di awal jawaban ini. Di sini, para peneliti menunjukkan nilai p tanpa menetapkan ambang, bertentangan dengan apa yang diajarkan di kelas statistik. Kedua, mereka tidak menari "menolak / gagal menolak", setidaknya secara formal. Mereka memotong ke pengejaran, dan berkata "inilah nilai-p, dan itulah sebabnya kami mengatakan kami menemukan partikel baru dengan 126 massa GeV."

Catatan penting

Para penulis makalah Higgs belum menyatakan boson Higgs. Mereka hanya menegaskan bahwa partikel baru itu ditemukan dan bahwa beberapa sifatnya seperti massa konsisten dengan Higgs boson.

Butuh beberapa tahun untuk mengumpulkan bukti tambahan sebelum ditetapkan bahwa partikel itu memang adalah boson Higgs. Lihat posting blog ini dengan diskusi awal tentang hasil. Fisikawan kemudian memeriksa sifat-sifat yang berbeda seperti putaran nol. Dan sementara bukti dikumpulkan di beberapa titik CERN menyatakan bahwa partikelnya adalah Higgs boson.

Mengapa ini penting? Karena tidak mungkin untuk meremehkan proses penemuan ilmiah untuk beberapa prosedur inferensi statistik yang kaku. Inferensi statistik hanyalah salah satu alat yang digunakan.

Ketika CERN sedang mencari partikel ini, fokusnya adalah pada pertama kali menemukannya. Itu adalah tujuan akhir. Fisikawan punya ide ke mana harus memandang. Begitu mereka menemukan kandidat, mereka fokus untuk membuktikan itu adalah salah satunya. Akhirnya, totalitas bukti, bukan percobaan tunggal dengan nilai-p dan signifikansi, meyakinkan semua orang bahwa kami menemukan partikel. Sertakan di sini semua pengetahuan sebelumnya dan model standar . Ini bukan hanya kesimpulan statistik, metode ilmiah lebih luas dari itu.

— Aksakal
sumber

wow, jawaban Anda bagus! ini adalah contoh yang sangat bagus. Saya harap dalam 10 tahun terakhir para ilmuwan kehidupan juga akan mencapai gaya laporan ini!

— Demidov Jerman

5

Ada cara untuk mendekati ini yang tidak bergantung pada perhitungan daya (lihat Wellek, 2010). Secara khusus, Anda juga dapat menguji apakah Anda menolak nol yang efeknya dari nilai apriori yang berarti.

Daniël Lakens mendukung dalam situasi ini untuk pengujian kesetaraan. Laken khususnya menggunakan " TOST " (dua tes satu sisi) untuk perbandingan rata-rata, tetapi ada cara lain untuk mendapatkan ide yang sama.

Dalam TOST, Anda menguji senyawa nol: hipotesis nol satu sisi yang menyatakan bahwa efek Anda lebih negatif daripada perbedaan minat terkecil dan nol bahwa efek Anda lebih positif daripada perbedaan minat positif terkecil. Jika Anda menolak keduanya, maka Anda dapat mengklaim bahwa tidak ada perbedaan yang berarti. Perhatikan bahwa ini dapat terjadi bahkan jika efeknya berbeda secara signifikan dari nol, tetapi dalam kasus apa pun itu tidak memerlukan pengesahan nol.

Lakens, D. (2017). Tes Kesetaraan: primer praktis untuk uji t , korelasi, dan meta-analisis . Ilmu Psikologis dan Kepribadian Sosial , 8 (4), 355-362.

Wellek, S. (2010). Menguji Hipotesis Statistik Kesetaraan dan Noninferioritas . Chapman dan Hall / CRC Press, edisi kedua.

— Patrick Malone
sumber

Penerimaan hipotesis nol

Catatan penting