Mengapa terus mengajar dan menggunakan pengujian hipotesis (ketika interval kepercayaan tersedia)?

56

Mengapa terus mengajar dan menggunakan pengujian hipotesis (dengan semua konsepnya yang sulit dan yang merupakan dosa yang paling statistik) untuk masalah di mana ada penaksir interval (kepercayaan, sepatu boot, kredibilitas atau apa pun)? Apa penjelasan terbaik (jika ada) untuk diberikan kepada siswa? Hanya tradisi? Pandangan akan sangat disambut.

hypothesis-testing confidence-interval teaching

— Washington S. Silva
sumber

Duplikat?

— csgillespie

4

Kutipan ini sangat tepat. Semua model salah, tetapi ada juga yang berguna.

— mpiktas

60

Ini adalah pendapat pribadi saya, jadi saya tidak yakin itu memenuhi syarat sebagai jawaban.

Mengapa kita harus mengajarkan pengujian hipotesis?

Singkatnya, satu alasan yang sangat besar adalah bahwa, dalam semua kemungkinan, dalam waktu yang Anda perlukan untuk membaca kalimat ini, ratusan, jika tidak ribuan (atau jutaan) tes hipotesis telah dilakukan dalam radius 10 kaki dari tempat Anda duduk.

Ponsel Anda pasti menggunakan tes rasio kemungkinan untuk memutuskan apakah berada dalam jangkauan stasiun pangkalan atau tidak. Perangkat keras WiFi laptop Anda juga melakukan hal yang sama dalam berkomunikasi dengan router Anda.

Microwave yang Anda gunakan untuk memanaskan kembali secara otomatis pizza yang sudah berumur dua hari itu menggunakan tes hipotesis untuk memutuskan kapan pizza Anda cukup panas.

Sistem kontrol traksi mobil Anda menendang ketika Anda memberinya terlalu banyak gas di jalan yang dingin, atau sistem peringatan tekanan ban memberi tahu Anda bahwa ban sisi penumpang belakang Anda sangat rendah, dan lampu mobil Anda menyala otomatis sekitar pukul 5: 19.00 saat senja tiba.

IPad Anda merender halaman ini dalam format lanskap berdasarkan pada pembacaan accelerometer (berisik).

Perusahaan kartu kredit Anda mematikan kartu Anda ketika "Anda" membeli TV layar datar di Best Buy di Texas dan cincin berlian $ 2000 di Zales di sebuah mal di negara bagian Washington dalam beberapa jam setelah membeli makan siang, gas, dan film dekat rumah Anda di pinggiran Pittsburgh.

Ratusan ribu bit yang dikirim untuk merender halaman web ini di browser Anda masing - masing secara individual menjalani tes hipotesis untuk menentukan apakah mereka kemungkinan besar adalah 0 atau 1 (di samping beberapa koreksi kesalahan yang luar biasa).

Lihatlah ke kanan sedikit pada topik "terkait" itu.

Semua hal ini "terjadi" karena tes hipotesis . Untuk banyak hal ini, beberapa perkiraan interval beberapa parameter dapat dihitung. Tetapi, terutama untuk proses industri otomatis, penggunaan dan pemahaman pengujian hipotesis sangat penting.

Pada tingkat statistik yang lebih teoretis, konsep penting kekuatan statistik muncul secara alami dari kerangka kerja pengambilan keputusan-teori / hipotesis. Selain itu, saya percaya "bahkan" seorang ahli matematika murni dapat menghargai keindahan dan kesederhanaan lemma Neyman-Pearson dan buktinya.

Ini bukan untuk mengatakan bahwa pengujian hipotesis diajarkan, atau dipahami, dengan baik. Pada umumnya, ini bukan. Dan, sementara saya akan setuju bahwa — khususnya dalam ilmu kedokteran — pelaporan perkiraan interval beserta ukuran efek dan pengertian praktis vs statistik hampir secara universal lebih disukai daripada uji hipotesis formal, ini tidak berarti bahwa pengujian hipotesis dan yang terkait konsep tidak penting dan tidak menarik dalam dirinya sendiri.

— kardinal
sumber

2

Terima kasih atas daftar contoh yang menarik. Mengingat tujuan dari pertanyaan: Untuk berkontribusi dalam debat tentang tinjauan program statistik kami, kami akan mencoba untuk mendapatkan rincian lebih lanjut tentang implementasi pengujian pada perangkat modern, dapat menjadi motivasi besar bagi mahasiswa teknik kami.

— Washington S. Silva

3

Sebagian besar contoh Anda tidak benar-benar memerlukan pengujian hipotesis klasik (menyiratkan tingkat kepercayaan tetap) tetapi prosedur keputusan.

— kjetil b halvorsen

1

Dear @kjetil: Jujur saja, agak keras di sini. Memang, pertanyaannya tidak menanyakan sesuatu yang spesifik tentang pengujian hipotesis klasik , dan jawaban saya tidak membuat asumsi itu juga! ( Pengujian hipotesis ditafsirkan secara luas di sini, dan dengan alasan yang bagus.)

— kardinal

1

Saya perlu membeli microwave dengan pemanasan ulang otomatis.

— jmbejara

2

Ini adalah jawaban yang sangat fasih tetapi saya akan sangat berterima kasih jika Anda menjelaskan lebih banyak tentang mengapa semua ini adalah "tes hipotesis". Saya mengerti bahwa semua contoh Anda adalah tentang keputusan biner otomatis. Saya membayangkan bahwa dalam kebanyakan kasus beberapa nilai diukur dan kemudian dibandingkan dengan cutoff untuk memutuskan apakah itu di atas atau di bawahnya (dan karenanya sampai pada keputusan). Apakah ini sudah memenuhi syarat sebagai "tes hipotesis" untuk Anda, atau apakah Anda bermaksud sesuatu yang lain? Saya kira ketika OP bertanya tentang mengapa pengujian hipotesis masih diajarkan, mereka tidak mengacu pada ambang batas yang sederhana.

— Amuba kata Reinstate Monica

29

Saya mengajar tes hipotesis karena sejumlah alasan. Salah satunya adalah historis, bahwa mereka harus memahami sebagian besar penelitian sebelumnya yang mereka baca dan memahami sudut pandang pengujian hipotesis. Yang kedua adalah bahwa, bahkan di zaman modern, itu masih digunakan oleh beberapa peneliti, sering secara implisit, ketika melakukan jenis analisis statistik lainnya.

Tetapi ketika saya mengajarkannya, saya mengajarkannya dalam kerangka membangun model, bahwa asumsi dan perkiraan ini adalah bagian dari model pembangunan. Dengan begitu, relatif mudah untuk beralih untuk membandingkan model yang lebih kompleks dan menarik secara teoritis. Penelitian lebih sering mengadu teori satu sama lain daripada teori versus tidak sama sekali.

Dosa pengujian hipotesis tidak melekat dalam matematika, dan penggunaan yang tepat dari perhitungan tersebut. Di mana mereka terutama berbohong adalah sangat mengandalkan dan salah tafsir. Jika sebagian besar peneliti naif secara eksklusif menggunakan estimasi interval tanpa pengakuan hubungan apa pun dengan hal-hal ini kita sebut hipotesis, kita mungkin menyebutnya dosa.

— John
sumber

+1, Terima kasih. Berdebat dengan baik. Namun dalam kursus pengantar, tidak ada pemilihan model, dalam arti yang ketat. Anda bisa mengutip konteks lain yang sesuai untuk pengenalan pengujian hipotesis? Apakah dapat diterima untuk melaporkan hasil tes tanpa estimasi kekuatan?

— Washington S. Silva

2

Tidak memiliki pilihan model dalam kursus pengantar bukanlah suatu keharusan. Jika Anda mempertimbangkan untuk mengubah kursus, anggap itu sebagai tempat yang baik untuk memulai.

— John

20

Saya pribadi merasa kita akan lebih baik tanpa tes hipotesis. Satu-satunya tempat yang bisa saya pikirkan di mana tes hipotesis menawarkan sesuatu yang unik dan berguna adalah di bidang beberapa tingkat tes hipotesis gabungan kebebasan. Contohnya termasuk ANOVA untuk membandingkan lebih dari dua kelompok, tes simultan yang menggabungkan efek utama dan interaksi (tes efek total), dan tes simultan yang menggabungkan istilah linier dan nonlinear yang terkait dengan prediktor kontinu (uji hubungan berganda df). Untuk hal-hal sederhana, estimasi interval lebih mudah, dan jauh lebih kecil kemungkinannya untuk menyesatkan daripada nilai- . Seperti yang dikatakan dengan baik di kertas klasik Absennya bukti bukanlah bukti ketidakhadiran , nilai- besar tidak mengandung informasi. $P$ $P$ $P$ -nilai hanya memberikan bukti terhadap hipotesis, tidak pernah mendukungnya (tanggapan Fisher ketika ditanya bagaimana menafsirkan nilai- besar adalah "Dapatkan lebih banyak data"). Interval kepercayaan atau kredibilitas membuat peneliti lebih jujur dengan menggambarkan seberapa banyak dia tidak tahu. $P$

— Frank Harrell
sumber

2

Saya tidak menginginkan hal itu di beberapa bidang, "Satu-satunya tempat ..." dan "termasuk ANOVA ..." berarti Anda baru saja membahas sejumlah besar kotak alat statistik.

— Fomite

4

Saya pikir ada banyak yang bisa dikatakan untuk posisi ini. Mengingat banyak peneliti yang ingin tahu tentang pola dalam data mereka, saya sering bertanya-tanya apakah kita bisa menyisihkan banyak statistik dan hanya menggunakan plot data. (Tentu saja, ini mengasumsikan plot akan dilakukan dengan terampil dan wawasan, dan tes hipotesis tidak akan seburuk itu jika kita bisa mengatakannya tentang mereka.)

— gung - Reinstate Monica

1

Nit-pickingly, saya tidak setuju dengan kutipan "tidak adanya bukti bukanlah bukti ketidakhadiran". Tidak adanya bukti untuk suatu efek bukanlah bukti bahwa tidak ada efek yang ada, tetapi jelas merupakan bukti terhadap efek yang ada. Pertanyaannya adalah lebih lanjut tentang berapa banyak bukti terhadap efek hasil non-signifikan. Masalah dengan nilai-p besar yang saya pikir adalah bahwa dalam kasus distribusi normal, nilai-p besar adalah bukti untuk hipotesis, karena mereka adalah fungsi monotonik dari goodness of fit. Dan karena distribusi normal sangat umum, orang-orang melihat ini dan memperkirakan

— probabilityislogic

5

Besar berarti satu dari banyak hal: perbedaannya kecil, variabilitasnya terlalu besar, atau ukuran sampel terlalu kecil. Karena itulah judul makalah Absennya Bukti.

P

$P$

— Frank Harrell

11

Saya pikir itu tergantung pada yang pengujian hipotesis Anda berbicara tentang. Pengujian hipotesis "klasik" (Neyman-Pearson) dikatakan rusak karena tidak sesuai dengan apa yang sebenarnya terjadi ketika Anda melakukan tes . Alih-alih dirancang untuk bekerja "terlepas dari" apa yang sebenarnya Anda lihat dalam jangka panjang. Tetapi kegagalan untuk kondisi dapat menyebabkan hasil yang menyesatkan dalam kasus individu. Ini hanya karena prosedur "tidak peduli" tentang kasus individu, dalam jangka panjang.

Pengujian hipotesis dapat dilakukan dalam kerangka teori keputusan, yang menurut saya merupakan cara yang jauh lebih baik untuk memahaminya. Anda dapat menyatakan kembali masalahnya sebagai dua keputusan:

"Aku akan bertindak seolah-olah benar" $H_0$
"Aku akan bertindak seolah-olah benar" $H_\mathrm{A}$

Kerangka keputusan lebih mudah dipahami, karena dengan jelas memisahkan konsep "apa yang akan Anda lakukan?" dan "apa kebenarannya?" (melalui informasi Anda sebelumnya).

Anda bahkan dapat menerapkan "teori keputusan" (DT) untuk pertanyaan Anda. Tetapi untuk menghentikan pengujian hipotesis, DT mengatakan Anda harus memiliki keputusan alternatif yang tersedia untuk Anda. Jadi pertanyaannya adalah: jika pengujian hipotesis ditinggalkan, apa yang akan terjadi? Saya tidak bisa memikirkan jawaban untuk pertanyaan ini. Saya hanya bisa memikirkan cara alternatif untuk melakukan pengujian hipotesis.

(CATATAN: dalam konteks pengujian hipotesis, data, distribusi pengambilan sampel, distribusi sebelumnya, dan fungsi kehilangan semua informasi sebelumnya karena mereka diperoleh sebelum membuat keputusan.)

— probabilityislogic
sumber

Tujuan saya dengan masalah ini adalah untuk mengumpulkan pendapat ahli untuk memperkaya debat tentang revisi kursus dalam statistik yang sedang berlangsung di institut tempat saya bekerja di Brasil. Tujuannya sedang dicapai, dengan pendapat juga ditempatkan pada @ cardinal, @Andrew Robinson, @probabilityislogic dan @JMS. Jelas, pengujian hipotesis (melalui NP, DT atau Byes) harus diajarkan dengan sangat baik, tetapi tantangan untuk membangun kursus yang sesuai, mengingat universalitas pengajaran statistik, sama atau lebih kompleks daripada teknik itu sendiri. Terima kasih atas kontribusi anda.

— Washington S. Silva

1

Saya suka teori keputusan, jika dilakukan dengan ketat menggunakan metode Bayesian yang menggabungkan fungsi kerugian / utilitas yang masuk akal. Jika fungsi tersebut tidak tersedia, saya cenderung mendukung estimasi interval.

— Frank Harrell

@ FrankHarrell - Saya setuju, tapi saya masih akan memperkirakan estimasi interval kelas sebagai semacam "teori keputusan" di mana fungsi utilitas biasanya didasarkan pada konten informasi (yaitu kesimpulan yang menggunakan lebih banyak informasi yang kami miliki lebih baik) - dan ini dioptimalkan oleh distribusi posterior itu sendiri, dan mungkin prediksi posterior jika prediksi menarik. Estimasi interval memberikan ringkasan posterior yang nyaman. Dan interval kepercayaan yang baik (misalnya berdasarkan MLE) memberikan perkiraan yang sangat baik untuk hal ini ketika informasi di luar data yang tersedia langka

— probabilityislogic

biasanya Anda menggunakan estimasi interval ketika Anda tidak memiliki keputusan khusus dalam pikiran (yang mungkin merupakan alasan utama mengapa Anda tidak akan memiliki fungsi kerugian yang wajar), dan karenanya perlu memenuhi banyak skenario yang berbeda.

— probabilityislogic

9

Jika saya seorang hardcore, saya akan mengingatkan Anda bahwa interval kepercayaan cukup teratur hanya tes hipotesis terbalik, yaitu ketika interval 95% hanyalah cara lain untuk menggambarkan semua titik bahwa tes yang melibatkan data Anda tidak akan ditolak pada 0,05 tingkat. Dalam situasi ini, preferensi untuk yang satu lebih daripada yang lain adalah masalah eksposisi daripada metode.

Sekarang, eksposisi tentu saja penting, tetapi saya pikir itu akan menjadi argumen yang cukup bagus. Sangat rapi dan mengklarifikasi untuk menjelaskan dua pendekatan sebagai penyajian kembali kesimpulan yang sama dari sudut pandang yang berbeda. (Fakta bahwa tidak semua penaksir interval adalah tes terbalik adalah fakta yang tidak tepat tetapi tidak terlalu canggung, secara pedagogis berbicara).

Implikasi yang jauh lebih serius datang dari keputusan untuk mengkondisikan pengamatan, sebagaimana ditunjukkan di atas. Namun, bahkan dalam retret, Frequentist selalu dapat mengamati bahwa ada banyak situasi (mungkin bukan mayoritas) di mana pengkondisian pada pengamatan akan menjadi tidak bijaksana atau tidak menyenangkan. Bagi mereka, pengaturan HT / CI adalah (bukan 'adalah') persis apa yang diinginkan, dan harus diajarkan seperti itu.

— conjugateprior
sumber

Secara formal, tes hipotesis apa pun dengan alfa yang terikat pada tingkat kesalahan Tipe I dapat diubah menjadi interval kepercayaan dengan parameter cakupan (1-alpha) dan sebaliknya, bukan? Saya tidak berpikir Anda harus menjadi hardcore sering untuk percaya bahwa ini memerlukan definisi. :-)

— Keith Winstein

3

@Keith Tidak ada argumen atas definisi, tetapi Anda harus menjadi seorang Frequentist untuk menganggapnya lebih dari potongan matematika yang menarik dan mungkin berguna. Yaitu, jika Anda berpikir properti teoretis pengambilan sampel sangat penting untuk inferensi statistik maka Anda akan (atau harus) sama - sama tertarik pada interval kepercayaan dan tes hipotesis karena, seperti yang kami sepakati, mereka memiliki simetri ini. Milik saya adalah tanggapan terhadap perbedaan kuesioner antara CI 'baik' dan 'buruk' HT. Dengan menyatukan mereka, saya ingin memfokuskan kembali pada perbedaan yang muncul dalam jawaban lain.

— conjugateprior

7

Dalam mengajar pengujian hipotesis Neyman Pearson kepada siswa statistik awal, saya sering mencoba menemukannya dalam pengaturan aslinya: yaitu membuat keputusan. Maka infrastruktur kesalahan tipe 1 dan tipe 2 semuanya masuk akal, seperti halnya gagasan bahwa Anda mungkin menerima hipotesis nol.

Kami harus membuat keputusan, kami berpikir bahwa hasil dari keputusan kami dapat ditingkatkan dengan pengetahuan tentang parameter, kami hanya memiliki perkiraan parameter itu. Kami masih harus membuat keputusan. Lalu apa keputusan terbaik yang harus diambil dalam konteks memiliki estimasi parameter?

Tampak bagi saya bahwa dalam pengaturan aslinya (membuat keputusan dalam menghadapi ketidakpastian) tes hipotesis NP masuk akal. Lihat misalnya N&P 1933, khususnya hlm. 291.

Neyman dan Pearson. Pada masalah tes hipotesis statistik yang paling efisien. Transaksi filosofis dari Royal Society of London. Seri A, Berisi Makalah dari Karakter Matematika atau Fisik (1933) vol. 231 hal. 289-337

— Andrew Robinson
sumber

4

Pengujian hipotesis adalah cara yang berguna untuk membingkai banyak pertanyaan: apakah efek dari pengobatan nol atau tidak nol? Kemampuan antara pernyataan seperti ini dan model atau prosedur statistik (termasuk pembangunan estimator interval) penting bagi praktisi saya pikir.

Juga disebutkan bahwa interval kepercayaan (dalam pengertian tradisional) secara inheren tidak lebih "rawan dosa" daripada pengujian hipotesis - berapa banyak statistik intro yang diketahui siswa tentang definisi sebenarnya dari interval kepercayaan?

Mungkin masalahnya bukan pengujian hipotesis atau estimasi interval karena ini adalah versi klasik yang sama; formulasi Bayesian menghindarinya dengan cukup baik.

— JMS
sumber

2

@ SMP, "berapa banyak statistik intro siswa tahu definisi sebenarnya dari interval kepercayaan?" Atau, lulusan stat PhD, dalam hal ini.

— kardinal

Cukup! Kebetulan, saya tidak bermaksud menggali siswa atau praktisi dari garis mana pun. Tapi agak gila untuk mengharapkan senam mental dari seseorang yang tidak mendaftar untuk pekerjaan lanjutan dalam statistik.

— JMS

2

Berapa banyak orang yang bisa mengatakan definisi sebenarnya dari CI? Dan berapa banyak orang yang menggunakannya secara konsisten dengan definisi ini? Terlalu sulit untuk tidak berpikir "parameternya kemungkinan berada dalam interval kata" - bahkan jika Anda tahu itu bukan CI.

— probabilityislogic

Secara umum melakukan estimasi yang biasa dilakukan

— Washington S. Silva

1

Apa yang saya coba ungkapkan adalah bahwa uji hipotesis yang tidak disertai dengan perkiraan kekuatan sangat dipertanyakan dan perkiraan interval tidak memiliki sumber komplikasi tambahan ini.

— Washington S. Silva

2

Alasannya adalah pengambilan keputusan. Dalam kebanyakan pengambilan keputusan, Anda melakukannya atau tidak. Anda dapat terus mencari pada interval sepanjang hari, pada akhirnya ada saat di mana Anda memutuskan untuk melakukannya atau tidak.

Pengujian hipotesis cocok dengan kenyataan sederhana ini YA / TIDAK.

— Aksakal
sumber