Dialog Antara Guru dan Siswa yang Bijaksana
Dengan rendah hati disampaikan dengan keyakinan bahwa sejauh ini tidak cukup krayon telah digunakan dalam utas ini. Sinopsis singkat bergambar muncul di bagian akhir.
Siswa : Apa arti nilai p? Banyak orang tampaknya setuju itu adalah kesempatan kita akan "melihat sampel berarti lebih besar dari atau sama dengan" suatu statistik atau itu "probabilitas untuk mengamati hasil ini ... mengingat hipotesis nol itu benar" atau di mana "statistik sampel saya jatuh pada [simulasi] distribusi " dan bahkan " probabilitas mengamati statistik uji setidaknya sebesar yang dihitung dengan asumsi hipotesis nol benar " .
Guru : Dipahami dengan benar, semua pernyataan itu benar dalam banyak keadaan.
Siswa : Saya tidak melihat bagaimana kebanyakan dari mereka relevan. Tidakkah Anda mengajari kami bahwa kami harus menyatakan hipotesis nol dan hipotesis alternatif ? Bagaimana mereka terlibat dalam gagasan "lebih besar atau sama dengan" atau "setidaknya sama besar" atau "sangat ekstrim" yang sangat populer ini?H AH0HA
Guru : Karena secara umum dapat terlihat rumit, apakah akan membantu bagi kita untuk mengeksplorasi contoh konkret?
Mahasiswa : Tentu. Tapi tolong buat yang realistis tapi sederhana jika Anda bisa.
Guru : Teori pengujian hipotesis ini secara historis dimulai dengan kebutuhan para astronom untuk menganalisis kesalahan pengamatan, jadi bagaimana kalau mulai dari sana. Saya sedang membaca beberapa dokumen lama suatu hari di mana seorang ilmuwan menggambarkan upayanya untuk mengurangi kesalahan pengukuran pada peralatannya. Dia telah melakukan banyak pengukuran bintang dalam posisi yang diketahui dan mencatat perpindahan mereka di depan atau di belakang posisi itu. Untuk memvisualisasikan perpindahan itu, ia menggambar histogram yang - ketika dihaluskan sedikit - tampak seperti ini.
Mahasiswa : Saya ingat bagaimana histogram bekerja: sumbu vertikal diberi label "Kepadatan" untuk mengingatkan saya bahwa frekuensi relatif dari pengukuran diwakili oleh area daripada ketinggian.
Guru : Benar. Nilai "tidak biasa" atau "ekstrem" akan terletak di wilayah dengan wilayah yang cukup kecil. Ini krayon. Apakah Anda pikir Anda bisa mewarnai di wilayah yang luasnya hanya sepersepuluh dari total?
Mahasiswa : Tentu; itu mudah. [Warna pada gambar.]
Guru : Sangat bagus! Itu terlihat seperti sekitar 10% dari area bagi saya. Ingat, bagaimanapun, bahwa satu-satunya area dalam histogram yang penting adalah yang berada di antara garis-garis vertikal: mereka mewakili peluang atau probabilitas bahwa perpindahan akan terletak di antara garis-garis tersebut pada sumbu horizontal. Itu berarti Anda perlu mewarnai sampai ke bawah dan itu akan menjadi lebih dari setengah area, bukan?
Mahasiswa : Oh, begitu. Biarkan saya coba lagi. Saya ingin mewarnai di mana kurva sangat rendah, bukan? Paling rendah di kedua ujungnya. Apakah saya harus mewarnai hanya dalam satu area atau apakah tidak masalah untuk memecahnya menjadi beberapa bagian?
Guru : Menggunakan beberapa bagian adalah ide yang cerdas. Di mana mereka?
Mahasiswa (menunjuk): Di sini dan di sini. Karena krayon ini tidak terlalu tajam, saya menggunakan pena untuk menunjukkan garis yang saya gunakan.
Guru : Bagus sekali! Biarkan saya ceritakan kisah selanjutnya. Ilmuwan melakukan beberapa perbaikan pada perangkatnya dan kemudian dia melakukan pengukuran tambahan. Dia menulis bahwa perpindahan yang pertama hanya , yang menurutnya adalah pertanda baik, tetapi sebagai ilmuwan yang cermat dia melanjutkan untuk mengambil lebih banyak pengukuran sebagai cek. Sayangnya, pengukuran-pengukuran lainnya hilang - manuskrip terputus pada titik ini - dan yang kita miliki hanyalah angka tunggal, .0,10.10.1
Mahasiswa : Sayang sekali. Tapi bukankah itu jauh lebih baik daripada penyebaran luas dalam sosok Anda?
Guru : Itulah pertanyaan yang ingin saya jawab. Untuk mulai dengan, apa yang harus kita sebagai ?H0
Mahasiswa : Ya, orang yang skeptis akan bertanya-tanya apakah perbaikan yang dilakukan pada perangkat memiliki efek sama sekali. Beban pembuktian ada pada ilmuwan: dia ingin menunjukkan bahwa yang skeptis itu salah. Itu membuat saya berpikir hipotesis nol agak buruk bagi ilmuwan: itu mengatakan bahwa semua pengukuran baru - termasuk nilai kita ketahui - harus berperilaku seperti yang dijelaskan oleh histogram pertama. Atau mungkin bahkan lebih buruk dari itu: mereka mungkin bahkan lebih tersebar.0.1
Guru : Ayo, kamu baik-baik saja.
Siswa : Jadi alternatifnya adalah bahwa pengukuran baru akan kurang tersebar, bukan?
Guru : Sangat bagus! Bisakah Anda menggambar saya seperti apa histogram dengan penyebaran kurang? Ini salinan histogram pertama; Anda dapat menggambar di atasnya sebagai referensi.
Siswa (menggambar): Saya menggunakan pena untuk menguraikan histogram baru dan saya mewarnai di area di bawahnya. Saya telah membuatnya sehingga sebagian besar kurva mendekati nol pada sumbu horizontal dan sebagian besar wilayahnya mendekati nilai (horizontal) nol: itulah artinya kurang menyebar atau lebih tepat.
Guru : Itu awal yang baik. Tetapi ingat bahwa histogram yang menunjukkan peluang harus memiliki luas total . Total area histogram pertama adalah . Berapa banyak area di dalam histogram baru Anda?111
Mahasiswa : Kurang dari setengah, saya kira. Saya melihat itu masalah, tapi saya tidak tahu bagaimana cara memperbaikinya. Apa yang harus saya lakukan?
Guru : Caranya adalah membuat histogram baru lebih tinggi dari yang lama sehingga luas totalnya adalah . Di sini, saya akan menunjukkan kepada Anda versi yang dibuat komputer untuk diilustrasikan.1
Siswa : Saya mengerti: Anda merentangkannya secara vertikal sehingga bentuknya tidak benar-benar berubah tetapi sekarang area merah dan abu-abu (termasuk bagian di bawah merah) adalah jumlah yang sama.
Guru : Benar. Anda melihat gambar hipotesis nol (berwarna biru, menyebar) dan bagian dari hipotesis alternatif (berwarna merah, dengan penyebaran lebih sedikit).
Siswa : Apa yang Anda maksud dengan "bagian" dari alternatif? Bukankah itu yang hipotesis alternatif?
Guru : Ahli statistik dan tata bahasa tampaknya tidak bergaul. :-) Serius, apa yang mereka maksud dengan "hipotesis" biasanya adalah serangkaian kemungkinan besar. Di sini, alternatifnya (seperti yang Anda nyatakan sebelumnya) adalah bahwa pengukurannya "kurang tersebar" dari sebelumnya. Tapi apalagi ? Ada banyak kemungkinan. Di sini, izinkan saya menunjukkan yang lain. Saya menggambarnya dengan garis kuning. Ada di antara dua sebelumnya.
Siswa : Saya mengerti: Anda dapat memiliki jumlah spread berbeda tetapi Anda tidak tahu sebelumnya berapa banyak spread sebenarnya. Tapi mengapa Anda membuat naungan lucu di foto ini?
Guru : Saya ingin menyoroti di mana dan bagaimana perbedaan histogram. Saya menaungi mereka dalam abu-abu di mana histogram alternatif lebih rendah dari nol dan merah di mana alternatif lebih tinggi .
Mahasiswa : Mengapa itu penting?
Guru : Apakah Anda ingat bagaimana Anda mewarnai histogram pertama di kedua ekornya? [Melihat melalui kertas.] Ah, ini dia. Mari mewarnai gambar ini dengan cara yang sama.
Mahasiswa : Saya ingat: itu adalah nilai-nilai ekstrem. Saya menemukan tempat-tempat di mana kepadatan nol adalah sekecil mungkin dan diwarnai 10% dari area di sana.
Guru : Ceritakan tentang alternatif di daerah-daerah ekstrim itu.
Siswa : Sulit dilihat, karena krayon menutupinya, tetapi sepertinya hampir tidak ada peluang untuk alternatif di area yang saya warnai. Histogram mereka benar terhadap sumbu nilai dan tidak ada ruang untuk area di bawahnya.
Guru : Mari kita lanjutkan pemikiran itu. Jika saya memberi tahu Anda, secara hipotetis, bahwa suatu pengukuran memiliki perpindahan , dan meminta Anda untuk memilih yang mana dari ketiga histogram ini yang paling mungkin berasal, yang mana yang akan terjadi?−2
Mahasiswa : Yang pertama - yang biru. Ini yang paling tersebar dan itu satu-satunya di mana tampaknya memiliki peluang untuk terjadi.−2
Guru : Dan bagaimana dengan nilai dalam naskah?0.1
Siswa : Hmmm ... itu cerita yang berbeda. Ketiga histogram cukup tinggi di atas tanah pada .0.1
Guru : Baik, cukup adil. Tapi anggaplah saya katakan nilai nilainya mendekati , seperti antara dan . Apakah itu membantu Anda membaca beberapa probabilitas dari grafik ini?0 0,20.100.2
Mahasiswa : Tentu, karena saya bisa menggunakan area. Saya hanya perlu memperkirakan area di bawah setiap kurva antara dan . Tapi itu terlihat sangat sulit.0.200.2
Guru : Anda tidak perlu sejauh itu. Bisakah Anda memberi tahu area mana yang terbesar?
Mahasiswa : Yang di bawah kurva tertinggi, tentu saja. Ketiga area memiliki basis yang sama, sehingga semakin tinggi kurva, semakin banyak area di bawahnya dan basis. Itu berarti histogram tertinggi - yang saya gambar, dengan garis merah - adalah yang paling mungkin untuk perpindahan . Saya pikir saya melihat ke mana Anda akan pergi dengan ini, tetapi saya sedikit khawatir: bukankah saya harus melihat semua histogram untuk semua alternatif, bukan hanya satu atau dua yang ditampilkan di sini? Bagaimana saya bisa melakukan itu?0.1
Guru : Anda pandai mengambil pola, jadi beri tahu saya: karena alat pengukur dibuat lebih dan lebih tepat, apa yang terjadi pada histogramnya?
Siswa : Semakin sempit - oh, dan itu harus menjadi lebih tinggi juga, jadi total areanya tetap sama. Itu membuatnya sangat sulit untuk membandingkan histogram. Yang alternatif semua lebih tinggi dari nol di , itu sudah jelas. Tetapi pada nilai-nilai lain kadang-kadang alternatif lebih tinggi dan kadang-kadang lebih rendah! Misalnya, [menunjuk pada nilai dekat ], di sini histogram merah saya adalah yang terendah, histogram kuning adalah yang tertinggi, dan histogram nol asli ada di antara mereka. Tapi di sebelah kanan, nol adalah yang tertinggi.3 / 403/4
Guru : Secara umum, membandingkan histogram adalah bisnis yang rumit. Untuk membantu kami melakukannya, saya telah meminta komputer untuk membuat plot lain: ia telah membagi masing-masing ketinggian histogram alternatif (atau "kepadatan") dengan tinggi histogram nol, menciptakan nilai yang dikenal sebagai "rasio kemungkinan." Akibatnya, nilai yang lebih besar dari berarti alternatif lebih mungkin, sedangkan nilai kurang dari berarti alternatif lebih kecil. Ini telah menarik satu alternatif lagi: itu lebih tersebar daripada dua lainnya, tetapi masih kurang menyebar daripada peralatan aslinya.111
Guru (lanjutan): Bisakah Anda tunjukkan di mana alternatif cenderung lebih mungkin daripada nol?
Mahasiswa (mewarnai): Di sini di tengah, jelas. Dan karena ini bukan histogram lagi, saya kira kita harus melihat ketinggian daripada area, jadi saya hanya menandai rentang nilai pada sumbu horizontal. Tapi bagaimana saya tahu berapa banyak warna di tengah? Di mana saya berhenti mewarnai?
Guru : Tidak ada aturan yang pasti. Itu semua tergantung pada bagaimana kita berencana untuk menggunakan kesimpulan kita dan seberapa sengit skeptisnya. Tapi duduk dan pikirkan apa yang telah Anda capai: Anda sekarang menyadari bahwa hasil dengan rasio kemungkinan besar adalah bukti untuk alternatif dan hasil dengan rasio kemungkinan kecil adalah bukti terhadap alternatif. Apa yang akan saya minta Anda lakukan adalah mewarnai di area yang, sejauh mungkin, memiliki peluang kecil terjadi di bawah hipotesis nol dan peluang yang relatif besar terjadi di bawah alternatif. Kembali ke diagram pertama yang Anda warnai, pada awal percakapan kami, Anda mewarnai kedua ujung nol karena keduanya "ekstrem." Apakah mereka masih melakukan pekerjaan dengan baik?
Mahasiswa : Saya kira tidak. Meskipun mereka cukup ekstrim dan langka di bawah hipotesis nol, mereka praktis mustahil untuk salah satu alternatif. Jika pengukuran baru saya, katakanlah , saya pikir saya akan berpihak pada skeptis dan menyangkal bahwa ada perbaikan telah terjadi, meskipun adalah hasil yang tidak biasa dalam hal apapun. Saya ingin mengubah pewarnaan itu. Sini - biarkan aku punya krayon lain.3.03.03.0
Guru : Apa yang diwakilinya?
Siswa : Kami mulai dengan Anda meminta saya untuk menggambar hanya 10% dari area di bawah histogram asli - yang menggambarkan nol. Jadi sekarang saya menarik 10% dari area di mana alternatif tampaknya lebih mungkin terjadi. Saya pikir ketika pengukuran baru di daerah itu, itu memberitahu kita bahwa kita harus percaya alternatifnya.
Guru : Dan bagaimana seharusnya orang yang skeptis bereaksi terhadap itu?
Siswa : Orang yang skeptis tidak pernah mengakui bahwa dia salah, bukan? Tapi saya pikir imannya harus sedikit terguncang. Lagipula, kami mengaturnya sehingga meskipun sebuah pengukuran bisa berada di dalam area yang baru saja saya gambar, itu hanya memiliki peluang 10% untuk berada di sana ketika nolnya benar. Dan itu memiliki peluang lebih besar untuk berada di sana ketika alternatifnya benar. Saya tidak bisa memberi tahu Anda seberapa besar peluang itu, karena itu akan tergantung pada seberapa banyak ilmuwan meningkatkan peralatan. Saya hanya tahu itu lebih besar. Jadi bukti akan melawan skeptis.
Guru : Baiklah. Maukah Anda meringkas pemahaman Anda sehingga kami sangat jelas tentang apa yang telah Anda pelajari?
Siswa : Saya belajar bahwa untuk membandingkan hipotesis alternatif dengan hipotesis nol, kita harus membandingkan histogram mereka. Kami membagi kepadatan alternatif dengan kepadatan nol: itulah yang Anda sebut "rasio kemungkinan." Untuk membuat tes yang baik, saya harus memilih sejumlah kecil seperti 10% atau apa pun yang mungkin cukup untuk mengguncang skeptis. Maka saya harus menemukan nilai di mana rasio kemungkinan setinggi mungkin dan warna sampai 10% (atau apa pun) telah diwarnai.
Guru : Dan bagaimana Anda menggunakan pewarnaan itu?
Siswa : Seperti yang Anda ingatkan saya sebelumnya, pewarnaan harus berada di antara garis-garis vertikal. Nilai-nilai (pada sumbu horizontal) yang terletak di bawah pewarnaan adalah bukti terhadap hipotesis nol. Nilai-nilai lain - yah, sulit untuk mengatakan apa artinya tanpa melihat lebih detail semua histogram yang terlibat.
Guru : Kembali ke nilai dalam naskah, apa yang akan Anda simpulkan?0.1
Siswa : Itu di dalam area warna terakhir saya, jadi saya pikir ilmuwan itu mungkin benar dan peralatannya benar-benar ditingkatkan.
Guru : Satu hal terakhir. Kesimpulan Anda didasarkan pada memilih 10% sebagai kriteria, atau "ukuran" dari tes. Banyak orang lebih suka menggunakan 5% sebagai gantinya. Beberapa lebih suka 1%. Apa yang bisa Anda katakan pada mereka?
Mahasiswa : Saya tidak bisa melakukan semua tes itu sekaligus! Yah, mungkin aku bisa. Saya dapat melihat bahwa berapapun ukuran tes yang seharusnya, saya harus mulai mewarnai dari , yang dalam hal ini nilai "paling ekstrem", dan bekerja ke luar di kedua arah dari sana. Jika saya berhenti tepat di - nilai sebenarnya diamati - saya pikir saya akan berwarna di suatu tempat antara dan , katakan . 5% dan 1% orang dapat langsung tahu bahwa saya terlalu banyak warna: jika mereka ingin hanya warna 5% atau 1%, mereka bisa, tetapi mereka tidak akan mencapai sejauh0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Mereka tidak akan sampai pada kesimpulan yang sama seperti yang saya lakukan: mereka akan mengatakan tidak ada cukup bukti bahwa suatu perubahan benar-benar terjadi.
Guru : Anda baru saja mengatakan kepada saya apa yang semua orang kutipan di awal benar-benar berarti. Seharusnya jelas dari contoh ini bahwa mereka tidak mungkin bermaksud "lebih ekstrim" atau "lebih besar dari atau sama" atau "setidaknya sama besar" dalam arti memiliki nilai yang lebih besar atau bahkan memiliki nilai di mana kepadatan nol kecil. Mereka benar-benar memaksudkan hal-hal ini dalam arti rasio kemungkinan besar yang telah Anda jelaskan. Omong-omong, angka sekitar yang Anda hitung disebut "p-value." Ini hanya dapat dipahami dengan tepat seperti yang telah Anda jelaskan: berkenaan dengan analisis ketinggian histogram relatif - rasio kemungkinan.0.08
Mahasiswa : Terima kasih. Saya tidak yakin saya sepenuhnya memahami semua ini, tetapi Anda telah memberi saya banyak hal untuk dipikirkan.
Guru : Jika Anda ingin melangkah lebih jauh, lihatlah Neyman-Pearson Lemma . Anda mungkin siap untuk memahaminya sekarang.
Ringkasan
Banyak tes yang didasarkan pada statistik tunggal seperti yang ada dalam dialog akan menyebutnya " " atau " ". Ini adalah cara-cara untuk menunjukkan seperti apa histogram nol itu, tetapi itu hanya petunjuk: apa yang kita beri nama nomor ini tidak terlalu penting. Konstruksi yang dirangkum oleh siswa, seperti diilustrasikan di sini, menunjukkan bagaimana hubungannya dengan nilai-p. Nilai p adalah ukuran uji terkecil yang akan menyebabkan pengamatan mengarah pada penolakan hipotesis nol.t t = 0,1ztt=0.1
Dalam gambar ini, yang diperbesar untuk menunjukkan detail, hipotesis nol diplot dalam warna biru solid dan dua alternatif khas diplot dengan garis putus-putus. Wilayah di mana alternatif tersebut cenderung jauh lebih besar daripada nol diarsir. Naungan dimulai di mana kemungkinan relatif dari alternatif terbesar (pada ). Naungan berhenti ketika pengamatan tercapai. Nilai-p adalah area wilayah yang diarsir di bawah histogram nol: ini adalah kesempatan, dengan asumsi nol itu benar, untuk mengamati hasil yang rasio kemungkinannya cenderung besar terlepas dari alternatif mana yang benar. Secara khusus, konstruksi ini sangat tergantung pada hipotesis alternatif. Itu tidak dapat dilakukan tanpa menentukan alternatif yang mungkin.t = 0,10t=0.1