Secara umum Anda dapat terus meningkatkan perkiraan parameter apa pun yang mungkin Anda uji dengan lebih banyak data. Menghentikan pengumpulan data begitu sebuah tes mencapai tingkat signifikansi semi-arbitrer adalah cara yang baik untuk membuat kesimpulan yang buruk. Bahwa analis dapat salah memahami hasil yang signifikan sebagai tanda bahwa pekerjaan itu dilakukan adalah salah satu dari banyak konsekuensi yang tidak disengaja dari kerangka kerja Neyman-Pearson, yang menurutnya orang menginterpretasikan nilai p sebagai alasan untuk menolak atau gagal untuk menolak nol tanpa syarat tergantung pada di sisi mana ambang kritis mereka berada.
Tanpa mempertimbangkan alternatif Bayesian terhadap paradigma frequentist (semoga orang lain mau), interval kepercayaan terus menjadi lebih informatif jauh melampaui titik di mana hipotesis nol dasar dapat ditolak. Dengan asumsi mengumpulkan lebih banyak data hanya akan membuat tes signifikansi dasar Anda mencapai signifikansi yang lebih besar (dan tidak mengungkapkan bahwa temuan signifikansi Anda sebelumnya adalah positif palsu), Anda mungkin menemukan ini tidak berguna karena Anda akan menolak nol juga. Namun, dalam skenario ini, interval kepercayaan Anda di sekitar parameter yang dipermasalahkan akan terus menyusut, meningkatkan tingkat kepercayaan yang Anda dapat menggambarkan populasi yang Anda minati secara tepat.
Berikut adalah contoh yang sangat sederhana dalam r - menguji hipotesis nol yang untuk variabel yang disimulasikan:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Di sini saya hanya menggunakan t.test(rnorm(99))
, dan kebetulan saya mendapatkan false positive (dengan asumsi saya telah default ke sebagai pilihan saya untuk tingkat kesalahan positif palsu yang dapat diterima). Jika saya mengabaikan interval kepercayaan, saya dapat mengklaim sampel saya berasal dari populasi dengan rata-rata yang berbeda secara signifikan dari nol. Secara teknis interval kepercayaan tidak mempermasalahkan hal ini, tetapi ini menunjukkan bahwa nilai tengahnya bisa sangat mendekati nol, atau bahkan lebih jauh dari itu daripada yang saya pikirkan berdasarkan sampel ini. Tentu saja, saya tahu nol sebenarnya secara harfiah benar di sini, karena rata-rata populasi adalah nol, tetapi orang jarang tahu dengan data nyata.α = .05rnorm
Menjalankan ini lagi sebagai set.seed(8);t.test(rnorm(99,1))
menghasilkan rata-rata sampel 0,91, p = 5,3E-13, dan interval kepercayaan 95% untuk . Kali ini saya bisa sangat yakin bahwa nol itu salah, terutama karena saya membuatnya dengan menetapkan rata-rata data yang disimulasikan ke 1.μ = [ .69 , 1.12 ]
Tetap saja, katakan penting untuk mengetahui betapa berbedanya dari nol; mungkin rata-rata 0,8 akan terlalu dekat dengan nol untuk perbedaan menjadi masalah. Saya dapat melihat bahwa saya tidak memiliki cukup data untuk mengesampingkan kemungkinan bahwa dari interval kepercayaan saya dan dari uji- t dengan , yang menghasilkan p = .33. Rata-rata sampel saya cukup tinggi untuk tampak berbeda secara bermakna dari nol menurut ambang 0,8 ini; mengumpulkan lebih banyak data dapat membantu meningkatkan kepercayaan diri saya bahwa perbedaannya setidaknya sebesar ini, dan tidak hanya lebih besar dari nol.μ = .8mu=.8
Karena saya "mengumpulkan data" dengan simulasi, saya bisa sedikit tidak realistis dan meningkatkan ukuran sampel saya dengan urutan besarnya. Menjalankan set.seed(8);t.test(rnorm(999,1),mu=.8)
menunjukkan bahwa lebih banyak data terus berguna setelah menolak hipotesis nol dari dalam skenario ini, karena sekarang saya dapat menolak nol dari dengan sampel saya yang lebih besar. Interval kepercayaan bahkan menunjukkan bahwa saya bisa menolak hipotesis nol hingga jika saya ingin melakukannya pada awalnya.μ = .8 μ = [ .90 , 1.02 ] μ = .89μ = 0μ = .8μ = [ .90 , 1.02 ]μ = .89
Saya tidak dapat merevisi hipotesis nol setelah fakta, tetapi tanpa mengumpulkan data baru untuk menguji hipotesis yang lebih kuat setelah hasil ini, saya dapat mengatakan dengan kepercayaan 95% bahwa mereplikasi "studi" saya akan memungkinkan saya untuk menolak . Sekali lagi, hanya karena saya dapat mensimulasikan ini dengan mudah, saya akan menjalankan kembali kode sebagai : melakukan hal itu menunjukkan kepercayaan diri saya tidak salah tempat.H0: μ = .9set.seed(9);t.test(rnorm(999,1),mu=.9)
Menguji hipotesis nol yang semakin ketat secara ketat, atau lebih baik lagi, hanya berfokus pada menyusutkan interval kepercayaan Anda hanyalah satu cara untuk melanjutkan. Tentu saja, sebagian besar studi yang menolak hipotesis nol meletakkan dasar bagi penelitian lain yang membangun hipotesis alternatif. Misalnya, jika saya menguji hipotesis alternatif bahwa suatu korelasi lebih besar dari nol, saya dapat menguji mediator atau moderator dalam studi lanjutan selanjutnya ... dan sementara saya melakukannya, saya pasti ingin memastikan Saya bisa meniru hasil asli.
Pendekatan lain untuk dipertimbangkan adalah pengujian kesetaraan . Jika Anda ingin menyimpulkan bahwa suatu parameter berada dalam kisaran tertentu dari nilai yang mungkin, tidak hanya berbeda dari satu nilai, Anda dapat menentukan rentang nilai yang Anda inginkan agar parameter berada di dalam sesuai dengan hipotesis alternatif konvensional Anda dan mengujinya terhadap serangkaian hipotesis nol yang berbeda yang bersama-sama mewakili kemungkinan bahwa parameter tersebut berada di luar rentang itu. Kemungkinan terakhir ini mungkin paling mirip dengan apa yang ada dalam pikiran Anda ketika Anda menulis:
Kami memiliki "beberapa bukti" agar alternatif itu benar, tetapi kami tidak dapat menarik kesimpulan itu. Jika saya benar-benar ingin menarik kesimpulan itu secara konklusif ...
set.seed(8)
rnorm(99)
rnorm(99,1)-1
μ = .8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
μ = [ - .27 , .09 ]rnorm(999)
μ = [ - .09 , .01 ]
Saya masih berpikir interval kepercayaan lebih menarik daripada hasil tes kesetaraan. Ini mewakili apa yang disarankan oleh data mean populasi lebih khusus daripada hipotesis alternatif, dan menyarankan agar saya cukup yakin bahwa itu berada dalam interval yang bahkan lebih kecil daripada yang telah saya tentukan dalam hipotesis alternatif. Untuk menunjukkan, saya akan menyalahgunakan kekuatan simulasi saya yang tidak realistis sekali lagi dan "mereplikasi" menggunakan set.seed(7);tost(rnorm(999),epsilon=.09345092)
: cukup, p = .002.