Sejauh pengujian signifikansi berjalan (atau apa pun yang pada dasarnya melakukan hal yang sama dengan pengujian signifikansi), saya telah lama berpikir bahwa pendekatan terbaik dalam sebagian besar situasi cenderung memperkirakan ukuran efek standar, dengan interval kepercayaan 95% tentang itu ukuran efek. Tidak ada yang benar-benar baru di sana - secara matematis Anda dapat bergerak bolak-balik di antara mereka - jika nilai-p untuk nol 'nol' adalah <0,05, maka 0 akan berada di luar CI 95%, dan sebaliknya. Keuntungannya, menurut saya, adalah psikologis; yaitu membuat informasi penting yang ada tetapi orang tidak bisa melihat ketika hanya nilai-p yang dilaporkan. Sebagai contoh, mudah untuk melihat bahwa efeknya sangat 'signifikan', tetapi sangat kecil; atau 'tidak signifikan', tetapi hanya karena bilah kesalahan besar sedangkan efek diperkirakan lebih atau kurang dari yang Anda harapkan. Ini dapat dipasangkan dengan nilai mentah dan CI mereka.
Sekarang, di banyak bidang, nilai-nilai mentah secara intrinsik bermakna, dan saya menyadari bahwa menimbulkan pertanyaan apakah masih layak untuk menghitung ukuran efek efek mengingat bahwa kita sudah memiliki nilai-nilai seperti sarana dan lereng. Contohnya mungkin melihat pertumbuhan terhambat; kita tahu apa artinya bagi pria kulit putih berusia 20 tahun lebih pendek 6 +/- 2 inci (yaitu 15 +/- 5 cm), daripada yang seharusnya, jadi mengapa menyebutkan ? Saya cenderung berpikir bahwa masih ada nilai dalam melaporkan keduanya, dan fungsi dapat ditulis untuk menghitung ini sehingga sangat sedikit pekerjaan tambahan, tetapi saya menyadari bahwa pendapat akan bervariasi. Bagaimanapun, saya berpendapat bahwa estimasi titik dengan interval kepercayaan menggantikan nilai-p sebagai bagian pertama dari respons saya. d=−1.6±.5
Di sisi lain, saya pikir pertanyaan yang lebih besar adalah 'apakah pengujian signifikansi melakukan apa yang kita inginkan?' Saya pikir masalah sebenarnya adalah bahwa bagi kebanyakan orang menganalisis data (yaitu, praktisi bukan ahli statistik), pengujian signifikansi dapat menjadi keseluruhan analisis data. Tampaknya bagi saya bahwa hal yang paling penting adalah memiliki cara berprinsip untuk memikirkan apa yang sedang terjadi dengan data kami, dan pengujian signifikansi nol hipotesis, paling banter, adalah sebagian kecil dari itu. Izinkan saya memberikan contoh imajiner (saya mengakui bahwa ini adalah karikatur, tetapi sayangnya, saya khawatir ini agak masuk akal):
Bob melakukan penelitian, mengumpulkan data tentang sesuatu atau lainnya. Dia berharap data akan terdistribusi normal, mengelompok ketat di sekitar beberapa nilai, dan bermaksud untuk melakukan uji satu sampel untuk melihat apakah datanya 'berbeda secara signifikan' dari beberapa nilai yang ditentukan sebelumnya. Setelah mengumpulkan sampelnya, ia memeriksa untuk melihat apakah datanya terdistribusi normal, dan ternyata tidak. Sebaliknya, mereka tidak memiliki benjolan di tengah tetapi relatif tinggi selama interval yang diberikan dan kemudian jejak dengan ekor kiri yang panjang. Bob khawatir tentang apa yang harus ia lakukan untuk memastikan bahwa tesnya valid. Dia akhirnya melakukan sesuatu (misalnya, transformasi, tes non-parametrik, dll.), Dan kemudian melaporkan statistik uji dan nilai-p.
Saya harap ini tidak menjadi jahat. Saya tidak bermaksud mengejek siapa pun, tetapi saya pikir sesuatu seperti ini kadang-kadang terjadi. Jika skenario ini terjadi, kita semua bisa sepakat bahwa ini adalah analisis data yang buruk. Namun, masalahnya bukan karena statistik pengujian atau nilai-p salah; kita dapat mengandaikan bahwa data ditangani dengan benar dalam hal itu. Saya berpendapat bahwa masalahnya adalah Bob terlibat dalam apa yang disebut Cleveland sebagai "analisis data hafalan". Dia tampaknya percaya bahwa satu-satunya titik adalah untuk mendapatkan nilai-p yang tepat, dan berpikir sangat sedikit tentang datanya di luar mengejar tujuan itu. Dia bahkan bisa beralih ke saran saya di atas dan melaporkan ukuran efek standar dengan interval kepercayaan 95%, dan itu tidak akan mengubah apa yang saya lihat sebagai masalah yang lebih besar (inilah yang saya maksudkan dengan melakukan "pada dasarnya hal yang sama "Dengan cara yang berbeda). Dalam kasus khusus ini, fakta bahwa data tidak terlihat seperti yang diharapkan (yaitu, tidak normal) adalah informasi nyata, ini menarik, dan sangat mungkin penting, tetapi informasi itu pada dasarnya dibuang begitu saja. Bob tidak mengenali ini, karena fokus pada pengujian signifikansi. Bagi saya, itulah masalah sebenarnya dengan pengujian signifikansi.
Izinkan saya membahas beberapa perspektif lain yang telah disebutkan, dan saya ingin menjadi sangat jelas bahwa saya tidak mengkritik siapa pun.
- Sering disebutkan bahwa banyak orang yang tidak benar-benar memahami nilai-p (misalnya berpikir bahwa mereka adalah probabilitas nol itu benar), dll. Kadang-kadang dikatakan bahwa, jika hanya orang yang akan menggunakan pendekatan Bayesian, masalah ini akan pergi. Saya percaya bahwa orang dapat mendekati analisis data Bayesian dengan cara yang sama incurious dan mekanis. Namun, saya pikir bahwa kesalahpahaman makna nilai-p akan kurang berbahaya jika tidak ada yang berpikir mendapatkan nilai-p adalah tujuannya.
- Keberadaan 'data besar' umumnya tidak terkait dengan masalah ini. Big data hanya memperjelas bahwa mengorganisir analisis data di sekitar 'signifikansi' bukanlah pendekatan yang membantu.
- Saya tidak percaya masalahnya adalah dengan hipotesis yang diuji. Jika orang hanya ingin melihat apakah nilai estimasi di luar interval, daripada jika sama dengan nilai poin, banyak masalah yang sama dapat muncul. (Sekali lagi, saya ingin menjadi jelas. Saya tahu Anda bukan 'Bob' .)
- Sebagai catatan, saya ingin menyebutkan bahwa saran saya sendiri dari paragraf pertama, tidak membahas masalah ini, seperti yang saya coba tunjukkan.
Bagi saya, ini adalah masalah inti: Apa yang sebenarnya kita inginkan adalah cara berprinsip untuk memikirkan apa yang terjadi . Apa artinya itu dalam situasi tertentu tidak dipotong dan dikeringkan. Bagaimana menyampaikan itu kepada siswa dalam kelas metode tidak jelas dan tidak mudah. Pengujian signifikan memiliki banyak inersia dan tradisi di baliknya. Di kelas statistik, jelas apa yang perlu diajarkan dan bagaimana caranya. Untuk siswa dan praktisi menjadi mungkin untuk mengembangkan skema konseptual untuk memahami materi, dan daftar periksa / diagram alur (saya telah melihat beberapa!) Untuk melakukan analisis. Pengujian signifikan secara alami dapat berkembang menjadi analisis data hafalan tanpa ada yang bodoh atau malas atau buruk. Itu masalahnya.