Anda tidak dapat memiliki aturan penghentian tanpa mengetahui distribusi dan ukuran efek Anda - yang tidak Anda ketahui apriori.
Juga ya, kita perlu fokus pada ukuran efek - dan itu tidak pernah dianggap benar untuk hanya mempertimbangkan nilai-p, dan kita tentu tidak boleh menampilkan tabel atau grafik yang menunjukkan nilai-p atau nilai-F daripada ukuran efek.
Ada masalah dengan Uji Statistik Hipotesis Inferensi tradisional (yang Cohen katakan layak akronimnya, dan Fisher dan Pearson keduanya akan membalik kuburan jika mereka melihat semua yang dilakukan dengan menggunakan nama mereka yang ditentang keras hari ini).
Untuk menentukan N, Anda harus sudah menentukan signifikansi target dan ambang batas daya, serta membuat banyak asumsi tentang distribusi, dan khususnya Anda juga harus menentukan ukuran efek yang ingin Anda buat. Indolering benar bahwa ini harus menjadi titik awal - ukuran efek minimum apa yang efektif biaya!
"Statistik Baru" menganjurkan menunjukkan ukuran efek (sebagai perbedaan berpasangan jika sesuai), bersama dengan standar deviasi atau varians yang terkait (karena kita perlu memahami distribusi), dan standar deviasi atau interval kepercayaan (tetapi yang terakhir sudah mengunci nilai p dan keputusan tentang apakah Anda memprediksi arah atau taruhan setiap arah). Tetapi menetapkan efek minimum dari tanda yang ditentukan dengan prediksi ilmiah, memperjelas ini - meskipun standar pra-ilmiah adalah melakukan coba-coba dan hanya mencari perbedaan. Tetapi sekali lagi Anda telah membuat asumsi tentang normalitas jika Anda pergi dengan cara ini.
Pendekatan lain adalah dengan menggunakan plot kotak sebagai pendekatan non-parametrik, tetapi konvensi tentang kumis dan pencilan sangat bervariasi dan itupun berasal dari asumsi distribusi.
Masalah penghentian memang bukan masalah pengaturan peneliti individu atau tidak pengaturan N, tetapi bahwa kami memiliki seluruh komunitas yang terdiri dari ribuan peneliti, di mana 1000 lebih dari 1 / alpha untuk tingkat 0,05 tradisional. Jawabannya saat ini diusulkan untuk memberikan ringkasan statistik (rata-rata, stddev, stderr - atau "versi non-parametrik yang sesuai - median dll. Dengan boxplot) untuk memfasilitasi meta-analisis, dan menyajikan hasil gabungan dari semua percobaan apakah itu terjadi telah mencapai level alpha tertentu atau tidak.
Terkait erat adalah masalah pengujian berganda, yang sama sarat dengan kesulitan, dan di mana eksperimen disimpan terlalu sederhana atas nama daya pengawetan, sementara metodologi overcomplex diusulkan untuk menganalisis hasil.
Saya kira belum ada bab buku teks yang membahas hal ini secara pasti, karena kami masih memiliki sedikit gagasan tentang apa yang kami lakukan ...
Untuk saat ini, pendekatan terbaik mungkin untuk terus menggunakan statistik tradisional yang paling sesuai dengan masalah, dikombinasikan dengan menampilkan statistik ringkasan - efek dan kesalahan standar dan N menjadi yang paling penting. Penggunaan interval kepercayaan pada dasarnya setara dengan uji-T yang sesuai, tetapi memungkinkan membandingkan hasil baru dengan yang dipublikasikan secara lebih bermakna, serta memungkinkan etos yang mendorong reproduktifitas, dan publikasi percobaan yang direproduksi dan meta-analisis.
Dalam hal pendekatan Teori Informasi atau Bayesian, mereka menggunakan alat yang berbeda dan membuat asumsi yang berbeda, tetapi masih tidak memiliki semua jawaban, dan pada akhirnya menghadapi masalah yang sama, atau yang lebih buruk karena inferensi Bayesian mundur dari membuat definitif menjawab dan hanya mengemukakan bukti yang dianggap atau tidak ada.
Pembelajaran Mesin pada akhirnya juga memiliki hasil yang perlu dipertimbangkan untuk signifikansi - sering dengan CIs atau T-Test, sering dengan grafik, semoga berpasangan daripada hanya membandingkan, dan menggunakan versi kompensasi yang tepat ketika distribusi tidak cocok. Ia juga memiliki kontroversi tentang bootstrap dan cross-validation, dan bias dan varians. Yang terburuk, ia memiliki kecenderungan untuk menghasilkan dan menguji berjuta model alternatif hanya dengan parameterisasi secara menyeluruh semua algoritma di salah satu dari banyak kotak peralatan, diterapkan pada kumpulan data yang diarsipkan dengan cermat untuk memungkinkan beberapa pengujian tanpa terkendali. Masih terburuk masih dalam zaman kegelapan menggunakan akurasi, atau lebih buruk lagi ukuran-F, untuk evaluasi - daripada metode kebetulan-benar.
Saya telah membaca lusinan makalah tentang masalah ini, tetapi gagal menemukan sesuatu yang benar-benar meyakinkan - kecuali survei negatif atau makalah meta-analisis yang tampaknya menunjukkan bahwa sebagian besar peneliti tidak menangani dan menafsirkan statistik dengan benar sehubungan dengan standar "apa pun" ", lama atau baru. Kekuatan, beberapa pengujian, ukuran dan penghentian awal, interpretasi kesalahan standar dan interval kepercayaan, ... ini hanya beberapa masalah.
Tolong tembak saya - saya ingin terbukti salah! Dalam pandangan saya ada banyak air mandi, tetapi kami belum menemukan bayinya! Pada tahap ini tidak ada pandangan ekstrem atau pendekatan merek-merek yang tampak menjanjikan sebagai jawabannya, dan mereka yang ingin membuang segala sesuatu yang lain mungkin telah kehilangan bayinya.