Pengujian hipotesis berurutan dalam sains dasar

Saya seorang farmakologis dan, dalam pengalaman saya, hampir semua makalah dalam penelitian biomedis dasar menggunakan uji-t Student (baik untuk mendukung kesimpulan atau untuk memenuhi harapan ...). Beberapa tahun yang lalu menarik perhatian saya bahwa Student's t-test bukan tes yang paling efisien yang dapat digunakan: tes berurutan menawarkan daya lebih besar untuk ukuran sampel apa pun, atau ukuran sampel yang jauh lebih kecil dari rata-rata untuk daya yang setara.

Prosedur berurutan dari berbagai kompleksitas digunakan dalam penelitian klinis, tetapi saya belum pernah melihat satu pun yang digunakan dalam publikasi penelitian biomedis dasar. Saya perhatikan bahwa mereka juga absen dari buku teks statistik tingkat pengantar yang hanya bisa dilihat sebagian besar ilmuwan dasar.

Pertanyaan saya tiga kali lipat:

Mengingat keuntungan efisiensi yang sangat besar dari pengujian sekuensial, mengapa mereka tidak lebih banyak digunakan?
Apakah ada kelemahan terkait dengan penggunaan metode sekuensial yang berarti bahwa penggunaannya oleh non-ahli statistik harus dihilangkan?
Apakah statistik siswa diajarkan tentang prosedur pengujian berurutan?

hypothesis-testing teaching statistical-significance

— Michael Lew - mengembalikan Monica
sumber

Hanya untuk memastikan, apakah Anda berbicara tentang ST seperti yang ditemukan dalam uji klinis, misalnya en.wikipedia.org/wiki/Sequential_analysis ?

— chl

Iya. Ada beberapa varian pengujian berurutan, termasuk uji-t berurutan, tetapi tidak ada yang digunakan dalam penelitian dasar. Saya tidak melihat adanya hambatan dalam penggunaannya.

— Michael Lew - mengembalikan Monica

(+1) Baru saja menemukan pengujian sekuensial dan bertanya pada diri sendiri pertanyaan yang sama.

— steffen

Saya tidak tahu banyak tes berurutan dan penerapannya di luar analisis sementara (Jennison dan Turnbull, 2000) dan pengujian adaptif terkomputerisasi (van der Linden dan Glas, 2010). Satu pengecualian adalah dalam beberapa studi fMRI yang terkait dengan biaya besar dan kesulitan untuk mendaftarkan mata pelajaran. Pada dasarnya, dalam hal ini pengujian berurutan terutama bertujuan menghentikan percobaan sebelumnya. Jadi, saya tidak terkejut bahwa pendekatan yang sangat khusus ini tidak diajarkan di kelas statistik biasa.

Pengujian berurutan bukan tanpa jebakannya, meskipun (kesalahan tipe I dan II harus ditentukan terlebih dahulu, pilihan aturan penghentian dan beberapa tampilan pada hasil harus dibenarkan, nilai-p tidak terdistribusi secara seragam di bawah nol seperti dalam perbaikan. desain sampel, dll.). Dalam sebagian besar desain, kami bekerja dengan pengaturan eksperimental yang ditentukan sebelumnya atau studi daya pendahuluan dilakukan, untuk mengoptimalkan beberapa jenis kriteria efektivitas biaya, di mana prosedur pengujian standar berlaku.

Saya menemukan, bagaimanapun, makalah berikut dari Maik Dierkes tentang desain sampel tetap vs terbuka sangat menarik: Klaim untuk desain percobaan berurutan .

— chl
sumber

Peneliti biomedis dasar melakukan analisis sementara sepanjang waktu, mereka hanya tidak menyatakannya karena mereka bahkan tidak tahu bahwa itu penting! Saya telah mensurvei para peneliti di sebuah kongres nasional dan menemukan bahwa lebih dari 50% tidak tahu bahwa kontrol tingkat kesalahan dari uji-t Student tergantung pada ukuran sampel tetap yang telah ditentukan. Anda dapat melihat bukti bahwa dalam ukuran sampel yang terkadang tidak menentu bervariasi digunakan.

— Michael Lew - mengembalikan Monica

Beberapa kelemahan yang datang dari kompleksitas desain sekuensial datang secara khusus dalam desain analisis daripada dalam implementasinya. Mungkin kita bisa memiliki satu set desain pra-kaleng untuk percobaan dasar sampel kecil.

— Michael Lew - mengembalikan Monica

@Michael Tentang analisis sementara "palsu" (melihat nilai-p saat studi masih dalam tahap evolusi): sepertinya ini adalah penggunaan statistik yang tidak tepat, tidak lebih.

— chl

@ Chi Pada satu tingkat, ya, analisis sementara yang tidak diumumkan dan tidak dikoreksi tidak sesuai (tetapi dilakukan dalam ketidaktahuan, ketidaktahuan yang saya percaya menunjukkan ketidakcukupan dalam metode pengajaran statistik kepada para peneliti biomedis dasar ...). Namun, jika kita mempertimbangkannya pada tingkat meta, maka dimungkinkan untuk menemukan beberapa justifikasi parsial. Banyak eksperimen melibatkan sampel kecil sedemikian sehingga peningkatan tingkat kesalahan positif palsu mungkin merupakan tradeoff yang masuk akal untuk lebih banyak daya. Konvensi menghalangi tingkat alfa yang dinyatakan lebih tinggi dari 0,05.

— Michael Lew - mengembalikan Monica

Saya perhatikan dalam konteks ini bahwa peneliti biomedica dasar tidak bekerja dalam pendekatan eksklusif Neyman-Pearson, bahkan jika pernyataan bahwa "hasil di mana P <0,05 dianggap signifikan" mungkin menyarankan sebaliknya. Jika kita tetap berada dalam batas-batas pengujian signifikansi Fisher di mana pertimbangan selain nilai P yang dicapai dapat dimasukkan ke dalam keputusan tentang bagaimana menangani hasil pengujian, mungkin analisis sementara mungkin tidak terlalu buruk. Namun, dapat dipastikan bahwa tes berurutan yang dirancang akan lebih unggul dari yang tidak dirancang.

— Michael Lew - mengembalikan Monica