Saya menghadiri pertemuan Masyarakat untuk Kepribadian dan Psikologi Sosial minggu lalu di mana saya melihat ceramah oleh Uri Simonsohn dengan premis bahwa menggunakan analisis kekuatan a priori untuk menentukan ukuran sampel pada dasarnya tidak berguna karena hasilnya sangat sensitif terhadap asumsi.
Tentu saja, klaim ini bertentangan dengan apa yang saya ajarkan di kelas metode saya dan bertentangan dengan rekomendasi dari banyak metodologi terkemuka (terutama Cohen, 1992 ), jadi Uri menyajikan beberapa bukti yang mendukung klaimnya. Saya telah mencoba untuk membuat ulang beberapa bukti di bawah ini.
Untuk kesederhanaan, mari kita bayangkan situasi di mana Anda memiliki dua kelompok pengamatan dan menebak bahwa ukuran efek (yang diukur dengan perbedaan rata-rata standar) adalah . Perhitungan daya standar (dilakukan dengan menggunakan paket di bawah) akan memberi tahu Anda akan membutuhkan 128 pengamatan untuk mendapatkan daya 80% dengan desain ini.R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
Namun, biasanya, dugaan kami tentang ukuran efek yang diantisipasi adalah (setidaknya dalam ilmu sosial, yang merupakan bidang studi saya), hanya itu - tebakan yang sangat kasar. Apa yang terjadi kemudian jika tebakan kita tentang ukuran efeknya sedikit mati? Perhitungan daya cepat memberi tahu Anda bahwa jika ukuran efeknya adalah bukannya 0,5 , Anda perlu 200 pengamatan - 1,56 kali jumlah yang Anda perlukan untuk memiliki daya yang memadai untuk ukuran efek sebesar 0,5 . Demikian juga, jika ukuran efeknya adalah 0,6 , Anda hanya perlu 90 pengamatan, 70% dari apa yang Anda perlukan untuk memiliki kekuatan yang memadai untuk mendeteksi ukuran efek, 50. Secara praktis, kisaran dalam pengamatan yang diestimasikan cukup besar - hingga 200 .
Salah satu respons terhadap masalah ini adalah, alih-alih membuat perkiraan murni tentang seberapa besar efek itu, Anda mengumpulkan bukti tentang ukuran efeknya, baik melalui literatur sebelumnya atau melalui uji coba pilot. Tentu saja, jika Anda melakukan uji coba, Anda ingin uji coba menjadi cukup kecil sehingga Anda tidak hanya menjalankan versi studi Anda hanya untuk menentukan ukuran sampel yang diperlukan untuk menjalankan studi (yaitu, Anda akan ingin ukuran sampel yang digunakan dalam uji coba lebih kecil dari ukuran sampel studi Anda).
Uri Simonsohn berpendapat bahwa uji coba pilot untuk tujuan menentukan ukuran efek yang digunakan dalam analisis daya Anda tidak berguna. Pertimbangkan simulasi berikut yang saya jalankan R
. Simulasi ini mengasumsikan bahwa ukuran efek populasi adalah . Kemudian melakukan 1000 "uji coba" ukuran 40 dan mentabulasi N yang direkomendasikan dari masing-masing uji coba 10.000.
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
Di bawah ini adalah plot kerapatan berdasarkan simulasi ini. Saya telah menghilangkan uji coba yang merekomendasikan sejumlah pengamatan di atas 500 untuk membuat gambar lebih dapat ditafsirkan. Bahkan berfokus pada hasil simulasi yang kurang ekstrim, ada variasi besar dalam N yang direkomendasikan oleh 1000 uji coba.
Tentu saja, saya yakin sensitivitas terhadap masalah asumsi hanya bertambah buruk karena desain seseorang menjadi lebih rumit. Sebagai contoh, dalam desain yang membutuhkan spesifikasi struktur efek acak, sifat struktur efek acak akan memiliki implikasi dramatis bagi kekuatan desain.
Jadi, apa pendapat Anda tentang argumen ini? Apakah analisis kekuatan apriori pada dasarnya tidak berguna? Jika ya, lalu bagaimana seharusnya para peneliti merencanakan ukuran studi mereka?